NVIDIA数据科学代理效率狂飙43倍！洞察商机。

数据科学家在分析大型、非结构化数据集之前，往往需要投入大量时间进行数据清洗和准备工作，这通常要求具备深厚的编程和统计专业知识。同时，管理特征工程、模型调优以及确保工作流程的一致性，都是复杂且容易出错的任务。这些挑战因基于CPU的机器学习工作流固有的缓慢和顺序性而进一步加剧，使得实验和迭代的效率极低，耗时过长。

加速数据科学机器学习代理

新媒网跨境获悉，NVIDIA原型开发了一款数据科学代理，旨在通过解释用户意图并协调机器学习工作流中的重复性任务，从而简化数据科学和机器学习实验。该代理利用GPU加速，能够处理包含数百万样本的数据集，并采用NVIDIA CUDA-X数据科学库。它还展示了NVIDIA Nemotron Nano-9B-v2，这是一款紧凑而强大的开源语言模型，专门设计用于将数据科学家的意图转化为优化的工作流程。通过这一配置，开发人员只需与代理进行对话，即可探索大型数据集、训练模型并评估结果。该代理弥合了自然语言与高性能计算之间的鸿沟，使用户能够在几分钟内从原始数据获取业务洞察。

这一设计鼓励开发人员将其作为一个起点，构建符合自身特定需求的代理，并可集成不同的LLM、工具和存储解决方案。该代理的Python脚本已在GitHub上开放，供社区探索。

数据科学代理的协调机制

该代理的架构设计注重模块化、可扩展性和GPU加速。它由五个核心层和一个临时数据存储组成，这些层协同工作，将自然语言提示转化为可执行的数据处理和机器学习工作流。图1展示了每个层如何交互的高层工作流程。
An image showing the Data Science Agent consisting of six layers: User Interface, Agent Orchestrator, LLM Layer, Memory Layer, Temporary Data Storage, and Tool Layer.

图1. 数据科学代理的架构图

接下来，我们将详细解析这些层如何协同运作。

1. 用户界面层
用户界面采用基于Streamlit的对话式聊天机器人开发，用户可以通过自然语言与代理进行交互。

2. 代理协调器层
这一层是代理的中央控制器，负责协调所有其他层。它解释用户提示，将执行任务委托给LLM以理解意图，调用工具层中正确的GPU加速功能，并以自然语言进行响应。协调器的每个方法都是GPU函数的一个轻量级封装；例如，用户查询中的_describe_data会调用basic_eda()，而用户查询中的_optimize_ridge则会调用optimize_ridge_regression()。
Figure 2 illustrates this flow for the query to

图2. 查询“用50次试验优化SVC”的协调流程示例

3. LLM层
LLM层作为代理的推理引擎，它通过初始化语言模型客户端，利用NVIDIA NIM API与Nemotron Nano 9B-v2进行通信。该层使代理能够解释自然语言输入，并通过四种关键机制将其转化为结构化、可执行的操作：LLM模型、弹性通信的重试策略、用于结构化工具调用的函数调用以及函数调用窗口。

LLM模型： LLM层架构与具体的LLM无关，可以与任何支持函数调用的语言模型配合使用。在本应用中，代理使用了Nemotron Nano-9B-v2，该模型支持函数调用和高级推理。此外，作为一款尺寸较小的模型，它在效率和能力之间取得了最佳平衡，可以在单个GPU上进行推理部署。与同等尺寸的其他领先模型相比，它提供了高达6倍的令牌生成吞吐量，而“思考预算”功能允许开发人员控制使用的“思考”令牌数量，从而将推理成本降低多达60%。性能与成本效益的结合，使得实时对话工作流在生产部署中具有经济可行性。
弹性通信的重试策略： LLM客户端实现了指数退避重试机制，以处理瞬时网络故障和API速率限制，确保即使在网络条件不佳或API负载较高的情况下也能实现可靠通信。
用于结构化工具调用的函数调用： 函数调用通过使LLM将用户意图转化为代理协调器中的结构化工具调用，从而弥合了自然语言和代码执行之间的差距。代理使用与OpenAI兼容的函数模式定义可用工具，这些模式指定了每个工具的名称、目的、参数和约束。
函数调用窗口： 函数调用将LLM从文本生成器转变为能够进行API协调的推理引擎。Nemotron Nano-9B-v2模型提供了一个结构化的可用工具“API规范”，它利用该规范尝试理解用户意图，选择合适的函数，提取具有适当类型的参数，并协调多步数据处理和机器学习操作。所有这些都通过自然语言执行，消除了用户理解API语法或编写代码的需要。图3所示的完整函数调用流程展示了自然语言如何转化为可执行代码。图3中列出的操作请参考GitHub代码中的chat_agent.py和llm.py脚本。

图3. 四步函数调用流程

4. 内存层
内存层（ExperimentStore）存储实验元数据，包括模型配置、性能指标和评估结果，例如准确率和F1分数。这些元数据以标准JSONL格式保存在会话特定文件中，允许通过get_recent_experiments()和show_history()等函数进行会话内跟踪和检索。

5. 临时数据存储层
临时数据存储层将会话特定的输出文件（best_model.joblib和predictions.csv）存储在系统的临时目录以及用户界面中，以便立即下载和使用。这些文件在代理关闭时会自动删除。

6. 工具层
工具层是代理的计算核心，负责执行数据加载、探索性数据分析（EDA）、模型训练与评估以及超参数优化（HPO）等数据科学功能。所选择的执行功能基于用户查询。

代理采用了多种优化策略，具体包括：

一致性与可重复性： 代理使用scikit-learn（一个流行的开源库）的不同抽象方法，确保训练、测试和生产环境中数据预处理和模型训练的一致性。这种设计通过自动将训练过程中学习到的精确相同转换（插补值、缩放参数和编码映射）应用于所有推理数据，从而避免了数据泄漏和不一致预处理等常见的机器学习陷阱。
内存管理： 为处理大型数据集，代理采用了内存优化策略。Float32转换减少了内存使用；GPU内存管理释放了活跃的缓存GPU内存；密集输出配置在GPU上比稀疏格式更快。
函数执行： 工具执行代理使用CUDA-X数据科学库，例如cuDF和cuML，在保持与pandas和scikit-learn相同语法的同时，提供GPU加速性能。这种零代码修改加速是通过Python的模块预加载机制实现的，使开发人员无需重构即可在GPU上运行现有CPU代码。cudf.pandas加速器将pandas操作替换为GPU等效操作，而cuml.accel自动将scikit-learn模型替换为cuML的GPU实现。

以下命令可启动一个Streamlit界面，该界面为数据处理和机器学习组件启用了GPU加速：

python -m cudf.pandas -m cuml.accel -m streamlit run user_interface.py

机器学习代理的加速、模块化与扩展

该代理采用模块化设计，通过新的函数调用、实验存储、LLM集成及其他增强功能，便于进行扩展。其分层架构支持随着时间的推移集成额外的功能。开箱即用，它包括对流行机器学习算法、探索性数据分析（EDA）和超参数优化（HPO）的支持。利用CUDA-X数据科学库，该代理端到端地加速了数据处理和机器学习工作流。这种基于GPU的加速根据具体操作，可实现3倍至43倍的性能提升。表1详细列出了包括机器学习操作、数据处理和HPO在内的几项关键任务所实现的速度提升。

代理任务	CPU (秒)	GPU (秒)	加速比	详情
分类机器学习任务	21,410	6,886	~3x	使用逻辑回归、随机森林分类和线性支持向量分类，样本量100万
回归机器学习任务	57,040	8,947	~6x	使用岭回归、随机森林回归和线性支持向量回归，样本量100万
机器学习算法的超参数优化	18,447	906	~20x	cuBLAS加速的矩阵操作（QR分解、SVD）占主导地位；正则化路径并行计算并使用