NVIDIA数据科学代理效率狂飙43倍!洞察商机。

2025-11-08AI工具

NVIDIA数据科学代理效率狂飙43倍!洞察商机。

数据科学家在分析大型、非结构化数据集之前,往往需要投入大量时间进行数据清洗和准备工作,这通常要求具备深厚的编程和统计专业知识。同时,管理特征工程、模型调优以及确保工作流程的一致性,都是复杂且容易出错的任务。这些挑战因基于CPU的机器学习工作流固有的缓慢和顺序性而进一步加剧,使得实验和迭代的效率极低,耗时过长。

加速数据科学机器学习代理

新媒网跨境获悉,NVIDIA原型开发了一款数据科学代理,旨在通过解释用户意图并协调机器学习工作流中的重复性任务,从而简化数据科学和机器学习实验。该代理利用GPU加速,能够处理包含数百万样本的数据集,并采用NVIDIA CUDA-X数据科学库。它还展示了NVIDIA Nemotron Nano-9B-v2,这是一款紧凑而强大的开源语言模型,专门设计用于将数据科学家的意图转化为优化的工作流程。通过这一配置,开发人员只需与代理进行对话,即可探索大型数据集、训练模型并评估结果。该代理弥合了自然语言与高性能计算之间的鸿沟,使用户能够在几分钟内从原始数据获取业务洞察。

这一设计鼓励开发人员将其作为一个起点,构建符合自身特定需求的代理,并可集成不同的LLM、工具和存储解决方案。该代理的Python脚本已在GitHub上开放,供社区探索。

数据科学代理的协调机制

该代理的架构设计注重模块化、可扩展性和GPU加速。它由五个核心层和一个临时数据存储组成,这些层协同工作,将自然语言提示转化为可执行的数据处理和机器学习工作流。图1展示了每个层如何交互的高层工作流程。
An image showing the Data Science Agent consisting of six layers: User Interface, Agent Orchestrator, LLM Layer, Memory Layer, Temporary Data Storage, and Tool Layer.

图1. 数据科学代理的架构图

接下来,我们将详细解析这些层如何协同运作。

1. 用户界面层
用户界面采用基于Streamlit的对话式聊天机器人开发,用户可以通过自然语言与代理进行交互。

2. 代理协调器层
这一层是代理的中央控制器,负责协调所有其他层。它解释用户提示,将执行任务委托给LLM以理解意图,调用工具层中正确的GPU加速功能,并以自然语言进行响应。协调器的每个方法都是GPU函数的一个轻量级封装;例如,用户查询中的_describe_data会调用basic_eda(),而用户查询中的_optimize_ridge则会调用optimize_ridge_regression()
Figure 2 illustrates this flow for the query to

图2. 查询“用50次试验优化SVC”的协调流程示例

3. LLM层
LLM层作为代理的推理引擎,它通过初始化语言模型客户端,利用NVIDIA NIM API与Nemotron Nano 9B-v2进行通信。该层使代理能够解释自然语言输入,并通过四种关键机制将其转化为结构化、可执行的操作:LLM模型、弹性通信的重试策略、用于结构化工具调用的函数调用以及函数调用窗口。

  • LLM模型: LLM层架构与具体的LLM无关,可以与任何支持函数调用的语言模型配合使用。在本应用中,代理使用了Nemotron Nano-9B-v2,该模型支持函数调用和高级推理。此外,作为一款尺寸较小的模型,它在效率和能力之间取得了最佳平衡,可以在单个GPU上进行推理部署。与同等尺寸的其他领先模型相比,它提供了高达6倍的令牌生成吞吐量,而“思考预算”功能允许开发人员控制使用的“思考”令牌数量,从而将推理成本降低多达60%。性能与成本效益的结合,使得实时对话工作流在生产部署中具有经济可行性。

  • 弹性通信的重试策略: LLM客户端实现了指数退避重试机制,以处理瞬时网络故障和API速率限制,确保即使在网络条件不佳或API负载较高的情况下也能实现可靠通信。

  • 用于结构化工具调用的函数调用: 函数调用通过使LLM将用户意图转化为代理协调器中的结构化工具调用,从而弥合了自然语言和代码执行之间的差距。代理使用与OpenAI兼容的函数模式定义可用工具,这些模式指定了每个工具的名称、目的、参数和约束。

  • 函数调用窗口: 函数调用将LLM从文本生成器转变为能够进行API协调的推理引擎。Nemotron Nano-9B-v2模型提供了一个结构化的可用工具“API规范”,它利用该规范尝试理解用户意图,选择合适的函数,提取具有适当类型的参数,并协调多步数据处理和机器学习操作。所有这些都通过自然语言执行,消除了用户理解API语法或编写代码的需要。图3所示的完整函数调用流程展示了自然语言如何转化为可执行代码。图3中列出的操作请参考GitHub代码中的chat_agent.pyllm.py脚本。
    A diagram showing four sequential steps: Step 1 - User request with tool specifications. Step 2 - LLM generates a structured tool call. Step 3 - Agent parses and executes the tool. Step 4 - Tool results appended to conversation.

图3. 四步函数调用流程

4. 内存层
内存层(ExperimentStore)存储实验元数据,包括模型配置、性能指标和评估结果,例如准确率和F1分数。这些元数据以标准JSONL格式保存在会话特定文件中,允许通过get_recent_experiments()show_history()等函数进行会话内跟踪和检索。

5. 临时数据存储层
临时数据存储层将会话特定的输出文件(best_model.joblibpredictions.csv)存储在系统的临时目录以及用户界面中,以便立即下载和使用。这些文件在代理关闭时会自动删除。

6. 工具层
工具层是代理的计算核心,负责执行数据加载、探索性数据分析(EDA)、模型训练与评估以及超参数优化(HPO)等数据科学功能。所选择的执行功能基于用户查询。

代理采用了多种优化策略,具体包括:

  • 一致性与可重复性: 代理使用scikit-learn(一个流行的开源库)的不同抽象方法,确保训练、测试和生产环境中数据预处理和模型训练的一致性。这种设计通过自动将训练过程中学习到的精确相同转换(插补值、缩放参数和编码映射)应用于所有推理数据,从而避免了数据泄漏和不一致预处理等常见的机器学习陷阱。

  • 内存管理: 为处理大型数据集,代理采用了内存优化策略。Float32转换减少了内存使用;GPU内存管理释放了活跃的缓存GPU内存;密集输出配置在GPU上比稀疏格式更快。

  • 函数执行: 工具执行代理使用CUDA-X数据科学库,例如cuDF和cuML,在保持与pandas和scikit-learn相同语法的同时,提供GPU加速性能。这种零代码修改加速是通过Python的模块预加载机制实现的,使开发人员无需重构即可在GPU上运行现有CPU代码。cudf.pandas加速器将pandas操作替换为GPU等效操作,而cuml.accel自动将scikit-learn模型替换为cuML的GPU实现。

以下命令可启动一个Streamlit界面,该界面为数据处理和机器学习组件启用了GPU加速:

python -m cudf.pandas -m cuml.accel -m streamlit run user_interface.py

机器学习代理的加速、模块化与扩展

该代理采用模块化设计,通过新的函数调用、实验存储、LLM集成及其他增强功能,便于进行扩展。其分层架构支持随着时间的推移集成额外的功能。开箱即用,它包括对流行机器学习算法、探索性数据分析(EDA)和超参数优化(HPO)的支持。利用CUDA-X数据科学库,该代理端到端地加速了数据处理和机器学习工作流。这种基于GPU的加速根据具体操作,可实现3倍至43倍的性能提升。表1详细列出了包括机器学习操作、数据处理和HPO在内的几项关键任务所实现的速度提升。

代理任务 CPU (秒) GPU (秒) 加速比 详情
分类机器学习任务 21,410 6,886 ~3x 使用逻辑回归、随机森林分类和线性支持向量分类,样本量100万
回归机器学习任务 57,040 8,947 ~6x 使用岭回归、随机森林回归和线性支持向量回归,样本量100万
机器学习算法的超参数优化 18,447 906 ~20x cuBLAS加速的矩阵操作(QR分解、SVD)占主导地位;正则化路径并行计算并使用

表1:代理使用CUDA-X数据科学库实现的端到端加速

Nemotron模型与CUDA-X数据科学库的入门

Nemotron模型与CUDA-X数据科学库现已开放。这款开源数据科学代理已在GitHub上发布,并可与用户的数据集集成,用于端到端机器学习实验。开发人员可以下载该代理,并分享其使用体验,包括尝试的数据集、实现的速度提升以及所进行的自定义修改。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-agent-43x-data-speed-insights.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA releases a data science agent that simplifies machine learning experiments by interpreting user intent and automating repetitive tasks. The agent uses GPU acceleration and the NVIDIA CUDA-X data science library, featuring the Nemotron Nano-9B-v2 language model. Developers can interact with the agent to explore datasets, train models, and evaluate results efficiently.
发布于 2025-11-08
查看人数 180
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。