NVIDIA开源神器NeMo-RL:1.5B模型训练竟超OpenAI O1

2025-07-10AI工具

Image

在人工智能领域,强化学习正成为推动智能体进化的重要引擎。近日,NVIDIA开源社区推出NeMo-RL强化学习训练库,为开发者提供了从单GPU原型到千卡级大模型的全流程支持。新媒网跨境注意到,这一工具通过模块化设计大幅降低了多组件协同训练的门槛。
几何结构示意图

作为NVIDIA NeMo框架的新成员,NeMo-RL 0.2.1版本已支持最大320亿参数规模的模型训练。该库深度集成了知名AI模型社区Hugging Face资源,内置包括GRPO(群体相对策略优化)等前沿算法,并通过分布式计算框架Ray实现资源高效调度。据新媒网跨境了解,即将更新的版本将引入Megatron-Core并行训练后端,突破更大规模模型的训练瓶颈。

技术架构上,NeMo-RL采用灵活的生成后端设计,默认集成vLLM推理引擎,同时兼容NVIDIA TensorRT-LLM等加速方案。其核心优势在于算法层与底层硬件的解耦设计——开发者无需修改算法代码,即可实现从本地调试到超算集群的无缝迁移。这种"一次编写,随处扩展"的特性,正成为工业级AI研发的新趋势。

本文将以复现DeepScaleR-15亿参数模型为例,演示如何运用GRPO算法训练数学推理模型。当前全球学术界高度关注长思维链推理模型,例如美国人工智能公司OpenAI的O1系统和中国团队开发的DeepSeek-R1,它们在复杂数学问题求解领域展现出惊人潜力。

三阶段训练方案

针对长文本生成的计算瓶颈,DeepScaleR方案采用渐进式训练策略:

  1. 在8000字符上下文窗口进行基础训练
  2. 扩展至16000字符强化推理能力
  3. 最终在24000字符环境完成优化

这种阶梯式训练有效控制了生成长尾分布,同时大幅缩短训练周期。通过NeMo-RL实施该方案仅需三个步骤:

环境配置

git clone git@github.com:NVIDIA-NeMo/RL.git
cd nemo-rl
pip install uv

分阶段训练

# 8K阶段
uv run examples/run_grpo_math.py --config=examples/configs/grpo-deepscaler-1.5b-8K.yaml

# 16K阶段(载入8K训练结果)
uv run examples/run_grpo_math.py --config=examples/configs/grpo-deepscaler-1.5b-16K.yaml policy.model_name=/path/to/8K/checkpoint/hf

# 24K阶段(载入16K训练结果)
uv run examples/run_grpo_math.py --config=examples/configs/grpo-deepscaler-1.5b-24K.yaml policy.model_name=/path/to/16K/checkpoint/hf

核心配置文件示例:

policy:
  model_name: "Qwen/Qwen2.5-1.5B" # 采用阿里巴巴千问1.5B模型
  train_global_batch_size: 512
  precision: "bfloat16" # 使用BF16混合精度
  max_total_sequence_length: 512

效果验证

# 模型格式转换
uv run examples/convert_dcp_to_hf.py --config=results/grpo-deepscaler-1.5b-8K/step_xx/config.yaml --hf-ckpt-path=results/grpo-deepscaler-1.5b-8K/step_xx/hf

# 性能评估
uv run examples/run_eval.py generation.model_name=results/grpo-deepscaler-1.5b-8K/step_xx/hf

性能突破

训练数据显示,采用Qwen-1.5B基础模型配合GRPO算法,在400训练步数内推理能力评分已达0.65。更值得关注的是,该系统在国际数学竞赛基准AIME24的测试中,最终表现超越OpenAI的O1模型(如图3所示)。
DeepScaleR训练曲线图
图示:分阶段训练中模型性能的阶梯式提升
AIME24评测结果对比图
图示:在AIME24数学基准测试中超越OpenAI O1系统

新媒网跨境预测,随着NeMo-RL这类工具链的成熟,中小团队将获得大模型训练能力。开发者可访问NVIDIA官方GitHub仓库获取完整代码,仓库内包含DeepScaleR和OpenMathInstruct-2等开箱即用的案例方案。这种技术民主化趋势,正在重塑AI研发的产业格局。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/4441.html

评论(0)

暂无评论,快来抢沙发~
NVIDIA开源强化学习训练库NeMo-RL,支持320亿参数模型训练,集成GRPO等前沿算法,演示如何训练数学推理模型DeepScaleR,实现性能突破。
发布于 2025-07-10
查看人数 892
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。