NVIDIA ProRL v2实测:3千步吃透LLM性能瓶颈!

2025-08-14人工智能

Image

大型语言模型(LLM)通过持续的强化学习(RL)能否不断提升性能,还是会达到瓶颈?这个问题无疑是当前人工智能领域最引人关注的焦点之一。英伟达(NVIDIA)研究团队开发的ProRL v2,正是为了探索LLM在长时间RL训练下的表现而设计的。它通过先进的算法、严格的正则化以及全面的领域覆盖,将RL训练推向了新的高度。

ProRL v2旨在系统地研究,当模型接受数千个额外的RL训练步骤后,是否还能取得显著的进步。现在,ProRL v2正式发布。接下来,我们将深入探讨其关键创新和先进方法,并分享ProRL v2的最新实验结果,揭示LLM如何持续学习和提升能力。

ProRL v2如何实现RL扩展?

思维链提示、树搜索等AI技术,能帮助模型更好地利用已有的知识。而RL,尤其是结合严格的、可编程验证的奖励机制,则有望将模型推向全新的领域。然而,传统的短程RL技术常常面临不稳定性和收益递减的问题,因此更多地被认为是“温度蒸馏”,而不是真正的能力扩展。

ProRL从根本上挑战了这一现状,它提供了以下关键特性:

  1. 扩展训练: 在五个不同的领域进行了超过3000个RL步骤的训练,在15亿参数的推理模型中实现了新的最佳性能。
  2. 稳定性和鲁棒性: 结合了KL正则化的信任区域、周期性的参考策略重置以及计划长度正则化。
  3. 完全可验证的奖励: 每个奖励信号都通过编程方式确定,并且始终可以验证。
  4. 强制简洁: 通过计划的余弦长度惩罚,确保输出保持简洁高效。

ProRL的目标不仅仅是重新采样已知的解决方案,而是真正扩展模型可以探索的范围。

特性 传统RL微调 ProRL v2
训练步数和领域 几百步,一个领域 3000+步,五个领域
稳定性 熵崩溃,KL突增 PPO-Clip, REINFORCE++-baseline, Clip-Higher, 动态采样, 参考重置
奖励模型风险 奖励模型漂移风险 完全可验证的奖励
输出简洁性 冗长、冗余的输出 计划的余弦长度惩罚

核心技术:ProRL算法和正则化

ProRL v2构建在REINFORCE++基线之上,利用Clip-Higher来鼓励探索,并使用动态采样来减少噪声并提高学习效率。此外,还引入了几项创新技术:

  1. 计划的余弦长度惩罚,用于生成简洁的输出。
  2. KL正则化的信任区域,并定期将参考重置为当前最佳检查点,以防止过拟合并确保稳定性。

带有REINFORCE++基线的近端策略优化

ProRL的核心是裁剪近端策略优化(PPO-Clip)损失,它通过限制新策略与旧策略的差异来稳定策略更新:

\mathcal{L}\mathrm{PPO}(\theta) = \mathbb{E}\tau\bigg[ \min\Big( r_\theta(\tau) A(\tau),\ \mathrm{clip}\big(r_\theta(\tau), 1 - \varepsilon_\mathrm{low}, 1 + \varepsilon_\mathrm{high}\big) A(\tau) \Big) \bigg]

其中:

r_\theta(\tau) = \frac{\pi_\theta(\tau)}{\pi_{\text{old}}(\tau)} \tilde{R}_\tau = R_\tau - \mu_{\text{group}} \sigma_{\text{batch}} = \text{std}_{\text{batch}}(\tilde{R}_\tau) A(\tau) = \frac{\tilde{R}\tau - \mu_{\text{batch}}}{\sigma_{\text{batch}}} \mu_{\text{batch}} = \text{mean}_{\text{batch}}(\tilde{R}_\tau) \sigma_{\text{batch}} = \text{std}_{\text{batch}}(\tilde{R}_\tau)

这里的“group”指的是同一提示的所有生成响应(组归一化)。REINFORCE++基线中的全局批量归一化有助于防止由小组大小引起的值不稳定。它首先减去小组的平均奖励,以重塑奖励。因此,该算法对0(不正确)/ 1(正确)/ -0.5(格式奖励)或-1(不正确)/ 1(正确)/ -0.5(格式奖励)等奖励模式不敏感。然后,它应用全局批量归一化。

裁剪范围:\varepsilon_{\text{low}} = 0.20 \qquad \varepsilon_{\text{high}} = 0.28

Clip-Higher和动态采样

Clip-Higher使用PPO裁剪范围的更高上限,以减轻策略熵崩溃并促进采样多样性(\varepsilon_{\text{high}} > \varepsilon_{\text{low}})。动态采样丢弃具有所有1(完全正确)或0(完全不正确)奖励的组响应的提示,以减少梯度估计中的噪声。

计划的余弦长度惩罚

为了促进简洁、token高效的输出,应用了计划的余弦长度惩罚:

\text{length_reward}(t) = \eta_{\min} + 0.5 \times (\eta_{\max} - \eta_{\min}) \times [ 1 + \cos ( \pi t / T ) ]

其中:

t = 当前输出长度 (tokens)

T = 上下文 token 限制

\eta_\text{min}, \eta_\text{max} = 奖励/惩罚边界

奖励更新:R'\tau = R{\text{correct}} + \lambda_\text{len} \cdot \eta_\text{len}(t)

惩罚以有规律的间隔循环开启和关闭(例如,100 次更新开启,500 次关闭),以平衡信息性和简洁性。

KL正则化和参考策略重置

KL惩罚使策略接近参考。定期重置有助于防止过度拟合并确保稳定性:

\mathcal{L}\mathrm{KL\text{-}RL} = \mathcal{L}\mathrm{PPO} - \beta, D_\mathrm{KL}(\pi_\theta\ |\ \pi_\mathrm{ref})

REINFORCE++基线中的KL散度使用k_2估计器进行正则化:

\mathcal{L}{k{2}} = \mathbb{E}{s \sim D,\ a \sim \pi{\theta_{\text{old}}}(\cdot|s)} \left( \frac{1}{2} ( -\log x )^2 \right)

其中:

[ x = \exp \left( \mathrm{clamp}\left( \log \frac{\pi_{\text{ref}}(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}, -10, 10 \right) \right) ]

这里,函数\mathrm{clamp}(z, -10, 10)z限制在[-10, 10]范围内,以提高值的稳定性。

参考重置

每200-500个RL步骤(或在KL激增/验证停滞时),参考策略\pi_\mathrm{ref}重置为当前策略,优化器状态不会被清除。通过定期重置参考策略,模型避免了被过时的指导所限制,从而可以继续有效地学习。

定期应用的计划余弦长度惩罚也起着重要作用。通过循环开启和关闭惩罚,模型避免了陷入短或固定上下文长度的陷阱,使其能够提高输出的准确性和token效率。

总之,这两种策略可防止模型受到参考策略或上下文长度的限制,从而支持随着时间的推移在准确性和整体性能方面的持续改进。

关于扩展LLM的RL,我们发现了什么?

通过ProRL v2,我们观察到了以下突破:

  1. 新的最佳性能: 随着更多RL训练步骤的进行,性能不断提高,ProRL v2 3K为15亿参数的推理模型树立了新标杆。
  2. 持续的、非微不足道的改进: Pass@1和pass@k指标都在数千个RL步骤中攀升,扩展了基础模型的推理边界。
  3. 创造性和新颖的解决方案: ProRL输出显示与预训练数据的n-gram重叠减少,表明是真正的创新,而不是死记硬背。
  4. 边界突破: 在基础模型始终失败的任务中,ProRL不仅实现了强大的通过率,而且还展示了强大的分布外泛化能力。

ProRL综合结果

ProRL在数学、代码生成和各种推理Gym基准上进行了评估。报告的分数包括:

  • 基础模型:DeepSeek-R1-Distill-Qwen-1.5B
  • ProRL v1 2K:2,000 RL 步骤(使用 16K 上下文训练)
  • ProRL v2 3K:3,000 RL 步骤(使用 8K 上下文训练)

截至撰写本文时,该模型仍在不断接受训练和准确性改进。下图说明了 2K 步模型相对于基础模型的性能增益,以及 3K 步模型相对于 2K 步模型的性能增益。即使训练上下文长度减半(16K 到 8K)——大大降低了计算成本——跨任务的整体模型准确性也得到了提高。
数学和IFEVAL基准测试中2K和3K模型的ProRL性能

图 1. 在数学和 IFEVAL 基准测试的所有任务中,2K 步模型显着优于基础模型,3K 步模型进一步优于 2K 步模型
代码生成基准测试中2K和3K模型的ProRL性能

图 2. 在代码生成基准测试的所有任务中,2K 步模型显着优于基础模型,3K 步模型进一步优于 2K 步模型
推理Gym基准测试中2K和3K模型的ProRL性能

图 3. 在推理 Gym 基准测试中,2K 步模型显着优于基础模型,3K 步模型进一步优于 2K 步模型
数学任务中2K步模型和3K步模型的平均输出长度

图 4. 数学任务中 3K 步模型的平均输出长度减少了 17.54%。

ProRL v2的实验数据表明,通过更长时间的强化学习训练,LLM在多个任务上都能够实现性能的持续提升。新媒网跨境获悉,尤其是在数学和代码生成等领域,ProRL v2展现出了显著的优势。这为跨境电商等领域的从业者,利用LLM来优化产品描述、客户服务、营销策略等提供了新的思路。

风险与合规性提醒:

  • 数据安全: 在使用LLM进行跨境业务时,务必遵守相关国家和地区的数据安全法规,确保用户信息得到充分保护。
  • 内容合规: 生成的文本内容需要符合目标市场的法律法规和文化习俗,避免出现违规或冒犯性内容。
  • 算法偏见: 注意防范LLM可能存在的算法偏见,避免对特定群体产生歧视性影响。

教程时效性说明:

本文基于2025年的技术发展水平进行撰写,LLM技术发展迅速,相关算法和工具可能会不断更新。因此,请在实际应用中关注最新的技术动态,并根据具体情况进行调整。

新媒网跨境认为,ProRL v2的发布,为LLM的持续学习和性能提升提供了新的可能性。跨境从业者可以积极探索ProRL v2在自身业务中的应用,借助LLM的力量,提升效率、拓展市场。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/14589.html

评论(0)

暂无评论,快来抢沙发~
NVIDIA发布ProRL v2,旨在探索大型语言模型(LLM)通过持续强化学习(RL)提升性能的潜力。ProRL v2通过扩展训练、稳定性和鲁棒性、完全可验证的奖励及强制简洁等特性,在多个领域实现了LLM性能的显著提升,为跨境电商等领域提供了新的思路。但同时需关注数据安全、内容合规和算法偏见等风险。
发布于 2025-08-14
查看人数 1920
汇率走势
关注我们
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。