NVIDIA强化学习加速实操：10分钟提升2倍训练效率

深入探讨：通过FP8精度实现高效强化学习训练

LLM迈向复杂推理的核心：强化学习逐步呈现优势

在当下的大模型（LLM）应用中，从传统的文本生成到复杂的逻辑推理是一个重要的转变。强化学习（RL）作为核心方法，逐渐成为这一过程中的关键驱动力。特别是像“群体相对策略优化（GRPO）”这样的算法，更是赋予了这些模型通过迭代反馈不断优化性能的能力。与传统的监督微调不同，在强化学习的训练流程中，会分成两个高强度阶段：一个是对生成能力的严格延迟要求，另一个是对训练系统的高并发需求。

为了提高这些复杂工作的可实施性，无论是工程师还是研究人员都需要通过低精度数据类型，比如FP8（8位浮点数），来大幅提升训练效率和生成性能。更妙的是，在一些受到显存带宽限制的场景中，低精度的数据类型还能显著优化生成速度。

新媒网跨境了解到，NVIDIA推出的开源库NeMo RL，不但成功加速了强化学习的工作流，更在确保准确性的同时，推动FP8精度应用落地。

为什么FP8适配线性层？

在强化学习模型的线性层中，FP8精度应用大有可为。特别是基于DeepSeek-V3技术报告中提出的“分块量化”模式，FP8精度不仅适用于权重（Weights），还包含输入、输出梯度等全框架数据类型。

以下是量化策略的核心设计：

数据类型	目标数据	量化粒度	提升方式
权重 (Weights)	FP8 (E4M3)	[128, 128]	FP32 分块量化
输入激活 (Input activations)	FP8 (E4M3)	[1, 128]	FP32 分块量化
输出梯度 (Output gradients)	FP8 (E4M3)	[1, 128]	FP32 分块量化

通过这一方案，在FP8精度下，线性层计算效率可以达到BF16精度的两倍。而其他涉及注意力、归一化、非线性操作与输出投影的模块仍保持使用BF16精度，兼顾性能与精度平衡。

FP8面临的关键挑战：数值分歧

强化学习流程中，通常使用到不同的计算引擎，比如vLLM负责数据生成，NVIDIA Megatron Core则专用于训练。这些不同的引擎为了提升性能，往往采用各自的CUDA内核，但也因此引发了数据精度之间的数值差异。特别是当低精度（如FP8）引入额外的量化与解量化逻辑时，这种差异往往会进一步放大。

我们可以用乘法概率误差来量化这种数值分歧：

\[
\texttt{token-mult-prob-error} = \frac{1}{n}\sum\_{i=1}^{n(\texttt{tokens})}exp(\left| \texttt{log-train-fwk}\_i – \texttt{logprobs-inference-fwk}\_i \right|)
\]

数值分歧指标越接近1，说明精度越稳定。新媒网跨境获悉，目前行业内通常将误差范围控制在1.03到1.05之间。

全面使用FP8：解决数值分歧的利器

为了优化强训流程，NVIDIA在FP8精度实验中尝试了三种不同的方案：

基线方案（Baseline Recipe）： 生成与训练阶段均使用BF16精度；
候选方案1（Candidate Recipe 1）： 仅生成阶段使用FP8，训练阶段保持BF16；
FP8方案（End-to-End Recipe）： 全面采用FP8精度覆盖生成与训练双引擎。

实验证明，FP8方案在降低生成与训练阶段间数值分歧上效果显著，且较候选方案1更接近于行业认定的稳定范围。
图表说明：三种FP8方案数值分歧测试，FP8方案在精度上更趋于稳定

重要抽样技术：提升RL精度的尖兵

为了弥补因模型分布差异引起的数据损失现象，NVIDIA进一步引入了重要抽样技术。这一方法有效将权重与损失做联动修正，最终使因低精度引起的精度损失得以缓解，甚至完全消除。

更重要的是，结合FP8方案，重要抽样技术对生成与训练精度趋同具有决定性的作用。最终验证模型性能时，FP8的精度表现已完全匹敌BF16。
图表说明：结合FP8的重要抽样精度对比图

FP8的显著收益：提升效能的游戏规则改变者

在密集模型中的应用：Llama 3.1 8B实验

对比实验表明，在线性层训练上，FP8方案不仅提升了训练吞吐速率（tokens/sec），还实现了超过15%的性能提升。同时，与BF16相比，FP8保持了几乎一致的验证精度。

精度类型	BF16	FP8生成阶段	FP8全程
验证精度	0.616	0.586	0.613

在专家混合模型中的突破：Qwen3-30B实验

相较于普通模型，在Mixture-of-Experts（MoE）结构的Qwen3-30B实验中，FP8同样表现出显著提升。无论是准确率还是训练高效性，与BF16都不相上下。
图表：Qwen模型精度曲线对比

FP8探索新维度：KV缓存与注意力机制赋能

在Transformer架构中，KV缓存增长和注意力计算已经成为制约强化学习最终生成速度的关键瓶颈。在FP8的探索中，尝试性地将此低精度引入KV缓存模块以及注意力计算，助力生成效率进一步提升30%左右，总速度比基线方案高出48%。
流程图：RL训练流程中KV缓存优化

总结与展望

通过FP8技术优化强化学习工作流已成为行业新趋势，配合NVIDIA NeMo RL等开源工具，我们不仅能在训练性能上突破，还通过重要抽样等技术实现精度保证。

新媒网跨境认为，将FP8技术用于强化学习和Transformer模型优化中的潜力巨大。对从业者来说，这不仅是技术趋势，更是跨境业务应用中的重要竞争力。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/nvidia-rl-boost-10m-2x-speedup.html