512GPU RL狂飙！Meta开源PyTorch神技，效率4倍！

在人工智能浪潮席卷全球的当下，大型语言模型（LLMs）的训练与优化一直是业界关注的焦点。尤其是在模型完成基础预训练后，如何通过强化学习（RL）进行后期微调，使其表现更加出色，成为了一个充满挑战的课题。然而，当我们将RL扩展到数百甚至上千块GPU的集群上时，其复杂性呈几何级数增长。分布式协调、系统稳定性、结果复现性以及验证的准确性等基础设施难题，往往会成为限制研究进展和团队迭代速度的关键瓶颈。

新媒网跨境获悉， 为了攻克这一难题，美国Meta公司的PyTorch团队最近开源了一款名为torchforge的PyTorch原生RL库。这款工具旨在大幅简化大规模RL后期训练的复杂性。更令人振奋的是，Meta团队与美国斯坦福大学以及CoreWeave公司携手合作，在一个拥有512块GPU的庞大集群上对torchforge进行了严苛的测试。他们成功地以前所未有的规模和速度运行了GRPO（广义优势函数策略优化）算法，这在现有工具链下几乎是不可能完成的任务。测试结果令人鼓舞：项目搭建流程得到极大简化，训练过程稳定高效，从最初的构想到最终的实验成果，路径清晰明确。

此次实践不仅深入剖析了torchforge如何有效简化RL基础设施，也展现了与美国斯坦福大学和CoreWeave的合作如何助力大规模实验，以及在使用Weaver（一款为解决大型语言模型生成与验证之间鸿沟而开发的弱验证器系统）作为验证器时，跨越数百块GPU进行RL训练所获得的宝贵经验。这些实践成果和技术洞察，对于致力于扩展RL后期训练流程的科研人员而言，无疑是宝贵的财富。
图片说明

Forge与Weaver的结合，共同构建了一套此前研究社区所缺乏的完整RL基础设施：
首先，Forge提供了一系列PyTorch原生的RL原语，它们能够轻松地从单节点扩展到多节点集群，而无需面对复杂的底层基础设施挑战。
其次，Weaver则在无需人工标注或昂贵API调用的情况下，提供了生产级别的奖励信号，确保了奖励反馈的质量和效率。
最后，Monarch作为核心编排器，负责分布式协调，并具备自动容错能力，确保了系统在大规模运行时的稳定可靠。

这三者的协同运作，使得以验证器奖励强化学习（RLVR）的方式进行大规模训练成为可能，从而在具有挑战性的推理基准测试中取得有意义的改进。现在，研究人员可以更专注于奖励设计、策略更新和验证策略的迭代，而无需从头开始搭建分布式系统，极大地加速了科研进程。

`torchforge`：大型语言模型可扩展强化学习平台

torchforge（简称Forge）是一个专为可扩展RL后期训练和智能体开发设计的PyTorch原生库。它的出现，旨在让研究人员能够将精力集中在RL算法本身，而非繁琐的基础设施搭建上。Forge以简洁、类似伪代码的方式表达RL原语，同时能够无缝地在GPU集群上扩展，并支持从完全同步的PPO到完全异步的离策略训练等各种异步程度。

Forge建立在成熟的分布式基础之上，它将基础设施与算法清晰分离，使得团队能够快速迭代奖励设计、策略更新和智能体工具，而无需在训练代码中处理分片逻辑、权重同步或控制平面编排等复杂问题。在其核心，torchforge集成了多个生产级组件，构建了一个内聚的RL栈，并提供了清晰的服务抽象。其中包括：负责分布式协调和容错的Monarch、用于快速内存中权重和张量同步的TorchStore、提供高吞吐量推理能力的vLLM，以及支持可扩展训练的TorchTitan。

核心特性：

这款工具的诸多核心特性，都旨在提升效率、简化操作、确保系统的可靠性。
它提供了PyTorch原生的伪代码风格RL API，研究人员可以像在白板上构思算法一样编写代码，而Forge会负责资源分配、同步和故障恢复，让大家专注于研究。
它还具备灵活的同步性，可以在同步PPO和完全异步离策略之间自由切换协调模式，而无需修改策略逻辑，使得相同的RL代码可以跨不同训练范式复用。
通过Monarch服务抽象，借助简单的资源规范和路由（route()）与扇出（fanout()）等命令，可以实现清晰的扩展、负载均衡请求、按需广播以及通过粘性会话保持状态，所有这些都具备自动容错功能，无需在RL代码中编写重试样板代码。
控制平面与数据平面（Monarch + TorchStore）相互解耦，服务负责协调路由和生命周期，而TorchStore则执行RDMA加速的DTensor原生张量移动。这意味着GPU可以持续生成，同时权重进行同步，消除了步调一致的限制，提高了吞吐量。
TorchStore的内存中、拓扑感知权重同步功能，实现了快速高效的分片和张量I/O，将训练与生成解耦，从而在节点和集群之间实现了真正的异步管道。
端到端集成的成熟组件，包括用于高吞吐量推理的vLLM（PagedAttention，持续批处理）和用于可扩展训练的TorchTitan（FSDP，管道/张量并行），无需定制集成工作即可实现更高效率。
异构、瞬时扩展能力，可以独立扩展策略推理、奖励模型和纯CPU工具；根据任务需求启动环境并在完成后销毁，无需单独的Kubernetes部署。
可定制奖励和验证器（例如Weaver）的简单集成，可以快速采用RLVR风格的模式和新的目标信号，而无需为每个验证器单独搭建基础设施。
通过设计实现的健壮、可复现管道，将算法逻辑与基础设施清晰分离，采用一致的协调模式（同步或异步），以及自动故障处理，减少了不稳定性和加快了迭代速度。
通过一流的环境和工具实现智能体可扩展性，可以从沙盒代码执行开始，扩展到更丰富的“开放环境”集成，以支持复杂的智能体工作流和模拟。
图片说明

`Weaver`：推理实验的验证器

在面向大型语言模型（LLMs）的强化学习（RL）中，验证器扮演着奖励函数的关键角色——它是一个至关重要的信号，能够告诉模型哪些生成内容是优质的，哪些需要改进。

Weaver在RL管道中的作用：

Weaver作为奖励信号提供者，评估候选模型的输出，并根据正确性概率提供标量奖励。
它使得RLVR（使用验证器奖励的强化学习）成为可能，从而在无需昂贵的人工偏好数据的情况下进行RL训练。
Weaver能够扩展到复杂的推理任务，在数学证明和科学推理等难题上提供可靠的信号，而这些任务是简单的字符串匹配方法所无法胜任的。
它还可以提供过程级反馈，不仅能够评估最终答案，还能对中间推理步骤进行评估。

验证器是RL循环中的核心组成部分，我们可以采用多种手动、启发式和算法方法。对于CoreWeave上的大规模实验，我们选择Weaver作为首选框架。

Weaver究竟是什么？

Weaver是一个弱验证器系统，旨在弥合大型语言模型中生成与验证之间的差距。它所解决的核心问题是，LLMs通常能生成正确的答案，但却难以可靠地识别出自身哪些响应是真正正确的。Weaver的构建原则是，多样化的验证器能够为正确性提供互补的信号。这个项目表明，我们不需要完美的验证器，而需要一种巧妙的方法来结合不完美的验证器。

Weaver并未依赖昂贵的尖端模型或大量的人工标注，而是采取了一种根本不同的方法：它聚合了多个较小的、弱验证器（例如奖励模型和语言模型判官），以创建一个强大的验证引擎。我们可以将其想象成一个陪审团系统——单个验证器可能存在噪声或偏差，但它们的集体一致性模式能够揭示哪些答案是真正正确的。
它的自动化特性，消除了持续的人工标注需求，并减少了对昂贵的前沿模型API（如GPT-4作为判官）的依赖。
Weaver的可扩展性体现在，其精炼的400M参数模型每秒能够验证数千个生成内容，支持高吞吐量的RL，其中每个查询可以生成100多个候选。同时，它还能与Forge等分布式基础设施无缝集成。
它的可靠性则得益于统计聚合方法，这减少了单一验证器的偏差，提供了经过校准的置信度分数（不仅仅是二元接受/拒绝），并能推广到不同的推理领域，从而有效防止奖励作弊、质量误判以及对大量人工反馈数据集的需求。

为了在大规模上验证整个管道，我们在MATH500、GPQA Diamond和MMLU Pro等基准测试中进行了评估，其性能匹配了o3-mini等前沿模型的水平。该系统在无需标记数据的情况下进行训练，通过验证器一致性信号的弱监督进行学习。在部署时，我们将集成模型精炼成一个紧凑的4亿参数模型，该模型保留了集成模型98.7%的准确率，同时将推理计算量减少了99.97%。
图片说明

基于`Weaver`评分的基准测试

利用基于Weaver的奖励进行训练，在数学、科学和推理任务上都展现出了显著的改进。我们评估了两种模型尺寸的扩展行为：Qwen3-8B-Base和Qwen3-32B-Base，并比较了三种不同的奖励方法：

单一奖励模型（无标注）：仅使用一个奖励模型进行训练。
Weaver（无标注）：使用Weaver聚合验证器集成进行训练。
人工标注训练样本：使用真实标签作为理论上限。

关键发现：数学、GPQA和MMLU Pro的表现

我们的管道在所有基准测试和两种模型规模上，都显著优于单一奖励模型。
在Qwen3-8B模型上：使用Weaver的管道在GPQA上弥补了单一RM到人工标注训练之间63%的差距，在MATH-500上弥补了65%，在MMLU Pro上弥补了50%。
在Qwen3-32B模型上：Weaver在GPQA上弥补了54%的差距，在MATH-500上弥补了44%，在MMLU Pro上弥补了35%。
值得注意的是，所有这些提升都无需人工标注：Weaver仅通过未标记的验证器一致性模式就实现了这些增益。
该成果也展现了Weaver相较于单一奖励模型，在8B和32B模型上都保持了优势，这表明弱验证器聚合无论基础模型能力如何，都能提供有价值的贡献。
此外，Weaver显著缩小了验证鸿沟：在MATH-500上，8B模型达到了77.5%的准确率（与人工标注仅差5.8个百分点），32B模型达到了82.9%（与人工标注仅差7.1个百分点），大大缩小了与完全监督训练的差距。

生产规模基础设施成果

Meta公司与美国斯坦福大学在Forge项目上的合作，将这一技术栈推向了CoreWeave的512块GPU集群极限，实现了学术研究与生产级AI系统之间的可靠性和性能指标。

大规模下的可靠性：
数百小时的连续训练过程中，没有发生任何硬件故障。
在没有人工干预的情况下，作业完成率高达90%——Monarch的自动故障恢复功能透明地处理了瞬时故障，确保了系统稳定运行。

效率提升：
迭代速度提升了4倍：相较于其他开源RL框架，通过将生成、验证和训练解耦，步骤时间从6分钟缩短到1.5分钟。
GPU利用率达到65%：尽管RL工作负载复杂，高效的调度最大程度地减少了空闲时间。
高吞吐量验证：Weaver的精炼模型能够评估每个查询的100个生成内容，而不会成为瓶颈。
图片说明

在CoreWeave上扩展强化学习

我们在CoreWeave Kubernetes服务（CKS）集群上，利用NVIDIA Quantum InfiniBand对Forge和Weaver进行了端到端的验证。大规模RL训练需要编排独立的技术栈、管理分片，并高效传输权重。CoreWeave凭借其Slurm-on-Kubernetes（SUNK）解决方案，为Forge和Weaver提供了理想的运行环境。

通过torchx SLURM调度器，Forge能够调度RL训练循环中所需的所有工作负载和服务，同时利用CoreWeave的节点健康监控和自动化功能。SUNK透明地管理了所有网络拓扑元数据，以确保工作负载本身的最优放置。这种工程集成确保了基础设施的无缝运行，使得研究人员能够完全专注于RL算法、奖励设计和环境本身。通过最大限度地减少基础设施方面的顾虑并提供可靠的调度器，Forge和SUNK在幕后管理着扩展、路由、负载均衡和容错。这直接转化为更快的作业启动速度和更高端到端吞吐量，满足了RLVR（验证器奖励强化学习）所需的大规模异步策略生成和训练循环的需求。

共同展望与未来贡献

大型语言模型推理的未来，不仅仅在于构建更大的模型，更在于可扩展的验证能力。新媒网跨境认为， 这些创新工具的开源，将极大地加速全球AI研究的步伐，赋能更多开发者。我们非常期待看到社区利用这些工具构建出更多令人惊叹的成果。

我们鼓励大家：
积极集成Weaver：将其弱验证器聚合能力融入到您的RL实验中。
充分利用TorchForge：使用其简洁、PyTorch原生的API，构建可扩展的RL管道。
部署Monarch：利用其内置的容错功能，实现分布式训练。
在SUNK上尝试torchforge：在CoreWeave云集群上体验Forge的强大功能。

我们更希望获得您的宝贵贡献：
探索新的验证器：分享您的奖励模型、语言模型判官或针对不同领域的专业评估器，它们可以用于OpenEnv，进一步拓展Weaver或其他RLVR方法的应用。
开发新颖的RL算法：在Forge灵活的原语之上，实现您自己的策略更新规则。
进行大规模扩展实验：在新的基准上运行Weaver，并分享您的发现（包括成功经验和遇到的挑战）。
优化基础设施：帮助我们优化数据平面、改进容错机制，或添加新的服务抽象。

请加入我们的交流讨论，在GitHub上提出您的问题、错误报告或功能请求。同时，也欢迎您分享您的研究成果，共同构建一个关于哪些验证策略最有效的知识库。期待与您携手，将这一技术栈扩展到智能体工作流、代码生成等更广阔的领域，共同持续缩小生成与验证之间的鸿沟！

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/512-gpu-rl-4x-boost-meta-pytorch.html