NVIDIA Blackwell AI训练!MLPerf最快仅用10分钟。

2025-11-25AI工具

NVIDIA Blackwell AI训练!MLPerf最快仅用10分钟。

全球人工智能领域的进步,正日益依赖于底层算力基础设施的突破性发展。在这一背景下,衡量AI训练性能的行业权威基准MLPerf Training备受关注。新媒网跨境获悉,NVIDIA在最新发布的MLPerf Training v5.1基准测试中再次展现了其强大的技术实力,其Blackwell架构GPU平台在所有测试项目中均创下了最快训练时间纪录,实现全面领先。

随着全球开发者不断尝试新的AI架构,模型规模持续扩大,对AI训练算力的需求也达到了前所未有的高度。为了满足这一日益增长的需求,从芯片、系统到软件,AI堆栈的每一个层面都需要进行创新,以推动性能以前所未有的速度提升。

MLPerf Training v5.1作为行业长期运行的AI训练性能基准测试系列,旨在准确衡量AI训练的效率。本轮测试涵盖了七个代表广泛用例的模型,每个模型都需训练至特定目标精度。NVIDIA Blackwell架构,包括NVIDIA Blackwell和NVIDIA Blackwell Ultra GPU,在所有基准测试中,无论是在最大规模还是提交的每一个规模下,均展现出卓越的性能表现。
Two sets of bar charts, with performance starting with Hopper submissions in prior rounds, followed by Blackwell GB200 NVL72 submissions in v5.0, then finally Blackwell Ultra GB300 NVL72 submissions in v5.1. The speedups listed for Llama 3.1 405B are 1x, ~2x, and 4x+, and 1x, ~3x, and ~5x for Llama 2 70B LoRA, respectively.

以下是NVIDIA平台在MLPerf Training v5.1中取得的主要训练时间纪录:

基准测试模型 训练时间 最大提交规模
Llama 3.1 405B 预训练 10 分钟 5,120 块 Blackwell GPU
LLama 3.1 8B 预训练 5.2 分钟 512 块 Blackwell Ultra GPU
Llama 2 70B LoRA 微调 0.40 分钟 512 块 Blackwell Ultra GPU
FLUX.1 12.5 分钟 1,152 块 Blackwell GPU
DLRM-DCNv2 0.71 分钟 64 块 Blackwell GPU
R-GAT 0.84 分钟 256 块 Blackwell GPU
RetinaNet 1.4 分钟 512 块 Blackwell GPU

表1. NVIDIA平台在MLPerf Training当前测试的每个模型上均提供最快的训练时间

值得一提的是,NVIDIA平台是本轮MLPerf Training中唯一提交了所有基准测试结果的参与方,这不仅彰显了其技术的领先性,也体现了其在AI领域全栈解决方案的完整性与通用性。

NVFP4低精度训练格式的突破性应用

Blackwell架构(包括Blackwell和Blackwell Ultra GPU)所提供的性能提升,一个关键驱动因素是低精度AI数据格式的创新。Blackwell架构集成了对FP4数据格式的硬件加速,其中包括NVIDIA自主设计的NVFP4格式。Blackwell GPU在每个时钟周期内提供的FP4峰值吞吐量是FP8的两倍。Blackwell Ultra GPU在此基础上进一步创新,将每个时钟周期的FP4吞吐量提高到FP8的三倍。

根据《使用NVFP4预训练大型语言模型》这篇论文的论述,与行业标准的MXFP4数据格式相比,NVFP4在训练过程中使用相同数量的tokens可以提供更高的准确性,或者使用显著更少的tokens达到相同的准确性。这意味着可以在更短的时间内达到指定的精度,从而加快部署速度并降低训练成本。在本轮测试中,NVIDIA通过整合论文中推荐的多种技术,在MLPerf Training的每个大型语言模型(LLM)中都采用了NVFP4。NVIDIA的提交方案还谨慎地应用了“修复(healing)”过程,即在训练过程的某些阶段使用更高精度以提高准确性。具体而言,NVIDIA的提交方案将最后几个训练迭代保持在FP8精度。

这些提交成果的实现,离不开技术堆栈各个层面的创新,包括Blackwell和Blackwell Ultra芯片中直接集成的NVFP4硬件加速,NVIDIA cuBLAS、NVIDIA Transformer Engine和NVIDIA Megatron-Core等加速库,以及全新的数值技术。

Blackwell Ultra:大语言模型训练性能的显著飞跃

NVIDIA首次在Blackwell Ultra上提交了MLPerf Training测试结果,使用的是一个代号为“Theia”(源自希腊神话中掌管视觉和光明之神)的NVIDIA AI集群。该集群总共拥有512块Blackwell Ultra GPU,由多个通过NVIDIA Quantum-X800 InfiniBand连接的NVIDIA GB300 NVL72机架规模系统构建而成。

与Blackwell GPU相比,Blackwell Ultra GPU融入了多项重要增强功能,具体包括:

  1. 5倍峰值NVFP4吞吐量。 Blackwell Ultra GPU采用了更新的Tensor Cores,将每个时钟周期的FP4峰值吞吐量比Blackwell GPU提高了1.5倍。这有助于加速计算密集型GEMM(通用矩阵乘法)操作。
  2. 2倍注意力机制中的Softmax加速。 Blackwell Ultra GPU配备了升级的特殊功能单元(SFU),为关键的Softmax操作提供了2倍的加速吞吐量,这对注意力层至关重要。在MLPerf基准测试中,这使得注意力模块的速度提升高达1.3倍。
  3. 5倍更大的HBM3e容量。 Blackwell Ultra GPU集成了更高容量的HBM3e堆栈,从Blackwell GPU的8-Hi提升至12-Hi。在Llama 2 70B LoRA基准测试中,这一改进使得整个模型能够完全加载到一块GPU中,无需CPU卸载,从而消除了模型并行通信开销并提高了GEMM效率。

Blackwell Ultra GPU的创新、NVFP4格式的采用以及软件优化,使得在相同数量的GPU下,与NVIDIA之前使用Hopper架构提交的最新结果相比,预训练和LLM微调性能均实现了大幅提升。

此外,最新的NVIDIA Quantum-X800网络平台,由NVIDIA ConnectX-8 SuperNIC、NVIDIA Quantum-X800 InfiniBand交换机和NVIDIA LinkX线缆组成,用于连接构成Theia集群的多个GB300 NVL72机架。这标志着行业内首次且唯一一次将800 Gb/s网络提交至MLPerf Training基准测试。

NVIDIA Blackwell创下Llama 3.1 405B训练新纪录

在MLPerf Training v5.1中规模最大、最具挑战性的Llama 3.1 405B基准测试中,NVIDIA凭借5,120块Blackwell GPU,创造了10分钟的全新训练时间纪录。与上一轮使用Blackwell GPU的最快提交结果相比,这一成绩提升了2.7倍。

取得这一显著加速主要得益于两个方面。通过采用NVFP4训练方案和通用的软件增强,使用2,560块Blackwell GPU的提交方案取得了18.79分钟的成绩。这比NVIDIA之前使用相同数量的NVIDIA Hopper架构GPU的提交方案快3倍。此外,与上一轮使用2,496块Blackwell GPU的性能相比,本轮使用2,560块Blackwell GPU的提交方案中,每块Blackwell GPU的有效性能也提升了42%。
A dark green line chart indicating MLPerf Training v5.0 baseline, which scales from 512 Blackwell GPUs to 2,496 Blackwell GPUs. Then a lighter green line indicating Blackwell submissions in MLPerf Training v5.1, with points at 512 GPUs, 2,560 GPUs, and 5,120 GPUs. At the 2,560 GPU mark, performance/GPU in v5.1 is indicated as 1.4x that of v5.0, at the 2,496 GPU point. At 5,120 GPUs, a 2.7x increase in perf at max scale is indicated.

本次提交还使用了总计5,120块Blackwell GPU,这一规模比上一轮提交的最大规模(2,496块Blackwell GPU)增加了一倍多。这些GPU在机架内部通过NVLink进行扩展,并通过NVIDIA Quantum-2 InfiniBand连接至多个机架进行外部扩展。性能提升了2.7倍,这意味着性能的提升来自于更大规模的扩展和每块GPU有效性能的增强。

从512块Blackwell GPU扩展到5,120块Blackwell GPU,性能扩展效率(即额外增加GPU所带来的性能提升量)达到了85%,提升了10倍。这一点至关重要,它使得模型构建者能够大规模运行训练,加速训练时间和价值实现时间,同时确保每一块新增的GPU都能实现高利用率。新媒网跨境了解到,这种高效的扩展能力对于推动AI应用的快速迭代与商业化具有深远意义。

Blackwell Ultra定义Llama 3.1 8B训练新标杆

为了确保MLPerf Training的结果能够代表现代AI用例,基准测试会定期更新。本轮测试中,BERT-large被Llama 3.1 8B取代。Llama 3.1 8B在能力和训练复杂性方面有了显著提升,同时保持了相对简单易用性,适用于更广泛的平台。

NVIDIA平台在Llama 3.1 8B训练基准测试中提供了最高性能,无论是在给定GPU数量下的性能,还是在规模化运行下的性能均表现出色。Llama 3.1 8B的提交成果也受益于多项全栈优化。其中之一是采用了NVFP4训练方案,即使对于规模较小的模型,也能在保持准确性的同时提高性能。

此外,随着上下文长度的增加,注意力机制成为端到端LLM预训练性能的关键组成部分。NVIDIA之前的LLM预训练提交方案在注意力模块中批处理矩阵乘法(BMM)计算的输入使用了BF16精度。本轮测试中,NVIDIA提交方案在Llama 3.1 8B预训练基准测试中,对注意力BMM的输入采用了FP8精度。这适用于前向和后向计算,为注意力BMM提供了更高的FP8精度。

NVIDIA的FP8方案在MLPerf基准测试的注意力内核中实现了高达1.3倍的性能提升,与BF16方案相比,同时仍满足基准的精度要求。本轮预训练基准测试中使用的FP8注意力方案,对查询(Q)、键(K)和值(V)张量以及后向传播中使用的输出梯度(dO)采用了逐张量(per-tensor)当前缩放FP8。FP8注意力机制在Llama 3.1 8B模型中带来了5%的端到端加速。用于延迟缩放和当前缩放方案的FP8注意力实现已在NVIDIA cuDNN库中提供,并通过NVIDIA Transformer Engine库应用于NVIDIA的MLPerf提交方案中。

为预训练模型实施的其他软件优化还包括以下内容,这些优化主要集中于消除设备到设备的内存拷贝和张量拼接操作:

  1. 在Transformer Engine中实现融合的RoPE内核,该内核使用组合的Q/K/V输入并输出Q、K、V张量。这避免了前向传播中Q、K、V张量的拆分,以及后向传播中dQ、dK、dV张量的拼接。
  2. 通过使用SBHD注意力布局,避免了将注意力输入更改为BSHD布局。此项更改已在Megatron-LM中实施。在此表示法中,B代表批次大小,S代表序列长度,H代表注意力头数,D代表头维度,与Transformer Engine表示法保持一致。
  3. 将amax计算融合到生产者操作中。

FLUX.1及Llama 2 70B LoRA基准的优异表现

MLPerf基准测试的另一项更新是新增了FLUX.1图像生成模型,取代了Stable Diffusion v2。在这项测试中,NVIDIA再次设定了行业标准,以1,152块Blackwell GPU的规模,在12.5分钟内完成了训练,实现了最快训练时间。NVIDIA也是唯一提交了此基准测试结果的平台,这突显了NVIDIA训练堆栈的卓越性能和通用性。

在本轮测试中,多项融合优化显著提升了Llama 2 70B LoRA微调基准的性能。核心思想是使用LoRALinearLayer,它将LoRA适配器和冻结的GEMM模块结合在同一模块中。构建这一抽象层使得融合类型转换操作、缩放操作以及与冻结GEMM的相加操作成为可能。

总结与展望

NVIDIA正以一年为周期进行持续创新,其创新涵盖了GPU、CPU、纵向扩展网络、横向扩展网络、系统架构和软件等多个方面。这些努力旨在不断提升性能,降低人工智能的计算成本,并为新的AI突破铺平道路。

欲了解更多NVIDIA性能数据,请访问数据中心深度学习产品性能中心和性能探索器页面。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-blackwell-ai-mlperf-10min-record.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA的Blackwell架构在MLPerf Training v5.1基准测试中全面领先,所有测试项目均创下最快训练时间纪录。Blackwell Ultra GPU在Llama模型训练中表现出色,这得益于NVFP4低精度训练格式和Quantum-X800网络平台的突破性应用。NVIDIA是唯一提交所有基准测试结果的平台,彰显了其在AI领域全栈解决方案的领先性。
发布于 2025-11-25
查看人数 84
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。