NVIDIA Blackwell AI训练!MLPerf最快仅用10分钟。

全球人工智能领域的进步,正日益依赖于底层算力基础设施的突破性发展。在这一背景下,衡量AI训练性能的行业权威基准MLPerf Training备受关注。新媒网跨境获悉,NVIDIA在最新发布的MLPerf Training v5.1基准测试中再次展现了其强大的技术实力,其Blackwell架构GPU平台在所有测试项目中均创下了最快训练时间纪录,实现全面领先。
随着全球开发者不断尝试新的AI架构,模型规模持续扩大,对AI训练算力的需求也达到了前所未有的高度。为了满足这一日益增长的需求,从芯片、系统到软件,AI堆栈的每一个层面都需要进行创新,以推动性能以前所未有的速度提升。
MLPerf Training v5.1作为行业长期运行的AI训练性能基准测试系列,旨在准确衡量AI训练的效率。本轮测试涵盖了七个代表广泛用例的模型,每个模型都需训练至特定目标精度。NVIDIA Blackwell架构,包括NVIDIA Blackwell和NVIDIA Blackwell Ultra GPU,在所有基准测试中,无论是在最大规模还是提交的每一个规模下,均展现出卓越的性能表现。
以下是NVIDIA平台在MLPerf Training v5.1中取得的主要训练时间纪录:
| 基准测试模型 | 训练时间 | 最大提交规模 |
|---|---|---|
| Llama 3.1 405B 预训练 | 10 分钟 | 5,120 块 Blackwell GPU |
| LLama 3.1 8B 预训练 | 5.2 分钟 | 512 块 Blackwell Ultra GPU |
| Llama 2 70B LoRA 微调 | 0.40 分钟 | 512 块 Blackwell Ultra GPU |
| FLUX.1 | 12.5 分钟 | 1,152 块 Blackwell GPU |
| DLRM-DCNv2 | 0.71 分钟 | 64 块 Blackwell GPU |
| R-GAT | 0.84 分钟 | 256 块 Blackwell GPU |
| RetinaNet | 1.4 分钟 | 512 块 Blackwell GPU |
表1. NVIDIA平台在MLPerf Training当前测试的每个模型上均提供最快的训练时间
值得一提的是,NVIDIA平台是本轮MLPerf Training中唯一提交了所有基准测试结果的参与方,这不仅彰显了其技术的领先性,也体现了其在AI领域全栈解决方案的完整性与通用性。
NVFP4低精度训练格式的突破性应用
Blackwell架构(包括Blackwell和Blackwell Ultra GPU)所提供的性能提升,一个关键驱动因素是低精度AI数据格式的创新。Blackwell架构集成了对FP4数据格式的硬件加速,其中包括NVIDIA自主设计的NVFP4格式。Blackwell GPU在每个时钟周期内提供的FP4峰值吞吐量是FP8的两倍。Blackwell Ultra GPU在此基础上进一步创新,将每个时钟周期的FP4吞吐量提高到FP8的三倍。
根据《使用NVFP4预训练大型语言模型》这篇论文的论述,与行业标准的MXFP4数据格式相比,NVFP4在训练过程中使用相同数量的tokens可以提供更高的准确性,或者使用显著更少的tokens达到相同的准确性。这意味着可以在更短的时间内达到指定的精度,从而加快部署速度并降低训练成本。在本轮测试中,NVIDIA通过整合论文中推荐的多种技术,在MLPerf Training的每个大型语言模型(LLM)中都采用了NVFP4。NVIDIA的提交方案还谨慎地应用了“修复(healing)”过程,即在训练过程的某些阶段使用更高精度以提高准确性。具体而言,NVIDIA的提交方案将最后几个训练迭代保持在FP8精度。
这些提交成果的实现,离不开技术堆栈各个层面的创新,包括Blackwell和Blackwell Ultra芯片中直接集成的NVFP4硬件加速,NVIDIA cuBLAS、NVIDIA Transformer Engine和NVIDIA Megatron-Core等加速库,以及全新的数值技术。
Blackwell Ultra:大语言模型训练性能的显著飞跃
NVIDIA首次在Blackwell Ultra上提交了MLPerf Training测试结果,使用的是一个代号为“Theia”(源自希腊神话中掌管视觉和光明之神)的NVIDIA AI集群。该集群总共拥有512块Blackwell Ultra GPU,由多个通过NVIDIA Quantum-X800 InfiniBand连接的NVIDIA GB300 NVL72机架规模系统构建而成。
与Blackwell GPU相比,Blackwell Ultra GPU融入了多项重要增强功能,具体包括:
- 5倍峰值NVFP4吞吐量。 Blackwell Ultra GPU采用了更新的Tensor Cores,将每个时钟周期的FP4峰值吞吐量比Blackwell GPU提高了1.5倍。这有助于加速计算密集型GEMM(通用矩阵乘法)操作。
- 2倍注意力机制中的Softmax加速。 Blackwell Ultra GPU配备了升级的特殊功能单元(SFU),为关键的Softmax操作提供了2倍的加速吞吐量,这对注意力层至关重要。在MLPerf基准测试中,这使得注意力模块的速度提升高达1.3倍。
- 5倍更大的HBM3e容量。 Blackwell Ultra GPU集成了更高容量的HBM3e堆栈,从Blackwell GPU的8-Hi提升至12-Hi。在Llama 2 70B LoRA基准测试中,这一改进使得整个模型能够完全加载到一块GPU中,无需CPU卸载,从而消除了模型并行通信开销并提高了GEMM效率。
Blackwell Ultra GPU的创新、NVFP4格式的采用以及软件优化,使得在相同数量的GPU下,与NVIDIA之前使用Hopper架构提交的最新结果相比,预训练和LLM微调性能均实现了大幅提升。
此外,最新的NVIDIA Quantum-X800网络平台,由NVIDIA ConnectX-8 SuperNIC、NVIDIA Quantum-X800 InfiniBand交换机和NVIDIA LinkX线缆组成,用于连接构成Theia集群的多个GB300 NVL72机架。这标志着行业内首次且唯一一次将800 Gb/s网络提交至MLPerf Training基准测试。
NVIDIA Blackwell创下Llama 3.1 405B训练新纪录
在MLPerf Training v5.1中规模最大、最具挑战性的Llama 3.1 405B基准测试中,NVIDIA凭借5,120块Blackwell GPU,创造了10分钟的全新训练时间纪录。与上一轮使用Blackwell GPU的最快提交结果相比,这一成绩提升了2.7倍。
取得这一显著加速主要得益于两个方面。通过采用NVFP4训练方案和通用的软件增强,使用2,560块Blackwell GPU的提交方案取得了18.79分钟的成绩。这比NVIDIA之前使用相同数量的NVIDIA Hopper架构GPU的提交方案快3倍。此外,与上一轮使用2,496块Blackwell GPU的性能相比,本轮使用2,560块Blackwell GPU的提交方案中,每块Blackwell GPU的有效性能也提升了42%。
本次提交还使用了总计5,120块Blackwell GPU,这一规模比上一轮提交的最大规模(2,496块Blackwell GPU)增加了一倍多。这些GPU在机架内部通过NVLink进行扩展,并通过NVIDIA Quantum-2 InfiniBand连接至多个机架进行外部扩展。性能提升了2.7倍,这意味着性能的提升来自于更大规模的扩展和每块GPU有效性能的增强。
从512块Blackwell GPU扩展到5,120块Blackwell GPU,性能扩展效率(即额外增加GPU所带来的性能提升量)达到了85%,提升了10倍。这一点至关重要,它使得模型构建者能够大规模运行训练,加速训练时间和价值实现时间,同时确保每一块新增的GPU都能实现高利用率。新媒网跨境了解到,这种高效的扩展能力对于推动AI应用的快速迭代与商业化具有深远意义。
Blackwell Ultra定义Llama 3.1 8B训练新标杆
为了确保MLPerf Training的结果能够代表现代AI用例,基准测试会定期更新。本轮测试中,BERT-large被Llama 3.1 8B取代。Llama 3.1 8B在能力和训练复杂性方面有了显著提升,同时保持了相对简单易用性,适用于更广泛的平台。
NVIDIA平台在Llama 3.1 8B训练基准测试中提供了最高性能,无论是在给定GPU数量下的性能,还是在规模化运行下的性能均表现出色。Llama 3.1 8B的提交成果也受益于多项全栈优化。其中之一是采用了NVFP4训练方案,即使对于规模较小的模型,也能在保持准确性的同时提高性能。
此外,随着上下文长度的增加,注意力机制成为端到端LLM预训练性能的关键组成部分。NVIDIA之前的LLM预训练提交方案在注意力模块中批处理矩阵乘法(BMM)计算的输入使用了BF16精度。本轮测试中,NVIDIA提交方案在Llama 3.1 8B预训练基准测试中,对注意力BMM的输入采用了FP8精度。这适用于前向和后向计算,为注意力BMM提供了更高的FP8精度。
NVIDIA的FP8方案在MLPerf基准测试的注意力内核中实现了高达1.3倍的性能提升,与BF16方案相比,同时仍满足基准的精度要求。本轮预训练基准测试中使用的FP8注意力方案,对查询(Q)、键(K)和值(V)张量以及后向传播中使用的输出梯度(dO)采用了逐张量(per-tensor)当前缩放FP8。FP8注意力机制在Llama 3.1 8B模型中带来了5%的端到端加速。用于延迟缩放和当前缩放方案的FP8注意力实现已在NVIDIA cuDNN库中提供,并通过NVIDIA Transformer Engine库应用于NVIDIA的MLPerf提交方案中。
为预训练模型实施的其他软件优化还包括以下内容,这些优化主要集中于消除设备到设备的内存拷贝和张量拼接操作:
- 在Transformer Engine中实现融合的RoPE内核,该内核使用组合的Q/K/V输入并输出Q、K、V张量。这避免了前向传播中Q、K、V张量的拆分,以及后向传播中dQ、dK、dV张量的拼接。
- 通过使用SBHD注意力布局,避免了将注意力输入更改为BSHD布局。此项更改已在Megatron-LM中实施。在此表示法中,B代表批次大小,S代表序列长度,H代表注意力头数,D代表头维度,与Transformer Engine表示法保持一致。
- 将amax计算融合到生产者操作中。
FLUX.1及Llama 2 70B LoRA基准的优异表现
MLPerf基准测试的另一项更新是新增了FLUX.1图像生成模型,取代了Stable Diffusion v2。在这项测试中,NVIDIA再次设定了行业标准,以1,152块Blackwell GPU的规模,在12.5分钟内完成了训练,实现了最快训练时间。NVIDIA也是唯一提交了此基准测试结果的平台,这突显了NVIDIA训练堆栈的卓越性能和通用性。
在本轮测试中,多项融合优化显著提升了Llama 2 70B LoRA微调基准的性能。核心思想是使用LoRALinearLayer,它将LoRA适配器和冻结的GEMM模块结合在同一模块中。构建这一抽象层使得融合类型转换操作、缩放操作以及与冻结GEMM的相加操作成为可能。
总结与展望
NVIDIA正以一年为周期进行持续创新,其创新涵盖了GPU、CPU、纵向扩展网络、横向扩展网络、系统架构和软件等多个方面。这些努力旨在不断提升性能,降低人工智能的计算成本,并为新的AI突破铺平道路。
欲了解更多NVIDIA性能数据,请访问数据中心深度学习产品性能中心和性能探索器页面。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-blackwell-ai-mlperf-10min-record.html


粤公网安备 44011302004783号 













