英伟达杀疯了!NVFP4让AI性能翻3倍,功耗直降!

人工智能(AI)的浪潮正以前所未有的速度席卷全球,其核心驱动力——各种AI模型——正变得日益庞大与复杂。这些模型对计算性能的需求如同无底洞般持续增长,远远超出了传统摩尔定律所能带来的提升速度。面对这一挑战,NVIDIA公司一直致力于极致的软硬件协同设计,通过在多芯片层面与庞大的软件栈之间进行紧密而和谐的集成,才得以在AI工厂的性能和效率上实现代际飞跃。
在这个追求极致性能的时代,低精度AI格式成为提升计算效率和能耗表现的关键。它不仅能大幅降低AI模型对存储带宽和计算资源的需求,还能有效节约能源消耗,这对于构建绿色、高效的AI基础设施至关重要。然而,要在AI训练和推理中引入超低精度数值计算的优势,同时又确保高准确性,并非易事,这需要技术栈每一层都进行深入而精密的工程设计。从格式的创新、芯片层面的实现,到各种软件库的全面支持,再到与整个生态系统紧密合作,共同开发新的训练方法和推理优化技术,每一步都至关重要。
正是在这样的背景下,NVFP4技术应运而生。这项由NVIDIA公司开发并在其Blackwell架构GPU以及后续产品中实现的新一代技术,成功地将4位浮点精度带来的卓越性能和能效优势,与高精度格式几乎无异的准确性完美结合。新媒网跨境获悉,NVFP4的推出,标志着AI计算领域又一次重要的革新。对于那些渴望将AI训练和推理性能推向极致的开发者和企业而言,了解NVFP4的以下三大亮点,将是掌握未来AI计算力的关键。
NVFP4为Blackwell架构乃至未来平台带来AI训练与推理的巨大性能飞跃
NVIDIA Blackwell Ultra GPU在NVFP4格式下能够提供高达每秒15千万亿次浮点运算(petaFLOPS)的密集峰值吞吐量,这比同一GPU在FP8格式下的性能提升了整整三倍。这样的提升并非仅仅停留在理论峰值性能上,它在实际的AI训练和推理工作负载中表现得尤为明显。
以推理为例,正如外媒近期发布的一篇技术博客文章所示,从FP8格式迁移到NVFP4格式,使得DeepSeek-R1这一拥有6710亿参数的流行混合专家(MoE)模型,在给定交互级别下的吞吐量实现了显著提升。这意味着在相同的令牌(token)处理速率下,系统能够提供更高的吞吐量,甚至能够支持更高的令牌速率,从而为最终用户带来更流畅、响应更迅速的AI体验。想象一下,当您与大模型进行交互时,等待时间大幅缩短,体验的顺畅度会得到质的飞跃。
HGX B200平台上,在8K/1K序列长度和聚合服务下,FP8无MTP、FP8带MTP以及NVFP4带MTP的吞吐量与交互性曲线对比
不仅如此,NVIDIA公司近期还发布了NVFP4训练方法,将NVFP4的显著性能优势引入到模型训练环节。这使得模型开发者能够更快、更经济地训练出高质量的AI模型。在AI模型开发周期中,训练环节往往耗时最长、成本最高,NVFP4带来的性能提升,无疑将大大缩短研发周期,降低研发门槛,加速AI技术的普及和应用。这意味着研究人员可以进行更多的实验,探索更复杂的模型结构,推动AI创新达到新的高度。
Llama 3.1 405B预训练和Llama 2 70B LoRA微调在512个GPU和8个GPU规模下的相对性能对比
在最新版本的MLPerf Training基准测试套件中,多个NVIDIA GB300 NVL72系统协同工作,总计512个Blackwell Ultra GPU,利用NVFP4精度成功地在64.6分钟内完成了Llama 3.1 405B预训练基准测试。这一成绩比之前使用FP8精度的512个Blackwell GPU在多个NVIDIA GB200 NVL72系统上完成同一基准测试的速度快了1.9倍。这不仅证明了NVFP4在大型模型训练中的卓越效率,也展示了NVIDIA在AI计算领域的领先地位。
展望未来,NVIDIA Rubin平台将带来NVFP4训练和推理能力的更大飞跃,其NVFP4训练计算能力将达到35 petaFLOPS,NVFP4 Transformer Engine推理计算能力将达到50 petaFLOPS。这意味着相比于Blackwell平台,Rubin平台在NVFP4方面将分别实现3.5倍和5倍的性能提升。如此巨大的性能增益,无疑将为未来的AI发展奠定坚实基础,助力构建更强大、更通用的AI系统。
NVFP4展现卓越准确性,在行业基准测试中获得验证
对于MLPerf Training和Inference基准测试封闭赛道中的提交结果而言,它们必须满足由基准测试所规定的严格准确性要求。对于推理测试,模型的响应必须达到特定的准确性阈值;而对于训练测试,模型必须被训练到特定的质量目标,即模型训练过程必须能够成功收敛,达到预期效果。
新媒网跨境了解到,NVIDIA公司在最新版本的MLPerf Training中,使用Blackwell和Blackwell Ultra GPU,并采用NVFP4精度,成功地在所有大型语言模型(LLM)测试中提交了封闭赛道的结果。这不仅证明了NVFP4在保持高精度的同时,也能提供卓越的性能。此外,NVIDIA还在MLPerf Inference中,使用NVFP4提交了涵盖多种模型和场景的测试结果。这些测试模型包括了DeepSeek-R1、Llama 3.1 8B和405B,以及Llama 2 70B。NVIDIA采用的都是经过NVFP4量化版本的模型,并且所有测试都严格满足了基准测试的要求。
这项成果尤其令人振奋,因为它打破了人们对低精度计算可能牺牲准确性的固有认知。NVIDIA通过精密的工程设计,确保了NVFP4在大幅提升计算效率的同时,能够维持与高精度格式几乎相同的模型准确性,这对AI技术的广泛应用和信任至关重要。
DeepSeek-R1模型评估分数显示NVFP4与FP8基线的准确性高度匹配
具体到DeepSeek-R1模型,在MMLU-PRO、GPQA Diamond、HLE和LIVECODEBENCH等测试中,NVFP4的准确性与FP8基线之间的差距都在1%以内,而在SCICODE和Math-500测试中,两者准确性完全一致。即使在AIME 2024这样的复杂推理任务中,NVFP4的准确性也仅比FP8低2%。这些数据充分证明了NVFP4在提供强大性能的同时,能够可靠地保持AI模型的推理和训练质量。
NVFP4获得广泛而日益壮大的生态系统支持
一项前沿技术能否真正落地并发挥作用,离不开整个行业生态系统的支持。令人欣喜的是,NVFP4技术正获得越来越广泛的认可和支持。
许多关键的AI开发工具和库已经开始集成NVFP4。例如,NVIDIA Model Optimizer、LLM Compressor和torch.ao等库,都已支持开发者将以更高精度训练的模型量化到NVFP4格式。这极大地简化了模型转换过程。此外,它们还支持实现NVFP4 KV缓存,这对于处理长上下文和大规模批量处理至关重要,同时还能保持高准确性。KV缓存是LLM推理中的一个核心优化点,NVFP4的引入意味着LLM可以处理更长的对话历史和更复杂的任务,而不会因为内存或带宽限制而牺牲性能或成本。
在流行的推理框架方面,包括NVIDIA TensorRT-LLM、vLLM和SGLang在内的诸多框架,目前都已支持以NVFP4格式运行模型。这意味着开发者可以轻松地将自己的模型部署到这些框架中,并立即享受到NVFP4带来的性能优势。这对于追求高性能、低延迟的生产环境至关重要。
更令人兴奋的是,在HuggingFace等主流模型社区平台上,开发者已经可以找到大量随时可部署的NVFP4版本模型。这其中包括Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B以及NVIDIA Nemotron Nano等流行的大型语言模型。这些开箱即用的NVFP4模型,大大降低了开发者采用新技术的门槛,使得更广泛的用户群体能够享受到NVFP4带来的效率红利。
此外,众多创新公司也积极将NVFP4应用于生产环境,以提高其推理吞吐量。德国的Black Forest Labs公司就是其中的佼佼者。他们与NVIDIA紧密合作,将NVFP4推理扩展到FLUX.2模型上。该公司联合创始人兼首席执行官Robin Rombach先生表示:“通过叠加CUDA Graphs、torch.compile、NVFP4精度和TeaCache等多重优化技术,我们在单个B200 GPU上实现了高达6.3倍的加速,显著降低了延迟,使得生产部署更为高效。”这样的实践案例充分证明了NVFP4在实际应用中的巨大潜力。
美国的Radical Numerics公司则利用NVFP4加速了科学世界模型的规模化发展。该公司联合创始人兼首席AI科学家Michael Poli先生指出:“与语言模型不同,科学数据模型超越了经典的单模态自回归范式,需要极长的上下文处理能力和强大的多模态融合技术。”他补充说,公司对使用低精度方法进行新架构的预训练和后训练“抱有高度乐观的态度”。这表明NVFP4不仅在传统AI领域大放异彩,在更前沿、更专业的科学计算领域也展现出巨大的应用前景。
同时,美国的Cognition公司研究团队成员Steven Cao先生也透露,通过在大型强化学习中应用NVFP4,他们观察到“显著的延迟和吞吐量提升”。这些来自行业前沿的真实反馈,无疑为NVFP4的广泛应用注入了强心剂。
在AI训练方面,NVIDIA Transformer Engine库已经包含了NVFP4训练方法的实现,而Megatron-Bridge等训练框架也为开发者提供了入门所需的实现。NVIDIA公司将持续与生态系统伙伴协作创新,致力于将NVFP4训练的性能和效率优势普惠到整个AI社区,为训练出更智能、更复杂的模型,并实现更快、更高效的训练铺平了道路。
新媒网跨境认为,NVFP4的出现,不仅是计算技术的一次升级,更是AI产业迈向成熟与普及的关键一步。通过极致的软硬件协同设计,NVFP4在NVIDIA Blackwell和NVIDIA Rubin两大平台上都带来了巨大的性能增益,同时确保了模型训练和推理的卓越准确性。当下,NVFP4版本的各种流行开源大型语言模型已广泛可用,使得AI服务能够以更高的吞吐量和更低的每百万令牌成本运行,这将深刻影响AI应用的经济性和普及程度。未来,随着NVFP4技术的持续演进和生态系统的不断壮大,我们将看到AI在更多领域开花结果,赋能千行百业,共同开启智能时代的新篇章。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-nvfp4-3x-ai-boost-less-power.html


粤公网安备 44011302004783号 











