英伟达杀疯了!NVFP4让AI性能翻3倍,功耗直降!

2026-02-07AI工具

英伟达杀疯了!NVFP4让AI性能翻3倍,功耗直降!

人工智能(AI)的浪潮正以前所未有的速度席卷全球,其核心驱动力——各种AI模型——正变得日益庞大与复杂。这些模型对计算性能的需求如同无底洞般持续增长,远远超出了传统摩尔定律所能带来的提升速度。面对这一挑战,NVIDIA公司一直致力于极致的软硬件协同设计,通过在多芯片层面与庞大的软件栈之间进行紧密而和谐的集成,才得以在AI工厂的性能和效率上实现代际飞跃。

在这个追求极致性能的时代,低精度AI格式成为提升计算效率和能耗表现的关键。它不仅能大幅降低AI模型对存储带宽和计算资源的需求,还能有效节约能源消耗,这对于构建绿色、高效的AI基础设施至关重要。然而,要在AI训练和推理中引入超低精度数值计算的优势,同时又确保高准确性,并非易事,这需要技术栈每一层都进行深入而精密的工程设计。从格式的创新、芯片层面的实现,到各种软件库的全面支持,再到与整个生态系统紧密合作,共同开发新的训练方法和推理优化技术,每一步都至关重要。

正是在这样的背景下,NVFP4技术应运而生。这项由NVIDIA公司开发并在其Blackwell架构GPU以及后续产品中实现的新一代技术,成功地将4位浮点精度带来的卓越性能和能效优势,与高精度格式几乎无异的准确性完美结合。新媒网跨境获悉,NVFP4的推出,标志着AI计算领域又一次重要的革新。对于那些渴望将AI训练和推理性能推向极致的开发者和企业而言,了解NVFP4的以下三大亮点,将是掌握未来AI计算力的关键。

NVFP4为Blackwell架构乃至未来平台带来AI训练与推理的巨大性能飞跃

NVIDIA Blackwell Ultra GPU在NVFP4格式下能够提供高达每秒15千万亿次浮点运算(petaFLOPS)的密集峰值吞吐量,这比同一GPU在FP8格式下的性能提升了整整三倍。这样的提升并非仅仅停留在理论峰值性能上,它在实际的AI训练和推理工作负载中表现得尤为明显。

以推理为例,正如外媒近期发布的一篇技术博客文章所示,从FP8格式迁移到NVFP4格式,使得DeepSeek-R1这一拥有6710亿参数的流行混合专家(MoE)模型,在给定交互级别下的吞吐量实现了显著提升。这意味着在相同的令牌(token)处理速率下,系统能够提供更高的吞吐量,甚至能够支持更高的令牌速率,从而为最终用户带来更流畅、响应更迅速的AI体验。想象一下,当您与大模型进行交互时,等待时间大幅缩短,体验的顺畅度会得到质的飞跃。
A chart plotting per-user interactivity on the x-axis and token throughput per GPU on the y-axis. With the progression from FP8 MTP Off (light gray) to FP8 with MTP On (darker gray) to NVFP4 with MTP On (green), the curves continue to shift to the right, indicating more throughput at a given interactivity level and enabling higher peak interactivity.
HGX B200平台上,在8K/1K序列长度和聚合服务下,FP8无MTP、FP8带MTP以及NVFP4带MTP的吞吐量与交互性曲线对比

不仅如此,NVIDIA公司近期还发布了NVFP4训练方法,将NVFP4的显著性能优势引入到模型训练环节。这使得模型开发者能够更快、更经济地训练出高质量的AI模型。在AI模型开发周期中,训练环节往往耗时最长、成本最高,NVFP4带来的性能提升,无疑将大大缩短研发周期,降低研发门槛,加速AI技术的普及和应用。这意味着研究人员可以进行更多的实验,探索更复杂的模型结构,推动AI创新达到新的高度。
Two sets of bar charts, with performance starting with Hopper submissions in prior rounds, followed by Blackwell GB200 NVL72 submissions in v5.0, then finally Blackwell Ultra GB300 NVL72 submissions in v5.1. The speedups listed for Llama 3.1 405B are 1x, ~2x, and 4x+, and 1x, ~3x, and ~5x for Llama 2 70B LoRA, respectively.
Llama 3.1 405B预训练和Llama 2 70B LoRA微调在512个GPU和8个GPU规模下的相对性能对比

在最新版本的MLPerf Training基准测试套件中,多个NVIDIA GB300 NVL72系统协同工作,总计512个Blackwell Ultra GPU,利用NVFP4精度成功地在64.6分钟内完成了Llama 3.1 405B预训练基准测试。这一成绩比之前使用FP8精度的512个Blackwell GPU在多个NVIDIA GB200 NVL72系统上完成同一基准测试的速度快了1.9倍。这不仅证明了NVFP4在大型模型训练中的卓越效率,也展示了NVIDIA在AI计算领域的领先地位。

展望未来,NVIDIA Rubin平台将带来NVFP4训练和推理能力的更大飞跃,其NVFP4训练计算能力将达到35 petaFLOPS,NVFP4 Transformer Engine推理计算能力将达到50 petaFLOPS。这意味着相比于Blackwell平台,Rubin平台在NVFP4方面将分别实现3.5倍和5倍的性能提升。如此巨大的性能增益,无疑将为未来的AI发展奠定坚实基础,助力构建更强大、更通用的AI系统。

NVFP4展现卓越准确性,在行业基准测试中获得验证

对于MLPerf Training和Inference基准测试封闭赛道中的提交结果而言,它们必须满足由基准测试所规定的严格准确性要求。对于推理测试,模型的响应必须达到特定的准确性阈值;而对于训练测试,模型必须被训练到特定的质量目标,即模型训练过程必须能够成功收敛,达到预期效果。

新媒网跨境了解到,NVIDIA公司在最新版本的MLPerf Training中,使用Blackwell和Blackwell Ultra GPU,并采用NVFP4精度,成功地在所有大型语言模型(LLM)测试中提交了封闭赛道的结果。这不仅证明了NVFP4在保持高精度的同时,也能提供卓越的性能。此外,NVIDIA还在MLPerf Inference中,使用NVFP4提交了涵盖多种模型和场景的测试结果。这些测试模型包括了DeepSeek-R1、Llama 3.1 8B和405B,以及Llama 2 70B。NVIDIA采用的都是经过NVFP4量化版本的模型,并且所有测试都严格满足了基准测试的要求。

这项成果尤其令人振奋,因为它打破了人们对低精度计算可能牺牲准确性的固有认知。NVIDIA通过精密的工程设计,确保了NVFP4在大幅提升计算效率的同时,能够维持与高精度格式几乎相同的模型准确性,这对AI技术的广泛应用和信任至关重要。
 Bar chart showing accuracy scores on the DeepSeek-R1 0528 model, with FP8 baseline and with NVFP4. MMLU-PRO, GPQA Diamond, HLE, and LIVECODEBENCH NVFP4 accuracy is within 1% of the FP8 baseline, SCICODE and Math-500 are the same, and on AIME 2024, NVFP4 is 2% lower.
DeepSeek-R1模型评估分数显示NVFP4与FP8基线的准确性高度匹配

具体到DeepSeek-R1模型,在MMLU-PRO、GPQA Diamond、HLE和LIVECODEBENCH等测试中,NVFP4的准确性与FP8基线之间的差距都在1%以内,而在SCICODE和Math-500测试中,两者准确性完全一致。即使在AIME 2024这样的复杂推理任务中,NVFP4的准确性也仅比FP8低2%。这些数据充分证明了NVFP4在提供强大性能的同时,能够可靠地保持AI模型的推理和训练质量。

NVFP4获得广泛而日益壮大的生态系统支持

一项前沿技术能否真正落地并发挥作用,离不开整个行业生态系统的支持。令人欣喜的是,NVFP4技术正获得越来越广泛的认可和支持。

许多关键的AI开发工具和库已经开始集成NVFP4。例如,NVIDIA Model Optimizer、LLM Compressor和torch.ao等库,都已支持开发者将以更高精度训练的模型量化到NVFP4格式。这极大地简化了模型转换过程。此外,它们还支持实现NVFP4 KV缓存,这对于处理长上下文和大规模批量处理至关重要,同时还能保持高准确性。KV缓存是LLM推理中的一个核心优化点,NVFP4的引入意味着LLM可以处理更长的对话历史和更复杂的任务,而不会因为内存或带宽限制而牺牲性能或成本。

在流行的推理框架方面,包括NVIDIA TensorRT-LLM、vLLM和SGLang在内的诸多框架,目前都已支持以NVFP4格式运行模型。这意味着开发者可以轻松地将自己的模型部署到这些框架中,并立即享受到NVFP4带来的性能优势。这对于追求高性能、低延迟的生产环境至关重要。

更令人兴奋的是,在HuggingFace等主流模型社区平台上,开发者已经可以找到大量随时可部署的NVFP4版本模型。这其中包括Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B以及NVIDIA Nemotron Nano等流行的大型语言模型。这些开箱即用的NVFP4模型,大大降低了开发者采用新技术的门槛,使得更广泛的用户群体能够享受到NVFP4带来的效率红利。

此外,众多创新公司也积极将NVFP4应用于生产环境,以提高其推理吞吐量。德国的Black Forest Labs公司就是其中的佼佼者。他们与NVIDIA紧密合作,将NVFP4推理扩展到FLUX.2模型上。该公司联合创始人兼首席执行官Robin Rombach先生表示:“通过叠加CUDA Graphs、torch.compile、NVFP4精度和TeaCache等多重优化技术,我们在单个B200 GPU上实现了高达6.3倍的加速,显著降低了延迟,使得生产部署更为高效。”这样的实践案例充分证明了NVFP4在实际应用中的巨大潜力。

美国的Radical Numerics公司则利用NVFP4加速了科学世界模型的规模化发展。该公司联合创始人兼首席AI科学家Michael Poli先生指出:“与语言模型不同,科学数据模型超越了经典的单模态自回归范式,需要极长的上下文处理能力和强大的多模态融合技术。”他补充说,公司对使用低精度方法进行新架构的预训练和后训练“抱有高度乐观的态度”。这表明NVFP4不仅在传统AI领域大放异彩,在更前沿、更专业的科学计算领域也展现出巨大的应用前景。

同时,美国的Cognition公司研究团队成员Steven Cao先生也透露,通过在大型强化学习中应用NVFP4,他们观察到“显著的延迟和吞吐量提升”。这些来自行业前沿的真实反馈,无疑为NVFP4的广泛应用注入了强心剂。

在AI训练方面,NVIDIA Transformer Engine库已经包含了NVFP4训练方法的实现,而Megatron-Bridge等训练框架也为开发者提供了入门所需的实现。NVIDIA公司将持续与生态系统伙伴协作创新,致力于将NVFP4训练的性能和效率优势普惠到整个AI社区,为训练出更智能、更复杂的模型,并实现更快、更高效的训练铺平了道路。

新媒网跨境认为,NVFP4的出现,不仅是计算技术的一次升级,更是AI产业迈向成熟与普及的关键一步。通过极致的软硬件协同设计,NVFP4在NVIDIA Blackwell和NVIDIA Rubin两大平台上都带来了巨大的性能增益,同时确保了模型训练和推理的卓越准确性。当下,NVFP4版本的各种流行开源大型语言模型已广泛可用,使得AI服务能够以更高的吞吐量和更低的每百万令牌成本运行,这将深刻影响AI应用的经济性和普及程度。未来,随着NVFP4技术的持续演进和生态系统的不断壮大,我们将看到AI在更多领域开花结果,赋能千行百业,共同开启智能时代的新篇章。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-nvfp4-3x-ai-boost-less-power.html

评论(0)
暂无评论,快来抢沙发~
NVIDIA正引领AI计算迈入新纪元!随着AI模型日益庞大,NVIDIA革命性的NVFP4技术应运而生,并在Blackwell架构GPU及未来平台中实现。该技术将4位浮点精度的卓越性能和能效优势与高精度格式的准确性完美结合。NVFP4使Blackwell Ultra GPU在AI训练和推理中性能提升高达三倍,显著缩短研发周期,降低成本。MLPerf基准测试证实,NVFP4在提供强大性能的同时,能可靠保持模型准确性。目前,NVFP4已获得广泛生态系统支持,包括TensorRT-LLM、vLLM等框架及HuggingFace上的大量预置模型。德国Black Forest Labs等创新公司已利用NVFP4实现生产环境高达6.3倍加速。NVFP4的普及正深刻改变AI应用的经济性和效率,助力AI普惠千行百业。
发布于 2026-02-07
查看人数 162
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。