英伟达NVFP4:LLM记忆翻倍,推理狂飙3倍!

2025-12-09AI工具

英伟达NVFP4:LLM记忆翻倍,推理狂飙3倍!

在当前这个由人工智能驱动的时代,大型语言模型(LLM)的崛起无疑是科技领域最引人瞩目的浪潮。它们以惊人的能力,在自然语言理解、生成、代码编写乃至科学研究等多个前沿领域展现出巨大潜力。然而,随着模型规模的不断扩大和应用场景的日益复杂,如何高效、经济地运行这些庞大的模型,成为了摆在业界面前的一大挑战。其中,推理性能的优化,尤其是对长上下文和大规模批处理的支持,显得尤为关键。

新媒网跨境获悉,为了有效解决LLM推理中的性能瓶颈,英伟达(NVIDIA)推出了一项创新技术——NVFP4 KV缓存量化。这项技术旨在通过大幅压缩关键值(Key-Value,简称KV)缓存的内存占用,从而在英伟达Blackwell架构GPU上实现显著的性能飞跃。想象一下,您的AI模型现在能够以两倍的“记忆容量”进行思考,这意味着它可以处理更长的文本、容纳更大的批次,甚至以更高的效率检索信息。这项技术不仅将KV缓存的内存占用减少了高达50%,更在实际应用中带来了上下文预算的有效翻倍,极大地提升了模型的服务能力。更令人振奋的是,在代码生成、知识问答以及长上下文理解等多种基准测试中,其精度损失均低于1%。这无疑为LLM在实际部署中的高性能与高效率提供了坚实基础。

那么,究竟什么是KV缓存,它为何对LLM的推理性能如此重要呢?

大型语言模型在生成文本时,采用的是一种“自回归”的方式,即它们逐个生成词元(token),并且每个新生成的词元都会考虑之前所有已生成的词元。这种机制正是LLM能够出色完成自然语言任务的核心所在,因为它确保了模型对整个序列上下文的全面理解。然而,这种处理方式也带来了一个显著的计算效率问题:每当生成一个新词元时,模型都需要重新计算此前所有词元的注意力投影,也就是我们常说的键(Key)和值(Value)张量。

图1. 一张展示KV缓存如何减少自回归Transformer自注意力计算量的动图。上方标注为“无KV缓存”的面板显示,每一步都需要重新计算所有已看到词元的查询、键、值以及完整的注意力输出。下方标注为“有KV缓存”的面板则显示,只有当前词元的查询是新计算的,而所有过去的键和值都从缓存中加载,因此注意力和输出矩阵要小得多,避免了冗余计算。

如图1所示,如果没有KV缓存,每生成一个新词元,模型就需要从头开始计算所有查询、键和值张量,并进行大量的矩阵乘法累加(MMA)操作。这无疑是巨大的计算浪费,因为过去的词元的键和值张量在随后的步骤中是不会改变的。它们的注意力值被屏蔽,不会关注未来的词元,因此重新计算它们是完全不必要的。

KV缓存正是为了解决这一计算瓶颈而应运而生的。它通过“以空间换时间”的策略,将这些键和值张量计算一次后便存储起来。在后续的生成过程中,模型可以直接从缓存中读取这些数据,而无需重复计算,从而极大地减少了计算量。虽然这会增加内存占用和带宽需求,但在实际应用中,其带来的性能提升是显而易见的。

实际上,KV缓存通常位于一个固定大小的内存池中,如图2所示。
Figure 2: Incoming tokens query a fixed memory pool of K/V tensors (KV cache).
图2. 进入的词元查询固定内存池中的K/V张量(KV缓存);缓存命中时,重用存储的值以减少计算,而缓存未命中时,则触发K/V的重新计算,并在内存达到限制时可能发生淘汰。

当这个内存池被填满时,KV缓存管理器会根据一定的策略淘汰掉部分较早的上下文信息。如果后续的请求再次引用到已被淘汰的上下文,系统就会发生“缓存未命中”,不得不重新计算这些缺失的K/V张量。因此,KV缓存的实际性能增益,在很大程度上取决于“缓存命中率”。高命中率意味着模型能够最大限度地利用已存储的信息,保持高效的计算。而低命中率则会迫使模型回到需要大量重新计算的状态,从而抵消KV缓存带来的优势。

在推理过程中,KV缓存的填充和使用通常分为两个阶段:

1. 预填充(Prefill)阶段: 模型会一次性摄入整个输入序列。在这个阶段,模型会进行大规模、高度并行的矩阵乘法累加操作来计算注意力,并将所有输入词元生成的键和值向量存储到KV缓存中。这一步是为了为后续的逐词元生成奠定基础。

2. 解码(Decode)阶段: 模型开始逐个生成新词元。每生成一个新词元,都需要进行一次完整的正向传播。此时,注意力模块会从KV缓存中读取所有先前词元的键和值向量,计算当前词元的键和值向量,并将它们追加到缓存中,以便在下一个解码步骤中重复使用。

显而易见,KV缓存对于LLM的性能至关重要,但其内存占用仍然是制约模型规模和上下文长度的关键因素。

针对KV缓存的优化从未止步。最新的进展,便是通过NVFP4和英伟达TensorRT模型优化器来实现的。这项新功能允许将KV缓存从其原生的16位精度量化到更节省内存的4位精度。

KV缓存的量化并非一个全新的概念,例如FP8(8位浮点)KV缓存已经在生产环境中得到了广泛应用。然而,随着模型规模的不断扩大和推理部署规模的持续升级,即使是FP8 KV缓存,也可能在预填充和解码阶段造成显著的瓶颈。而将KV缓存进一步量化,能够有效缓解推理管线中多个组件的压力,对计算、内存容量和内存带宽产生积极影响。

具体来说,NVFP4 KV缓存带来了以下显著优势:

1. 内存容量大幅提升: 相较于FP8 KV缓存,NVFP4 KV缓存将内存占用减少了约50%。这意味着,在相同的硬件条件下,LLM能够支持更长的上下文长度、处理更大的批次,甚至容纳更多的并发用户。这对于需要处理大量文本信息的应用场景,如长篇文档分析、复杂对话系统等,具有革命性的意义。

2. 内存带宽效率更高: 在解码阶段,KV缓存的频繁读写对内存带宽提出了严峻的考验。尺寸更小的KV缓存意味着每次读写所需传输的数据量更少,从而显著降低了内存带宽的压力,提高了数据传输效率。

当前NVFP4 KV缓存的实现方式是,在进行注意力计算和上下文矩阵运算之前,将值从NVFP4格式反量化回FP8格式。而新词元的键和值向量在被追加到KV缓存之前,会被量化为NVFP4格式(如图3所示)。
Figure 3: KV cache-driven attention flow showing where quantization and dequantization occur during inference.
图3. KV缓存驱动的注意力流程,展示了推理过程中量化和反量化发生的时机。

通过模型优化器的量化API,开发者可以进行后训练量化(PTQ)或量化感知训练(QAT)。要启用NVFP4 KV缓存,只需在量化配置中进行简单的修改即可。

下面的代码片段演示了如何配置模型,使其在FP8权重和激活的基础上,为KV缓存启用NVFP4量化。如果需要同时利用4位计算的优势,还可以通过将quant_cfg更改为mtq.NVFP4_DEFAULT_CFG来将模型权重压缩到NVFP4。

# 配置fp8量化和fp4用于KV缓存
quant_cfg = mtq.FP8_DEFAULT_CFG
quant_cfg["quant_cfg"].update(mtq.NVFP4_KV_CFG["quant_cfg"])

# 定义校准用的前向循环
def forward_loop(model):
    for data in calib_set:
        model(data)

# 量化模型
model = mtq.quantize(model, quant_cfg, forward_loop)

# 模型已准备好进行后训练量化(PTQ)部署
# (可选) 量化感知训练(QAT) 进一步训练量化模型以提高精度
# 调整训练参数,例如学习率、调度器、epochs
# 支持HuggingFace和Megatron模型
train(model, train_loader, optimizer, scheduler, ...)

KV缓存的优化对于LLM的实际应用性能有着直接且深远的影响。正如前文所述,KV缓存通过避免对已处理词元的冗余计算,以牺牲部分内存为代价,实现了推理效率的提升。而NVFP4技术通过将KV缓存压缩50%,使得模型能够以当前标准FP8 KV缓存两倍的“内容预算”进行推理。这意味着模型可以持有两倍的上下文信息,从而能够更好地服务于那些需要处理海量信息、进行深度推理的复杂用例,例如分析厚重的教科书、法律文件、医学报告,或进行复杂的科学计算。在这些场景中,KV缓存的内存预算往往是首要瓶颈,而NVFP4的出现,无疑为这些应用拓展了新的可能性。

更高的缓存命中率,节省预填充计算

在预填充阶段,推理的延迟受到很大程度上取决于传入请求的上下文有多少已经驻留在KV缓存中。NVFP4通过将KV缓存的内存占用降低,使得设备上可以存储大约两倍的上下文信息,从而带来了比FP8更高的有效缓存命中率。这意味着更少的缓存淘汰,更长的已处理词元序列得以保留。当模型能够直接检索这些KV条目而无需重新计算时,预填充过程的停顿会减少,持续的摄入吞吐量会提高,最终使得首个词元生成时间(Time-to-First-Token,TTFT)的延迟最高可降低3倍。对于追求实时响应的交互式AI应用而言,TTFT的降低是至关重要的用户体验提升。
Figure 4: NVFP4 vs FP8 KV Cache performance on Blackwell GPUs.
图4. NVFP4 KV缓存与FP8 KV缓存的Blackwell GPU性能对比。随着每GPU缓存内存的增加,NVFP4 KV缓存的延迟最高可降低3倍,缓存命中率提高20%,展现出显著的性能优势。分析基于Qwen3-Coder-480B-A35B模型。

从图4我们可以看到,随着KV缓存容量的增加,它能够捕获更多的K/V张量,自然会带来更高的缓存命中率。这最终会导致一个“高原效应”,即NVFP4和FP8之间的延迟和命中率差距逐渐缩小——这主要取决于具体的模型和上下文长度。但值得注意的是,未经优化的KV缓存会不断膨胀,消耗越来越多的高带宽内存(HBM)预算。新媒网认为,NVFP4通过显著提高KV缓存的HBM效率,为模型权重释放了更多内存空间,并能够与英伟达协同设计堆栈中的其他组件(如NVLink、内核优化以及宽专家并行技术)形成更强的叠加效应,从而实现更全面的性能提升。这种软硬件协同优化的理念,正是英伟达在AI领域持续领先的关键所在。

在提升性能的同时,精度损失是衡量量化技术优劣的关键指标。我们观察到,相较于BF16和FP8基线,NVFP4 KV缓存在LiveCodeBench、MMLU-PRO、MBPP和Ruler 64K等现代LLM基准测试中的精度损失均低于1%。这无疑是一项令人瞩目的成就,它表明NVFP4在大幅压缩内存的同时,成功地保持了模型的核心能力。

特别值得一提的是,在LiveCodeBench上的近乎一致的表现,证明了这项量化技术能够精确地保留多步代码生成的能力。在代码生成这类任务中,即使是微小的数值误差,也可能轻易导致语法错误、编译失败或逻辑错误,从而使得结果完全不可用。NVFP4在此表现出的鲁棒性,对于依赖LLM进行软件开发、自动化编程等高精度要求的场景至关重要。

同样,在Ruler 64K这类涉及64K词元序列的长上下文推理任务中,NVFP4依然能够保持出色的性能。长上下文推理通常是量化噪声容易累积、导致模型性能下降的“重灾区”。但NVFP4的稳定表现,表明其能够在极端条件下有效抑制误差,确保模型在处理超长文本时仍能进行准确、可靠的推理。综合来看,这些结果充分说明,NVFP4 KV缓存技术在不牺牲端到端能力的前提下,为极具挑战性的代码生成和长上下文工作负载带来了显著的效率提升。
Figure 5: Benchmarking performance of different KV cache precisions.
图5. Qwen3-480B-A35B模型在不同KV缓存精度(FP16、FP8和NVFP4)下的基准性能对比,显示FP8和NVFP4在代码、知识和长上下文任务中与FP16的精度表现非常接近。

另一个重要的洞察是NVFP4与MXFP4在KV缓存量化方面的对比。图6展示了BF16、FP8、NVFP4和MXFP4在MMLU模型精度得分上的影响。对于测试模型Llama 3.3 70B,我们观察到当KV缓存采用NVFP4格式时,其精度比MXFP4高出5%。这一优势得益于NVFP4更精细的块缩放(granular block scaling)以及更高精度的E4M3 FP8缩放因子,这些技术协同作用,在反量化步骤中有效降低了量化误差,从而实现了更高的模型精度。
Figure 6: Comparing lower precision format KV cache accuracy.
图6. FP8、NVFP4和MXFP4 KV缓存格式的对比,显示FP8和NVFP4在MMLU精度上明显高于MXFP4。

展望未来,NVFP4 KV缓存仅仅是英伟达推理堆栈中更广泛的软硬件协同设计理念的又一个实践步骤。随着围绕该技术的生态系统日益成熟,它将能够与英伟达Dynamo中的KV感知路由和卸载(KV-aware routing and offload)技术相结合,并与英伟达TensorRT-LLM中的宽专家并行(Wide Expert Parallelism,简称Wide-EP)技术堆叠使用,从而显著提升大规模混合专家(MoE)部署的利用率。

在硬件层面,更紧密的KV缓存优化能够更好地利用NVL72扩展域和NVLink互连架构的优势,支持多智能体推理和长上下文深度推理工作负载。这些技术组件的协同作用,将使得服务更大规模的专家模型、处理更长序列的文本以及实现更高并发度成为可能,同时还能保持卓越的精度水平。新媒网预测,这种持续的创新与融合,将共同推动人工智能技术的普惠发展,让先进的AI能力以更低的成本、更高的效率触达更广泛的社会和产业应用,助力我国在新一轮科技革命中赢得先机。

为了帮助开发者们更好地应用这些前沿技术,我们建议大家可以以模型优化器的代码示例和笔记本为基础,开始构建自己的定制化量化工作流程。

在此特别感谢Kai Xu、Shengliang Xu、Tian Zheng和Asma Kuriparambil Thekkumpate对本文所述工程工作所做出的贡献。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/nvidia-nvfp4-llm-2x-memory-3x-speed.html

评论(0)
暂无评论,快来抢沙发~
新媒网跨境快讯:英伟达近日推出革命性NVFP4 KV缓存量化技术,旨在大幅优化大型语言模型(LLM)的推理性能。在英伟达Blackwell架构GPU上,该技术能将KV缓存内存占用减少高达50%,有效倍增LLM的上下文处理能力,支持更长的文本和更大的批次,同时精度损失低于1%。这显著提升了内存容量和带宽效率,更可将首个词元生成时间(TTFT)延迟降低3倍。NVFP4 KV缓存的突破,为LLM在代码生成、长上下文理解等复杂应用场景的高效部署提供了坚实基础,加速AI技术普惠化进程。
发布于 2025-12-09
查看人数 96
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。