2026重磅!英伟达ICMS:AI推理能效/TPS双提5倍!

近年来,随着人工智能(AI)技术的飞速发展,特别是智能体(Agentic AI)工作流的兴起,AI应用对计算基础设施提出了前所未有的挑战。这些智能体系统需要处理日益增长的上下文窗口(context windows),其规模已从数百万个令牌(tokens)发展到涉及万亿参数的模型。为了确保智能体能够基于先前的推理继续工作,而非每次请求都从零开始,长期的“记忆”机制变得至关重要,而这主要通过键值(Key-Value, KV)缓存来实现。然而,随着上下文窗口的扩大,KV缓存的容量需求和重新计算历史数据的计算需求呈指数级增长,这给现有的内存和存储体系带来了巨大压力,直接影响了AI的性能和效率。
在这样的背景下,全球领先的科技公司英伟达(NVIDIA)于2026年推出了其Rubin平台,并同期发布了基于NVIDIA BlueField-4数据处理器打造的推理上下文内存存储(Inference Context Memory Storage, ICMS)平台。该平台旨在为AI原生组织提供一套全新的基础设施,以应对智能体时代下AI推理的巨大扩展需求,特别是在千兆级推理场景中,提供专为AI优化的存储解决方案。它通过一个全新的AI原生存储层,有效提升了数据访问效率和能耗表现,对于正在积极布局AI领域的中国跨境企业而言,无疑提供了一个值得深思的参考方向。
新的推理范式与上下文存储挑战
当前,AI模型正从简单的聊天机器人向复杂的、多轮次的智能体工作流演进。基础模型参数规模已达万亿级别,上下文窗口也扩展到数百万个令牌。AI领域的三大扩展定律(预训练、后训练和测试时扩展)正推动着计算密集型推理需求的激增。与传统无状态的聊天机器人不同,智能体需要长期记忆对话、工具使用记录和中间结果,这些记忆不仅跨越服务共享,还可能在不同时间被重新访问。
在基于Transformer架构的模型中,这种长期记忆主要体现为推理上下文,即KV缓存。KV缓存的作用是保存推理过程中的上下文信息,避免模型在生成每个新令牌时重复计算历史数据。随着序列长度的增加,KV缓存呈线性增长,这要求其能在更长的会话中保持持久性,并能在不同推理服务之间共享。这一演进使得KV缓存成为一类独特的AI原生数据,其核心特性在于既对性能至关重要,又具有固有的短暂性。在智能体系统中,KV缓存实际上成为了模型的“长期记忆”,在多个步骤中被反复使用和扩展,而非在一次提示响应后即被丢弃。
与企业中不可更改的记录不同,推理上下文是派生且可重新计算的,因此其存储架构需要优先考虑能耗和成本效率、速度与扩展性,而非传统的耐久性。在现代AI基础设施中,这意味着每一兆瓦的电力投入,最终都将通过其能产生的有效令牌数量来衡量。要满足这些要求,当前的内存和存储层已达到极限。为此,AI基础设施团队正在重新思考如何将上下文合理地放置在GPU内存、主机内存和共享存储之间。为了理解这一差距,我们有必要审视推理上下文在G1至G4层级之间当前的移动方式。AI基础设施团队通常利用英伟达Dynamo等编排框架来管理这些存储层之间的上下文:
| 存储层 | 位置 | 访问速度 | 主要用途 | 效率考量 |
|---|---|---|---|---|
| G1 | GPU HBM | 纳秒级(ns) | 活跃且对延迟敏感的KV缓存,用于主动生成。 | 访问速度最快,效率最高。 |
| G2 | 系统RAM | 10-100纳秒(ns) | 用于HBM卸载的KV缓存的暂存和缓冲。 | 访问速度次之,效率相对较高。 |
| G3 | 本地SSD/机架级存储 | 微秒级(μs) | 用于较短时间内重复利用的温KV缓存。 | 访问延迟增加,每令牌能耗和成本开始上升。 |
| G4 | 共享对象/文件存储 | 毫秒级(ms) | 冷却的文物、历史记录和结果,需持久存储但非即时关键路径。 | 访问延迟最高,效率最低,适用于持久性数据。 |
G1层级以访问速度优化,而G3和G4层级则以数据持久性为主要目标。然而,随着上下文的增长,KV缓存很快就会耗尽本地存储容量(G1-G3),如果将其推到企业级共享存储(G4),将带来不可接受的开销,并显著增加成本和功耗。上图展示了这种权衡:KV缓存离GPU越远,其使用成本就越高。
在层级顶端,GPU HBM (G1) 提供纳秒级的访问速度和最高的效率,是活跃KV缓存的理想选择。当上下文超出HBM的物理限制时,KV缓存会溢出到系统DRAM (G2) 和本地/机架连接存储 (G3),这会导致访问延迟增加,每令牌的能耗和成本也随之上升。尽管这些层级扩展了有效容量,但每一次额外的数据跳跃都会引入开销,降低整体效率。在层级底部,共享对象和文件存储 (G4) 提供持久性和容量,但其访问延迟达到毫秒级,且对于推理而言效率最低。虽然适用于冷数据或共享工件,但如果将活跃或频繁重复使用的KV缓存推入这一层级,将大幅增加功耗,并直接限制AI的成本效益扩展。
核心观点在于:延迟和效率紧密相关。推理上下文越远离GPU,访问延迟越高,每令牌的能耗和成本随之增加,整体效率下降。性能优化型内存和容量优化型存储之间日益扩大的差距,迫使AI基础设施团队重新思考如何在新系统中放置、管理和扩展不断增长的KV缓存上下文。AI工厂需要一个互补的、专用的上下文层,将KV缓存视为其自身独特的AI原生数据类别,而不是强行将其塞入稀缺的HBM或通用企业存储中。
英伟达推理上下文内存存储(ICMS)平台亮相
英伟达推理上下文内存存储(ICMS)平台是一个完全集成的存储基础设施,它利用NVIDIA BlueField-4数据处理器创建一个专用的上下文内存层。该层在“计算单元”(pod)级别运行,旨在弥合高速GPU内存与可扩展共享存储之间的鸿沟。它能加速KV缓存数据访问和计算单元内节点之间的高速共享,从而提升性能并优化功耗,以满足大上下文推理日益增长的需求。
ICMS平台建立了一个全新的G3.5层级,这是一个通过以太网连接的闪存层,专门为KV缓存进行优化。该层级充当AI基础设施计算单元的智能体长期记忆,其容量足以同时容纳多个智能体共享和演变的上下文。同时,它又足够接近GPU和主机内存,以便上下文能够频繁地预加载到这些内存中,而不会造成解码停滞。它为每个GPU计算单元提供PB级的共享容量,使得长上下文工作负载能够在HBM和DRAM逐出后保留历史记录。这些历史记录存储在功耗更低、基于闪存的层级中,从而扩展了GPU和主机内存的层级结构。
G3.5层级提供巨大的聚合带宽,其效率优于传统的共享存储。这使得KV缓存成为一个共享的高带宽资源,编排器可以在智能体和服务之间进行协调,而无需在每个节点上独立重新实例化。随着大部分对延迟敏感、短暂的KV缓存现在由G3.5层级提供服务,持久的G4对象和文件存储可以专用于真正需要长期保存的数据,包括不活跃的多轮KV状态、查询历史、日志以及多轮推理的其他产物,这些可能在后续会话中被召回。这不仅减轻了G4层的容量和带宽压力,同时仍能在需要时保留应用程序级别的历史记录。
随着推理规模的扩大,G1-G3 KV容量会随GPU数量的增加而增长,但仍不足以覆盖所有KV需求。ICMS填补了G1-G3与G4之间缺失的KV容量。推理框架(如NVIDIA Dynamo)利用其KV块管理器与NVIDIA推理传输库(NIXL)协同工作,编排推理上下文在内存和存储层之间的移动,将ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器会预加载KV块,在解码阶段之前将其从ICMS加载到G2或G1内存中。
这种可靠的预加载机制,得益于ICMS相较于传统存储更高的带宽和更好的能效,旨在最大限度地减少停滞并降低空闲时间,对于长上下文和智能体工作负载,最高可实现5倍的持续每秒令牌数(TPS)提升。当与运行KV I/O平面的NVIDIA BlueField-4处理器结合使用时,系统能高效地终止NVMe-oF和对象/RDMA协议。下图展示了ICMS如何融入NVIDIA Rubin平台和AI工厂堆栈。
在推理层,NVIDIA Dynamo和NIXL管理预填充、解码和KV缓存,同时协调对共享上下文的访问。在其下方,一个使用NVIDIA Grove的拓扑感知编排层根据KV本地性将工作负载放置在不同机架上,确保工作负载即使在节点间移动也能继续重用上下文。在计算节点层面,KV分层涵盖了GPU HBM、主机内存、本地SSD、ICMS和网络存储,为编排器提供了连续的容量和延迟目标,用于放置上下文。所有这些都通过Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接起来,提供始终如一的低延迟和高效网络,将闪存支持的上下文内存集成到服务于训练和推理的AI优化网络结构中。
强劲驱动:NVIDIA BlueField-4赋能ICMS平台
NVIDIA BlueField-4数据处理器是ICMS平台的强大核心,它提供了800 Gb/s的连接能力、配备64核NVIDIA Grace CPU以及高带宽LPDDR内存。其专用的硬件加速引擎能够以高达800 Gb/s的线速进行加密和CRC数据保护。这些加密和完整性加速器旨在作为KV数据处理流水线的一部分使用,确保KV流的安全性和有效性,而不会增加主机CPU的开销。
通过利用标准的NVMe和NVMe-oF传输,包括NVMe KV扩展,ICMS在保持与标准存储基础设施互操作性的同时,提供了KV缓存所需的专业性能。该架构利用BlueField-4加速KV I/O和控制平面操作,涵盖Rubin计算节点上的DPU和ICMS闪存机箱中的控制器,从而减少对主机CPU的依赖,并最大限度地减少序列化和主机内存复制。此外,Spectrum-X以太网提供了AI优化的RDMA网络架构,以可预测、低延迟、高带宽的连接方式连接ICMS闪存机箱和GPU节点。
此外,NVIDIA DOCA框架引入了一个KV通信和存储层,将上下文缓存视为KV管理、共享和放置的一等资源,充分利用了KV块和推理模式的独特属性。DOCA接口将推理框架与BlueField-4连接,高效地在底层闪存介质之间传输KV缓存。这种无状态且可扩展的方法与AI原生KV缓存策略保持一致,并利用NIXL和Dynamo实现AI节点之间的高级共享和改进的推理性能。DOCA框架支持开放接口,实现更广泛的编排,为存储合作伙伴扩展其推理解决方案以覆盖G3.5上下文层提供了灵活性。
Spectrum-X以太网作为基于RDMA的AI原生KV缓存访问的高性能网络架构,为NVIDIA推理上下文内存存储平台提供了高效的数据共享和检索能力。Spectrum-X以太网专为AI而构建,以可预测、低延迟、高带宽的连接能力实现规模化部署。它通过先进的拥塞控制、自适应路由和优化的无损RoCE实现这一目标,最大限度地减少了重负载下的抖动、尾部延迟和数据包丢失。凭借极高的有效带宽、深入的遥测功能和硬件辅助的性能隔离,Spectrum-X以太网在大型多租户AI网络中实现了稳定、可重复的性能,同时完全符合标准并与开放网络软件互操作。Spectrum-X以太网使得ICMS能够以持续高性能进行扩展,最大限度地提高多轮智能体推理工作负载的吞吐量和响应速度。
交付高能效、高吞吐量的KV缓存存储
在AI工厂规模化发展的过程中,电力可用性已成为主要制约因素,因此能效成为衡量千兆级推理的关键指标。传统的通用存储堆栈牺牲了效率,因为它们运行在x86架构控制器上,并在元数据管理、数据复制和后台一致性检查等功能上消耗大量能源,而这些功能对于短暂且可重建的KV数据而言是不必要的。
KV缓存与企业级数据有着本质区别:它是瞬态的、派生而来的,即使丢失也可重新计算。作为推理上下文,它不需要为长期记录设计的耐久性、冗余性或广泛的数据保护机制。将这些沉重的存储服务应用于KV缓存会引入不必要的开销,增加延迟和功耗,同时降低推理效率。
通过将KV缓存识别为一种独特的AI原生数据类别,ICMS消除了这些多余的开销,与通用存储方法相比,能效最高可提升5倍。这种效率提升不仅限于存储层,也延伸到了计算架构本身。通过可靠地预加载上下文并减少或避免解码器停滞,ICMS防止GPU在空闲周期或重复计算历史数据上浪费能源,从而实现了最高5倍的每秒令牌数(TPS)提升。这种方法确保电力被用于活跃的推理过程,而非基础设施开销,最大限度地提高了整个AI计算单元的每瓦有效令牌数。
赋能千兆级智能体AI,实现卓越性能与更优TCO
由BlueField-4驱动的ICMS平台,为AI原生组织提供了扩展智能体AI的新途径:它是一个计算单元级别的上下文层,能够有效扩展GPU内存,并将KV缓存转化为NVIDIA Rubin计算单元之间共享的高带宽长期内存资源。
通过卸载KV数据移动并将其视为一种可重复利用、非持久性数据类别,ICMS减少了重复计算和解码停滞,将更高的每秒令牌数(TPS)直接转化为更快的查询响应、更多并发运行的智能体以及规模化部署中更短的尾部延迟。这些提升共同优化了总拥有成本(TCO),使得团队能够在相同的机架、行或数据中心内集成更多可用的AI容量,延长现有设施的使用寿命,并围绕GPU容量而非存储开销来规划未来的扩展。
对于我国的跨境行业从业者而言,英伟达ICMS平台的出现,预示着AI基础设施正在进入一个更高效、更智能的新阶段。随着国内企业积极拥抱AI技术,特别是在跨境电商、智能客服、自动化营销等领域,对高性能、低成本AI推理的需求日益迫切。ICMS所带来的能效提升和性能优化,将直接转化为运营成本的降低和业务效率的提升,帮助企业在激烈的全球市场竞争中获得更大优势。
了解更多关于NVIDIA BlueField-4驱动的推理上下文内存存储平台的信息,可参阅相关新闻稿和NVIDIA BlueField-4产品介绍。您也可以关注黄仁勋(英伟达公司首席执行官)在2026年国际消费电子展(CES 2026)上的演讲,并探索相关会议内容。我们建议国内相关从业人员持续关注此类前沿技术动态,积极探索将其融入自身业务场景,以期在AI浪潮中把握先机。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/2026-nvidia-icms-5x-ai-infer-perf-eff.html


粤公网安备 44011302004783号 











