2026重磅!英伟达ICMS:AI推理能效/TPS双提5倍!

2026-01-07AI工具

2026重磅!英伟达ICMS:AI推理能效/TPS双提5倍!

近年来,随着人工智能(AI)技术的飞速发展,特别是智能体(Agentic AI)工作流的兴起,AI应用对计算基础设施提出了前所未有的挑战。这些智能体系统需要处理日益增长的上下文窗口(context windows),其规模已从数百万个令牌(tokens)发展到涉及万亿参数的模型。为了确保智能体能够基于先前的推理继续工作,而非每次请求都从零开始,长期的“记忆”机制变得至关重要,而这主要通过键值(Key-Value, KV)缓存来实现。然而,随着上下文窗口的扩大,KV缓存的容量需求和重新计算历史数据的计算需求呈指数级增长,这给现有的内存和存储体系带来了巨大压力,直接影响了AI的性能和效率。

在这样的背景下,全球领先的科技公司英伟达(NVIDIA)于2026年推出了其Rubin平台,并同期发布了基于NVIDIA BlueField-4数据处理器打造的推理上下文内存存储(Inference Context Memory Storage, ICMS)平台。该平台旨在为AI原生组织提供一套全新的基础设施,以应对智能体时代下AI推理的巨大扩展需求,特别是在千兆级推理场景中,提供专为AI优化的存储解决方案。它通过一个全新的AI原生存储层,有效提升了数据访问效率和能耗表现,对于正在积极布局AI领域的中国跨境企业而言,无疑提供了一个值得深思的参考方向。

新的推理范式与上下文存储挑战

当前,AI模型正从简单的聊天机器人向复杂的、多轮次的智能体工作流演进。基础模型参数规模已达万亿级别,上下文窗口也扩展到数百万个令牌。AI领域的三大扩展定律(预训练、后训练和测试时扩展)正推动着计算密集型推理需求的激增。与传统无状态的聊天机器人不同,智能体需要长期记忆对话、工具使用记录和中间结果,这些记忆不仅跨越服务共享,还可能在不同时间被重新访问。

在基于Transformer架构的模型中,这种长期记忆主要体现为推理上下文,即KV缓存。KV缓存的作用是保存推理过程中的上下文信息,避免模型在生成每个新令牌时重复计算历史数据。随着序列长度的增加,KV缓存呈线性增长,这要求其能在更长的会话中保持持久性,并能在不同推理服务之间共享。这一演进使得KV缓存成为一类独特的AI原生数据,其核心特性在于既对性能至关重要,又具有固有的短暂性。在智能体系统中,KV缓存实际上成为了模型的“长期记忆”,在多个步骤中被反复使用和扩展,而非在一次提示响应后即被丢弃。

与企业中不可更改的记录不同,推理上下文是派生且可重新计算的,因此其存储架构需要优先考虑能耗和成本效率、速度与扩展性,而非传统的耐久性。在现代AI基础设施中,这意味着每一兆瓦的电力投入,最终都将通过其能产生的有效令牌数量来衡量。要满足这些要求,当前的内存和存储层已达到极限。为此,AI基础设施团队正在重新思考如何将上下文合理地放置在GPU内存、主机内存和共享存储之间。为了理解这一差距,我们有必要审视推理上下文在G1至G4层级之间当前的移动方式。AI基础设施团队通常利用英伟达Dynamo等编排框架来管理这些存储层之间的上下文:

存储层 位置 访问速度 主要用途 效率考量
G1 GPU HBM 纳秒级(ns) 活跃且对延迟敏感的KV缓存,用于主动生成。 访问速度最快,效率最高。
G2 系统RAM 10-100纳秒(ns) 用于HBM卸载的KV缓存的暂存和缓冲。 访问速度次之,效率相对较高。
G3 本地SSD/机架级存储 微秒级(μs) 用于较短时间内重复利用的温KV缓存。 访问延迟增加,每令牌能耗和成本开始上升。
G4 共享对象/文件存储 毫秒级(ms) 冷却的文物、历史记录和结果,需持久存储但非即时关键路径。 访问延迟最高,效率最低,适用于持久性数据。

G1层级以访问速度优化,而G3和G4层级则以数据持久性为主要目标。然而,随着上下文的增长,KV缓存很快就会耗尽本地存储容量(G1-G3),如果将其推到企业级共享存储(G4),将带来不可接受的开销,并显著增加成本和功耗。上图展示了这种权衡:KV缓存离GPU越远,其使用成本就越高。
A four-tier KV cache memory hierarchy diagram showing latency and efficiency tradeoffs. From top to bottom: G1 GPU HBM with nanosecond access for active KV; G2 system DRAM with 10–100 nanosecond access for staging or spillover KV; G3 local SSD or rack-local storage with microsecond access for warm KV reuse; and G4 shared object or file storage with millisecond access for cold or shared KV context. An upward arrow on the left indicates faster access and lower latency toward the top, while a downward arrow on the right indicates declining efficiency, from peak efficiency at GPU HBM to lowest efficiency at shared storage as energy, cost, and per-token overhead increase.

在层级顶端,GPU HBM (G1) 提供纳秒级的访问速度和最高的效率,是活跃KV缓存的理想选择。当上下文超出HBM的物理限制时,KV缓存会溢出到系统DRAM (G2) 和本地/机架连接存储 (G3),这会导致访问延迟增加,每令牌的能耗和成本也随之上升。尽管这些层级扩展了有效容量,但每一次额外的数据跳跃都会引入开销,降低整体效率。在层级底部,共享对象和文件存储 (G4) 提供持久性和容量,但其访问延迟达到毫秒级,且对于推理而言效率最低。虽然适用于冷数据或共享工件,但如果将活跃或频繁重复使用的KV缓存推入这一层级,将大幅增加功耗,并直接限制AI的成本效益扩展。

核心观点在于:延迟和效率紧密相关。推理上下文越远离GPU,访问延迟越高,每令牌的能耗和成本随之增加,整体效率下降。性能优化型内存和容量优化型存储之间日益扩大的差距,迫使AI基础设施团队重新思考如何在新系统中放置、管理和扩展不断增长的KV缓存上下文。AI工厂需要一个互补的、专用的上下文层,将KV缓存视为其自身独特的AI原生数据类别,而不是强行将其塞入稀缺的HBM或通用企业存储中。

英伟达推理上下文内存存储(ICMS)平台亮相

英伟达推理上下文内存存储(ICMS)平台是一个完全集成的存储基础设施,它利用NVIDIA BlueField-4数据处理器创建一个专用的上下文内存层。该层在“计算单元”(pod)级别运行,旨在弥合高速GPU内存与可扩展共享存储之间的鸿沟。它能加速KV缓存数据访问和计算单元内节点之间的高速共享,从而提升性能并优化功耗,以满足大上下文推理日益增长的需求。

ICMS平台建立了一个全新的G3.5层级,这是一个通过以太网连接的闪存层,专门为KV缓存进行优化。该层级充当AI基础设施计算单元的智能体长期记忆,其容量足以同时容纳多个智能体共享和演变的上下文。同时,它又足够接近GPU和主机内存,以便上下文能够频繁地预加载到这些内存中,而不会造成解码停滞。它为每个GPU计算单元提供PB级的共享容量,使得长上下文工作负载能够在HBM和DRAM逐出后保留历史记录。这些历史记录存储在功耗更低、基于闪存的层级中,从而扩展了GPU和主机内存的层级结构。

G3.5层级提供巨大的聚合带宽,其效率优于传统的共享存储。这使得KV缓存成为一个共享的高带宽资源,编排器可以在智能体和服务之间进行协调,而无需在每个节点上独立重新实例化。随着大部分对延迟敏感、短暂的KV缓存现在由G3.5层级提供服务,持久的G4对象和文件存储可以专用于真正需要长期保存的数据,包括不活跃的多轮KV状态、查询历史、日志以及多轮推理的其他产物,这些可能在后续会话中被召回。这不仅减轻了G4层的容量和带宽压力,同时仍能在需要时保留应用程序级别的历史记录。

随着推理规模的扩大,G1-G3 KV容量会随GPU数量的增加而增长,但仍不足以覆盖所有KV需求。ICMS填补了G1-G3与G4之间缺失的KV容量。推理框架(如NVIDIA Dynamo)利用其KV块管理器与NVIDIA推理传输库(NIXL)协同工作,编排推理上下文在内存和存储层之间的移动,将ICMS作为KV缓存的上下文内存层。这些框架中的KV管理器会预加载KV块,在解码阶段之前将其从ICMS加载到G2或G1内存中。

这种可靠的预加载机制,得益于ICMS相较于传统存储更高的带宽和更好的能效,旨在最大限度地减少停滞并降低空闲时间,对于长上下文和智能体工作负载,最高可实现5倍的持续每秒令牌数(TPS)提升。当与运行KV I/O平面的NVIDIA BlueField-4处理器结合使用时,系统能高效地终止NVMe-oF和对象/RDMA协议。下图展示了ICMS如何融入NVIDIA Rubin平台和AI工厂堆栈。
A layered diagram showing ICMS in the NVIDIA Rubin platform, from the inference pool with Dynamo, NIXL, and KV cache management, through Grove orchestration and Rubin compute nodes with KV$ tiering across memory tiers, down to Spectrum-X connected BlueField-4 ICMS nodes built on SSDs.

在推理层,NVIDIA Dynamo和NIXL管理预填充、解码和KV缓存,同时协调对共享上下文的访问。在其下方,一个使用NVIDIA Grove的拓扑感知编排层根据KV本地性将工作负载放置在不同机架上,确保工作负载即使在节点间移动也能继续重用上下文。在计算节点层面,KV分层涵盖了GPU HBM、主机内存、本地SSD、ICMS和网络存储,为编排器提供了连续的容量和延迟目标,用于放置上下文。所有这些都通过Spectrum-X以太网将Rubin计算节点与BlueField-4 ICMS目标节点连接起来,提供始终如一的低延迟和高效网络,将闪存支持的上下文内存集成到服务于训练和推理的AI优化网络结构中。

强劲驱动:NVIDIA BlueField-4赋能ICMS平台

NVIDIA BlueField-4数据处理器是ICMS平台的强大核心,它提供了800 Gb/s的连接能力、配备64核NVIDIA Grace CPU以及高带宽LPDDR内存。其专用的硬件加速引擎能够以高达800 Gb/s的线速进行加密和CRC数据保护。这些加密和完整性加速器旨在作为KV数据处理流水线的一部分使用,确保KV流的安全性和有效性,而不会增加主机CPU的开销。

通过利用标准的NVMe和NVMe-oF传输,包括NVMe KV扩展,ICMS在保持与标准存储基础设施互操作性的同时,提供了KV缓存所需的专业性能。该架构利用BlueField-4加速KV I/O和控制平面操作,涵盖Rubin计算节点上的DPU和ICMS闪存机箱中的控制器,从而减少对主机CPU的依赖,并最大限度地减少序列化和主机内存复制。此外,Spectrum-X以太网提供了AI优化的RDMA网络架构,以可预测、低延迟、高带宽的连接方式连接ICMS闪存机箱和GPU节点。

此外,NVIDIA DOCA框架引入了一个KV通信和存储层,将上下文缓存视为KV管理、共享和放置的一等资源,充分利用了KV块和推理模式的独特属性。DOCA接口将推理框架与BlueField-4连接,高效地在底层闪存介质之间传输KV缓存。这种无状态且可扩展的方法与AI原生KV缓存策略保持一致,并利用NIXL和Dynamo实现AI节点之间的高级共享和改进的推理性能。DOCA框架支持开放接口,实现更广泛的编排,为存储合作伙伴扩展其推理解决方案以覆盖G3.5上下文层提供了灵活性。

Spectrum-X以太网作为基于RDMA的AI原生KV缓存访问的高性能网络架构,为NVIDIA推理上下文内存存储平台提供了高效的数据共享和检索能力。Spectrum-X以太网专为AI而构建,以可预测、低延迟、高带宽的连接能力实现规模化部署。它通过先进的拥塞控制、自适应路由和优化的无损RoCE实现这一目标,最大限度地减少了重负载下的抖动、尾部延迟和数据包丢失。凭借极高的有效带宽、深入的遥测功能和硬件辅助的性能隔离,Spectrum-X以太网在大型多租户AI网络中实现了稳定、可重复的性能,同时完全符合标准并与开放网络软件互操作。Spectrum-X以太网使得ICMS能够以持续高性能进行扩展,最大限度地提高多轮智能体推理工作负载的吞吐量和响应速度。

交付高能效、高吞吐量的KV缓存存储

在AI工厂规模化发展的过程中,电力可用性已成为主要制约因素,因此能效成为衡量千兆级推理的关键指标。传统的通用存储堆栈牺牲了效率,因为它们运行在x86架构控制器上,并在元数据管理、数据复制和后台一致性检查等功能上消耗大量能源,而这些功能对于短暂且可重建的KV数据而言是不必要的。

KV缓存与企业级数据有着本质区别:它是瞬态的、派生而来的,即使丢失也可重新计算。作为推理上下文,它不需要为长期记录设计的耐久性、冗余性或广泛的数据保护机制。将这些沉重的存储服务应用于KV缓存会引入不必要的开销,增加延迟和功耗,同时降低推理效率。

通过将KV缓存识别为一种独特的AI原生数据类别,ICMS消除了这些多余的开销,与通用存储方法相比,能效最高可提升5倍。这种效率提升不仅限于存储层,也延伸到了计算架构本身。通过可靠地预加载上下文并减少或避免解码器停滞,ICMS防止GPU在空闲周期或重复计算历史数据上浪费能源,从而实现了最高5倍的每秒令牌数(TPS)提升。这种方法确保电力被用于活跃的推理过程,而非基础设施开销,最大限度地提高了整个AI计算单元的每瓦有效令牌数。

赋能千兆级智能体AI,实现卓越性能与更优TCO

由BlueField-4驱动的ICMS平台,为AI原生组织提供了扩展智能体AI的新途径:它是一个计算单元级别的上下文层,能够有效扩展GPU内存,并将KV缓存转化为NVIDIA Rubin计算单元之间共享的高带宽长期内存资源。

通过卸载KV数据移动并将其视为一种可重复利用、非持久性数据类别,ICMS减少了重复计算和解码停滞,将更高的每秒令牌数(TPS)直接转化为更快的查询响应、更多并发运行的智能体以及规模化部署中更短的尾部延迟。这些提升共同优化了总拥有成本(TCO),使得团队能够在相同的机架、行或数据中心内集成更多可用的AI容量,延长现有设施的使用寿命,并围绕GPU容量而非存储开销来规划未来的扩展。

对于我国的跨境行业从业者而言,英伟达ICMS平台的出现,预示着AI基础设施正在进入一个更高效、更智能的新阶段。随着国内企业积极拥抱AI技术,特别是在跨境电商、智能客服、自动化营销等领域,对高性能、低成本AI推理的需求日益迫切。ICMS所带来的能效提升和性能优化,将直接转化为运营成本的降低和业务效率的提升,帮助企业在激烈的全球市场竞争中获得更大优势。

了解更多关于NVIDIA BlueField-4驱动的推理上下文内存存储平台的信息,可参阅相关新闻稿和NVIDIA BlueField-4产品介绍。您也可以关注黄仁勋(英伟达公司首席执行官)在2026年国际消费电子展(CES 2026)上的演讲,并探索相关会议内容。我们建议国内相关从业人员持续关注此类前沿技术动态,积极探索将其融入自身业务场景,以期在AI浪潮中把握先机。


新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/2026-nvidia-icms-5x-ai-infer-perf-eff.html

评论(0)
暂无评论,快来抢沙发~
英伟达2026年推出基于BlueField-4数据处理器的ICMS平台,旨在为AI原生组织提供全新的基础设施,应对智能体时代下AI推理的巨大扩展需求。该平台构建G3.5层级,通过以太网连接闪存层,优化KV缓存,为我国跨境企业在AI领域提供参考。
发布于 2026-01-07
查看人数 142
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。