AI工厂惊变:NVIDIA秒解南北向瓶颈,狂飙1.6倍!
在人工智能浪潮席卷全球的当下,数据如同血液,为计算引擎提供源源不断的动力。特别是随着智能体(Agentic AI)系统的日益成熟,多个模型和服务之间需要协同互动、实时获取外部信息并迅速作出决策,这给企业带来了前所未有的挑战:如何快速、智能且可靠地传输海量数据?无论是从持久存储中加载模型,还是为应对查询检索知识,亦或是协调智能体工具的使用,数据移动的速度和效率都直接关系到人工智能系统的整体表现。
长期以来,业界普遍关注GPU与GPU之间(即“东西向”)的通信优化。然而,同样关键的是那些处理模型加载、存储I/O以及推理查询的“南北向”网络。这些环节一旦出现性能瓶颈,将直接影响人工智能系统的响应速度和用户体验。在当今这个追求极致效率的时代,忽视南北向网络的优化,就像是为一辆超级跑车配备了普通车轮,即便引擎再强劲,也难以发挥出全部潜力。
为了帮助企业高效部署人工智能工厂,英伟达(NVIDIA)推出了一系列企业级参考架构(Enterprise RAs)。这些参考架构不仅是技术指南,更是一套经过实践验证的“设计蓝图”,旨在指导企业构建可扩展、安全且高性能的人工智能基础设施。它们凝聚了英伟达在人工智能领域丰富的经验,将复杂的系统部署简化为清晰、可执行的建议,涵盖了从服务器、网络配置到软件堆栈和运维最佳实践等各个方面。可以说,这些参考架构为企业打通了人工智能落地的“最后一公里”。
在英伟达企业级参考架构的众多核心组件中,英伟达Spectrum-X以太网的地位尤为突出,它在加速南北向数据流方面发挥着关键作用,特别是在与英伟达BlueField-3数据处理单元(DPU)结合时,对于数据密集型的人工智能应用场景,其价值更是无可替代。新媒网跨境获悉,这种技术组合正日益成为企业构建未来AI工厂的基石。
传统的以太网存储网络,其设计初衷并非为了满足加速人工智能和高性能计算(HPC)工作负载对规模、数据流和敏感度的严苛要求。因此,它们在处理海量人工智能数据时,常常会引入不必要的延迟和拥塞,从而显著降低整体性能。试想一下,当一个人工智能模型在训练过程中需要进行检查点保存时,它必须通过南北向网络将数TB甚至更多的数据传输到持久存储中。对于当前拥有数十亿甚至上万亿参数的模型来说,这些检查点文件往往非常庞大,其传输效率直接决定了模型训练的连续性和数据安全性,确保系统即便出现意外中断,已取得的进展也不会丢失。
推理工作负载对南北向网络的效率依赖程度同样深厚。例如,当一个人工智能智能体需要检索数据时,无论是从一个用于检索增强生成(RAG)的向量数据库中获取嵌入信息,还是从外部工具或数据库中提取上下文来响应用户查询,它都高度依赖快速且低延迟的南北向连接。更值得关注的是,随着企业正从静态的单次推理模式转向动态的、多轮次、多智能体的推理模式,智能体需要通过持续与用户、外部源和云服务进行交互,不断摄取、处理和更新数据,这将使得南北向网络的需求量级呈指数级增长。
通过在英伟达企业级参考架构中采用英伟达Spectrum-X以太网来加速数据移动,这些网络能够蜕变为无损的人工智能数据存储和传输织网,专为满足现代人工智能工作负载对性能的严苛要求而生。这种企业级的架构使得构建人工智能工厂成为可能,它能够提供可预测、高吞吐量、低延迟的数据访问,从而全面释放现代人工智能工作流的巨大潜力。这不仅意味着更快的处理速度,更预示着人工智能应用将能够实现更高的可靠性和稳定性,为企业在激烈的市场竞争中赢得先机。
融合网络:企业级人工智能工作负载的简化基石
在许多企业中,人工智能工厂的建设往往是为了应对一组明确的应用场景,其网络规模通常从4到16个服务器节点起步。在这种情况下,采用一种融合设计能够极大地简化操作。这种设计将东西向流量(如计算)和南北向流量(如存储和外部服务)整合到一个统一的交换织网中,从而减少了布线和硬件的蔓延,降低了系统复杂性。更重要的是,它能在训练、推理和检索等各类工作负载中,始终保持一致的高吞吐量性能。
然而,构建一个融合的东西向/南北向网络,对网络本身提出了更高的要求,它必须能够提供足够的带宽和高质量的服务(QoS),以同时支持这两种不同类型的流量。
英伟达Spectrum-X以太网正是这种融合网络的核心,它在英伟达企业级参考架构中扮演着关键角色。尽管Spectrum-X最初是为优化东西向的GPU到GPU以及节点到节点通信而设计的,但它通过采用自适应路由和遥测技术,也能为南北向网络以及存储数据路径带来显著的带宽和性能优势。它能够有效预防拥塞,提高吞吐量,并在人工智能运行时和检索密集型工作负载期间显著降低延迟,确保数据流的顺畅无阻。
同样重要的是,Spectrum-X以太网还具备虚拟路由与转发(VRF)服务分离和QoS流量优先级划分等能力。VRF可以对东西向通信与南北向流量(如用户入口或存储访问)进行逻辑上的分段,而无需进行物理网络的分离,这极大地简化了管理。QoS则通过在以太网帧或IP包头部附加标签,确保根据具体应用场景对特定流量进行优先级排序(例如,存储流量优先于HTTPS用户流量)。这些机制通过诸如噪声隔离等高级功能得到了进一步增强,确保当多个AI智能体或工作负载在共享基础设施上同时运行时,仍能提供稳定一致的性能表现。
值得注意的是,尽管融合网络非常适合企业规模的人工智能工厂,但这并非一种“一刀切”的解决方案。在新媒网跨境认为,在那些需要大规模、多租户的环境中,例如由英伟达的云合作伙伴运营的平台,为了确保最高效的带宽和更严格的租户与流量类型隔离,采用物理连接网络的非融合模式可能更为适宜。
融合网络是一项深思熟虑的设计选择,它与企业级人工智能基础设施在规模、性能和可管理性方面的需求高度契合。英伟达企业级参考架构通过提供从小型基础集群到可扩展至千块GPU的大规模部署等一系列详细指导,简化了确定特定应用场景最佳网络架构的复杂任务,为企业提供了清晰的路径。
理解英伟达以太网SuperNIC和BlueField-3 DPU的角色
要全面理解人工智能工厂中网络是如何编排的,区分英伟达以太网SuperNIC和DPU(数据处理单元)各自的角色会有很大帮助。英伟达SuperNIC专为处理GPU到GPU之间占据主导地位的东西向流量而设计。它们面向超大规模人工智能环境,每个GPU可提供高达800 Gb/s的带宽,确保在分布式训练和推理过程中实现超高速的数据连接,如同连接内部的高速公路。
与此同时,BlueField-3 DPU则主要负责南北向流量。BlueField-3能够将存储管理、遥测和网络安全等任务从主机CPU上卸载、加速并分离出来,从而释放宝贵的计算资源用于核心的人工智能处理。实际上,它就像一个专门的云基础设施处理器,确保数据能够在人工智能工厂与其外部生态系统(包括网络存储)之间高效移动。
SuperNIC和BlueField-3 DPU协同工作,共同构成了强大的人工智能网络交响曲。SuperNIC为人工智能工厂的内部计算提供动力和路由,而BlueField-3 DPU则确保外部数据流平稳且规模化地抵达。这种双管齐下的方法,使得企业能够优化其人工智能基础设施的各个层面的性能,实现内外兼修的卓越表现。
企业影响:向量数据库与实时检索
南北向网络的一个贴近实际生活的例子,便是智能体人工智能(Agentic AI)和检索增强生成(RAG)系统日益普及的采用。诸如英伟达RAG 2.0蓝图之类的架构,通过集成文档、图像、日志和视频等外部知识,极大地扩展了大型语言模型(LLM)的能力。RAG蓝图利用英伟达NeMo Retriever和英伟达NIM微服务来嵌入、索引和检索这些内容,通过部署在外部存储中的向量数据库,从而提供更准确、更具上下文相关性的响应。
当用户提交查询时,大型语言模型会生成一个向量嵌入,该嵌入被迅速用于查询外部存储中的向量数据库(例如Milvus),以找到最相关的嵌入上下文。这种交互的核心,便在于快速(低延迟)的南北向数据流。系统越早检索并整合这些外部知识,其响应速度和精确度就越高。融合的Spectrum-X以太网网络恰好能优化这条数据路径,确保模型在实时获取嵌入信息时,能够将延迟降至最低,并将吞吐量提升至最大。
图1. 增强RAG功能的LLM用户查询通过英伟达Spectrum-X以太网平台的逐步流程
让我们更详细地审视南北向的用户-计算-存储流程:
用户查询入站(用户到互联网到叶交换机): 用户发出的提示或任务,通过入口网关进入人工智能工厂,首先抵达叶交换机,然后向下传递到集群内部。英伟达企业级参考架构通过Spectrum-X以太网优化了这条路径,这不仅缩短了依赖外部数据的应用程序的“首次响应时间”(TTFT),还避免了手动网络配置调优的繁琐。
请求路由到GPU服务器(叶交换机到GPU经由DPU): 请求被叶交换机定向到某个GPU节点。在此,BlueField-3 DPU负责处理数据包解析、卸载网络堆栈,并将查询路由到正确的推理引擎(例如英伟达NIM)。整个请求通过叶-脊Spectrum-X以太网交换网络,利用自适应路由来避免拥塞。Spectrum-X以太网能够根据交换机的实时状态或队列占用情况,动态调整流量路径,确保数据高效流动,这就像一个智能导航应用,能够根据实时路况为你重新规划路线,避开拥堵。
外部上下文获取(服务器到叶交换机到脊交换机到叶交换机到存储): 对于需要上下文信息的查询(例如向量数据库查询),请求通过RoCE(基于融合以太网的RDMA技术)流经叶-脊织网,抵达基于NVMe的存储系统。Spectrum-X以太网具有无缝互操作性,并针对访问DDN、VAST Data和WEKA等合作伙伴平台上的数据的人工智能工作负载进行了性能优化,能够提供高达1.6倍的存储性能提升,确保数据检索如同“探囊取物”般迅速。
数据返回至GPU(存储到叶交换机到脊交换机到叶交换机到服务器): 相关的向量和嵌入内容通过相同的融合织网,经由RoCE返回。Spectrum-X以太网使得这条路径能够感知拥塞,并由DPU处理数据包重排序,以高效地为GPU提供数据。在此环节,QoS标记可以确保低延迟的存储数据得到优先处理,这一点在多个AI智能体同时通过南北向流量查询多个工具时尤为关键,它保证了关键数据始终能够优先抵达。
LLM推理与最终响应(GPU到叶交换机到用户): 在内存中同时拥有原始提示和相关外部上下文后,GPU完成推理。最终的响应被路由向上,并通过基础设施返回给用户应用程序。基于VRF的网络隔离确保了存储、推理和用户流量在逻辑上保持独立,从而在大规模部署时也能保证稳定的性能。
在多个AI智能体并发运行的环境中——无论是协作解决复杂任务,还是同时服务于多个用户查询——高效的南北向网络能够有效防止瓶颈出现,并维持一个流畅、响应迅速的系统。通过简化这些检索过程,企业能够实现更快的决策制定和更优质的用户体验。无论是应用于客户支持聊天机器人、金融咨询工具,还是内部知识管理平台,由高效南北向网络驱动的智能体AI和RAG架构,都能为企业带来实实在在的商业价值。
新媒网跨境预测,人工智能工作负载已不再局限于那些被“隐藏”在孤立环境中的大型训练集群。如今,它们正日益融入日常企业运营的方方面面,要求与数据湖、外部服务以及面向用户的应用程序进行无缝交互。在这个全新的范式下,南北向网络正以“人工智能工厂英雄”的姿态强势回归。凭借英伟达Spectrum-X以太网、英伟达BlueField以及基于英伟达企业级参考架构的精心设计,企业可以确保其人工智能工厂更具弹性、更高性能,并能随时准备好应对未来人工智能工作负载的演变与挑战。
如需了解更多基于英伟达企业级参考架构的解决方案信息,请咨询您的英伟达认证合作伙伴,以获取量身定制的部署策略。
了解更多:
- 英伟达认证系统
- 英伟达企业级参考架构
- 英伟达认证存储系统
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

评论(0)