紧急! NVIDIA新技术推动AI工厂网络革命

人工智能正在重新定义计算领域,作为其关键支柱的网络在现代数据中心尤为重要。大型语言模型的训练性能不仅依赖计算资源,还受到底层网络的灵活性、容量和智能水平的影响。目前,行业正在从传统的CPU集为中心的基础设施向紧密结合的、以GPU为驱动、以网络为定义的人工智能工厂转变。
NVIDIA打造了一整套网络解决方案,以应对现代AI训练和推断阶段暴发性的、高带宽、低延迟需求。这些解决方案包括Spectrum-X以太网、NVIDIA Quantum InfiniBand和BlueField平台。通过协同计算和通信,NVIDIA的网络系列为可扩展、高效和韧性的AI数据中心奠定了基础,将网络置于中心神经系统的角色,使未来AI创新充满活力。
人工智能工厂基础设施与传统企业数据中心有何区别?
在传统的企业数据中心中,一级交换机通常集成在每个服务器机架内,允许直接的铜缆连接到服务器,这样可以有效地降低功耗和组件复杂性。这一架构适合于网络传输需求较低的CPU集任务。
而由NVIDIA引领的现代AI工厂采用超密集计算机架和数千个GPU协作完成单一任务,它们需要在整个数据中心具备最大带宽和最低延迟。这导致了新的拓扑结构,将一级交换机重新布置到排尾端。这一配置显著增加了服务器与交换机之间的距离,使得光纤网络成为必要。这也因此导致了功耗和光纤组件数量的大幅增加,光学元件不仅用于NIC至交换机的连接,而且用于交换机至交换机的连接。
如图1所示,这一演变反映了满足大规模AI工作负载高带宽、低延迟需求所需的拓扑和技术的重大转变,重新塑造了数据中心的物理和能量布局。
如何优化AI工厂的网络可靠性和电力效率?
传统的网络交换机利用可插拔的光收发器,依赖于多种电气接口。在这种架构中,数据信号需要经过长距离电气路径从交换机ASIC到PCB、连接器,最终进入外部光收发器,然后转换为光信号。这段分段旅程造成了巨大的电气损失,如200Gbps信道损失可达22 dB,如下面的图2所示。这加剧了对复杂数字信号处理和多个主动组件的需求。
结果是更高的功耗(通常每个接口30W),增加的热输出,以及潜在故障点的增加。大量的离散模块和连接不仅增加了系统功耗和组件数量,还直接破坏了链路可靠性,成为AI部署规模扩大的持续运营挑战。如下图3所示是典型组件的功耗情况。
与此形成对照的是,使用合作封装光学(CPO)的交换机将电光转换直接集成到交换机封装中。光纤直接连接到紧邻ASIC的光引擎,将电气损失减少到仅约4 dB,并将功耗降至最低至9W。通过简化信号路径并消除不必要的接口,这一设计显著提升了信号完整性、可靠性和能源效率,正是高密度、高性能AI工厂所需的。
AI工厂中的合作封装光学有什么作用?
NVIDIA已设计出基于CPO系统以应对AI工厂前所未有的需求。通过将光引擎直接集成到交换机ASIC中,新的NVIDIA Quantum-X Photonics和Spectrum-X Photonics(如图4所示)将取代传统可插拔光收发器。这些新的产品简化了信号路径,增强了性能、效率和可靠性。这些创新不仅在带宽和端口密度上创造了新纪录,而且从根本上改变了AI数据中心的经济和物理设计。
Quantum-X Photonics引领InfiniBand网络的新世代
随着NVIDIA Quantum-X InfiniBand Photonics的推出,NVIDIA将InfiniBand交换机技术提高到新的高度。该平台具备以下特性:
- 115 Tb/s的交换容量,每个端口支持800 Gb/s的144端口
- 第四代NVIDIA Scalable Hierarchical Aggregation Reduction Protocol (SHARP)技术具备的14.4 teraflops网络计算能力
- 液冷优异的热管理
- 专用的InfiniBand管理端口,以稳定的带内控制和监控
NVIDIA Quantum-X利用集成硅光子技术实现了超高带宽、超低延迟和操作韧性。合作封装的光设计减少了功耗,提高了可靠性,支持AI任务所需的巨大的互联需求。
Spectrum-X Photonics如何实现大规模以太网AI工厂
通过将CPO技术扩展到以太网,NVIDIA Spectrum-X Photonics交换机专为生成AI和大规模LLM训练及推断任务而设计。新的Spectrum-X Photonics产品线包括基于Spectrum-6 ASIC的两款液冷机箱:
- Spectrum SN6810:提供102.4 Tb/s带宽,每个端口支持800 Gb/s的128端口
- Spectrum SN6800:提供409.6 Tb/s带宽,每个端口支持800 Gb/s的512端口
这两款平台都由NVIDIA硅光子提供动力,显著减少了离散组件和电气接口的数量。结果是比以前的方案提高3.5倍的电力效率,并通过减少可能故障的光组件总数提升10倍的韧性。技术人员受益于改进的可服务性,而AI操作者则能享受到1.3倍的启动速度和更快的首次令牌响应时间。
这些合作封装的光学技术由稳定的伙伴生态系统所支持。这种跨行业的合作不仅确保了技术性能,还满足了大规模的全球AI基础设施部署所需的制造可扩展性和可靠性。
合作封装光学如何带来性能、电力和可靠性突破
合作封装光学的优势显而易见:
- 3.5倍电力效率:通过消除可插拔收发器并将光学直接集成到交换机ASIC封装,所需的每端口功耗大幅减少,即便网络密度上升。
- 10倍更高韧性:减少离散主动组件及去除容易出故障的收发器,提升了正常运行时间和操作可靠性。
- 1.3倍更快的启动速度:简化的组装和维护转化为加速的部署和迅速扩展的AI工厂。
这些交换机系统实现了业内领先的带宽(高达409.6 Tb/s和每端口800 Gb/s的512端口),并通过高效液冷技术处理密集的高瓦环境。图5显示了单量子-X光子Q3450及两款Spectrum-X光子变体——单ASIC SN6810和集成纤维混合的四ASIC SN6800。这些产品支持网络架构的变革,应对AI任务提出的无限带宽和超低延迟要求。通过与顶级光组件和强大的系统集成合作伙伴共同创造的架构,优化了当前和未来的扩展需求。在超大规模数据中心要求更快的部署和极高的可靠性时,CPO从创新转变为必要。
如何引领智能AI的下个时代
NVIDIA Quantum-X和Spectrum-X光子交换机表明网络正为规模化AI的需求而建。通过消除传统电气和可插拔架构的瓶颈,这些合作封装光学系统提供了现代AI工厂所需的性能、电力效率和可靠性。
NVIDIA Quantum-X InfiniBand交换机的商业供应计划于2026年初,而Spectrum-X以太网交换机则预计在2026年下半年推出,设立了智能AI时代网络优化的标准。请期待该博客的第二部分,我们将深入探讨这些创新平台的内部结构。我们将深入探索动力NVIDIA Quantum-X光子和Spectrum-X光子的硅光子发动机的架构与运作,揭示实现下一代光连接的核心创新与工程突破。从芯片集成进步到新颖的调制方案,下一篇将揭示这些光引擎在AI网络世界为何独一无二。
如需了解更多关于NVIDIA Photonics的信息,请访问此页面。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。








粤公网安备 44011302004783号 














评论(0)