紧急! NVIDIA新技术推动AI工厂网络革命

人工智能正在重新定义计算领域，作为其关键支柱的网络在现代数据中心尤为重要。大型语言模型的训练性能不仅依赖计算资源，还受到底层网络的灵活性、容量和智能水平的影响。目前，行业正在从传统的CPU集为中心的基础设施向紧密结合的、以GPU为驱动、以网络为定义的人工智能工厂转变。

NVIDIA打造了一整套网络解决方案，以应对现代AI训练和推断阶段暴发性的、高带宽、低延迟需求。这些解决方案包括Spectrum-X以太网、NVIDIA Quantum InfiniBand和BlueField平台。通过协同计算和通信，NVIDIA的网络系列为可扩展、高效和韧性的AI数据中心奠定了基础，将网络置于中心神经系统的角色，使未来AI创新充满活力。

人工智能工厂基础设施与传统企业数据中心有何区别？

在传统的企业数据中心中，一级交换机通常集成在每个服务器机架内，允许直接的铜缆连接到服务器，这样可以有效地降低功耗和组件复杂性。这一架构适合于网络传输需求较低的CPU集任务。

而由NVIDIA引领的现代AI工厂采用超密集计算机架和数千个GPU协作完成单一任务，它们需要在整个数据中心具备最大带宽和最低延迟。这导致了新的拓扑结构，将一级交换机重新布置到排尾端。这一配置显著增加了服务器与交换机之间的距离，使得光纤网络成为必要。这也因此导致了功耗和光纤组件数量的大幅增加，光学元件不仅用于NIC至交换机的连接，而且用于交换机至交换机的连接。

如图1所示，这一演变反映了满足大规模AI工作负载高带宽、低延迟需求所需的拓扑和技术的重大转变，重新塑造了数据中心的物理和能量布局。
传统数据中心与AI工厂对比

如何优化AI工厂的网络可靠性和电力效率？

传统的网络交换机利用可插拔的光收发器，依赖于多种电气接口。在这种架构中，数据信号需要经过长距离电气路径从交换机ASIC到PCB、连接器，最终进入外部光收发器，然后转换为光信号。这段分段旅程造成了巨大的电气损失，如200Gbps信道损失可达22 dB，如下面的图2所示。这加剧了对复杂数字信号处理和多个主动组件的需求。
传统可插拔光学与合作封装光学的信号完整性比较

结果是更高的功耗（通常每个接口30W），增加的热输出，以及潜在故障点的增加。大量的离散模块和连接不仅增加了系统功耗和组件数量，还直接破坏了链路可靠性，成为AI部署规模扩大的持续运营挑战。如下图3所示是典型组件的功耗情况。
典型组件功耗比较

与此形成对照的是，使用合作封装光学（CPO）的交换机将电光转换直接集成到交换机封装中。光纤直接连接到紧邻ASIC的光引擎，将电气损失减少到仅约4 dB，并将功耗降至最低至9W。通过简化信号路径并消除不必要的接口，这一设计显著提升了信号完整性、可靠性和能源效率，正是高密度、高性能AI工厂所需的。

AI工厂中的合作封装光学有什么作用？

NVIDIA已设计出基于CPO系统以应对AI工厂前所未有的需求。通过将光引擎直接集成到交换机ASIC中，新的NVIDIA Quantum-X Photonics和Spectrum-X Photonics（如图4所示）将取代传统可插拔光收发器。这些新的产品简化了信号路径，增强了性能、效率和可靠性。这些创新不仅在带宽和端口密度上创造了新纪录，而且从根本上改变了AI数据中心的经济和物理设计。
NVIDIA Photonics 交换机ASIC与合作封装硅光子发动机集成

Quantum-X Photonics引领InfiniBand网络的新世代

随着NVIDIA Quantum-X InfiniBand Photonics的推出，NVIDIA将InfiniBand交换机技术提高到新的高度。该平台具备以下特性：

115 Tb/s的交换容量，每个端口支持800 Gb/s的144端口
第四代NVIDIA Scalable Hierarchical Aggregation Reduction Protocol (SHARP)技术具备的14.4 teraflops网络计算能力
液冷优异的热管理
专用的InfiniBand管理端口，以稳定的带内控制和监控

NVIDIA Quantum-X利用集成硅光子技术实现了超高带宽、超低延迟和操作韧性。合作封装的光设计减少了功耗，提高了可靠性，支持AI任务所需的巨大的互联需求。

Spectrum-X Photonics如何实现大规模以太网AI工厂

通过将CPO技术扩展到以太网，NVIDIA Spectrum-X Photonics交换机专为生成AI和大规模LLM训练及推断任务而设计。新的Spectrum-X Photonics产品线包括基于Spectrum-6 ASIC的两款液冷机箱：

Spectrum SN6810：提供102.4 Tb/s带宽，每个端口支持800 Gb/s的128端口
Spectrum SN6800：提供409.6 Tb/s带宽，每个端口支持800 Gb/s的512端口

这两款平台都由NVIDIA硅光子提供动力，显著减少了离散组件和电气接口的数量。结果是比以前的方案提高3.5倍的电力效率，并通过减少可能故障的光组件总数提升10倍的韧性。技术人员受益于改进的可服务性，而AI操作者则能享受到1.3倍的启动速度和更快的首次令牌响应时间。

这些合作封装的光学技术由稳定的伙伴生态系统所支持。这种跨行业的合作不仅确保了技术性能，还满足了大规模的全球AI基础设施部署所需的制造可扩展性和可靠性。

合作封装光学如何带来性能、电力和可靠性突破

合作封装光学的优势显而易见：

3.5倍电力效率：通过消除可插拔收发器并将光学直接集成到交换机ASIC封装，所需的每端口功耗大幅减少，即便网络密度上升。
10倍更高韧性：减少离散主动组件及去除容易出故障的收发器，提升了正常运行时间和操作可靠性。
1.3倍更快的启动速度：简化的组装和维护转化为加速的部署和迅速扩展的AI工厂。

这些交换机系统实现了业内领先的带宽（高达409.6 Tb/s和每端口800 Gb/s的512端口），并通过高效液冷技术处理密集的高瓦环境。图5显示了单量子-X光子Q3450及两款Spectrum-X光子变体——单ASIC SN6810和集成纤维混合的四ASIC SN6800。这些产品支持网络架构的变革，应对AI任务提出的无限带宽和超低延迟要求。通过与顶级光组件和强大的系统集成合作伙伴共同创造的架构，优化了当前和未来的扩展需求。在超大规模数据中心要求更快的部署和极高的可靠性时，CPO从创新转变为必要。
Quantum-X光子和Spectrum-X光子交换机系统

如何引领智能AI的下个时代

NVIDIA Quantum-X和Spectrum-X光子交换机表明网络正为规模化AI的需求而建。通过消除传统电气和可插拔架构的瓶颈，这些合作封装光学系统提供了现代AI工厂所需的性能、电力效率和可靠性。

NVIDIA Quantum-X InfiniBand交换机的商业供应计划于2026年初，而Spectrum-X以太网交换机则预计在2026年下半年推出，设立了智能AI时代网络优化的标准。请期待该博客的第二部分，我们将深入探讨这些创新平台的内部结构。我们将深入探索动力NVIDIA Quantum-X光子和Spectrum-X光子的硅光子发动机的架构与运作，揭示实现下一代光连接的核心创新与工程突破。从芯片集成进步到新颖的调制方案，下一篇将揭示这些光引擎在AI网络世界为何独一无二。

如需了解更多关于NVIDIA Photonics的信息，请访问此页面。

新媒网（公号: 新媒网跨境发布），是一个专业的跨境电商、游戏、支付、贸易和广告社区平台，为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源：新媒网 https://nmedialink.com/posts/16305.html