NVIDIA XGS:AI全球协同,性能暴涨1.9倍!

2025年,全球人工智能(AI)技术正经历着前所未有的蓬勃发展,其影响力渗透到各行各业,尤其是对跨境电商、智能制造和金融科技等领域的中国企业而言,AI已成为驱动创新和提升竞争力的核心引擎。从需要海量计算资源的大规模模型训练,到对低延迟有严格要求的实时推理任务,AI工作负载对数据中心基础设施提出了日益严苛的需求。
然而,传统的单一物理数据中心在电力供应、散热能力以及物理空间等方面存在固有局限,这些瓶颈往往制约了AI计算规模的进一步扩张。为了突破这些限制,许多企业开始在全球范围内构建并运营多个分布式数据中心。在这种背景下,如何将这些地理上分散的计算资源有效整合,使其能够高效协同地完成单一训练任务或处理解耦推理工作,成为了当前技术发展中亟待解决的关键问题。
过去,在连接不同区域的数据中心时,我们通常依赖于基于通用商用芯片构建的长距离以太网方案。这类方案的主要目标是确保数据能够成功抵达目的地。但随着传输距离的增加和网络延迟的累积,数据传输中出现拥堵的可能性也随之提高,并可能带来严重的负面影响。
为了缓解这一挑战并防止数据包丢失,传统的以太网供应商常采用大容量数据包缓存(即“深缓冲区”)技术来吸收网络流量的瞬时高峰。虽然这种深缓冲区交换机为长途服务提供商和电信运营商提供了一种解决方案,但它们在应用于高性能AI工作负载时,却引入了新的问题。
具体而言,带有深缓冲区的交换机本身就伴随着较高的延迟。更重要的是,当缓冲区接近饱和时,它需要时间进行“排空”。对于对时效性要求极高的AI任务来说,这种排空过程是不可预测的,会导致数据传输的“抖动”,即数据送达时间的显著波动。这种由“缓冲吸收”技术带来的高延迟和不确定性,对于本质上是同步且需要网络提供可预测性能的AI训练和解耦推理任务而言,是亟待解决的难题。
本文将深入探讨NVIDIA Spectrum-XGS以太网技术如何通过“跨地域扩展网络”(scale-across networking),为AI应用提供所需的高性能数据中心互联能力。
什么是跨地域扩展网络?
跨地域扩展网络是AI计算架构互联领域的一个全新概念,可以被视为现有“纵向扩展”(scale-up)和“横向扩展”(scale-out)连接方式之外的“第三维度”。它代表着一种创新的网络连接模式。借助基于NVIDIA Spectrum-XGS以太网的跨地域扩展网络,位于不同区域、规模各异的多个数据中心能够被统一起来,共同构成一个大型的AI“工厂”。
这意味着,首次有网络技术能够为跨越地理限制的单一大型AI训练任务和推理工作提供所需的高性能,实现前所未有的计算协同。对于许多拥有全球化业务布局的中国企业来说,这项技术无疑为构建全球统一的AI基础设施提供了新的路径。
NVIDIA Spectrum-XGS以太网如何实现跨地域扩展网络?
NVIDIA Spectrum-XGS以太网是NVIDIA Spectrum-X以太网平台推出的一项最新技术。它基于相同的硬件组合——即Spectrum-X以太网交换机和ConnectX-8 SuperNICs,并沿用了用于数据中心内部横向扩展连接的软件和库堆栈。
Spectrum-XGS以太网所提供的连接,是针对AI工厂之间超过500米的长距离互联。这可能意味着连接同一园区内的不同建筑,也可能是跨越数公里、数十公里乃至数百公里的城市或省份甚至国家之间的互联。为了使这种跨地域连接变得可行,负责确保高有效带宽和性能隔离的算法必须进行革新和演进。
距离感知算法在跨地域扩展网络中扮演什么角色?
在长距离传输数据时,一个主要挑战是随之而来的延迟增加,即便数据以光速在光纤中传播,这种延迟也无法避免。数据在光纤玻璃股中传播的速度大约是每米5纳秒。这意味着传输1公里需要5微秒。这些数字在绝对值上看起来很小,但对于GPU之间的通信而言,每一微秒都至关重要。
Spectrum-XGS以太网采用了经过优化的遥测式拥塞控制和自适应路由算法,这些算法能够“感知”通信设备之间的距离。每当建立连接时,网络会识别这两个设备是位于同一数据中心内部,还是相隔较远。
这种距离感知能力有助于交换机更好地进行负载均衡和自适应路由决策,并指导SuperNIC如何调整注入速率以实现拥塞控制。在网络层面,这使得Spectrum-XGS以太网能够更全面地处理通信,同时避免引入额外的延迟。对于中国跨境企业而言,这意味着即使其AI算力部署在全球各地,也能实现近似于本地数据中心的高效协同。
Spectrum-XGS以太网技术在跨地域扩展网络中带来了一系列关键优势,这些优势对于在全球化背景下运营的中国企业尤为重要:
集成统一的网络架构:Spectrum-X以太网的横向扩展和Spectrum-XGS以太网的跨地域扩展都基于相同的硬件、软件和库。这种统一性使得工作负载管理和网络运营能够采用一致的策略,这是传统通用以太网解决方案无法比拟的。它简化了全球AI基础设施的部署和维护。
端到端、基于遥测的拥塞控制:统一的架构也带来了对网络全局可见性的提升。通过获取数据中心内部和外部的全面遥测数据,基于遥测的拥塞管理可以在无需深缓冲区交换机的情况下实现,有效避免了传统方案带来的延迟和不确定性。这对于确保全球AI训练任务的流畅运行至关重要。
智能自适应的负载均衡:Spectrum-X以太网AI架构不仅能够感知距离,还与NVIDIA集体通信库(NCCL)深度集成。它能够根据不同地域的网络流量模式进行调整和补偿,并动态调整阈值和限制,以确保达到最高性能。这对于应对全球各地复杂的网络环境具有显著优势。
最小化跨地域工作负载延迟:Spectrum-XGS以太网经过精心调优,旨在提供可预测的网络结果。它能够智能地识别并补偿长距离数据流传输带来的额外延迟,有效避免了因传统深缓冲区机制可能导致的传输抖动风险,确保了AI任务在不同区域间的协同工作能够稳定、高效进行。
弹性可扩展的跨地域容量:由于相同的硬件既可以用于数据中心内部的横向扩展,也可以用于跨地域的互联,因此网络资源可以灵活地重新分配,以支持内部或外部数据中心的流量需求。相比之下,传统的浅缓冲区以太网交换机通常无法重新配置以用于长距离连接。这种灵活性使得中国企业能够根据全球业务发展,更高效地利用其AI基础设施投资。
NVIDIA Spectrum-XGS以太网带来哪些性能优势?
为了直观展示NVIDIA Spectrum-XGS以太网在跨地域性能上的表现,NVIDIA的工程师们在相距10公里的多个地点运行了NCCL(NVIDIA Collective Communications Library)原语,并将其结果与传统通用以太网进行了对比。2025年的测试结果,如下图所示,展现了显著的优势:
NVIDIA Spectrum-XGS以太网在NCCL all-reduce带宽方面,比传统通用以太网提升高达1.9倍。尤其是在处理大消息量时,性能提升最为显著,而大消息量正是AI训练工作负载中最常见的场景。这些对NCCL性能的改进,直接意味着AI应用的作业完成时间将大大缩短,从而显著加速AI模型的开发与部署进程,为中国企业在全球AI竞赛中赢得宝贵时间。
跨地域扩展网络如何提升AI工厂的投资回报率?
NVIDIA Spectrum-XGS以太网显著增强了AI基础设施的灵活性和可互换性。通过引入这项能够使数据中心在任何距离上进行通信而性能不下降的技术,Spectrum-XGS以太网在横向扩展和跨地域扩展网络之间构建了一个通用架构。这意味着基于Spectrum-XGS以太网构建的以太网数据中心,无论地理位置相距多远,都能够轻松组合起来,作为一个统一的整体协同运作。
这种能力使得基于Spectrum-XGS构建的以太网数据中心能够无缝地结合起来,像一个单一系统那样运行,无论它们之间的物理距离有多远。这不仅提升了关键AI基础设施的资源池化能力,也确保了其能够持续为先进的AI工作负载提供稳定且高效的价值。对于中国跨境行业的从业者而言,这意味着可以更高效地整合全球资源,降低运营成本,加速AI产品和服务的全球化部署,从而提升整体投资回报率。
欲了解更多关于NVIDIA Spectrum-X以太网背后的技术创新,建议关注NVIDIA Spectrum-X网络平台架构的相关信息。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/nvidia-xgs-ai-global-synergy-1.9x-boost.html


粤公网安备 44011302004783号 













