AI计算新突破!HetCCL打通英伟达AMD,异构GPU零代码协同。

在当前数据中心日益增长的计算需求背景下,尤其是在人工智能(AI)领域,高性能网络通信与节点本身的计算速度同样关键。长期以来,AI开发者在构建GPU集群时,常常受限于不同硬件供应商提供的特定网络通信库,例如英伟达的NCCL或AMD的RCCL。这些库虽然高效,但其固有的封闭性也造成了跨平台集成的难题。
近日,一项由韩国科学家团队提出的新型软件库——HetCCL,有望打破这一僵局。新媒网跨境获悉,该库旨在实现供应商无关的解决方案,允许由英伟达和AMD两家供应商GPU组成的集群能够作为一个统一的整体协同工作。这项研究成果标志着在异构计算领域迈出了重要一步,为数据中心管理者和AI开发者提供了前所未有的灵活性。
异构集群通信的突破:HetCCL的诞生与核心机制
在数据中心环境中,尽管单个设置中多GPU间的通信相对直接,但跨网络节点间的集体通信(collective communication)往往需要依赖远程直接内存访问(RDMA)技术。RDMA允许应用程序直接将数据传输到网络中远程设备的内存(在本例中是GPU显存),从而绕过了传统的驱动程序、TCP/IP协议栈以及操作系统网络层,大幅减少了中央处理器(CPU)的开销和延迟。这种“点对点”的直接数据传输方式,对于AI训练中大量且频繁的数据交换至关重要。
HetCCL的核心创新在于其作为供应商特定通信库(CCL)的“直接替代品”角色。该研究论文的作者团队指出,HetCCL是全球首个能够实现多项功能同时满足的即插即用型库。它不仅支持跨平台通信,还能在异构GPU集群中实现负载均衡。HetCCL最大的亮点在于,它能够使多供应商部署在实际操作中变得可行,允许开发者充分利用英伟达和AMD服务器机架的聚合计算能力来完成特定任务。
简便易用:代码零改动的实现路径
除了技术上的突破,HetCCL的另一个显著优势在于其对现有应用代码的侵入性极小。据研究团队介绍,该库旨在成为一个直接的库替换方案。这意味着,开发者只需将他们的应用程序链接到HetCCL代码,而无需再链接到特定供应商的CCL。这类似于在游戏中更换一个DLL文件以注入高级后处理滤镜,整个过程无需对应用程序甚至驱动程序的任何源代码进行修改。这种“零代码改动”的特性,大大降低了开发者采纳新技术的门槛,也彰显了HetCCL团队在设计之初就考虑到了易用性和兼容性。
面向未来的扩展性与性能表现
HetCCL还隐含地为未来可能出现的任何新GPU供应商提供了支持。一旦应用程序链接到HetCCL,其数据传输调用就不再需要关心最终是否到达英伟达或AMD的GPU,这为未来的硬件迭代和市场竞争留下了广阔空间。更为引人注目的是,HetCCL在实现上述所有功能的同时,其额外开销微乎其微,甚至在某些情况下,由于更好的默认调优参数,其性能表现能够超越原始的供应商特定CCL。
为了验证HetCCL的潜力,研究人员在一个四节点集群上进行了测试,其中包括2个节点各配备4块英伟达GPU,以及2个节点各配备4块AMD GPU。需要注意的是,这些测试结果并非旨在进行跨供应商的性能基准比较,而是为了说明HetCCL在有限测试资源下的潜力。测试所使用的英伟达系统配备的是PCIe 3.0 GPU,而AMD系统则采用了PCIe 4.0单元,这在2026年均属于较早期的硬件配置。
HetCCL all-reduce性能样本 (图片来源: HetCCL研究团队)
HetCCL RDMA带宽测试 (图片来源: HetCCL团队)
在多项测试中,HetCCL的表现均接近理论上的最大值,通过无缝整合英伟达和AMD的计算能力,展示了其令人瞩目的成就。尽管在不同的配置和工作负载下,实际性能可能有所差异,但在理想条件下,HetCCL有望显著降低模型训练的成本。因为同时高效利用英伟达和AMD的GPU,意味着任务不再需要被拆分到不同的集群中等待彼此,从而提升了整体效率。这也有望节省在管理这些任务上的人力投入。
市场挑战与未来展望
尽管HetCCL展现出巨大的潜力,但在实际部署中仍面临一些现实挑战。外媒分析指出,目前主流AI数据中心通常倾向于选择单一GPU供应商,这不仅涉及到硬件选择,更深层的原因在于软件生态系统的绑定。例如,英伟达的CUDA生态系统已成为行业事实上的标准。此外,系统管理员通常出于维护和支持的便利性考虑,也倾向于坚持使用单一供应商的解决方案。
另一个值得关注的限制是,HetCCL虽然成功抽象化了网络层,但模型训练及大多数AI相关的任务在数据中心层面仍包含大量的GPU特定代码和设置优化。这意味着,无论网络层面的跨平台兼容性做得多么完善,这些GPU固有的编程和优化限制依然存在。
然而,这些挑战并未削弱HetCCL的战略意义。HetCCL的出现,核心目的正是要证明,移除阻碍异构设置普及的主要障碍是可行的。新媒网跨境了解到,其成功示范将激励更多研究者和行业参与者探索类似的供应商无关解决方案。从长远来看,随着AI计算需求持续爆发式增长,以及对成本效率和供应链灵活性的更高要求,HetCCL所代表的异构计算路径,有望为数据中心架构和AI硬件市场带来深远影响。中国跨境行业对此类能够提升资源利用率、降低运营成本的底层技术创新保持高度关注,因为它们直接关系到企业在全球数字经济中的竞争力。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/hetccl-breaks-nvidia-amd-gpu-code-zero-sync-for-ai.html


粤公网安备 44011302004783号 











