DeepSeek-R1实测!Wide-EP吞吐翻1.8倍,跨境AI成本巨降
2025年,全球人工智能技术正以前所未有的速度发展,尤其是大型语言模型(LLMs)的出现,彻底改变了我们对计算能力和应用场景的认知。这些模型参数量庞大,动辄千亿甚至万亿,为实现更高级别的智能交互和复杂任务处理提供了可能。然而,伴随模型规模的急剧增长,如何在实际部署中高效、经济地提供推理服务,成为了横亘在技术人员面前的巨大挑战。传统的单GPU推理已远不能满足需求,模型并行化技术应运而生,成为当前构建可扩展、高性能AI部署的基石。
在这场算力竞赛中,混合专家(MoE)架构模型凭借其独特的优势脱颖而出。这类模型在推理时只激活部分专家,大大减少了每次计算所需的参数量,从而在理论上比密集型模型更为高效。DeepSeek-R1这类拥有256个专家、参数规模高达6710亿的模型,正是MoE架构在大型化趋势下的典型代表。然而,MoE模型的扩展并非易事,它对并行计算、通信效率和任务调度提出了更为复杂且严格的要求。如何优化这些关键环节,是决定MoE模型能否发挥其潜力的关键。而“专家并行”(Expert Parallelism, EP),作为一种巧妙的策略,通过将专家模块分散部署到多个GPU上,有效解决了上述难题,为释放MoE模型的强大性能铺平了道路。当前,“广域专家并行”(Wide-EP)这样的新工具,如NVIDIA TensorRT-LLM中集成的方案,正让大规模MoE模型的部署变得更加高效,显著提升了性能表现,并优化了整体拥有成本(TCO)。
作为身处中国跨境数字经济前沿的我们,深知技术创新对业务发展的重要性。理解这些底层技术如何在NVL72机架规模系统上影响大型专家并行的性能表现,以及它如何重塑推理服务的经济效益,对于我们把握未来的数字机遇至关重要。
大型专家并行:化解超大规模模型部署的算力困境
专家并行(EP)本质上是一种模型并行技术,它将MoE模型的专家单元分散部署到多个图形处理器(GPU)上,旨在充分利用这些GPU的聚合计算和内存带宽。在模型规模较小的时候,EP通过在不同设备间平衡工作负载,有助于减轻内存压力,并确保GPU利用率维持在较高水平。
到了2025年,随着DeepSeek-R1这类模型参数规模突破数千亿,专家数量达到数百个,EP技术也必须随之扩展其应用范畴,由此催生了我们所称的“大型专家并行”。在当前语境下,大型EP特指将专家单元分配到八个或更多GPU上的过程。这种部署方式通过增加聚合带宽,能够更快地加载模型权重,并支持更大的有效批处理尺寸,从而显著提升GPU的整体利用效率。
MoE模型的一大优势在于推理过程中仅激活一小部分专家,这极大地降低了每个Token的计算需求。要实现这一点,MoE模型需要在每个Token、每个层级的基础上动态加载激活专家的权重。在追求高吞吐量和低延迟的场景中,权重加载的开销可能会迅速成为MoE GroupGEMMs这类特定计算过程的主要瓶颈。
MoE GroupGEMMs可以形象地理解为:所有Token如同同时涌向同一个收银台,以便能高效地一次性处理。在技术层面,它们是一组批处理的矩阵乘法,将每个专家的Token打包成一个大型计算任务。这种做法提高了算术强度,但前提是在执行乘法运算之前,必须将每个专家的权重加载到片上内存或寄存器中。
大型专家并行通过在专家并行配置中引入更多GPU,有效地减少了每个GPU上需要承载的专家数量,从而缓解了MoE GroupGEMM面临的部分瓶颈。这种策略带来了多重益处:
- 权重加载压力显著降低: 每个GPU需要处理的专家权重集合更小,减轻了内存负担。
- 权重复用效率提升: GroupGEMM内核可以更容易地复用已加载的权重,从而提高了算术强度(即每个加载字节的浮点运算量更大)。
- 内核内部计算与内存的平衡更优: 实现了更佳的资源协调,提升了处理效率。
虽然大型EP有助于克服小规模EP的局限性,但也引入了新的系统级制约,使得大规模MoE模型的扩展面临挑战。正是在这种背景下,TensorRT-LLM的广域专家并行(Wide-EP)技术应运而生。它通过在算法层面优化计算和内存瓶颈,并在系统和架构层面有效管理工作负载,为解决这些难题提供了关键支持。
接下来,我们将探讨Wide-EP如何与GB200 NVL72系统协同,共同为可扩展、高效的MoE推理奠定坚实基础。
要实现专家并行的规模化部署,并非简单地堆叠更多GPU。它对系统设计和架构提出了更高要求,以确保内存传输和数据通信的效率始终处于最佳状态。互连带宽和拓扑结构是基础,它们保障了激活数据和权重能够在设备之间顺畅流动。在此基础上,优化的软件和内核通过通信原语、带宽感知调度和负载均衡等机制,精细管理专家之间的流量。这些能力的协同作用,使得大规模专家并行在实践中既可行又高效。
NVLink互联架构:大型专家并行通信的基石
在大型专家并行(EP)部署中,通信开销无疑是最大的瓶颈之一。在推理的解码阶段,分布式专家之间必须进行信息交换,以整合系统内多个GPU的输出,然后才能将结果传递到下一个转换器模块或最终的Softmax层。举例来说,当我们在64个GPU上部署DeepSeek-R1的256个专家,且每个Token激活8个专家时(如下图所示),通信成本的高低,将取决于特定层级激活了哪些专家以及这些专家权重所处的位置。
虽然大型EP确实能够有效降低激活专家的权重加载开销,但这种优势很可能会被Token收集(token-gather)过程中产生的通信开销所抵消。这些操作必须整合分布式输出,并在将Token传递给后续转换器块或最终的softmax层之前重新排序。如果没有NVL72系统提供的130 TB/s聚合带宽,这种复杂的通信模式所带来的开销将使大型EP的实用性大打折扣,甚至变得不切实际。这进一步凸显了底层硬件互联能力对于支撑先进AI模型部署的关键作用。
NCCL核心优化:智能路由与高效负载均衡
MoE模型之所以强大,在于其利用路由机制,能够为每个Token动态选择最合适的专家。这意味着在每个转换器块中,Token在经过专家层处理后,都需要进行逐Token的分发和聚合。其中涉及的全对全(all-to-all)操作,在解码阶段很容易导致内存瓶颈,迅速饱和系统资源。
为了应对这些挑战,定制化的EP通信内核变得至关重要。对于GB200 NVL72系统,我们观察到业界已经开发出定制内核,以确保CUDA图(CUDA graph)兼容多种机架规模的部署场景。其中值得一提的是专为GB200 NVL72设计的定制高性能NCCL内核,它们能够直接从GPU内存接收通信尺寸,并充分利用NVL72的聚合内存优势,从而有效处理大型EP部署中非静态数据尺寸的问题。这些定制化的EP内核显著提升了通信效率,是支撑大规模MoE模型高效运行的核心技术之一。
在大型EP工作负载中,负载均衡是一项经典的分布式系统技术,它根据资源可用性分配任务,旨在最大化利用率同时避免任何单一系统组件过载。具体而言,负载均衡用于在可用GPU之间分配专家。例如,在运行Wide-EP DeepSeek-R1的GB200 NVL72机架上,如果EP设置为64(为了便于均匀划分),那么每个GPU的每层将分配四个专家,总计每个GPU分配232个专家。为了避免出现“热门专家”集中在同一GPU上,而“冷门专家”所在的GPU却闲置的负载不均衡情况,Wide-EP的专家并行负载均衡器(EPLB)采用策略将热门专家与冷门专家进行重新分配。这会触发一个权重更新过程,通过采用容器化设计来解决,允许专家在不中断CUDA图的情况下在容器分配之间流动。这些权重更新以非阻塞方式执行,安排在前向传播之间进行,确保了系统的持续高效运行。
EPLB能够以两种不同的模式运行,以适应不同的工作负载需求:
- 静态EPLB: 在部署之初或特定时间点进行一次性或周期性的专家分配优化,适用于工作负载模式相对稳定的场景。
- 在线EPLB: 在系统运行时动态监测专家使用情况,并实时调整专家分配,以应对流量波动或专家热门程度变化的场景,确保GPU资源的最佳利用。
软件生态协同:TensorRT-LLM与NVIDIA Dynamo的组合拳
在2025年,大规模部署DeepSeek R1或Llama 4这类MoE模型时,推理性能的优劣主要取决于两个关键支柱:解耦服务(disaggregated serving)和广域专家并行(Wide-EP)。NVIDIA Dynamo和TensorRT-LLM构成了实现这两者的软件基础,它们将传统的性能瓶颈转化为巨大的吞吐量提升和GPU高效利用的机遇。以下表格概述了Dynamo和Wide-EP之间的异同以及它们如何协同工作。
组件 | NVIDIA Dynamo | TensorRT-LLM Wide-EP |
---|---|---|
职责 | 用于解耦推理的编排层 | 用于专家并行解码的执行引擎 |
优化范围 | 在GPU池之间编排预填充和解码阶段 | 将少量专家分配到每个GPU,以优化每个Token的内存和计算利用率 |
SLA感知 | 通过SLA感知的自动扩缩容和动态速率匹配(TTFT & ITL) | 通过高效的专家调度最大化批处理并最小化延迟 |
流量适应 | 通过Dynamo Planner实时响应ISL/OSL波动 | 负载均衡专家分配以优化计算利用率 |
硬件协同 | 通过Kubernetes + Planner逻辑跨解耦GPU域进行扩展 | 利用高带宽域(例如NVL72)实现高效的专家通信 |
表1. NVIDIA Dynamo与TensorRT-LLM Wide-EP在专家并行推理中的比较,重点突出其职责、优化范围、SLA感知、流量适应和硬件协同。
从表格中不难看出,NVIDIA Dynamo主要负责上层的宏观调度和资源管理,确保系统在面对复杂多变的工作负载时,能够灵活适应并维持服务质量。它扮演着“大脑”的角色,统筹全局。而TensorRT-LLM Wide-EP则更像是执行层面的“精锐部队”,专注于优化单个GPU或一组GPU上的专家并行计算,确保每个Token的推理过程极致高效。两者结合,形成了一套完整的软件栈,既有高屋建瓴的调度智慧,又有深入底层的执行效率,共同为大规模MoE模型的稳定、高效运行提供了坚实保障。
性能与经济效益的深度洞察
在2025年这个时点,当能够利用GB200 NVL72机架内NVLink互联所创建的统一内存域时,优化大规模专家并行(EP)的关键因素主要集中在以下几个方面:
- 模型规模与专家数量: 模型本身的庞大规模和所包含的专家数量是决定其算力需求的基础。专家越多,分布越广,对并行化策略的要求也越高。
- 系统延迟与并发目标: 不同的应用场景对延迟和并发能力有不同的要求。例如,实时交互式AI应用对延迟极为敏感,而批量处理任务则更侧重高吞吐量。
- 硬件能力: 底层GPU的计算能力、显存容量、互联带宽以及整个系统的拓扑结构,直接决定了能够实现的并行化程度和效率。
在实际应用中,DeepSeek-R1这类模型是大型EP的理想候选者。在GB200 NVL72机架规模系统上,TensorRT-LLM的Wide-EP技术能够在这类模型上实现效率和吞吐量的最佳平衡。下面的帕累托前沿图清晰地展示了不同EP配置下的性能表现。
与小规模EP配置(EP8)相比,大规模EP配置(EP32)在DeepSeek-R1模型上实现了高达1.8倍的单GPU吞吐量提升。这一数据有力地证明了,通过利用大型专家并行和Wide-EP技术,可以显著提升模型推理的性能。除此之外,通过结合投机解码(speculative decoding)与多Token预测(MTP)技术,还有进一步提升每个用户Token吞吐量的潜力——这项功能已经与Wide-EP兼容,为未来的性能优化提供了广阔空间。
这些性能上的显著提升,不仅仅是技术指标的改善,更深远的影响在于对系统经济效益的重塑。更高的并发能力和更强的GPU效率,意味着每秒处理的Token数量显著增加,同时降低了服务大型模型的整体成本。这对于我们中国的跨境企业而言,无疑是降低AI应用部署门槛、提升竞争力的一大利好。
前瞻与展望:中国跨境行业的机遇
当前,广域专家并行(Wide-EP)在GB200 NVL72系统上的应用,为规模化部署大型MoE模型提供了切实可行的路径。通过将专家模块分散到更多的GPU上,有效减轻了权重加载的压力,显著提升了MoE GroupGEMM的执行效率。同时,它充分利用了GB200 NVL72系统高达130 TB/s的统一NVLink域,有效抵消了分布式通信带来的开销。在实际测试中,大型EP配置与小规模EP设置相比,实现了高达1.8倍的单GPU吞吐量提升,这无疑将吞吐量、延迟和GPU利用率的平衡点推向了更有利于高效大规模推理的方向。
从更广阔的层面来看,这项技术进步对系统经济效益的影响是深远的。通过实现更高的并发处理能力和更强大的GPU效率,Wide-EP在NVL72系统上提升了每秒处理Token的数量,从而降低了服务大型模型的整体成本。对于AI模型开发者而言,这意味着可以进一步探索TensorRT-LLM中的Wide-EP功能,以找到最适配其模型的配置方案。对于研究人员来说,它提供了更广阔的空间来进一步优化调度策略、负载均衡算法以及解码方法。对于基础设施团队,这清晰地展示了GB200 NVL72如何能够彻底改变万亿参数级别模型部署的整体拥有成本(TCO)状况。
对于身处中国跨境数字经济前沿的我们而言,这项技术进步无疑带来了巨大的机遇和深刻的启示。
首先,降低了AI服务出海的门槛。 随着模型部署成本的下降和效率的提升,更多中国企业可以考虑将自研或基于大型MoE模型的AI服务推向海外市场,无论是智能客服、个性化推荐、多语言内容生成还是跨境电商的智能辅助工具,都能以更低的成本和更高的性能触达全球用户。
其次,推动了跨境电商的智能化升级。 在2025年,跨境电商的竞争日益激烈。利用更高效的MoE模型,可以实现更精准的用户画像分析、更智能的商品推荐、更流畅的多语言交流以及更高效的供应链管理。Wide-EP技术确保了这些AI服务能够以合理的成本和极致的响应速度运行,提升消费者体验,助力中国品牌在全球市场中脱颖而出。
再者,加速了AI基础设施的自主创新。 尽管当前我们看到的是海外先进技术,但其背后所体现的算力优化思路和架构设计理念,对于中国本土AI芯片、云计算服务商以及数据中心建设者具有重要的借鉴意义。如何结合自身优势,构建出同样高效甚至更具竞争力的AI算力基础设施,是未来值得深耕的方向。
最后,培养了复合型技术人才的需求。 掌握AI大模型、并行计算、高性能网络和云原生部署等综合技能的人才将成为稀缺资源。中国企业需要积极投资人才培养,建立一支能够驾驭这些前沿技术的团队,以应对日益复杂的国际市场竞争。
总之,2025年,以Wide-EP为代表的AI算力优化技术,正在为全球大模型部署带来一场效率革命。对于中国的跨境行业从业者而言,这不仅是技术层面的进步,更是战略层面的机遇。我们应持续关注这类前沿动态,积极探索将这些高性能、低成本的AI算力方案融入到自身的业务发展中,勇于创新,把握新质生产力带来的发展红利,共同书写中国数字经济出海的新篇章。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/deepseek-r1-wide-ep-18x-tput-ai-cost-cut.html

评论(0)