AWS Trainium3能效狂飙4倍!HBM带宽超英伟达,跨境降本增效

在全球数字化浪潮的推动下,人工智能技术正以前所未有的速度发展,成为驱动各行各业创新的核心引擎。随之而来的是对算力需求的爆炸式增长,这使得高性能AI芯片和云基础设施成为全球科技巨头竞相投入的战略高地。尤其对于中国跨境电商、游戏、支付等数字产业从业者而言,理解并关注全球领先的算力发展趋势,对于优化自身业务、提升国际竞争力至关重要。2025年近期,全球领先的云计算服务商亚马逊云科技(AWS)重磅发布了其第三代AI训练和推理加速器——Trainium3,以及配套的Trn3 UltraServers机架级解决方案,这无疑为全球AI算力市场带来了新的变局。
AWS Trainium3的推出,标志着亚马逊云科技在自研AI芯片领域的又一次重大突破。该加速器旨在提供更高性能和更优成本效益的AI训练和推理能力。根据AWS的官方数据,与上一代Trainium2相比,Trainium3的运算速度提升了近一倍,能效更是提高了四倍。这使其在成本效益方面成为目前市场上最具竞争力的AI解决方案之一。在性能指标上,Trainium3单颗芯片可提供高达2,517 MXFP8 TFLOPS的浮点运算能力,虽然在单颗芯片性能上与英伟达(Nvidia)的Blackwell Ultra相比仍有差距,但AWS通过创新的系统集成策略,在Trn3 UltraServer中集成了144颗Trainium3芯片,使得其FP8性能可达到0.36 ExaFLOPS,这一数据已与英伟达的NVL72 GB300系统不相上下。这意味着,在机架级AI系统领域,亚马逊云科技正展现出足以挑战市场领导者的实力,这对于少数能与英伟达竞争的厂商来说,是一个非常重要的信号。
AWS Trainium3的技术亮点
Trainium3加速器采用了双芯片小芯片(dual-chiplet)设计,并配备了144GB的HBM3E高带宽内存,通过四个堆栈提供高达4.9 TB/s的峰值内存带宽。据推测,其计算小芯片可能由台积电(TSMC)采用3纳米级工艺制造,每个计算小芯片集成了四个NeuronCore-v4核心。这些核心的指令集架构(ISA)相比前代有所扩展,并与两个HBM3E内存堆栈相连。两个小芯片之间通过专有的高带宽接口连接,共享128个独立的硬件数据移动引擎(这是Trainium架构的关键),以及协调芯片间流量的集合通信核心,并提供四个NeuronLink-v4接口用于扩展连接。
为了更直观地对比Trainium3与市场同类产品的性能,以下表格罗列了相关加速器的关键参数:
| 加速器名称 | Trainium2 | Trainium3 | B200 | B300 (Ultra) |
|---|---|---|---|---|
| 架构 | Trainium2 | Trainium3 | Blackwell | Blackwell Ultra |
| 工艺技术 | ? | N3E或N3P | 4N | 4N |
| 物理配置 | 2 x 加速器 | 2 x 加速器 | 2 x 晶圆级GPU | 2 x 晶圆级GPU |
| 封装 | CoWoS-? | CoWoS-? | CoWoS-L | CoWoS-L |
| FP4 PFLOPs (每封装) | - | 2.517 | 10 | 15 |
| FP8/INT6 PFLOPs (每封装) | 1299 | 2.517 | 5 | 5 |
| INT8 POPS (每封装) | - | - | 50.3 | 3 |
| BF16 PFLOPs (每封装) | 0.667 | 0.67 | 12.5 | 2.5 |
| TF32 PFLOPs (每封装) | 0.667 | 0.67 | 1.15 | 1.25 |
| FP32 PFLOPs (每封装) | 0.18 | 0.18 | 3 | 0.08 |
| FP64/FP64 Tensor TFLOPs (每封装) | - | - | 40 | 1.3 |
| 内存 | 96 GB HBM3 | 144 GB HBM3E | 192 GB HBM3E | 288 GB HBM3E |
| 内存带宽 | 2.9 TB/s | 4.9 TB/s | 8 TB/s | 8 TB/s |
| HBM堆栈 | 8 | 8 | 8 | 8 |
| 互连带宽 | NeuronLink-v3 1.28 TB/s | NeuronLink-v4 2.56 TB/s | NVLink 5.0, 1.8 TB/s | NVLink 5.0, 1.8 TB/s |
| SerDes速度 (Gb/s单向) | ? | ? | 224G | 224G |
| GPU TDP | ? | ? | 1200 W | 1400 W |
| 配套CPU | 英特尔至强 | AWS Graviton和英特尔至强 | 72核Grace | 72核Grace |
| 发布年份 | 2024 | 2025 | 2024 | 2025 |
![]() |
||||
![]() |
NeuronCore-v4核心内部集成了四个执行单元:一个张量引擎、一个向量引擎、一个标量引擎和一个GPSIMD模块,以及32MB的本地SRAM。这种SRAM由编译器显式管理,而非通过缓存控制。从软件开发角度看,该核心围绕软件定义的数据流模型构建,数据通过DMA引擎加载到SRAM,由执行单元处理,然后写回。这种近内存累加机制使得DMA能够在一个事务中完成读-加-写操作。SRAM在不同核心之间不保持一致性,主要用于数据分块、暂存和累加,而非通用缓存。
其中,张量引擎是一个用于GEMM、卷积、转置和点积运算的脉动阵列式矩阵处理器,支持MXFP4、MXFP8、FP16、BF16、TF32和FP32输入,输出格式为BF16或FP32。每个核心在MXFP8/MXFP4模式下可提供315 TFLOPS,在BF16/FP16/TF32模式下提供79 TFLOPS,在FP32模式下提供20 TFLOPS。它还通过M:N模式(如4:16、4:12等)实现了结构化稀疏加速,可在支持的稀疏工作负载上实现相同的315 TFLOPS峰值性能。向量引擎主要用于向量变换,提供约1.2 TFLOPS的FP32性能,支持硬件转换为MXFP格式,并具备快速指数单元,其吞吐量是标量指数路径的四倍,对注意力工作负载尤为有利。该单元支持多种数据类型,包括FP8、FP16、BF16、TF32、FP32、INT8、INT16和INT32。标量引擎也提供约1.2 TFLOPS的FP32性能,用于控制逻辑和涉及FP8到FP32以及整数数据类型的小型操作。
NeuronCore-v4中最引人注目的组件或许是GPSIMD模块,它集成了八个完全可编程的512位向量处理器,可以在访问本地SRAM的同时执行C/C++编写的通用代码。GPSIMD集成在NeuronCore中,因为并非所有真实AI模型都能完美映射到张量引擎。现代AI工作负载包含大量用于非常规数据布局、后处理逻辑、索引和模型特定计算的代码。这些操作如果用矩阵运算来表达,效率不高或难以实现,而如果由主机CPU运行,又会引入延迟和昂贵的数据传输。GPSIMD通过在核心内部提供真正通用的可编程向量单元解决了这个问题,使得这些逻辑可以直接在张量旁边以全速运行,并利用相同的本地SRAM。
简而言之,NeuronCore-v4作为一个紧密耦合的数据流引擎运行,其中张量计算、向量变换、标量控制和自定义代码都共享一个32MB的本地暂存空间,并由Neuron编译器而非英伟达硬件上使用的warp调度器进行协调。
从性能上看,Trainium3在FP8(实际上是MXFP8)计算方面,比其前身Trainium2提升了近一倍,单颗芯片达到2.517 PFLOPS,虽然超过了英伟达H100/H200,但略低于Blackwell B200/B300。此外,Trainium3新增了MXFP4支持。然而,Trainium3在BF16、TF32和FP32的性能方面与Trainium2持平,这表明亚马逊云科技正将未来的训练和推理重心押注在MXFP8上。它似乎认为当前BF16(目前广泛用于训练)和FP32的性能已足够满足需求,因为这些格式现在主要用于梯度累加、主权重、优化器状态、损失缩放和一些对精度敏感的操作。
Trainium3还拥有一个值得一提的特色功能——逻辑NeuronCore配置(LNC)。该功能允许Neuron编译器将四个物理核心融合成一个更宽、自动同步的逻辑核心,该逻辑核心拥有组合的计算能力、SRAM和HBM资源,这对于处理超大AI模型中常见的超宽层或长序列长度场景尤为有用。
AWS的Trn3 UltraServers:与英伟达GB300 NVL72的直接竞争
英伟达近期几个季度的成功很大程度上得益于其机架级NVL72解决方案,该方案集成了72颗Blackwell GPU。这种系统支持大规模扩展和全对全拓扑结构,这对于混合专家模型(MoE)和自回归推理等场景至关重要。这使得英伟达在AMD和亚马逊云科技等自研加速器的开发商面前拥有巨大的优势。为了实现这一能力,英伟达投入了巨大的芯片工程努力,开发了NVLink交换机、复杂的网络卡和DPU。然而,亚马逊云科技的Trn3 UltraServers似乎正在对英伟达的GB300 NVL72构成强劲挑战。
以下是Trn3 UltraServers与英伟达同类机架级解决方案的对比:
| 名称 | Trn2 UltraServer | Trn3 Gen1 UltraServer | Trn3 Gen2 UltraServer | GB200 NVL72 | GB300 NVL72 |
|---|---|---|---|---|---|
| GPU架构 | Trainium2 | Trainium3 | Trainium3 | Blackwell | Blackwell Ultra |
| GPU/GPU+CPU | Xeon + Trainium3 | Xeon + Trainium3 | Graviton + Trainium3 | GB200 | GB300 |
| 计算小芯片 | 96 | 128 | 288 | 144 | 144 |
| GPU封装 | 48 | 64 | 144 | 72 | 72 |
| FP4 PFLOPs (密集) | - | 161.1 | 362.5 | 720 | 1080 |
| FP8 PFLOPS (密集) | 83.2 | 161.1 | 362.5 | 360 | 360 |
| FP16/BF16 PFLOPS (密集) | 164 (稀疏) | 42.9 | 96.6 | 180 | 180 |
| FP32 PFLOPS | 11.6 | 11.7 | 26.4 | 5.76 | 5.76 |
| HBM容量 | 6 TB | 9 TB | 21 TB | 14 TB | 21 TB |
| HBM带宽 | 185.6 TB/s | 313.6 TB/s | 705.6 TB/s | 576 TB/s | 576 TB/s |
| CPU | Xeon Sapphire Rapids | Xeon | Graviton | 72核Grace | 72核Grace |
| NVSwitch | - | - | - | NVSwitch 5.0 | NVSwitch 5.0 |
| NVSwitch带宽 | ? | ? | ? | 3600 GB/s | 3600 GB/s |
| 扩展连接 | ? | ? | ? | 800G, 铜缆 | 800G, 铜缆 |
| 外形名称 | ? | ? | ? | Oberon | Oberon |
| 发布年份 | 2024 | 2025 | 2025 | 2024 | 2025 |
Trn3 UltraServers将提供两种配置:一种配置集成了64个加速器和英特尔(Intel)至强CPU,而更大规模的配置则在一个机架级解决方案中整合了144个加速器和基于Arm架构的Graviton处理器。在后一种大型系统中,144个Trainium3加速器分布在36台物理服务器中,每台机器配备一个Graviton CPU和四个Trainium3芯片。这种布局在许多方面与英伟达NVL72的方法类似,后者也利用了英伟达自家的CPU、GPU和连接芯片,这凸显了亚马逊云科技正朝着构建垂直整合AI平台的方向发展。

在单台服务器内部,Trainium3加速器通过第一层NeuronSwitch-v1使用NeuronLink-v4进行连接(每个设备的带宽为2 GiB/s,具体是单向还是双向总带宽尚不明确)。不同服务器之间的通信则通过额外的两层NeuronSwitch-v1网络结构进行路由,同样通过NeuronLink-v4承载。遗憾的是,亚马逊云科技并未公布NeuronSwitch-v1在整个域中的聚合带宽。
从性能角度来看,配备144个Trainium3加速器的大型配置可提供362.5 MXFP8/MXFP4 PetaFLOPS(密集型)性能,这与GB300 NVL72相当。同时,它还具备96.624 PFLOPS的BF16/FP16/TF32吞吐量和26.352 PFLOPS的FP32性能。该系统还配备了21TB的HBM3E内存,聚合内存带宽高达705.6 TB/s,在这一指标上甚至超越了英伟达的GB300 NVL72。
总体而言,Trn3 Gen2 UltraServer在FP8性能方面与英伟达的GB300 NVL72表现出极强的竞争力。考虑到FP8在未来训练中将变得越来越受欢迎,亚马逊云科技选择在这一格式上发力无疑是一个明智之举。当然,英伟达也有其杀手锏——NVFP4,这一格式同时面向推理和训练,凭借其强大的能力,英伟达基于Blackwell的机器仍难以被超越。同样,虽然BF16的性能相比Trainium2有所提升,但仍不足以全面超越英伟达的Blackwell系列产品。
尽管亚马逊云科技Trn3 Gen2 UltraServer在FP8性能方面与英伟达基于Blackwell的NVL72机器相比,展现出相当的竞争力,但英伟达的解决方案在通用性方面似乎更具优势。
AWS Neuron生态:迈向更开放的未来
除了推出新的AI硬件,亚马逊云科技还在其2025年度的re:Invent大会上宣布大幅扩展其AWS Neuron软件栈。亚马逊云科技将此次发布定位为向开放性和开发者可访问性转变,更新后的Neuron旨在使Trainium平台更易于采用,支持标准的机器学习框架直接在Trainium硬件上运行,赋予用户更深层次的性能控制,并为专家提供低层级优化路径。
一项重要新增功能是Neuron通过开源后端TorchNeuron对PyTorch的本地集成。借助PyTorch的PrivateUse1机制,Trainium现在以本地设备类型的形式呈现,这意味着现有的PyTorch代码无需修改即可在Trainium上执行。TorchNeuron还支持交互式即时执行(eager execution)、torch.compile以及FSDP和DTensor等分布式特性,并且可以与TorchTitan和Hugging Face Transformers等流行生态系统协同工作。目前,此功能仅限于特定用户作为私有预览计划的一部分使用。
亚马逊云科技还推出了更新的Neuron Kernel Interface(NKI),它赋予开发者对硬件行为的直接控制权,包括指令级编程、显式内存管理和细粒度调度,从而向内核开发者开放了Trainium的指令集。此外,该公司已将NKI编译器以Apache 2.0许可开源。编程接口已公开可用,但编译器本身仍处于有限预览阶段。
亚马逊云科技还发布了Neuron Explorer,这是一个调试和调优工具包,旨在帮助软件开发者和性能工程师优化模型在Trainium上的运行效果。它通过跟踪从高级框架调用到单个加速器指令的执行过程,提供分层分析、源代码级可见性、与开发环境的集成以及AI辅助的性能调优建议。
最后,亚马逊云科技引入了Neuron动态资源分配(DRA),旨在将Trainium直接集成到Kubernetes中,而无需自定义调度器。Neuron DRA依赖于原生的Kubernetes调度器,并增加了硬件拓扑感知功能,以便将整个UltraServer作为单个资源进行分配,然后灵活地为每个工作负载分配硬件。Neuron DRA支持Amazon EKS、SageMaker HyperPod和UltraServer部署,并作为开源软件提供,其容器镜像发布在AWS ECR公共注册表中。
Neuron Explorer和Neuron DRA的推出,都旨在简化集群管理,并让用户对Trainium资源的分配和使用拥有更细致的控制。总而言之,亚马逊云科技正努力使其基于Trainium的平台变得比现在更为普及,以期在与英伟达基于CUDA的解决方案竞争中更具优势。
总结与展望
2025年近期,亚马逊云科技发布了其第三代AI训练和推理加速器Trainium3及其配套的Trn3 UltraServers机架级解决方案。Trn3 Gen2 UltraServers机架级机器首次将完全依赖亚马逊云科技的自研硬件,包括CPU、AI加速器、交换硬件和互连结构,这表明该公司已采纳了英伟达的垂直整合硬件战略。
亚马逊云科技宣称,Trainium3处理器相比Trainium2性能提升约2倍,能效提升4倍。每颗加速器可提供高达2.517 PFLOPS(MXFP8)的性能,超越了英伟达H100,但略低于B200。同时,它配备了144GB的HBM3E内存,带宽高达4.9 TB/s。Trn3 Gen2 UltraServers可扩展至144个加速器,提供约0.36 ExaFLOPS的FP8性能,使其与英伟达的GB300 NVL72机架级解决方案相媲美。尽管如此,英伟达的硬件在通用性方面似乎依然更胜一筹。
亚马逊云科技在自研芯片和软件生态上的持续投入,预示着全球AI算力市场将迎来更加多元化和激烈的竞争格局。对于中国跨境行业的从业人员而言,这意味着未来在选择云服务和AI基础设施时,将有更多高性能、高性价比的方案可供考虑。关注这类技术动态,不仅能帮助企业了解最新的算力发展趋势,更能在激烈的全球市场竞争中,为自身业务找到降本增效、提升创新的突破口。
新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。
本文来源:新媒网 https://nmedialink.com/posts/trainium3-4x-efficiency-hbm-beats-nvidia.html


粤公网安备 44011302004783号 















