AWS Trainium3能效狂飙4倍!HBM带宽超英伟达,跨境降本增效

2025-12-05AI工具

AWS Trainium3能效狂飙4倍!HBM带宽超英伟达,跨境降本增效

在全球数字化浪潮的推动下,人工智能技术正以前所未有的速度发展,成为驱动各行各业创新的核心引擎。随之而来的是对算力需求的爆炸式增长,这使得高性能AI芯片和云基础设施成为全球科技巨头竞相投入的战略高地。尤其对于中国跨境电商、游戏、支付等数字产业从业者而言,理解并关注全球领先的算力发展趋势,对于优化自身业务、提升国际竞争力至关重要。2025年近期,全球领先的云计算服务商亚马逊云科技(AWS)重磅发布了其第三代AI训练和推理加速器——Trainium3,以及配套的Trn3 UltraServers机架级解决方案,这无疑为全球AI算力市场带来了新的变局。

AWS Trainium3的推出,标志着亚马逊云科技在自研AI芯片领域的又一次重大突破。该加速器旨在提供更高性能和更优成本效益的AI训练和推理能力。根据AWS的官方数据,与上一代Trainium2相比,Trainium3的运算速度提升了近一倍,能效更是提高了四倍。这使其在成本效益方面成为目前市场上最具竞争力的AI解决方案之一。在性能指标上,Trainium3单颗芯片可提供高达2,517 MXFP8 TFLOPS的浮点运算能力,虽然在单颗芯片性能上与英伟达(Nvidia)的Blackwell Ultra相比仍有差距,但AWS通过创新的系统集成策略,在Trn3 UltraServer中集成了144颗Trainium3芯片,使得其FP8性能可达到0.36 ExaFLOPS,这一数据已与英伟达的NVL72 GB300系统不相上下。这意味着,在机架级AI系统领域,亚马逊云科技正展现出足以挑战市场领导者的实力,这对于少数能与英伟达竞争的厂商来说,是一个非常重要的信号。

AWS Trainium3的技术亮点

Trainium3加速器采用了双芯片小芯片(dual-chiplet)设计,并配备了144GB的HBM3E高带宽内存,通过四个堆栈提供高达4.9 TB/s的峰值内存带宽。据推测,其计算小芯片可能由台积电(TSMC)采用3纳米级工艺制造,每个计算小芯片集成了四个NeuronCore-v4核心。这些核心的指令集架构(ISA)相比前代有所扩展,并与两个HBM3E内存堆栈相连。两个小芯片之间通过专有的高带宽接口连接,共享128个独立的硬件数据移动引擎(这是Trainium架构的关键),以及协调芯片间流量的集合通信核心,并提供四个NeuronLink-v4接口用于扩展连接。

为了更直观地对比Trainium3与市场同类产品的性能,以下表格罗列了相关加速器的关键参数:

加速器名称 Trainium2 Trainium3 B200 B300 (Ultra)
架构 Trainium2 Trainium3 Blackwell Blackwell Ultra
工艺技术 ? N3E或N3P 4N 4N
物理配置 2 x 加速器 2 x 加速器 2 x 晶圆级GPU 2 x 晶圆级GPU
封装 CoWoS-? CoWoS-? CoWoS-L CoWoS-L
FP4 PFLOPs (每封装) - 2.517 10 15
FP8/INT6 PFLOPs (每封装) 1299 2.517 5 5
INT8 POPS (每封装) - - 50.3 3
BF16 PFLOPs (每封装) 0.667 0.67 12.5 2.5
TF32 PFLOPs (每封装) 0.667 0.67 1.15 1.25
FP32 PFLOPs (每封装) 0.18 0.18 3 0.08
FP64/FP64 Tensor TFLOPs (每封装) - - 40 1.3
内存 96 GB HBM3 144 GB HBM3E 192 GB HBM3E 288 GB HBM3E
内存带宽 2.9 TB/s 4.9 TB/s 8 TB/s 8 TB/s
HBM堆栈 8 8 8 8
互连带宽 NeuronLink-v3 1.28 TB/s NeuronLink-v4 2.56 TB/s NVLink 5.0, 1.8 TB/s NVLink 5.0, 1.8 TB/s
SerDes速度 (Gb/s单向) ? ? 224G 224G
GPU TDP ? ? 1200 W 1400 W
配套CPU 英特尔至强 AWS Graviton和英特尔至强 72核Grace 72核Grace
发布年份 2024 2025 2024 2025
Trainium3
Trainium3

NeuronCore-v4核心内部集成了四个执行单元:一个张量引擎、一个向量引擎、一个标量引擎和一个GPSIMD模块,以及32MB的本地SRAM。这种SRAM由编译器显式管理,而非通过缓存控制。从软件开发角度看,该核心围绕软件定义的数据流模型构建,数据通过DMA引擎加载到SRAM,由执行单元处理,然后写回。这种近内存累加机制使得DMA能够在一个事务中完成读-加-写操作。SRAM在不同核心之间不保持一致性,主要用于数据分块、暂存和累加,而非通用缓存。

其中,张量引擎是一个用于GEMM、卷积、转置和点积运算的脉动阵列式矩阵处理器,支持MXFP4、MXFP8、FP16、BF16、TF32和FP32输入,输出格式为BF16或FP32。每个核心在MXFP8/MXFP4模式下可提供315 TFLOPS,在BF16/FP16/TF32模式下提供79 TFLOPS,在FP32模式下提供20 TFLOPS。它还通过M:N模式(如4:16、4:12等)实现了结构化稀疏加速,可在支持的稀疏工作负载上实现相同的315 TFLOPS峰值性能。向量引擎主要用于向量变换,提供约1.2 TFLOPS的FP32性能,支持硬件转换为MXFP格式,并具备快速指数单元,其吞吐量是标量指数路径的四倍,对注意力工作负载尤为有利。该单元支持多种数据类型,包括FP8、FP16、BF16、TF32、FP32、INT8、INT16和INT32。标量引擎也提供约1.2 TFLOPS的FP32性能,用于控制逻辑和涉及FP8到FP32以及整数数据类型的小型操作。

NeuronCore-v4中最引人注目的组件或许是GPSIMD模块,它集成了八个完全可编程的512位向量处理器,可以在访问本地SRAM的同时执行C/C++编写的通用代码。GPSIMD集成在NeuronCore中,因为并非所有真实AI模型都能完美映射到张量引擎。现代AI工作负载包含大量用于非常规数据布局、后处理逻辑、索引和模型特定计算的代码。这些操作如果用矩阵运算来表达,效率不高或难以实现,而如果由主机CPU运行,又会引入延迟和昂贵的数据传输。GPSIMD通过在核心内部提供真正通用的可编程向量单元解决了这个问题,使得这些逻辑可以直接在张量旁边以全速运行,并利用相同的本地SRAM。
Amazon building

简而言之,NeuronCore-v4作为一个紧密耦合的数据流引擎运行,其中张量计算、向量变换、标量控制和自定义代码都共享一个32MB的本地暂存空间,并由Neuron编译器而非英伟达硬件上使用的warp调度器进行协调。

从性能上看,Trainium3在FP8(实际上是MXFP8)计算方面,比其前身Trainium2提升了近一倍,单颗芯片达到2.517 PFLOPS,虽然超过了英伟达H100/H200,但略低于Blackwell B200/B300。此外,Trainium3新增了MXFP4支持。然而,Trainium3在BF16、TF32和FP32的性能方面与Trainium2持平,这表明亚马逊云科技正将未来的训练和推理重心押注在MXFP8上。它似乎认为当前BF16(目前广泛用于训练)和FP32的性能已足够满足需求,因为这些格式现在主要用于梯度累加、主权重、优化器状态、损失缩放和一些对精度敏感的操作。

Trainium3还拥有一个值得一提的特色功能——逻辑NeuronCore配置(LNC)。该功能允许Neuron编译器将四个物理核心融合成一个更宽、自动同步的逻辑核心,该逻辑核心拥有组合的计算能力、SRAM和HBM资源,这对于处理超大AI模型中常见的超宽层或长序列长度场景尤为有用。

AWS的Trn3 UltraServers:与英伟达GB300 NVL72的直接竞争

英伟达近期几个季度的成功很大程度上得益于其机架级NVL72解决方案,该方案集成了72颗Blackwell GPU。这种系统支持大规模扩展和全对全拓扑结构,这对于混合专家模型(MoE)和自回归推理等场景至关重要。这使得英伟达在AMD和亚马逊云科技等自研加速器的开发商面前拥有巨大的优势。为了实现这一能力,英伟达投入了巨大的芯片工程努力,开发了NVLink交换机、复杂的网络卡和DPU。然而,亚马逊云科技的Trn3 UltraServers似乎正在对英伟达的GB300 NVL72构成强劲挑战。

以下是Trn3 UltraServers与英伟达同类机架级解决方案的对比:

名称 Trn2 UltraServer Trn3 Gen1 UltraServer Trn3 Gen2 UltraServer GB200 NVL72 GB300 NVL72
GPU架构 Trainium2 Trainium3 Trainium3 Blackwell Blackwell Ultra
GPU/GPU+CPU Xeon + Trainium3 Xeon + Trainium3 Graviton + Trainium3 GB200 GB300
计算小芯片 96 128 288 144 144
GPU封装 48 64 144 72 72
FP4 PFLOPs (密集) - 161.1 362.5 720 1080
FP8 PFLOPS (密集) 83.2 161.1 362.5 360 360
FP16/BF16 PFLOPS (密集) 164 (稀疏) 42.9 96.6 180 180
FP32 PFLOPS 11.6 11.7 26.4 5.76 5.76
HBM容量 6 TB 9 TB 21 TB 14 TB 21 TB
HBM带宽 185.6 TB/s 313.6 TB/s 705.6 TB/s 576 TB/s 576 TB/s
CPU Xeon Sapphire Rapids Xeon Graviton 72核Grace 72核Grace
NVSwitch - - - NVSwitch 5.0 NVSwitch 5.0
NVSwitch带宽 ? ? ? 3600 GB/s 3600 GB/s
扩展连接 ? ? ? 800G, 铜缆 800G, 铜缆
外形名称 ? ? ? Oberon Oberon
发布年份 2024 2025 2025 2024 2025

Trn3 UltraServers将提供两种配置:一种配置集成了64个加速器和英特尔(Intel)至强CPU,而更大规模的配置则在一个机架级解决方案中整合了144个加速器和基于Arm架构的Graviton处理器。在后一种大型系统中,144个Trainium3加速器分布在36台物理服务器中,每台机器配备一个Graviton CPU和四个Trainium3芯片。这种布局在许多方面与英伟达NVL72的方法类似,后者也利用了英伟达自家的CPU、GPU和连接芯片,这凸显了亚马逊云科技正朝着构建垂直整合AI平台的方向发展。
AWS Trainium3
Trainium3

在单台服务器内部,Trainium3加速器通过第一层NeuronSwitch-v1使用NeuronLink-v4进行连接(每个设备的带宽为2 GiB/s,具体是单向还是双向总带宽尚不明确)。不同服务器之间的通信则通过额外的两层NeuronSwitch-v1网络结构进行路由,同样通过NeuronLink-v4承载。遗憾的是,亚马逊云科技并未公布NeuronSwitch-v1在整个域中的聚合带宽。

从性能角度来看,配备144个Trainium3加速器的大型配置可提供362.5 MXFP8/MXFP4 PetaFLOPS(密集型)性能,这与GB300 NVL72相当。同时,它还具备96.624 PFLOPS的BF16/FP16/TF32吞吐量和26.352 PFLOPS的FP32性能。该系统还配备了21TB的HBM3E内存,聚合内存带宽高达705.6 TB/s,在这一指标上甚至超越了英伟达的GB300 NVL72。

总体而言,Trn3 Gen2 UltraServer在FP8性能方面与英伟达的GB300 NVL72表现出极强的竞争力。考虑到FP8在未来训练中将变得越来越受欢迎,亚马逊云科技选择在这一格式上发力无疑是一个明智之举。当然,英伟达也有其杀手锏——NVFP4,这一格式同时面向推理和训练,凭借其强大的能力,英伟达基于Blackwell的机器仍难以被超越。同样,虽然BF16的性能相比Trainium2有所提升,但仍不足以全面超越英伟达的Blackwell系列产品。

尽管亚马逊云科技Trn3 Gen2 UltraServer在FP8性能方面与英伟达基于Blackwell的NVL72机器相比,展现出相当的竞争力,但英伟达的解决方案在通用性方面似乎更具优势。

AWS Neuron生态:迈向更开放的未来

除了推出新的AI硬件,亚马逊云科技还在其2025年度的re:Invent大会上宣布大幅扩展其AWS Neuron软件栈。亚马逊云科技将此次发布定位为向开放性和开发者可访问性转变,更新后的Neuron旨在使Trainium平台更易于采用,支持标准的机器学习框架直接在Trainium硬件上运行,赋予用户更深层次的性能控制,并为专家提供低层级优化路径。
AWS Trainium3

一项重要新增功能是Neuron通过开源后端TorchNeuron对PyTorch的本地集成。借助PyTorch的PrivateUse1机制,Trainium现在以本地设备类型的形式呈现,这意味着现有的PyTorch代码无需修改即可在Trainium上执行。TorchNeuron还支持交互式即时执行(eager execution)、torch.compile以及FSDP和DTensor等分布式特性,并且可以与TorchTitan和Hugging Face Transformers等流行生态系统协同工作。目前,此功能仅限于特定用户作为私有预览计划的一部分使用。

亚马逊云科技还推出了更新的Neuron Kernel Interface(NKI),它赋予开发者对硬件行为的直接控制权,包括指令级编程、显式内存管理和细粒度调度,从而向内核开发者开放了Trainium的指令集。此外,该公司已将NKI编译器以Apache 2.0许可开源。编程接口已公开可用,但编译器本身仍处于有限预览阶段。

亚马逊云科技还发布了Neuron Explorer,这是一个调试和调优工具包,旨在帮助软件开发者和性能工程师优化模型在Trainium上的运行效果。它通过跟踪从高级框架调用到单个加速器指令的执行过程,提供分层分析、源代码级可见性、与开发环境的集成以及AI辅助的性能调优建议。

最后,亚马逊云科技引入了Neuron动态资源分配(DRA),旨在将Trainium直接集成到Kubernetes中,而无需自定义调度器。Neuron DRA依赖于原生的Kubernetes调度器,并增加了硬件拓扑感知功能,以便将整个UltraServer作为单个资源进行分配,然后灵活地为每个工作负载分配硬件。Neuron DRA支持Amazon EKS、SageMaker HyperPod和UltraServer部署,并作为开源软件提供,其容器镜像发布在AWS ECR公共注册表中。

Neuron Explorer和Neuron DRA的推出,都旨在简化集群管理,并让用户对Trainium资源的分配和使用拥有更细致的控制。总而言之,亚马逊云科技正努力使其基于Trainium的平台变得比现在更为普及,以期在与英伟达基于CUDA的解决方案竞争中更具优势。

总结与展望

2025年近期,亚马逊云科技发布了其第三代AI训练和推理加速器Trainium3及其配套的Trn3 UltraServers机架级解决方案。Trn3 Gen2 UltraServers机架级机器首次将完全依赖亚马逊云科技的自研硬件,包括CPU、AI加速器、交换硬件和互连结构,这表明该公司已采纳了英伟达的垂直整合硬件战略。

亚马逊云科技宣称,Trainium3处理器相比Trainium2性能提升约2倍,能效提升4倍。每颗加速器可提供高达2.517 PFLOPS(MXFP8)的性能,超越了英伟达H100,但略低于B200。同时,它配备了144GB的HBM3E内存,带宽高达4.9 TB/s。Trn3 Gen2 UltraServers可扩展至144个加速器,提供约0.36 ExaFLOPS的FP8性能,使其与英伟达的GB300 NVL72机架级解决方案相媲美。尽管如此,英伟达的硬件在通用性方面似乎依然更胜一筹。

亚马逊云科技在自研芯片和软件生态上的持续投入,预示着全球AI算力市场将迎来更加多元化和激烈的竞争格局。对于中国跨境行业的从业人员而言,这意味着未来在选择云服务和AI基础设施时,将有更多高性能、高性价比的方案可供考虑。关注这类技术动态,不仅能帮助企业了解最新的算力发展趋势,更能在激烈的全球市场竞争中,为自身业务找到降本增效、提升创新的突破口。

新媒网(公号: 新媒网跨境发布),是一个专业的跨境电商、游戏、支付、贸易和广告社区平台,为百万跨境人传递最新的海外淘金精准资讯情报。

本文来源:新媒网 https://nmedialink.com/posts/trainium3-4x-efficiency-hbm-beats-nvidia.html

评论(0)
暂无评论,快来抢沙发~
2025年,特朗普任期内,亚马逊云科技发布第三代AI加速器Trainium3及Trn3 UltraServers。Trainium3性能提升,与英伟达Blackwell Ultra在机架级系统领域竞争。AWS持续投入自研芯片和软件生态,为跨境电商等中国企业提供更多选择,助力其在全球市场中提升竞争力。
发布于 2025-12-05
查看人数 142
人民币汇率走势
CNY
亚马逊热销榜
共 0 SKU 上次更新 NaN:NaN:NaN
类目: 切换分类
暂无数据
暂无数据
关注我们
NMedia
新媒网跨境发布
本站原创内容版权归作者及NMedia共同所有,未经许可,禁止以任何形式转载。