亚马逊Trainium3在AI芯片大战中发起挑战
更新于2025年12月11日
2025年12月更新: Trainium3采用台积电3nm工艺,单芯片FP8算力达2.52 PFLOPS,配备144GB HBM3e内存。完整UltraServer配置(144颗芯片)可提供362 PFLOPS算力。Anthropic、Decart和Amazon Bedrock已在生产环境中运行工作负载。客户反馈相比GPU方案成本降低50%。Trainium4计划于2026年底/2027年初推出,将支持NVIDIA NVLink Fusion,实现异构集群部署。
AWS在re:Invent 2025大会上发布了Trainium3 UltraServers,其规格令人瞩目。基于台积电3nm工艺,每颗Trainium3芯片可提供2.52 petaflops的FP8算力,配备144GB HBM3e内存。¹ 将其扩展至配备144颗芯片的完整UltraServer配置,客户可获得362 petaflops的AI处理能力。
这些数据代表着相比Trainium2性能提升4.4倍,能效提升4倍。² 亚马逊表示,客户在训练和推理成本上已实现相比GPU方案降低50%。³ 开发Claude的Anthropic公司已在该新硬件上运行生产工作负载。超大规模云厂商的AI芯片之战愈演愈烈。
性能优势
AWS将Trainium3设计为通过经济性而非原始性能来挑战NVIDIA的主导地位。该芯片每兆瓦可输出比前代Trainium多5倍的token,直击大规模AI成本高昂的痛点。⁴
内存带宽达到每秒4.9 TB,接近上一代的4倍。⁵ 大型语言模型将大量时间用于在内存和计算单元之间传输数据。更高的带宽直接转化为更快的推理和训练吞吐量。AWS声称模型训练延迟比Trainium2降低4倍。
网络架构展现了出色的扩展能力。NeuronSwitch-v1在每个UltraServer内部提供2倍的带宽提升,而Neuron Fabric网络将芯片间通信延迟降至10微秒以下。⁶ EC2 UltraClusters 3.0可连接数千台服务器,在单个逻辑集群中扩展至100万颗Trainium3芯片。训练前沿模型正需要这种规模。
客户验证
证据来自生产部署。Decart实现了实时生成式视频4倍的推理速度提升,成本仅为GPU的一半。⁷ Karakuri、Metagenomi、NetoAI、Ricoh和Splash Music均报告训练和推理工作负载成本降低50%。Amazon Bedrock已在Trainium3基础设施上提供生产流量服务。
Anthropic出现在客户名单中尤为重要。该公司处于AI能力的前沿,其训练的模型直接与OpenAI和Google竞争。Anthropic选择Trainium3用于生产工作负载,验证了AWS芯片已具备企业级水准,可应对最苛刻的AI应用。
成本优势会随时间不断累积。以前需要数月完成的训练任务现在数周即可完成。⁸ 更快的迭代周期加速了研究进度。更低的推理成本使更广泛的部署成为可能。此前因成本被排斥在AI实验之外的组织,现在可以以AWS更低的价格参与其中。
Trainium4路线图彰显更大野心
AWS在发布Trainium3的同时披露了Trainium4计划,目标是2026年底或2027年初推出。⁹ 该路线图展示了超越渐进式改进的战略雄心。
Trainium4承诺通过原生FP4支持实现6倍性能提升,内存容量翻倍至约288GB,带宽提升4倍。¹⁰ 这些规格将使Trainium4能够与NVIDIA同期产品展开竞争。
更重要的是,Trainium4将支持NVIDIA的NVLink Fusion互联技术以及UALink。¹¹ AWS的目标是构建异构集群,使用NVIDIA的高速互联将定制Graviton CPU与Trainium XPU结合起来。这一举措代表着某种程度的和解:AWS在加速器领域与NVIDIA竞争,同时又整合NVIDIA的连接标准。
NVLink支持表明AWS采购了足够多的NVIDIA GPU,从而获得了特殊的合作安排。NVIDIA通常将NVLink限制在自家加速器上使用。授予AWS访问权限表明双方存在务实的关系,竞争与合作并存。即便在开发竞争性芯片的同时,AWS仍是NVIDIA最大的云客户。
竞争对企业的意义
Trainium3的发布为企业AI基础设施提供了真正的替代选择。NVIDIA的主导地位依然存在,但对于愿意针对Trainium架构进行优化的客户,AWS现在能够以更低成本提供具有竞争力的性能。
优化要求很重要。NVIDIA的CUDA生态系统代表着数十年的软件投资。开发者熟悉CUDA。框架原生支持CUDA。迁移到Trainium需要采用AWS的Neuron SDK,并可能重写性能关键代码。性能和成本优势必须足以证明这种迁移工作的合理性。
对于推理工作负载,通常更倾向于选择Trainium。推理以可预测的内存访问模式重复运行标准化模型。针对Trainium优化推理代码可带来随规模增长而累积的持续成本节省。每天运行数百万次推理请求的组织可以通过转向AWS芯片实现显著节省。
训练则面临更复杂的决策。训练前沿模型需要尖端硬件、成熟工具和经过验证的可靠性。NVIDIA的历史记录和生态系统让人相信GPU集群能够成功完成训练任务。Trainium相对较新,引入了企业在关键训练任务中可能希望避免的风险。
更广泛的影响
亚马逊对AI芯片的投资反映了一个战略命题:减少对单一供应商的依赖。NVIDIA的市场支配力使其能够收取溢价。每个支付溢价的超大规模云厂商都在为NVIDIA的研发预算提供资金,从而增强了竞争对手的实力。开发替代芯片打破了这种格局,即使Trainium永远无法完全取代NVIDIA GPU。
Google通过TPU采取同样的策略。Microsoft与AMD合作,据报道也在开发定制加速器。这些超大规模云厂商共同拥有资源、规模和动力来挑战NVIDIA的地位。Trainium3代表了亚马逊在这场持久战中的最新一步。
对于更广泛的AI生态系统,竞争使所有人受益。NVIDIA面临改善性价比的压力。客户获得了替代方案和谈判筹码。随着多个资金充裕的竞争者争相领先,芯片创新加速推进。AI芯片市场从垄断走向健康竞争。
仅凭Trainium3无法撼动NVIDIA的地位。但结合Google的TPU、AMD的MI系列,以及Intel和初创公司的新兴替代方案,竞争压力正在加剧。NVIDIA的护城河依然坚固。但挑战者们仍在不懈努力。
关键要点
基础设施架构师: - Trainium3单芯片FP8算力2.52 petaflops,配备144GB HBM3e;完整UltraServer(144颗芯片)提供362 petaflops - 性能:相比Trainium2提升4.4倍,能效提升4倍,每兆瓦token数提升5倍 - 内存带宽达4.9TB/s(接近上代4倍);通过Neuron Fabric实现芯片间通信延迟低于10微秒
成本优化团队: - AWS声称相比GPU方案训练和推理成本降低50%;已通过Anthropic生产工作负载验证 - 推理工作负载更适合Trainium:标准化模型具有可预测的内存访问模式;成本节省随规模累积 - 权衡:需要采用Neuron SDK并可能重写代码;迁移工作必须值得节省的成本
采购团队: - EC2 UltraClusters 3.0可在单个逻辑集群中扩展至100万颗Trainium3芯片;达到前沿模型训练规模 - 客户验证:Anthropic、Decart(推理速度提升4倍)、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music均报告成本降低50% - 对于风险规避型组织,训练复杂性倾向于选择NVIDIA;Trainium相对较新带来执行不确定性
战略规划: - Trainium4路线图(2026年底/2027年初):通过FP4实现6倍性能提升,内存翻倍(约288GB),带宽提升4倍,支持NVLink Fusion - AWS在芯片领域与NVIDIA竞争,同时整合NVIDIA的NVLink互联;和解使异构集群成为可能 - 超大规模云厂商芯片战略:减少单一供应商依赖;每笔溢价都在为NVIDIA研发提供资金,增强竞争对手实力
更广泛的生态系统: - 竞争使所有人受益:NVIDIA面临定价压力,客户获得替代方案和筹码,创新加速 - 来自Google TPU、AMD MI系列、Intel和初创公司的综合压力加剧;NVIDIA护城河坚固但正在被侵蚀 - AWS仍是NVIDIA最大云客户,同时开发竞争性芯片;竞合关系定义了市场格局
参考文献
-
Amazon. "Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost." About Amazon, December 2, 2025. https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks." December 3, 2025. https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
- Alt 2:
trainium3-vs-nvidia-gpu-enterprise-ai-costs