亚马逊Trainium3在AI芯片大战中发起挑战

Trainium3采用台积电3nm工艺,单芯片FP8算力达2.52 PFLOPS,配备144GB HBM3e内存。完整UltraServer配置(144颗芯片)可提供362 PFLOPS算力。Anthropic、Decart和Amazon Bedrock已在生产环境中运行工作负载……

亚马逊Trainium3在AI芯片大战中发起挑战

亚马逊Trainium3在AI芯片大战中发起挑战

更新于2025年12月11日

2025年12月更新: Trainium3采用台积电3nm工艺,单芯片FP8算力达2.52 PFLOPS,配备144GB HBM3e内存。完整UltraServer配置(144颗芯片)可提供362 PFLOPS算力。Anthropic、Decart和Amazon Bedrock已在生产环境中运行工作负载。客户反馈相比GPU方案成本降低50%。Trainium4计划于2026年底/2027年初推出,将支持NVIDIA NVLink Fusion,实现异构集群部署。

AWS在re:Invent 2025大会上发布了Trainium3 UltraServers,其规格令人瞩目。基于台积电3nm工艺,每颗Trainium3芯片可提供2.52 petaflops的FP8算力,配备144GB HBM3e内存。¹ 将其扩展至配备144颗芯片的完整UltraServer配置,客户可获得362 petaflops的AI处理能力。

这些数据代表着相比Trainium2性能提升4.4倍,能效提升4倍。² 亚马逊表示,客户在训练和推理成本上已实现相比GPU方案降低50%。³ 开发Claude的Anthropic公司已在该新硬件上运行生产工作负载。超大规模云厂商的AI芯片之战愈演愈烈。

性能优势

AWS将Trainium3设计为通过经济性而非原始性能来挑战NVIDIA的主导地位。该芯片每兆瓦可输出比前代Trainium多5倍的token,直击大规模AI成本高昂的痛点。⁴

内存带宽达到每秒4.9 TB,接近上一代的4倍。⁵ 大型语言模型将大量时间用于在内存和计算单元之间传输数据。更高的带宽直接转化为更快的推理和训练吞吐量。AWS声称模型训练延迟比Trainium2降低4倍。

网络架构展现了出色的扩展能力。NeuronSwitch-v1在每个UltraServer内部提供2倍的带宽提升,而Neuron Fabric网络将芯片间通信延迟降至10微秒以下。⁶ EC2 UltraClusters 3.0可连接数千台服务器,在单个逻辑集群中扩展至100万颗Trainium3芯片。训练前沿模型正需要这种规模。

客户验证

证据来自生产部署。Decart实现了实时生成式视频4倍的推理速度提升,成本仅为GPU的一半。⁷ Karakuri、Metagenomi、NetoAI、Ricoh和Splash Music均报告训练和推理工作负载成本降低50%。Amazon Bedrock已在Trainium3基础设施上提供生产流量服务。

Anthropic出现在客户名单中尤为重要。该公司处于AI能力的前沿,其训练的模型直接与OpenAI和Google竞争。Anthropic选择Trainium3用于生产工作负载,验证了AWS芯片已具备企业级水准,可应对最苛刻的AI应用。

成本优势会随时间不断累积。以前需要数月完成的训练任务现在数周即可完成。⁸ 更快的迭代周期加速了研究进度。更低的推理成本使更广泛的部署成为可能。此前因成本被排斥在AI实验之外的组织,现在可以以AWS更低的价格参与其中。

Trainium4路线图彰显更大野心

AWS在发布Trainium3的同时披露了Trainium4计划,目标是2026年底或2027年初推出。⁹ 该路线图展示了超越渐进式改进的战略雄心。

Trainium4承诺通过原生FP4支持实现6倍性能提升,内存容量翻倍至约288GB,带宽提升4倍。¹⁰ 这些规格将使Trainium4能够与NVIDIA同期产品展开竞争。

更重要的是,Trainium4将支持NVIDIA的NVLink Fusion互联技术以及UALink。¹¹ AWS的目标是构建异构集群,使用NVIDIA的高速互联将定制Graviton CPU与Trainium XPU结合起来。这一举措代表着某种程度的和解:AWS在加速器领域与NVIDIA竞争,同时又整合NVIDIA的连接标准。

NVLink支持表明AWS采购了足够多的NVIDIA GPU,从而获得了特殊的合作安排。NVIDIA通常将NVLink限制在自家加速器上使用。授予AWS访问权限表明双方存在务实的关系,竞争与合作并存。即便在开发竞争性芯片的同时,AWS仍是NVIDIA最大的云客户。

竞争对企业的意义

Trainium3的发布为企业AI基础设施提供了真正的替代选择。NVIDIA的主导地位依然存在,但对于愿意针对Trainium架构进行优化的客户,AWS现在能够以更低成本提供具有竞争力的性能。

优化要求很重要。NVIDIA的CUDA生态系统代表着数十年的软件投资。开发者熟悉CUDA。框架原生支持CUDA。迁移到Trainium需要采用AWS的Neuron SDK,并可能重写性能关键代码。性能和成本优势必须足以证明这种迁移工作的合理性。

对于推理工作负载,通常更倾向于选择Trainium。推理以可预测的内存访问模式重复运行标准化模型。针对Trainium优化推理代码可带来随规模增长而累积的持续成本节省。每天运行数百万次推理请求的组织可以通过转向AWS芯片实现显著节省。

训练则面临更复杂的决策。训练前沿模型需要尖端硬件、成熟工具和经过验证的可靠性。NVIDIA的历史记录和生态系统让人相信GPU集群能够成功完成训练任务。Trainium相对较新,引入了企业在关键训练任务中可能希望避免的风险。

更广泛的影响

亚马逊对AI芯片的投资反映了一个战略命题:减少对单一供应商的依赖。NVIDIA的市场支配力使其能够收取溢价。每个支付溢价的超大规模云厂商都在为NVIDIA的研发预算提供资金,从而增强了竞争对手的实力。开发替代芯片打破了这种格局,即使Trainium永远无法完全取代NVIDIA GPU。

Google通过TPU采取同样的策略。Microsoft与AMD合作,据报道也在开发定制加速器。这些超大规模云厂商共同拥有资源、规模和动力来挑战NVIDIA的地位。Trainium3代表了亚马逊在这场持久战中的最新一步。

对于更广泛的AI生态系统,竞争使所有人受益。NVIDIA面临改善性价比的压力。客户获得了替代方案和谈判筹码。随着多个资金充裕的竞争者争相领先,芯片创新加速推进。AI芯片市场从垄断走向健康竞争。

仅凭Trainium3无法撼动NVIDIA的地位。但结合Google的TPU、AMD的MI系列,以及Intel和初创公司的新兴替代方案,竞争压力正在加剧。NVIDIA的护城河依然坚固。但挑战者们仍在不懈努力。

关键要点

基础设施架构师: - Trainium3单芯片FP8算力2.52 petaflops,配备144GB HBM3e;完整UltraServer(144颗芯片)提供362 petaflops - 性能:相比Trainium2提升4.4倍,能效提升4倍,每兆瓦token数提升5倍 - 内存带宽达4.9TB/s(接近上代4倍);通过Neuron Fabric实现芯片间通信延迟低于10微秒

成本优化团队: - AWS声称相比GPU方案训练和推理成本降低50%;已通过Anthropic生产工作负载验证 - 推理工作负载更适合Trainium:标准化模型具有可预测的内存访问模式;成本节省随规模累积 - 权衡:需要采用Neuron SDK并可能重写代码;迁移工作必须值得节省的成本

采购团队: - EC2 UltraClusters 3.0可在单个逻辑集群中扩展至100万颗Trainium3芯片;达到前沿模型训练规模 - 客户验证:Anthropic、Decart(推理速度提升4倍)、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Music均报告成本降低50% - 对于风险规避型组织,训练复杂性倾向于选择NVIDIA;Trainium相对较新带来执行不确定性

战略规划: - Trainium4路线图(2026年底/2027年初):通过FP4实现6倍性能提升,内存翻倍(约288GB),带宽提升4倍,支持NVLink Fusion - AWS在芯片领域与NVIDIA竞争,同时整合NVIDIA的NVLink互联;和解使异构集群成为可能 - 超大规模云厂商芯片战略:减少单一供应商依赖;每笔溢价都在为NVIDIA研发提供资金,增强竞争对手实力

更广泛的生态系统: - 竞争使所有人受益:NVIDIA面临定价压力,客户获得替代方案和筹码,创新加速 - 来自Google TPU、AMD MI系列、Intel和初创公司的综合压力加剧;NVIDIA护城河坚固但正在被侵蚀 - AWS仍是NVIDIA最大云客户,同时开发竞争性芯片;竞合关系定义了市场格局


参考文献

  1. Amazon. "Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost." About Amazon, December 2, 2025. https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost

  2. Amazon. "Trainium3 UltraServers now available."

  3. Amazon. "Trainium3 UltraServers now available."

  4. The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks." December 3, 2025. https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/

  5. Amazon. "Trainium3 UltraServers now available."

  6. Amazon. "Trainium3 UltraServers now available."

  7. Amazon. "Trainium3 UltraServers now available."

  8. Amazon. "Trainium3 UltraServers now available."

  9. The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."

  10. The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."

  11. The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."


  • Alt 2: trainium3-vs-nvidia-gpu-enterprise-ai-costs

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中