Amazon Trainium 和 Inferentia:AWS 自研芯片生态系统指南

Project Rainier 正式启动,部署 500,000 颗 Trainium2 芯片用于训练 Anthropic 的 Claude——全球最大的非 NVIDIA AI 集群。Trainium3 在 re:Invent 2025 发布,采用台积电 3nm 工艺,单芯片算力达 2.52 PFLOPS……

Amazon Trainium 和 Inferentia:AWS 自研芯片生态系统指南

Amazon Trainium 和 Inferentia:AWS 自研芯片生态系统指南

更新于 2025 年 12 月 11 日

2025 年 12 月更新: Project Rainier 正式启动,部署近 500,000 颗 Trainium2 芯片用于训练 Anthropic 的 Claude——这是全球最大的非 NVIDIA AI 集群。Trainium3 在 re:Invent 2025 发布,采用台积电 3nm 工艺,单芯片算力达 2.52 PFLOPS。Trainium4 路线图披露将支持 NVIDIA NVLink Fusion,实现 GPU 与 Trainium 混合集群部署。Neuron SDK 日趋成熟,已达到 PyTorch 和 JAX 工作负载的企业级就绪状态。

Amazon Web Services 运营着全球最大的基于自研芯片构建的 AI 训练集群。Project Rainier 于 2025 年 10 月正式启动,在印第安纳州一处占地 1,200 英亩的专用设施中部署了近 500,000 颗 Trainium2 芯片,专门用于训练 Anthropic 的 Claude 模型。¹ 该集群提供的算力是 Anthropic 训练之前 Claude 版本所用算力的五倍,这表明 AWS 自研 AI 芯片已从实验性替代品成熟为支撑前沿 AI 开发的核心基础设施。

推动 AWS 自研芯片采用的经济逻辑非常直接:Trainium2 实例的成本约为同等 NVIDIA H100 实例的一半,同时在许多工作负载上提供具有竞争力的性能。² 对于愿意投入 Neuron SDK 集成的组织而言,AWS 自研芯片提供了一条大幅降低训练和推理成本的路径。了解何时使用 Trainium、何时使用 Inferentia、以及何时 NVIDIA 仍是更好选择,有助于企业优化 AI 基础设施支出。

Trainium 架构演进

AWS 通过 Annapurna Labs 开发 Trainium,这是一家以色列芯片设计公司,于 2015 年以 3.5 亿美元被收购。随着自研芯片成为 AWS 对抗 NVIDIA 和其他超大规模云厂商竞争战略的核心,这笔收购如今看来极具前瞻性。

第一代 Trainium(2022 年): 每个 trn1.32xlarge 实例配备 16 颗 Trainium 芯片,通过 NeuronLink 高带宽互联。该芯片针对 Transformer 模型训练优化,在成本更低的情况下提供可与 NVIDIA A100 竞争的性能。由于 Neuron SDK 尚不成熟且支持的模型范围有限,早期采用率较低。

Trainium2(2024 年): 相比第一代芯片实现 4 倍性能提升。Trn2 实例每实例最多配备 16 颗 Trainium2 芯片,UltraServer 配置通过 NeuronLink 连接 64 颗芯片。³ 每芯片内存增加到 96 GB HBM,带宽大幅提升。Trainium2 为 AWS 与 Anthropic 的 Project Rainier 合作奠定了突破性基础。

Trainium3(2025 年 12 月): AWS 首款 3nm AI 芯片,单芯片提供 2.52 petaflops FP8 算力,配备 144 GB HBM3e 内存和 4.9 TB/s 带宽。⁴ 单个 Trn3 UltraServer 容纳 144 颗芯片,总共提供 362 FP8 petaflops 算力。该架构新增支持 MXFP8、MXFP4 和结构化稀疏,能效比 Trainium2 提升 40%。

Trainium4(已公布): 已在开发中,承诺相比 Trainium3 实现 6 倍 FP4 吞吐量、3 倍 FP8 性能和 4 倍内存带宽。⁵ 该芯片将支持 NVIDIA NVLink Fusion,实现 Trainium 与 NVIDIA GPU 在统一集群中的混合部署。

Inferentia:成本优化的推理方案

AWS Inferentia 芯片针对推理工作负载,适用于单次预测成本比绝对延迟更重要的场景。这些芯片与 Trainium 的训练定位互补,为机器学习工作流程打造完整的自研芯片生态系统。

第一代 Inferentia(2019 年): Inf1 实例相比同等 GPU 实例实现 2.3 倍吞吐量提升和 70% 成本降低。⁶ 该芯片在专注训练的 Trainium 问世之前,就已确立了 AWS 的自研芯片战略。

Inferentia2(2023 年): 每颗芯片提供 190 TFLOPS FP16 性能,配备 32 GB HBM,代表相比第一代 4 倍吞吐量提升和 10 倍延迟降低。⁷ Inf2 实例可扩展到每实例 12 颗芯片,通过 NeuronLink 连接实现大模型的分布式推理。

Inf2 实例在推理工作负载上比同等 EC2 实例提供 40% 更优的性价比。Metagenomi 等组织在 Inferentia 上部署蛋白质语言模型,实现了 56% 的成本降低。⁸ 亚马逊自己的 Rufus AI 助手也运行在 Inferentia 上,实现了 2 倍响应速度提升和 50% 推理成本降低。

目前尚未公布 Inferentia3。AWS 似乎专注于改进 Trainium 以同时惠及训练和推理,而非维护独立的芯片产品线。Trainium3 的推理优化表明这两个产品系列正在趋于融合。

Neuron SDK:连接框架与芯片的桥梁

AWS Neuron SDK 提供软件层,使标准机器学习框架能够在 Trainium 和 Inferentia 上运行。SDK 成熟度历来限制了采用率,但 2025 年的版本大幅改善了开发者体验。

TorchNeuron(2025 年): 原生 PyTorch 后端,将 Trainium 作为与 CUDA GPU 并列的一等设备集成。⁹ TorchNeuron 提供用于调试的即时模式执行、原生分布式 API(FSDP、DTensor)和 torch.compile 支持。使用 HuggingFace Transformers 或 TorchTitan 的模型只需最少的代码修改。

import torch
import torch_neuron

# Trainium 作为标准 PyTorch 设备出现
device = torch.device("neuron")
model = model.to(device)

# 标准 PyTorch 训练循环无需修改即可工作
for batch in dataloader:
    inputs = batch.to(device)
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()

Neuron SDK 2.26.0(2025 年 11 月): 新增 PyTorch 2.8 和 JAX 0.6.2 支持,兼容 Python 3.11。¹⁰ 模型支持扩展到 Llama 4 变体和 FLUX.1-dev 图像生成(测试版)。专家并行现在支持 MoE 模型训练,可将专家分布到各个 NeuronCore。

Neuron Kernel Interface (NKI): 为需要最高性能的开发者提供底层硬件控制。¹¹ 增强版 NKI 支持指令级编程、内存分配控制和执行调度,可直接访问 ISA。AWS 以 Apache 2.0 许可证开源了 NKI 编译器。

成本对比:Trainium vs NVIDIA

AWS 将 Trainium 定位为以显著更低的价格提供 NVIDIA 级别的性能:

实例类型 每小时成本 芯片/GPU 数量 性能级别
trn1.2xlarge ~$1.10 1 Trainium A100 级别
trn2.48xlarge ~$4.80 16 Trainium2 H100 级别
p5.48xlarge ~$9.80 8 H100 参考基准

AWS 声称 Trainium2 相比基于 GPU 的 P5 实例提供 30-40% 更优的性价比。¹² AWS 内部基准测试显示,对于 GPT 类模型,Trainium 在相似吞吐量下每 token 成本比 A100 集群低 54%。

规模越大,经济效益越明显。亚马逊向客户推介称,对于特定工作负载,Trainium 可以以 25% 的成本提供 H100 同等性能。¹³ 虽然营销宣传需要针对具体用例进行验证,但对于兼容的工作负载,方向性的节省是显著的。

AWS 在 2025 年 6 月将 H100 价格下调约 44%,使按需 H100 实例降至每 GPU 小时 3-4 美元。¹⁴ 这场价格战使两种技术的用户都受益,尽管 Trainium 在支持的工作负载上仍保持成本领先优势。

Project Rainier:前沿规模的 Trainium 应用

Anthropic 的 Project Rainier 证明了 Trainium 在最严苛 AI 工作负载上的可行性。该集群代表了 AWS 最大规模的 AI 基础设施部署,也是全球最强大的训练系统之一。

规模: 近 500,000 颗 Trainium2 芯片部署在印第安纳州一处占地 1,200 英亩的园区内的 30 个数据中心。¹⁵ 该基础设施提供的算力是 Anthropic 训练之前 Claude 版本所用算力的 5 倍。Anthropic 预计到 2025 年底将使用超过 100 万颗 Trainium2 芯片用于训练和推理的综合需求。

架构: Trainium2 UltraServer 每台通过 NeuronLink 连接 64 颗芯片,实现高带宽通信。该集群跨越多栋建筑,需要专门的园区级互联基础设施。

工作负载管理: Anthropic 在白天高峰时段将大部分芯片用于推理,晚间推理需求下降时转为训练任务。¹⁶ 这种灵活调度最大化了两类工作负载的利用率。

投资背景: 亚马逊自 2024 年初以来已向 Anthropic 投资 80 亿美元。¹⁷ 该合作包括技术协作,Anthropic 为 Trainium3 开发提供输入,以提高训练速度、降低延迟并提升能效。

Project Rainier 验证了 Trainium 能够训练以往需要 NVIDIA 集群的前沿模型。这一成功使 AWS 能够竞争其他 AI 实验室的合作伙伴关系以及企业级训练工作负载。

何时选择 Trainium

Trainium 在特定条件下能够提供最大价值:

理想工作负载: - Transformer 模型训练(LLM、视觉 Transformer) - 需要 100+ 芯片的大规模分布式训练 - 使用标准架构的 PyTorch 或 JAX 代码库 - 对成本敏感的训练场景,30-50% 的节省足以证明迁移投入的合理性 - 已深度使用 AWS 生态系统的组织

迁移考量: - Neuron SDK 对特定模型和算子的支持情况 - 代码适配和验证所需的工程时间 - 对 AWS 的锁定(Trainium 不可在其他云上使用) - 针对特定架构变体的性能验证

不推荐的场景: - 需要 CUDA 特定算子的新颖架构 - 不惜成本追求最高绝对性能的工作负载 - 需要多云可移植性的组织 - 迁移成本超过节省的小规模训练

何时选择 Inferentia

Inferentia 针对生产部署中的推理成本优化:

理想工作负载: - 以成本为首要约束的大规模推理 - 对延迟容忍的批处理 - 标准模型架构(BERT、GPT 变体、视觉模型) - 在 AWS 上运行推理密集型工作负载的组织

成本效益临界点: 当推理成本超过每月 10,000 美元且工作负载匹配支持的模型架构时,Inferentia 迁移才有意义。低于该阈值,工程投入通常会超过节省。超过每月 100,000 美元时,40-50% 的成本降低将带来可观回报。

Trainium3 与竞争格局

Trainium3 于 2025 年 12 月发布,加剧了与 NVIDIA Blackwell 的竞争:

Trainium3 vs Blackwell Ultra: - Trainium3:单芯片 2.52 petaflops FP8,144 GB HBM3e - Blackwell Ultra:单芯片约 5 petaflops FP8,288 GB HBM3e - Trn3 UltraServer(144 芯片):总计 362 petaflops - GB300 NVL72:总计约 540 petaflops

NVIDIA 在单芯片性能上保持领先,但 AWS 在系统经济性上展开竞争。一台 Trn3 UltraServer 的成本可能比同等 Blackwell 基础设施低 40-60%,同时提供相当的聚合算力。¹⁸

Trainium4 计划支持的 NVLink Fusion 表明 AWS 认识到纯替代策略并非对所有工作负载都可行。混合部署——将 Trainium 用于成本优化的组件,同时将 NVIDIA GPU 用于 CUDA 依赖的操作——可能成为标准架构。

企业采用策略

评估 AWS 自研芯片的组织应遵循结构化的采用路径:

第一阶段:评估 - 盘点当前训练和推理工作负载 - 识别 Neuron SDK 对模型架构的支持情况 - 基于当前 AWS GPU 支出计算潜在节省 - 评估迁移投入所需的工程能力

第二阶段:试点 - 选择具有良好 Neuron SDK 支持的代表性工作负载 - 在 Trainium 和 GPU 实例上并行运行训练 - 验证准确性、吞吐量和总成本 - 记录迁移需求和挑战

第三阶段:生产迁移 - 将验证通过的工作负载迁移到 Trainium/Inferentia - 为不支持的操作保留 GPU 回退方案 - 实施性能和成本监控

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中