Amazon Trainium 和 Inferentia：AWS 自研芯片生态系统指南

Project Rainier 正式启动，部署 500,000 颗 Trainium2 芯片用于训练 Anthropic 的 Claude——全球最大的非 NVIDIA AI 集群。Trainium3 在 re:Invent 2025 发布，采用台积电 3nm 工艺，单芯片算力达 2.52 PFLOPS……

Blake Crosley

Feb 07, 2026 4 min read Disclaimer

Amazon Trainium 和 Inferentia：AWS 自研芯片生态系统指南

更新于 2025 年 12 月 11 日

2025 年 12 月更新： Project Rainier 正式启动，部署近 500,000 颗 Trainium2 芯片用于训练 Anthropic 的 Claude——这是全球最大的非 NVIDIA AI 集群。Trainium3 在 re:Invent 2025 发布，采用台积电 3nm 工艺，单芯片算力达 2.52 PFLOPS。Trainium4 路线图披露将支持 NVIDIA NVLink Fusion，实现 GPU 与 Trainium 混合集群部署。Neuron SDK 日趋成熟，已达到 PyTorch 和 JAX 工作负载的企业级就绪状态。

Amazon Web Services 运营着全球最大的基于自研芯片构建的 AI 训练集群。Project Rainier 于 2025 年 10 月正式启动，在印第安纳州一处占地 1,200 英亩的专用设施中部署了近 500,000 颗 Trainium2 芯片，专门用于训练 Anthropic 的 Claude 模型。¹ 该集群提供的算力是 Anthropic 训练之前 Claude 版本所用算力的五倍，这表明 AWS 自研 AI 芯片已从实验性替代品成熟为支撑前沿 AI 开发的核心基础设施。

推动 AWS 自研芯片采用的经济逻辑非常直接：Trainium2 实例的成本约为同等 NVIDIA H100 实例的一半，同时在许多工作负载上提供具有竞争力的性能。² 对于愿意投入 Neuron SDK 集成的组织而言，AWS 自研芯片提供了一条大幅降低训练和推理成本的路径。了解何时使用 Trainium、何时使用 Inferentia、以及何时 NVIDIA 仍是更好选择，有助于企业优化 AI 基础设施支出。

Trainium 架构演进

AWS 通过 Annapurna Labs 开发 Trainium，这是一家以色列芯片设计公司，于 2015 年以 3.5 亿美元被收购。随着自研芯片成为 AWS 对抗 NVIDIA 和其他超大规模云厂商竞争战略的核心，这笔收购如今看来极具前瞻性。

第一代 Trainium（2022 年）： 每个 trn1.32xlarge 实例配备 16 颗 Trainium 芯片，通过 NeuronLink 高带宽互联。该芯片针对 Transformer 模型训练优化，在成本更低的情况下提供可与 NVIDIA A100 竞争的性能。由于 Neuron SDK 尚不成熟且支持的模型范围有限，早期采用率较低。

Trainium2（2024 年）： 相比第一代芯片实现 4 倍性能提升。Trn2 实例每实例最多配备 16 颗 Trainium2 芯片，UltraServer 配置通过 NeuronLink 连接 64 颗芯片。³ 每芯片内存增加到 96 GB HBM，带宽大幅提升。Trainium2 为 AWS 与 Anthropic 的 Project Rainier 合作奠定了突破性基础。

Trainium3（2025 年 12 月）： AWS 首款 3nm AI 芯片，单芯片提供 2.52 petaflops FP8 算力，配备 144 GB HBM3e 内存和 4.9 TB/s 带宽。⁴ 单个 Trn3 UltraServer 容纳 144 颗芯片，总共提供 362 FP8 petaflops 算力。该架构新增支持 MXFP8、MXFP4 和结构化稀疏，能效比 Trainium2 提升 40%。

Trainium4（已公布）： 已在开发中，承诺相比 Trainium3 实现 6 倍 FP4 吞吐量、3 倍 FP8 性能和 4 倍内存带宽。⁵ 该芯片将支持 NVIDIA NVLink Fusion，实现 Trainium 与 NVIDIA GPU 在统一集群中的混合部署。

Inferentia：成本优化的推理方案

AWS Inferentia 芯片针对推理工作负载，适用于单次预测成本比绝对延迟更重要的场景。这些芯片与 Trainium 的训练定位互补，为机器学习工作流程打造完整的自研芯片生态系统。

第一代 Inferentia（2019 年）： Inf1 实例相比同等 GPU 实例实现 2.3 倍吞吐量提升和 70% 成本降低。⁶ 该芯片在专注训练的 Trainium 问世之前，就已确立了 AWS 的自研芯片战略。

Inferentia2（2023 年）： 每颗芯片提供 190 TFLOPS FP16 性能，配备 32 GB HBM，代表相比第一代 4 倍吞吐量提升和 10 倍延迟降低。⁷ Inf2 实例可扩展到每实例 12 颗芯片，通过 NeuronLink 连接实现大模型的分布式推理。

Inf2 实例在推理工作负载上比同等 EC2 实例提供 40% 更优的性价比。Metagenomi 等组织在 Inferentia 上部署蛋白质语言模型，实现了 56% 的成本降低。⁸ 亚马逊自己的 Rufus AI 助手也运行在 Inferentia 上，实现了 2 倍响应速度提升和 50% 推理成本降低。

目前尚未公布 Inferentia3。AWS 似乎专注于改进 Trainium 以同时惠及训练和推理，而非维护独立的芯片产品线。Trainium3 的推理优化表明这两个产品系列正在趋于融合。

Neuron SDK：连接框架与芯片的桥梁

AWS Neuron SDK 提供软件层，使标准机器学习框架能够在 Trainium 和 Inferentia 上运行。SDK 成熟度历来限制了采用率，但 2025 年的版本大幅改善了开发者体验。

TorchNeuron（2025 年）： 原生 PyTorch 后端，将 Trainium 作为与 CUDA GPU 并列的一等设备集成。⁹ TorchNeuron 提供用于调试的即时模式执行、原生分布式 API（FSDP、DTensor）和 torch.compile 支持。使用 HuggingFace Transformers 或 TorchTitan 的模型只需最少的代码修改。

import torch
import torch_neuron

# Trainium 作为标准 PyTorch 设备出现
device = torch.device("neuron")
model = model.to(device)

# 标准 PyTorch 训练循环无需修改即可工作
for batch in dataloader:
    inputs = batch.to(device)
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()
    optimizer.step()

Neuron SDK 2.26.0（2025 年 11 月）： 新增 PyTorch 2.8 和 JAX 0.6.2 支持，兼容 Python 3.11。¹⁰ 模型支持扩展到 Llama 4 变体和 FLUX.1-dev 图像生成（测试版）。专家并行现在支持 MoE 模型训练，可将专家分布到各个 NeuronCore。

Neuron Kernel Interface (NKI)： 为需要最高性能的开发者提供底层硬件控制。¹¹ 增强版 NKI 支持指令级编程、内存分配控制和执行调度，可直接访问 ISA。AWS 以 Apache 2.0 许可证开源了 NKI 编译器。

成本对比：Trainium vs NVIDIA

AWS 将 Trainium 定位为以显著更低的价格提供 NVIDIA 级别的性能：

实例类型	每小时成本	芯片/GPU 数量	性能级别
trn1.2xlarge	~$1.10	1 Trainium	A100 级别
trn2.48xlarge	~$4.80	16 Trainium2	H100 级别
p5.48xlarge	~$9.80	8 H100	参考基准

AWS 声称 Trainium2 相比基于 GPU 的 P5 实例提供 30-40% 更优的性价比。¹² AWS 内部基准测试显示，对于 GPT 类模型，Trainium 在相似吞吐量下每 token 成本比 A100 集群低 54%。

规模越大，经济效益越明显。亚马逊向客户推介称，对于特定工作负载，Trainium 可以以 25% 的成本提供 H100 同等性能。¹³ 虽然营销宣传需要针对具体用例进行验证，但对于兼容的工作负载，方向性的节省是显著的。

AWS 在 2025 年 6 月将 H100 价格下调约 44%，使按需 H100 实例降至每 GPU 小时 3-4 美元。¹⁴ 这场价格战使两种技术的用户都受益，尽管 Trainium 在支持的工作负载上仍保持成本领先优势。

Project Rainier：前沿规模的 Trainium 应用

Anthropic 的 Project Rainier 证明了 Trainium 在最严苛 AI 工作负载上的可行性。该集群代表了 AWS 最大规模的 AI 基础设施部署，也是全球最强大的训练系统之一。

规模： 近 500,000 颗 Trainium2 芯片部署在印第安纳州一处占地 1,200 英亩的园区内的 30 个数据中心。¹⁵ 该基础设施提供的算力是 Anthropic 训练之前 Claude 版本所用算力的 5 倍。Anthropic 预计到 2025 年底将使用超过 100 万颗 Trainium2 芯片用于训练和推理的综合需求。

架构： Trainium2 UltraServer 每台通过 NeuronLink 连接 64 颗芯片，实现高带宽通信。该集群跨越多栋建筑，需要专门的园区级互联基础设施。

工作负载管理： Anthropic 在白天高峰时段将大部分芯片用于推理，晚间推理需求下降时转为训练任务。¹⁶ 这种灵活调度最大化了两类工作负载的利用率。

投资背景： 亚马逊自 2024 年初以来已向 Anthropic 投资 80 亿美元。¹⁷ 该合作包括技术协作，Anthropic 为 Trainium3 开发提供输入，以提高训练速度、降低延迟并提升能效。

Project Rainier 验证了 Trainium 能够训练以往需要 NVIDIA 集群的前沿模型。这一成功使 AWS 能够竞争其他 AI 实验室的合作伙伴关系以及企业级训练工作负载。

何时选择 Trainium

Trainium 在特定条件下能够提供最大价值：

理想工作负载： - Transformer 模型训练（LLM、视觉 Transformer） - 需要 100+ 芯片的大规模分布式训练 - 使用标准架构的 PyTorch 或 JAX 代码库 - 对成本敏感的训练场景，30-50% 的节省足以证明迁移投入的合理性 - 已深度使用 AWS 生态系统的组织

迁移考量： - Neuron SDK 对特定模型和算子的支持情况 - 代码适配和验证所需的工程时间 - 对 AWS 的锁定（Trainium 不可在其他云上使用） - 针对特定架构变体的性能验证

不推荐的场景： - 需要 CUDA 特定算子的新颖架构 - 不惜成本追求最高绝对性能的工作负载 - 需要多云可移植性的组织 - 迁移成本超过节省的小规模训练

何时选择 Inferentia

Inferentia 针对生产部署中的推理成本优化：

理想工作负载： - 以成本为首要约束的大规模推理 - 对延迟容忍的批处理 - 标准模型架构（BERT、GPT 变体、视觉模型） - 在 AWS 上运行推理密集型工作负载的组织

成本效益临界点： 当推理成本超过每月 10,000 美元且工作负载匹配支持的模型架构时，Inferentia 迁移才有意义。低于该阈值，工程投入通常会超过节省。超过每月 100,000 美元时，40-50% 的成本降低将带来可观回报。

Trainium3 与竞争格局

Trainium3 于 2025 年 12 月发布，加剧了与 NVIDIA Blackwell 的竞争：

Trainium3 vs Blackwell Ultra： - Trainium3：单芯片 2.52 petaflops FP8，144 GB HBM3e - Blackwell Ultra：单芯片约 5 petaflops FP8，288 GB HBM3e - Trn3 UltraServer（144 芯片）：总计 362 petaflops - GB300 NVL72：总计约 540 petaflops

NVIDIA 在单芯片性能上保持领先，但 AWS 在系统经济性上展开竞争。一台 Trn3 UltraServer 的成本可能比同等 Blackwell 基础设施低 40-60%，同时提供相当的聚合算力。¹⁸

Trainium4 计划支持的 NVLink Fusion 表明 AWS 认识到纯替代策略并非对所有工作负载都可行。混合部署——将 Trainium 用于成本优化的组件，同时将 NVIDIA GPU 用于 CUDA 依赖的操作——可能成为标准架构。

企业采用策略

评估 AWS 自研芯片的组织应遵循结构化的采用路径：

第一阶段：评估 - 盘点当前训练和推理工作负载 - 识别 Neuron SDK 对模型架构的支持情况 - 基于当前 AWS GPU 支出计算潜在节省 - 评估迁移投入所需的工程能力

第二阶段：试点 - 选择具有良好 Neuron SDK 支持的代表性工作负载 - 在 Trainium 和 GPU 实例上并行运行训练 - 验证准确性、吞吐量和总成本 - 记录迁移需求和挑战

第三阶段：生产迁移 - 将验证通过的工作负载迁移到 Trainium/Inferentia - 为不支持的操作保留 GPU 回退方案 - 实施性能和成本监控

[内容因翻译需要而截断]

Amazon Trainium 和 Inferentia：AWS 自研芯片生态系统指南

Trainium 架构演进

Inferentia：成本优化的推理方案

Neuron SDK：连接框架与芯片的桥梁

成本对比：Trainium vs NVIDIA

Project Rainier：前沿规模的 Trainium 应用

何时选择 Trainium

何时选择 Inferentia

Trainium3 与竞争格局

企业采用策略

You Might Also Like

浸没式冷却投资回报计算器：AI工作负载2-4年回本分析

英国AI走廊：伦敦新兴计算中心

水资源使用效率：无危机的AI数据中心冷却方案

申请报价_

请求已收到_