GPU之外的AI加速器:替代芯片格局
更新于2025年12月11日
2025年12月更新: AWS Trainium3已出货,每芯片提供2.52 PFLOPS FP8算力和144GB HBM3e内存。Google TPU v7 Ironwood每芯片提供4,614 TFLOPS——分析师称其"与Blackwell不相上下"。Intel确认将在2026-2027年下一代GPU发布时停产Gaudi。Groq LPU在较小模型上实现每秒750个token,而Cerebras WSE-3峰值算力达到125 PFLOPS。尽管NVIDIA占据80%的市场主导地位,替代芯片在特定工作负载上正获得越来越多的关注。
NVIDIA占据约80%的AI加速器市场,但对成本效益和垂直整合基础设施日益增长的需求正逐步推动替代芯片的采用。¹ Google于2025年11月发布了第七代TPU Ironwood,分析师将其描述为"可以说与NVIDIA Blackwell不相上下"。² AWS为Anthropic的模型训练部署了超过50万颗Trainium2芯片——这是目前生产环境中最大的非NVIDIA AI集群。³ Cerebras推出了拥有4万亿晶体管和125 petaflops峰值性能的WSE-3。⁴ AI加速器格局远不止GPU,还提供针对特定工作负载优化的架构,企业对此的评估日益增多。
GPU仍然是灵活性和生态系统成熟度方面的默认选择。CUDA的主导地位和NVIDIA持续的创新使得迁移成本相当可观。然而,设计自研芯片的超大规模云服务商、挑战芯片架构传统假设的初创公司,以及Intel的激进定价策略,都创造了五年前不存在的选择。大规模运行AI的组织现在将加速器选择视为战略性基础设施决策,而非简单的商品采购。
Google TPU:超大规模云服务商的标杆
Google于2024年5月发布了Trillium(TPU v6),并于2025年正式商用。⁵ 第六代TPU每芯片峰值计算性能比TPU v5e提高了4.7倍。⁶ Google扩大了矩阵乘法单元尺寸并提高了时钟频率,达到约926 teraflops的BF16性能。⁷
内存容量和带宽比上一代翻了一番。⁸ Trillium每芯片提供32 GB HBM容量,带宽也相应增加。⁹ 芯片间互连带宽也翻倍,提高了多芯片扩展效率。¹⁰
与TPU v5e相比,能效提高了67%以上。¹¹ 行业分析师估计TPU v6的运行效率比GPU高60-65%,而前几代的效率优势为40-45%。¹² 在功率限制影响部署密度的数据中心规模下,效率提升会产生复合效应。
Trillium可在单个高带宽、低延迟的pod中扩展到256个TPU。¹³ 除了pod级可扩展性外,multislice技术和Titanium智能处理单元还能扩展到数百个pod,在建筑级超级计算机中连接数万颗芯片。¹⁴ 最大的Trillium集群可提供91 exaflops——是最大TPU v5p集群的四倍。¹⁵
训练基准测试展示了性能改进。与TPU v5e相比,Trillium在Gemma 2-27B、MaxText Default-32B和Llama2-70B上的训练性能提升超过四倍。¹⁶ Stable Diffusion XL的推理吞吐量提高了三倍。¹⁷ Google使用Trillium训练了Gemini 2.0。¹⁸
Google于2025年4月在Cloud Next上发布了TPU v7(Ironwood)。¹⁹ Ironwood每芯片提供4,614 teraflops,将以256芯片和9,216芯片配置出货。²⁰ SemiAnalysis团队对该芯片表示赞赏,称Google在超大规模云服务商中的领先地位无与伦比。²¹
使用TPU需要Google Cloud。承诺多云或本地部署的组织无法直接使用TPU基础设施。纯云模式限制了那些有数据驻留或主权要求、但Google Cloud区域无法满足的组织的采用。
AWS Trainium:与Anthropic的合作
AWS于2025年12月推出Trainium3——该公司首款3nm AI芯片。²² 每颗Trainium3芯片提供2.52 petaflops FP8算力,配备144 GB HBM3e内存和每秒4.9 TB的内存带宽。²³ 这些规格比Trainium2多出1.5倍内存容量和1.7倍带宽。²⁴
Trn3 UltraServer可扩展到144颗Trainium3芯片,总FP8性能达362 petaflops。²⁵ 满配UltraServer提供20.7 TB HBM3e和每秒706 TB的聚合内存带宽。²⁶ AWS声称与基于Trainium2的系统相比,计算性能提高4.4倍,能效提高4倍,内存带宽提高近4倍。²⁷
NeuronSwitch-v1互联架构将芯片间互连带宽比Trn2 UltraServer翻了一番。²⁸ 全对全互联架构支持在所有芯片间进行高效的分布式训练。
Project Rainier代表了AWS最大的AI基础设施部署。AWS与Anthropic合作,将超过50万颗Trainium2芯片连接成世界上最大的AI计算集群——比Anthropic训练上一代模型所用基础设施大五倍。²⁹ 这一合作证明了Trainium在前沿模型训练方面的可行性。
据AWS称,基于Trainium2的EC2 Trn2实例比基于GPU的EC2 P5e和P5en实例性价比高30-40%。³⁰ 对于计算成本主导预算的持续训练工作负载而言,成本优势非常重要。
AWS停产了Inferentia产品线,因为推理工作负载在计算需求上越来越接近训练。³¹ Trainium架构现在同时处理训练和推理,简化了芯片产品组合。
Trainium4正在开发中,预计于2026年底或2027年初交付。³² AWS宣布与Trainium3相比,FP4吞吐量至少提高6倍,FP8性能提高3倍,内存带宽提高4倍。³³ Trainium4将支持NVIDIA NVLink Fusion互连技术,实现在通用机架配置中与NVIDIA GPU的集成。³⁴
Intel Gaudi:价格竞争者
Intel于2024年推出Gaudi 3,将其定位为NVIDIA H100的高性价比替代方案。³⁵ Gaudi 3使用双芯片设计,具有64个张量处理器核心、8个矩阵乘法引擎和96 MB片上SRAM缓存,带宽达每秒19.2 TB。³⁶ 该芯片集成128 GB HBM2e内存,带宽每秒3.67 TB。³⁷
Gaudi 3在约600瓦TDP下提供1,835 BF16/FP8矩阵teraflops。³⁸ 与NVIDIA H100相比,Gaudi 3提供更高的BF16矩阵性能(不含稀疏性时为1,835对1,979 teraflops)和更大的HBM容量(128对80 GB)。³⁹ 内存带宽也超过H100。⁴⁰
Intel声称Gaudi 3通常比NVIDIA H100快40%,在FP8精度下训练Llama2-13B时最高可达H100的1.7倍。⁴¹ 能效方面的声称更为惊人——在Llama基准测试中可达H100的220%,在Falcon上可达230%。⁴²
价格优势相当可观。八加速器Gaudi 3系统售价157,613美元,而同等H100系统为300,107美元。⁴³ 每芯片价格约为Gaudi 3的15,625美元对H100的30,678美元。⁴⁴ 这一成本差异使组织能够以相同预算部署约两倍的计算能力。
Gaudi 3使用HBM2e而非HBM3或HBM3e,这有助于降低成本,但与当前一代替代方案相比限制了内存带宽。⁴⁵ 运行内存带宽受限工作负载的组织应仔细评估这一权衡。
生态系统挑战限制了Gaudi的采用。NVIDIA的CUDA主导AI开发,转向Intel工具需要工程投入。⁴⁶ 尽管硬件具有竞争力,Intel在AI加速器市场的份额仍然微乎其微。⁴⁷
Intel宣布将在2026-2027年下一代AI GPU发布时停产Gaudi。⁴⁸ 停产公告给考虑多年期Gaudi部署的组织带来了采用风险。合作伙伴可能会对投资已宣布停产的产品线犹豫不决。
Groq LPU:推理速度领先者
Groq的语言处理单元(LPU)采用了根本不同的架构方法,专门针对推理而非训练进行优化。⁴⁹ 张量流处理器架构在INT8下实现750 TOPS,在FP16下实现188 teraflops,片上SRAM带宽高达每秒80 TB。⁵⁰
第一代LPU在14nm芯片上以900 MHz运行,每平方毫米实现超过1 teraop。⁵¹ 第二代LPU将使用三星的4nm工艺。⁵²
推理速度定义了Groq的价值主张。LPU以每秒480个token服务Mixtral 8x7B,以每秒300个token服务Llama 2 70B。⁵³ 较小的模型如Llama 2 7B可达每秒750个token。⁵⁴ Groq是第一个在Llama2-70B上突破每秒100个token的API提供商。⁵⁵
对于语言模型,LPU的推理速度比传统GPU快达18倍,具有确定性的亚毫秒级延迟。⁵⁶ 能效达到每token 1-3焦耳。⁵⁷
LPU卡价格约为20,000美元——与高端NVIDIA GPU相当——但专门在推理速度和效率方面表现出色。⁵⁸ 权衡很明确:LPU只处理推理,不支持训练。⁵⁹
Groq的部署规模在2025年显著扩大。该公司在美国、加拿大、中东和欧洲运营着十几个数据中心。⁶⁰ 2025年9月,Groq以69亿美元估值融资7.5亿美元。⁶¹
2025年2月宣布的沙特阿拉伯合作承诺投资15亿美元,在达曼建设Groq所描述的世界最大AI推理数据中心。⁶² 初始部署配备19,000个LPU,计划到2027年扩展到超过100,000个LPU。⁶³
Cerebras WSE-3:晶圆级集成
Cerebras采用了最激进的架构方法,在晶圆级构建芯片,而不是将晶圆切割成单独的处理器。⁶⁴ WSE-3在整个晶圆上包含4万亿个晶体管——46,225平方毫米的硅片。⁶⁵
WSE-3集成了900,000个AI优化计算核心,提供125 petaflops的峰值AI性能。⁶⁶ 片上SRAM达44 GB,内存带宽每秒21 petabytes。⁶⁷ 互联带宽达每秒214 petabits。⁶⁸ 该芯片采用台积电5nm工艺制造。⁶⁹
CS-3系统在相同的15千瓦功率范围内将CS-2的性能翻倍。⁷⁰ 单个CS-3占用15U机架空间。⁷¹ 外部内存选项可根据配置将容量扩展到1.5 TB、12 TB或1.2 PB。⁷²
模型容量显著扩展。CS-3可训练多达24万亿参数的神经网络模型。⁷³ 集群可扩展到2,048个CS-3系统,提供高达256 exaflops的FP16算力。⁷⁴
Cerebras声称具有显著的易用性优势。该平台用于LLM的代码比GPU少97%,并以纯数据并行模式训练从10亿到24万亿参数的模型。⁷⁵ 紧凑的四系统配置可在一天内微调70B模型。⁷⁶ 在满配2,048系统规模下,Llama 70B可在一天内从头训练完成。⁷⁷
达拉斯的Condor Galaxy 3超级计算机将部署64个CS-3系统,提供8 exaflops的FP16算力。⁷⁸ 《时代》杂志将WSE-3评为2024年度最佳发明。⁷⁹
SambaNova SN40L:可重构数据流
SambaNova的可重构数据流单元(RDU)架构不同于GPU和定制ASIC。⁸⁰ SN40L将片上数据流灵活性与三层内存系统相结合:片上SRAM、封装内HBM和封装外DRAM。⁸¹
SN40L采用台积电5nm工艺的双芯片CoWoS封装。⁸² 每个插槽包含1,020亿个晶体管,提供640 BF16 teraflops和520 MB片上SRAM。⁸³ DDR层支持超过
[内容因翻译而截断]