超越GPU的AI加速器:替代芯片格局
更新于2025年12月11日
2025年12月更新: AWS Trainium3开始出货,每颗芯片提供2.52 PFLOPS FP8算力和144GB HBM3e。Google TPU v7 Ironwood每颗芯片提供4,614 TFLOPS——分析师称其"与Blackwell同等水平"。Intel确认在2026-2027年下一代GPU发布时停产Gaudi。Groq LPU在较小模型上达到750 tokens/秒,而Cerebras WSE-3峰值性能达到125 PFLOPS。尽管NVIDIA占据80%的市场主导地位,替代芯片在特定工作负载上正获得关注。
NVIDIA占据了约80%的AI加速器市场,但对成本效益和垂直集成基础设施日益增长的需求正在缓慢推动替代芯片的采用。¹ Google在2025年11月发布了第七代TPU Ironwood,分析师称其"可以说与NVIDIA Blackwell同等水平"。² AWS为Anthropic的模型训练部署了超过50万颗Trainium2芯片——这是生产环境中最大的非NVIDIA AI集群。³ Cerebras推出了配备4万亿晶体管和125 petaflops峰值性能的WSE-3。⁴ AI加速器格局远不止GPU,还提供针对特定工作负载优化的架构,企业正越来越多地对其进行评估。
GPU仍然是灵活性和生态系统成熟度的默认选择。CUDA的主导地位和NVIDIA的持续创新使得切换成本巨大。然而,超大规模云服务商设计自己的芯片、初创公司挑战芯片架构假设以及Intel的激进定价都创造了五年前不存在的选择。大规模运行AI的组织现在将加速器选择视为战略基础设施决策,而不是商品采购。
Google TPU:超大规模云服务商基准
Google在2024年5月宣布了Trillium (TPU v6),并在2025年正式发布。⁵ 第六代TPU与TPU v5e相比,每颗芯片的峰值计算性能提高了4.7倍。⁶ Google扩大了矩阵乘法单元尺寸并提高了时钟速度,达到约926 teraflops的BF16性能。⁷
内存容量和带宽比上一代翻了一番。⁸ Trillium每颗芯片提供32 GB的HBM容量,带宽也相应增加。⁹ 芯片间互连带宽也翻了一番,提高了多芯片扩展效率。¹⁰
与TPU v5e相比,能效提高了67%以上。¹¹ 行业分析师估计TPU v6比GPU的运行效率高60-65%,而前几代的效率优势为40-45%。¹² 效率提升在数据中心规模上产生复合效应,因为功率限制会限制部署密度。
Trillium在单个高带宽、低延迟pod中可扩展至256个TPU。¹³ 除了pod级别的可扩展性,多切片技术和Titanium Intelligence Processing Units还能够扩展到数百个pod,在建筑规模的超级计算机中连接数万颗芯片。¹⁴ 最大的Trillium集群提供91 exaflops——比最大的TPU v5p集群多四倍。¹⁵
训练基准测试证明了性能提升。与TPU v5e相比,Trillium在Gemma 2-27B、MaxText Default-32B和Llama2-70B上的训练性能提升超过四倍。¹⁶ Stable Diffusion XL的推理吞吐量提高了三倍。¹⁷ Google使用Trillium训练了Gemini 2.0。¹⁸
Google在2025年4月的Cloud Next上发布了TPU v7 (Ironwood)。¹⁹ Ironwood每颗芯片提供4,614 teraflops,将以256芯片和9,216芯片配置出货。²⁰ SemiAnalysis团队对该芯片给予高度评价,称Google在超大规模云服务商中的优势地位无人能及。²¹
TPU访问需要Google Cloud。承诺多云或本地部署的组织无法直接使用TPU基础设施。仅云模式限制了对Google Cloud区域无法满足数据驻留或主权要求的组织的采用。
AWS Trainium:Anthropic合作伙伴关系
AWS在2025年12月推出了Trainium3——该公司首款3nm AI芯片。²² 每颗Trainium3芯片提供2.52 petaflops的FP8计算,配备144 GB的HBM3e内存和每秒4.9 TB的内存带宽。²³ 这些规格比Trainium2的内存容量增加1.5倍,带宽增加1.7倍。²⁴
Trn3 UltraServers可扩展至144颗Trainium3芯片,总FP8性能达到362 petaflops。²⁵ 完整配置的UltraServer提供20.7 TB的HBM3e和每秒706 TB的聚合内存带宽。²⁶ AWS声称与基于Trainium2的系统相比,计算性能提高4.4倍,能效提高4倍,内存带宽增加近4倍。²⁷
NeuronSwitch-v1结构与Trn2 UltraServer相比,芯片间互连带宽翻了一番。²⁸ 全对全结构架构使得在完整芯片配置上进行高效分布式训练成为可能。
Project Rainier代表了AWS最大的AI基础设施部署。AWS与Anthropic合作,将超过50万颗Trainium2芯片连接成世界上最大的AI计算集群——比用于训练Anthropic上一代模型的基础设施大五倍。²⁹ 这一合作伙伴关系证明了Trainium在前沿模型训练中的可行性。
根据AWS的说法,基于Trainium2的EC2 Trn2实例比基于GPU的EC2 P5e和P5en实例提供30-40%更好的性价比。³⁰ 成本优势对于计算成本占主导地位的持续训练工作负载很重要。
AWS停产了Inferentia产品线,因为推理工作负载在计算需求方面越来越类似于训练。³¹ Trainium架构现在同时处理训练和推理,简化了芯片产品组合。
Trainium4正在开发中,预计将在2026年底或2027年初交付。³² AWS宣布与Trainium3相比,FP4吞吐量至少提高6倍,FP8性能提高3倍,内存带宽增加4倍。³³ Trainium4将支持NVIDIA NVLink Fusion互连技术,能够在通用机架配置中与NVIDIA GPU集成。³⁴
Intel Gaudi:价格竞争者
Intel在2024年推出了Gaudi 3,将其定位为NVIDIA H100的成本效益替代方案。³⁵ Gaudi 3使用两个小芯片,配备64个张量处理器核心、8个矩阵乘法引擎和96 MB片上SRAM缓存,带宽为每秒19.2 TB。³⁶ 该芯片集成了128 GB的HBM2e内存,带宽为每秒3.67 TB。³⁷
Gaudi 3在约600瓦TDP下提供1,835 BF16/FP8矩阵teraflops。³⁸ 与NVIDIA H100相比,Gaudi 3提供更高的BF16矩阵性能(1,835对比1,979 teraflops,无稀疏性)和更多的HBM容量(128对比80 GB)。³⁹ 内存带宽也超过了H100。⁴⁰
Intel声称Gaudi 3通常比NVIDIA H100快40%,在FP8精度下训练Llama2-13B时可能超过H100达1.7倍。⁴¹ 功耗效率声明更为显著——在Llama基准测试上达到H100价值的220%,在Falcon上达到230%。⁴²
定价优势很大。八加速器Gaudi 3系统成本为157,613美元,而等效的H100系统为300,107美元。⁴³ 每芯片定价约为Gaudi 3的15,625美元对比H100的30,678美元。⁴⁴ 成本差异使组织能够在相同预算下部署大约两倍的计算容量。
Gaudi 3使用HBM2e而不是HBM3或HBM3e,这有助于降低成本,但与当前一代替代方案相比限制了内存带宽。⁴⁵ 运行受内存带宽限制的工作负载的组织应仔细评估这种权衡。
生态系统挑战限制了Gaudi的采用。NVIDIA的CUDA在AI开发中占主导地位,转换到Intel的工具需要工程投资。⁴⁶ 尽管硬件具有竞争力,Intel在AI加速器市场份额仍然微不足道。⁴⁷
Intel宣布在2026-2027年推出下一代AI GPU时将停产Gaudi。⁴⁸ 停产公告为考虑多年Gaudi部署的组织带来了采用风险。合作伙伴可能会犹豫是否投资已宣布生命周期结束的产品线。
Groq LPU:推理速度领先
Groq的Language Processing Unit (LPU)采用根本不同的架构方法,专门针对推理而非训练进行优化。⁴⁹ Tensor Streaming Processor架构在INT8下达到750 TOPS,在FP16下达到188 teraflops,片上SRAM带宽达到每秒80 TB。⁵⁰
第一代LPU在14nm芯片上以900 MHz运行,每平方毫米提供超过1 teraop/秒。⁵¹ 第二代LPU将使用Samsung的4nm工艺。⁵²
推理速度定义了Groq的价值主张。LPU以每秒480个token的速度服务Mixtral 8x7B,以每秒300个token的速度服务Llama 2 70B。⁵³ 较小的模型如Llama 2 7B达到每秒750个token。⁵⁴ Groq是第一个在Llama2-70B上突破每秒100个token的API提供商。⁵⁵
LPU为语言模型提供比传统GPU快18倍的推理速度,延迟确定性低于毫秒级。⁵⁶ 能效达到每token 1-3焦耳。⁵⁷
LPU卡成本约为20,000美元——与高端NVIDIA GPU相当——但专门在推理速度和效率方面表现出色。⁵⁸ 权衡很明确:LPU只处理推理,不处理训练。⁵⁹
Groq的部署足迹在2025年显著扩大。该公司在美国、加拿大、中东和欧洲运营十几个数据中心。⁶⁰ 2025年9月,Groq以69亿美元估值筹集了7.5亿美元。⁶¹
2025年2月宣布的沙特阿拉伯合作伙伴关系承诺投资15亿美元,在达曼建设Groq所说的世界最大的AI推理数据中心。⁶² 初期部署包含19,000个LPU,计划到2027年扩容超过100,000个LPU。⁶³
Cerebras WSE-3:晶圆级集成
Cerebras采用最激进的架构方法,在晶圆级别构建芯片,而不是将晶圆切割成单个处理器。⁶⁴ WSE-3在整个晶圆上包含4万亿晶体管——46,225平方毫米的硅。⁶⁵
WSE-3封装了90万个AI优化计算核心,提供125 petaflops的峰值AI性能。⁶⁶ 片上SRAM达到44 GB,内存带宽为每秒21 PB。⁶⁷ 结构带宽达到每秒214 Pb。⁶⁸ 该芯片采用TSMC的5nm工艺制造。⁶⁹
CS-3系统在相同的15千瓦功率范围内性能比CS-2翻倍。⁷⁰ 单个CS-3适合15U机架空间。⁷¹ 根据配置,外部内存选项可将容量扩展到1.5 TB、12 TB或1.2 PB。⁷²
模型容量大幅扩展。CS-3可以训练多达24万亿参数的神经网络模型。⁷³ 集群可扩展至2,048个CS-3系统,提供高达256 exaflops的FP16计算。⁷⁴
Cerebras声称具有显著的易用性优势。该平台为LLM所需的代码比GPU少97%,并以纯数据并行模式训练从10亿到24万亿参数的模型。⁷⁵ 紧凑的四系统配置可在一天内微调70B模型。⁷⁶ 在完整的2,048系统规模下,Llama 70B可在一天内从头训练。⁷⁷
达拉斯的Condor Galaxy 3超级计算机将部署64个CS-3系统,提供8 exaflops的FP16计算。⁷⁸ 《时代》杂志将WSE-3评为2024年最佳发明。⁷⁹
SambaNova SN40L:可重配置数据流
SambaNova的Reconfigurable Dataflow Unit (RDU)架构不同于GPU和定制ASIC。⁸⁰ SN40L结合了片上数据流灵活性和三层内存系统:片上SRAM、封装上HBM和封装外DRAM。⁸¹
SN40L使用TSMC的5nm工艺,采用双芯片CoWoS封装。⁸² 每个插槽包含1,020亿晶体管,提供640 BF16 teraflops和520 MB片上SRAM。⁸³ DDR层支持高达1.5 TB的内存容量,超过