Cerebras晶圆级引擎：何时选择替代AI架构

搭载WSE-3的CS-3以每用户2,500 tokens/秒的速度运行Llama 4 Maverick——比DGX B200 Blackwell快2倍以上。WSE-3包含4万亿个晶体管、90万个AI核心、44GB片上SRAM，内存带宽达21 PB/s...

Blake Crosley

Apr 04, 2026 2 min read Disclaimer

Cerebras晶圆级引擎：何时选择替代AI架构

更新于2025年12月11日

2025年12月更新： 搭载WSE-3的CS-3以每用户2,500 tokens/秒的速度运行Llama 4 Maverick——比运行相同4000亿参数模型的NVIDIA旗舰DGX B200 Blackwell系统快2倍以上。WSE-3包含4万亿个晶体管、90万个AI核心、44GB片上SRAM，内存带宽达21 PB/s（是H100的7,000倍）。晶圆级架构消除了GPU集群互连瓶颈，专为内存带宽受限的工作负载设计。

Cerebras以每用户每秒2,500 tokens的速度运行Llama 4 Maverick推理——比NVIDIA旗舰DGX B200 Blackwell系统运行相同的4000亿参数模型快一倍以上。¹ 这一性能差距反映了根本性的架构分歧：Cerebras用整片硅晶圆制造处理器，而不是将晶圆切割成数百个独立芯片。这种方法消除了制约GPU集群的互连瓶颈，以传统制造经济性换取内存带宽受限AI工作负载的原始性能。

搭载WSE-3（晶圆级引擎3）的CS-3包含4万亿个晶体管，分布在90万个AI优化核心上，配备44GB片上SRAM，提供每秒21 PB的内存带宽。² 作为参考，该内存带宽超过H100的7,000倍。评估AI基础设施的组织面临真正的架构选择：使用GPU集群横向扩展并承受固有的通信开销，或部署专为LLM性能主导因素——内存带宽限制而设计的晶圆级系统。

晶圆级方法

传统芯片制造

标准半导体制造遵循既定模式：³

制造： 通过数百道工序处理硅晶圆
测试： 识别缺陷区域
切割： 将晶圆切成数百个独立裸片
封装： 将良品裸片安装到带连接的封装中
集成： 连接多个封装以构建系统

这种方法产出的芯片最大约800平方毫米——这是由光刻设备和良率经济性施加的限制。芯片越大意味着每个裸片上的缺陷越多，从而减少了每片晶圆的功能单元数量。

Cerebras的创新

Cerebras颠覆了制造方程式：⁴

单芯片晶圆： Cerebras不将晶圆切割成小芯片，而是将几乎整片300mm晶圆（46,225 mm²）用作一个处理器——约为传统GPU裸片的50倍。

缺陷容忍： 阻止传统晶圆级芯片的良率问题通过架构创新得以解决： - 单个核心缩小到0.05mm²（H100 SM核心大小的1%） - 冗余核心替换有缺陷的核心 - 片上网络绕过故障路由 - 与传统多核处理器相比，缺陷容忍度提高100倍

一切片上化： 内存、计算和互连都位于同一块硅片上，消除了外部内存和芯片间连接的带宽限制。

架构优势

晶圆级方法带来具体优势：⁵

内存带宽： - WSE-3：21 PB/s片上SRAM带宽 - H100：3 TB/s HBM带宽 - 比例：7,000倍优势

互连带宽： - WSE-3：214 Pb/s片上网络 - H100 NVLink：每GPU 57.6 GB/s - 比例：3,715倍优势

内存容量： - WSE-3：44 GB片上SRAM（可通过外部MemoryX扩展） - H100：80 GB HBM3

能效： - 单设备简化消除了多芯片协调开销 - 无外部内存控制器、互连交换机或PCB走线 - 据报告，在等效工作负载下比GPU集群具有能效优势

WSE-3和CS-3规格

核心架构

WSE-3代表Cerebras晶圆级技术的第三代：⁶

硅片规格： - 制程节点：台积电5nm - 裸片面积：46,225 mm²（21.5 cm × 21.5 cm） - 晶体管数量：4万亿 - AI核心：90万 - 峰值性能：125 PetaFLOPs（FP16）

内存系统： - 片上SRAM：44 GB - SRAM带宽：21 PB/s - 外部内存扩展：MemoryX（每系统最高1.5 PB） - 外部内存带宽：专有高带宽互连

互连： - 片上网络：214 Pb/s总带宽 - 核心到核心通信：单时钟周期延迟 - 晶圆内通信无需离片路由

CS-3系统

CS-3将WSE-3封装成可部署的系统：⁷

物理规格： - 外形尺寸：15U机架单元 - 功耗：约23 kW - 散热：专有水冷系统

系统组件： - WSE-3处理器 - MemoryX外部内存（可选） - SwarmX集群互连（用于多CS-3部署） - 管理和I/O系统

集群扩展： - 最大集群：2,048个CS-3系统 - 集群算力：高达256 ExaFLOPs（FP16） - 模型容量：高达24万亿参数 - 训练能力：Llama 2-70B可在适度集群上一天内完成训练

代际对比

规格	WSE-1	WSE-2	WSE-3
制程节点	16nm	7nm	5nm
晶体管	1.2T	2.6T	4T
AI核心	400,000	850,000	900,000
片上内存	18 GB	40 GB	44 GB
内存带宽	9 PB/s	20 PB/s	21 PB/s
峰值FP16	47 PF	75 PF	125 PF

性能特征

推理速度

Cerebras展示了显著的推理优势：⁸

Llama 4 Maverick（4000亿参数）： - Cerebras：2,500+ tokens/秒/用户 - NVIDIA DGX B200：约1,000 tokens/秒/用户 - 优势：>2.5倍

Llama 3.1系列模型： - Llama 3.1 8B：创世界纪录的推理速度 - Llama 3.1 70B：比GPU替代方案快数倍 - Llama 3.1 405B：Cerebras云端支持

推理卓越的原因： LLM token生成的瓶颈在于内存带宽——每个token都需要从内存加载模型权重到计算单元。Cerebras的21 PB/s片上带宽消除了制约GPU推理的内存墙。

训练性能

训练优势源于简化的分布式计算：⁹

代码复杂度降低： 在4,000个GPU上训练1750亿参数模型通常需要约20,000行分布式训练代码。Cerebras用565行代码完成同等训练——整个模型无需数据并行复杂性即可放入晶圆。

通信消除： GPU训练性能随着集群规模增加而因梯度同步开销而下降。对于适合片上运行的模型，Cerebras消除了这种开销，为适当的工作负载保持线性扩展。

训练时间基准： - Llama 2-70B：可在CS-3集群上一天内完成训练 - 高达24万亿参数的模型：无需软件分布技巧即可支持

科学计算

除了LLM，Cerebras在科学模拟中也展现优势：¹⁰

分子动力学： Cerebras实现的长时间尺度分子动力学模拟比全球排名第一的超级计算机（Frontier）快179倍。该工作负载的内存访问模式与晶圆级架构高度契合。

药物发现： 梅奥诊所部署了一个癌症药物反应预测模型，在Cerebras上的运行速度比传统GPU"快数百倍"。

基因组学： 梅奥基因组基础模型专门在Cerebras基础设施上构建，用于大规模基因组分析。

Cerebras与NVIDIA对比

Cerebras的优势领域

内存带宽受限的工作负载：¹¹ - LLM推理（尤其是大型模型） - 训练适合片上运行的模型 - 具有流式内存访问的科学模拟 - 需要一致低延迟的实时推理

简化部署： - 适度模型的单设备训练（无需分布式训练代码） - 确定性性能（无多芯片协调变化） - 降低基础设施复杂性（小型部署无需InfiniBand网络）

成本效率（声称）： - 推理速度快21倍，成本仅为DGX B200的1/3 - $0.10/百万tokens（Llama 3.1 8B） - $0.60/百万tokens（Llama 3.1 70B）

NVIDIA的优势领域

生态系统广度：¹² - CUDA编程模型主导行业 - 最广泛的软件框架支持 - 最大的开发者社区 - 最全面的模型优化库

工作负载灵活性： - 同一硬件上进行训练和推理 - 广泛的模型架构支持 - 通过CUDA开发自定义操作 - 成熟的企业部署模式

供应链成熟度： - 多个OEM系统集成商 - 全球支持基础设施 - 成熟的企业采购渠道 - 二手设备市场

微调和定制： - LoRA、QLoRA、全量微调支持良好 - 广泛的工具生态系统 - 企业微调工作流程成熟

决策矩阵

因素	选择Cerebras	选择NVIDIA
主要工作负载	推理密集型	训练密集型
模型规模	大型（70B+）	任意规模
延迟要求	超低、一致	中等
团队专业知识	有限的ML基础设施经验	强大的CUDA/分布式经验
定制需求	标准模型	自定义架构
现有投资	全新部署	已有GPU基础设施
风险承受能力	较高（较新生态系统）	较低（经过验证）

部署选项

Cerebras Cloud

即时访问的托管推理服务：¹³

定价（2025年12月）： - Llama 3.1 8B：$0.10/百万tokens - Llama 3.1 70B：$0.60/百万tokens - Llama 3.1 405B：可用 - Llama 4 Scout/Maverick：支持

功能： - OpenAI兼容API - Web测试平台 - 企业支持层级 - SOC 2合规

用例： - 需要速度的生产推理 - 本地投资前的评估 - 无需资本承诺的可变工作负载

本地部署

用于私有基础设施的CS-3系统：¹⁴

考虑因素： - 大量资本投资 - 专有散热要求 - 专业安装和支持 - 有限的二手市场（与GPU不同）

最适合： - 数据主权要求 - 持续高利用率 - 自定义集成需求 - 与云服务的战略差异化

专用基础设施

Cerebras运营专用数据中心：¹⁵

地点（2025年）： - 美国俄克拉荷马城（300+台CS-3系统） - 加拿大蒙特利尔（2025年7月运营） - 美国达拉斯 - 美国里诺 - 爱尔兰 - 荷兰海尔德兰省

容量： - 总计每秒4000万+tokens容量 - 2025年容量扩展20倍 - 与G42合作建设更多设施

专用租户选项： - 保证容量分配 - 自定义SLA协议 - 企业集成支持

客户部署

企业采用

部署Cerebras的主要组织：¹⁶

科技公司： - Meta：为Llama API提供支持的合作伙伴关系 - Mistral：Le Chat AI助手 - Perplexity：AI搜索引擎 - IBM：企业AI应用

医疗健康： - 梅奥诊所：基因组基础模型 - 葛兰素史克：药物发现 - 癌症药物反应预测模型

政府： - 美国能源部 - 美国国防部 - DARPA MAPLE项目（4500万美元合同用于多域战场模拟）

主权AI倡议

Cerebras for Nations项目支持政府AI基础设施：¹⁷

当前合作： - 美国 - 英国 - 阿联酋（G42合作伙伴关系）

扩展目标： - 印度 - 欧洲（多国） - 中东 - 亚太地区 - 拉丁美洲

价值主张： - 国内AI基础设施 - 数据主权合规 - 国家能力发展 - 减少对外国云服务的依赖

基础设施考虑

电力和散热

Cerebras系统需要专业基础设施：¹⁸

电力要求： - CS-3：每台约23 kW

[内容因翻译而截断]

Cerebras晶圆级引擎：何时选择替代AI架构

晶圆级方法

传统芯片制造

Cerebras的创新

架构优势

WSE-3和CS-3规格

核心架构

CS-3系统

代际对比

性能特征

推理速度

训练性能

科学计算

Cerebras与NVIDIA对比

Cerebras的优势领域

NVIDIA的优势领域

决策矩阵

部署选项

Cerebras Cloud

本地部署

专用基础设施

客户部署

企业采用

主权AI倡议

基础设施考虑

电力和散热

You Might Also Like

AI数据管道架构：以100GB/s速度为PB级训练提供数据

线缆管理系统：AI数据中心的光纤通道与高密度布线

AI基础设施容量规划：2025-2030年GPU需求预测

申请报价_

请求已收到_