Cerebras Wafer-Scale Engine:代替AIアーキテクチャを選択すべき場面

WSE-3搭載のCS-3がLlama 4 Maverickでユーザーあたり毎秒2,500トークンを達成—DGX B200 Blackwellの2倍以上の速度。WSE-3は4兆個のトランジスタ、90万個のAIコア、21 PB/sのメモリ帯域幅を持つ44GBオンチップSRAMを搭載...

Cerebras Wafer-Scale Engine:代替AIアーキテクチャを選択すべき場面

Cerebras Wafer-Scale Engine:代替AIアーキテクチャを選択すべき場面

2025年12月11日更新

2025年12月アップデート: WSE-3搭載のCS-3がLlama 4 Maverickでユーザーあたり毎秒2,500トークンを達成—同じ4000億パラメータモデルを実行するNVIDIA DGX B200 Blackwellの2倍以上の速度。WSE-3は4兆個のトランジスタ、90万個のAIコア、21 PB/sのメモリ帯域幅(H100の7,000倍)を持つ44GBオンチップSRAMを搭載。ウェーハスケールアーキテクチャにより、メモリ帯域幅がボトルネックとなるワークロードにおいてGPUクラスタの相互接続ボトルネックを解消。

Cerebrasは、Llama 4 Maverick推論をユーザーあたり毎秒2,500トークンで達成—同じ4000億パラメータモデルを実行するNVIDIAのフラッグシップDGX B200 Blackwellシステムの2倍以上の性能。¹ この性能差は根本的なアーキテクチャの違いを反映している:Cerebrasはウェーハを数百個の個別チップにカットするのではなく、シリコンウェーハ全体からプロセッサを製造する。このアプローチはGPUクラスタを制約する相互接続ボトルネックを排除し、従来の製造経済性と引き換えに、メモリ帯域幅がボトルネックとなるAIワークロードでの生の性能を追求している。

WSE-3(Wafer-Scale Engine 3)を搭載したCS-3は、90万個のAI最適化コアに4兆個のトランジスタを搭載し、毎秒21ペタバイトのメモリ帯域幅を持つ44GBのオンチップSRAMを備えている。² このメモリ帯域幅はH100の7,000倍に相当する。AIインフラストラクチャを評価する組織は、真のアーキテクチャ選択に直面している:GPUクラスタで水平スケーリングし固有の通信オーバーヘッドを受け入れるか、LLM性能を支配するメモリ帯域幅制約向けに専用設計されたウェーハスケールシステムを導入するかである。

ウェーハスケールアプローチ

従来のチップ製造

標準的な半導体製造は確立されたパターンに従う:³

  1. 製造: シリコンウェーハを数百のステップで処理
  2. テスト: 欠陥領域を特定
  3. ダイシング: ウェーハを数百個の個別ダイにカット
  4. パッケージング: 良品ダイを接続付きパッケージに実装
  5. 統合: システム用に複数パッケージを接続

このアプローチでは最大約800平方ミリメートルのチップが得られる—これはリソグラフィ装置と歩留まり経済性によって課せられる限界である。大きなチップは1ダイあたりの欠陥が増え、各ウェーハから得られる機能ユニット数が減少する。

Cerebrasのイノベーション

Cerebrasは製造の方程式を逆転させた:⁴

シングルチップウェーハ: ウェーハを小さなチップにダイシングするのではなく、Cerebrasは300mmウェーハのほぼ全体(46,225 mm²)を1つのプロセッサとして使用—従来のGPUダイの約50倍の大きさ。

欠陥耐性: 従来のウェーハスケールチップを妨げていた歩留まり問題は、アーキテクチャの革新によって解決された: - 個々のコアを0.05mm²に縮小(H100 SMコアサイズの1%) - 冗長コアが欠陥コアを置換 - オンチップファブリックが障害を回避してルーティング - 従来のマルチコアプロセッサと比較して100倍の欠陥耐性向上

オンチップにすべてを集約: メモリ、コンピュート、相互接続がすべて同一シリコン上に存在し、外部メモリやチップ間接続の帯域幅制限を排除。

アーキテクチャの利点

ウェーハスケールアプローチは具体的な利点をもたらす:⁵

メモリ帯域幅: - WSE-3:21 PB/sオンチップSRAM帯域幅 - H100:3 TB/s HBM帯域幅 - 比率:7,000倍の優位性

相互接続帯域幅: - WSE-3:214 Pb/sオンウェーハファブリック - H100 NVLink:GPUあたり57.6 GB/s - 比率:3,715倍の優位性

メモリ容量: - WSE-3:44 GBオンチップSRAM(外部MemoryXで拡張可能) - H100:80 GB HBM3

電力効率: - 単一デバイスのシンプルさがマルチチップ調整オーバーヘッドを排除 - 外部メモリコントローラ、相互接続スイッチ、PCBトレースが不要 - 同等ワークロードでGPUクラスタに対するエネルギー効率の優位性が報告されている

WSE-3とCS-3の仕様

コアアーキテクチャ

WSE-3はCerebrasのウェーハスケール技術の第3世代を代表する:⁶

シリコン仕様: - プロセスノード:TSMC 5nm - ダイ面積:46,225 mm²(21.5 cm × 21.5 cm) - トランジスタ数:4兆個 - AIコア:90万個 - ピーク性能:125 PetaFLOPs(FP16)

メモリシステム: - オンチップSRAM:44 GB - SRAM帯域幅:21 PB/s - 外部メモリ拡張:MemoryX(システムあたり最大1.5 PB) - 外部へのメモリ帯域幅:独自高帯域幅相互接続

相互接続: - オンウェーハファブリック:214 Pb/s総帯域幅 - コア間通信:シングルクロックサイクルレイテンシ - ウェーハ内通信でオフチップルーティング不要

CS-3システム

CS-3はWSE-3を展開可能なシステムにパッケージング:⁷

物理仕様: - フォームファクター:15Uラックユニット - 消費電力:約23 kW - 冷却:独自水冷システム

システムコンポーネント: - WSE-3プロセッサ - MemoryX外部メモリ(オプション) - SwarmXクラスタ相互接続(マルチCS-3展開用) - 管理およびI/Oシステム

クラスタスケーリング: - 最大クラスタ:2,048 CS-3システム - クラスタコンピュート:最大256 ExaFLOPs(FP16) - モデル容量:最大24兆パラメータ - トレーニング能力:Llama 2-70Bが小規模クラスタで1日でトレーニング可能

世代比較

仕様 WSE-1 WSE-2 WSE-3
プロセスノード 16nm 7nm 5nm
トランジスタ 1.2T 2.6T 4T
AIコア 400,000 850,000 900,000
オンチップメモリ 18 GB 40 GB 44 GB
メモリ帯域幅 9 PB/s 20 PB/s 21 PB/s
ピークFP16 47 PF 75 PF 125 PF

性能特性

推論速度

Cerebrasは大幅な推論優位性を示している:⁸

Llama 4 Maverick(4000億パラメータ): - Cerebras:ユーザーあたり毎秒2,500トークン以上 - NVIDIA DGX B200:ユーザーあたり毎秒約1,000トークン - 優位性:2.5倍以上

Llama 3.1モデル: - Llama 3.1 8B:世界記録の推論速度 - Llama 3.1 70B:GPU代替品の数倍高速 - Llama 3.1 405B:Cerebrasクラウドでサポート

推論が優れている理由: LLMトークン生成はメモリ帯域幅がボトルネック—各トークンはコンピュートのためにメモリからモデル重みをロードする必要がある。Cerebrasの21 PB/sオンチップ帯域幅は、GPU推論を制約するメモリウォールを排除する。

トレーニング性能

トレーニングの優位性は分散コンピューティングの簡素化から生まれる:⁹

コード複雑性の削減: 1750億パラメータモデルを4,000 GPUでトレーニングするには、通常約20,000行の分散トレーニングコードが必要。Cerebrasは565行で同等のトレーニングを達成—モデル全体がデータ並列性の複雑さなしにウェーハ上に収まる。

通信の排除: GPUトレーニング性能はクラスタサイズが増加するにつれて勾配同期オーバーヘッドにより低下する。Cerebrasはオンチップに収まるモデルでこのオーバーヘッドを排除し、適切なワークロードで線形スケーリングを維持する。

トレーニング時間ベンチマーク: - Llama 2-70B:CS-3クラスタで1日でトレーニング可能 - 最大24兆パラメータのモデル:ソフトウェア分散トリックなしでサポート

科学計算

LLM以外でも、Cerebrasは科学シミュレーションで優位性を示している:¹⁰

分子動力学: Cerebrasは世界第1位のスーパーコンピュータ(Frontier)より179倍高速な長時間スケール分子動力学シミュレーションを達成。このワークロードのメモリアクセスパターンはウェーハスケールアーキテクチャと相性が良い。

創薬: Mayo Clinicは、従来のGPUより「数百倍高速」で実行されるがん薬物応答予測モデルをCerebrasに展開した。

ゲノミクス: Mayo Genomic Foundation Modelは、大規模ゲノム解析のためにCerebrasインフラストラクチャ上で特別に構築された。

CerebrasとNVIDIAの比較

Cerebrasが優れている分野

メモリ帯域幅がボトルネックとなるワークロード:¹¹ - LLM推論(特に大規模モデル) - オンチップに収まるモデルのトレーニング - ストリーミングメモリアクセスを持つ科学シミュレーション - 一貫した低レイテンシを必要とするリアルタイム推論

展開の簡素化: - 中規模モデルの単一デバイストレーニング(分散トレーニングコード不要) - 決定論的性能(マルチチップ調整の変動なし) - インフラストラクチャ複雑性の削減(小規模展開ではInfiniBandファブリック不要)

コスト効率(公表値): - DGX B200の1/3のコストで21倍高速な推論 - $0.10/百万トークン(Llama 3.1 8B) - $0.60/百万トークン(Llama 3.1 70B)

NVIDIAが優れている分野

エコシステムの幅広さ:¹² - CUDAプログラミングモデルが業界を支配 - 最も幅広いソフトウェアフレームワークサポート - 最大の開発者コミュニティ - 最も広範なモデル最適化ライブラリ

ワークロードの柔軟性: - 同一ハードウェアでトレーニングと推論 - 幅広いモデルアーキテクチャサポート - CUDAによるカスタム演算開発 - 確立されたエンタープライズ展開パターン

サプライチェーンの成熟度: - 複数のOEMシステムインテグレータ - グローバルサポートインフラストラクチャ - 実績のあるエンタープライズ調達経路 - 中古機器のセカンダリマーケット

ファインチューニングとカスタマイズ: - LoRA、QLoRA、フルファインチューニングが十分にサポート - 広範なツールエコシステム - エンタープライズファインチューニングワークフローが確立

意思決定マトリックス

要素 Cerebrasを選択 NVIDIAを選択
主要ワークロード 推論重視 トレーニング重視
モデルサイズ 大規模(70B以上) 任意のサイズ
レイテンシ要件 超低レイテンシ、一貫性 中程度
チーム専門知識 MLインフラ経験限定的 CUDA/分散処理に強い
カスタマイズニーズ 標準モデル カスタムアーキテクチャ
既存投資 グリーンフィールド GPUインフラ既存
リスク許容度 高い(新しいエコシステム) 低い(実績あり)

展開オプション

Cerebras Cloud

即座にアクセス可能なマネージド推論サービス:¹³

価格(2025年12月): - Llama 3.1 8B:$0.10/百万トークン - Llama 3.1 70B:$0.60/百万トークン - Llama 3.1 405B:利用可能 - Llama 4 Scout/Maverick:サポート

機能: - OpenAI互換API - テスト用Webプレイグラウンド - エンタープライズサポートティア - SOC 2コンプライアンス

ユースケース: - 速度が必要な本番推論 - オンプレミス投資前の評価 - 資本コミットメントなしの可変ワークロード

オンプレミス展開

プライベートインフラストラクチャ向けCS-3システム:¹⁴

考慮事項: - 大幅な資本投資 - 独自の冷却要件 - 専門的なインストールとサポート - 限定的なセカンダリマーケット(GPUと異なり)

最適な用途: - データ主権要件 - 持続的な高稼働率 - カスタム統合ニーズ - クラウドからの戦略的差別化

専用インフラストラクチャ

Cerebrasは専用データセンターを運営:¹⁵

拠点(2025年): - オクラホマシティ、米国(300以上のCS-3システム) - モントリオール、カナダ(2025年7月稼働) - ダラス、米国 - リノ、米国 - アイルランド - ヘルダーラント、オランダ

容量: - 毎秒4,000万トークン以上の総容量 - 2025年に20倍の容量拡張 - 追加施設でのG42とのパートナーシップ

専用テナントオプション: - 保証された容量割り当て - カスタムSLA契約 - エンタープライズ統合サポート

顧客導入事例

エンタープライズ採用

Cerebrasを導入している主要組織:¹⁶

テクノロジー: - Meta:Llama APIを支えるパートナーシップ - Mistral:Le Chat AIアシスタント - Perplexity:AI検索エンジン - IBM:エンタープライズAIアプリケーション

ヘルスケア: - Mayo Clinic:Genomic Foundation Model - GlaxoSmithKline:創薬 - がん薬物応答予測モデル

政府: - 米国エネルギー省 - 米国国防総省 - DARPA MAPLEプログラム(マルチドメイン戦場シミュレーション向け4,500万ドル契約)

ソブリンAIイニシアチブ

Cerebras for Nationsプログラムは政府AIインフラストラクチャを支援:¹⁷

現在の関与: - 米国 - 英国 - アラブ首長国連邦(G42パートナーシップ)

拡大目標: - インド - 欧州(複数国) - 中東 - アジア太平洋 - ラテンアメリカ

価値提案: - 国内AIインフラストラクチャ - データ主権コンプライアンス - 国家能力開発 - 海外クラウドへの依存削減

インフラストラクチャの考慮事項

電力と冷却

Cerebrasシステムには専門的なインフラストラクチャが必要:¹⁸

電力要件: - CS-3:ユニットあたり約23 kW

[翻訳用にコンテンツ切り捨て]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING