GPU以外のAIアクセラレータ:代替シリコンの最新動向
2025年12月11日更新
2025年12月アップデート: AWS Trainium3がチップあたりFP8で2.52 PFLOPS、144GB HBM3eを搭載して出荷開始。Google TPU v7 Ironwoodはチップあたり4,614 TFLOPSを実現し、アナリストは「Blackwellと同等」と評価。Intelは2026〜2027年の次世代GPU発売時にGaudiの製造終了を確認。Groq LPUは小規模モデルで750トークン/秒を達成、Cerebras WSE-3はピーク125 PFLOPSに到達。NVIDIAが市場の80%を支配する中、特定のワークロード向けに代替シリコンが存在感を増している。
NVIDIAはAIアクセラレータ市場の約80%を占めているが、コスト効率の高い垂直統合型インフラへの需要の高まりにより、代替シリコンの採用が徐々に拡大している。¹ Googleは2025年11月に第7世代TPU Ironwoodをリリースし、アナリストは「NVIDIAのBlackwellとほぼ同等」と評している。² AWSはAnthropicのモデル学習向けに50万台以上のTrainium2チップを導入し、NVIDIA以外では最大規模の本番AIクラスターを構築した。³ Cerebrasは4兆トランジスタ、ピーク性能125ペタフロップスのWSE-3を発表した。⁴ AIアクセラレータの世界はGPUをはるかに超え、企業が評価を進める特定のワークロードに最適化されたアーキテクチャを提供している。
GPUは柔軟性とエコシステムの成熟度から、依然としてデフォルトの選択肢である。CUDAの優位性とNVIDIAの継続的なイノベーションにより、スイッチングコストは依然として大きい。しかし、独自シリコンを設計するハイパースケーラー、チップアーキテクチャの常識に挑戦するスタートアップ、そしてIntelの積極的な価格戦略により、5年前には存在しなかった選択肢が生まれている。大規模AIを運用する組織は、アクセラレータの選択をコモディティ調達ではなく、戦略的インフラ投資として評価するようになっている。
Google TPU:ハイパースケーラーのベンチマーク
GoogleはTrillium(TPU v6)を2024年5月に発表し、2025年に一般提供を開始した。⁵ 第6世代TPUは、TPU v5eと比較してチップあたりのピーク演算性能が4.7倍に向上している。⁶ Googleは行列乗算ユニットのサイズを拡大し、クロック速度を向上させ、BF16性能で約926テラフロップスを達成した。⁷
メモリ容量と帯域幅は前世代から倍増した。⁸ Trilliumはチップあたり32GBのHBM容量と、それに比例して増加した帯域幅を提供する。⁹ チップ間インターコネクト帯域幅も倍増し、マルチチップスケーリング効率が向上した。¹⁰
エネルギー効率はTPU v5eと比較して67%以上改善された。¹¹ 業界アナリストは、TPU v6がGPUよりも60〜65%効率的に動作すると推定しており、これは以前の世代の40〜45%の効率優位性から向上している。¹² 効率向上は、電力制約がデプロイ密度を制限するデータセンター規模で複利的に効果を発揮する。
Trilliumは単一の高帯域・低遅延ポッドで256 TPUまでスケールする。¹³ ポッドレベルのスケーラビリティを超えて、マルチスライス技術とTitanium Intelligence Processing Unitにより、数百のポッドにスケールし、建物規模のスーパーコンピュータで数万チップを接続できる。¹⁴ 最大のTrilliumクラスターは91エクサフロップスを提供し、最大のTPU v5pクラスターの4倍の性能を実現している。¹⁵
トレーニングベンチマークは性能向上を実証している。TrilliumはGemma 2-27B、MaxText Default-32B、Llama2-70BでTPU v5eと比較して4倍以上のトレーニング性能向上を実現した。¹⁶ 推論スループットはStable Diffusion XLで3倍向上した。¹⁷ GoogleはTrilliumを使用してGemini 2.0をトレーニングした。¹⁸
GoogleはCloud Next 2025でTPU v7(Ironwood)を発表した。¹⁹ Ironwoodはチップあたり4,614テラフロップスを提供し、256チップおよび9,216チップ構成で出荷される。²⁰ SemiAnalysisチームはこのシリコンを称賛し、ハイパースケーラーの中でGoogleの優位性は比類なきものだと述べた。²¹
TPUへのアクセスにはGoogle Cloudが必要である。マルチクラウドやオンプレミスデプロイメントにコミットしている組織は、TPUインフラを直接使用できない。クラウド専用モデルは、Google Cloudリージョンが満たせないデータレジデンシーや主権要件を持つ組織の採用を制限している。
AWS Trainium:Anthropicとのパートナーシップ
AWSは2025年12月にTrainium3を発表した—同社初の3nm AIチップである。²² 各Trainium3チップはFP8で2.52ペタフロップスの演算能力、144GBのHBM3eメモリ、4.9TB/秒のメモリ帯域幅を提供する。²³ これらの仕様はTrainium2と比較して、メモリ容量が1.5倍、帯域幅が1.7倍となっている。²⁴
Trn3 UltraServerは144個のTrainium3チップにスケールし、合計362ペタフロップスのFP8性能を提供する。²⁵ フル構成のUltraServerは20.7TBのHBM3eと706TB/秒の総合メモリ帯域幅を提供する。²⁶ AWSはTrainium2ベースのシステムと比較して、4.4倍の演算性能、4倍のエネルギー効率、約4倍のメモリ帯域幅を主張している。²⁷
NeuronSwitch-v1ファブリックは、Trn2 UltraServerと比較してチップ間インターコネクト帯域幅を2倍に向上させた。²⁸ オールトゥオールファブリックアーキテクチャにより、全チップ構成での効率的な分散トレーニングが可能になる。
Project RainierはAWS最大のAIインフラデプロイメントである。AWSはAnthropicと協力して50万台以上のTrainium2チップを接続し、世界最大のAIコンピュートクラスターを構築した—これはAnthropicの前世代モデルのトレーニングに使用されたインフラの5倍の規模である。²⁹ このパートナーシップは、フロンティアモデルトレーニングにおけるTrainiumの実用性を実証している。
AWSによると、Trainium2ベースのEC2 Trn2インスタンスは、GPUベースのEC2 P5eおよびP5enインスタンスと比較して30〜40%優れた価格性能を提供する。³⁰ このコスト優位性は、計算コストが予算の大部分を占める持続的なトレーニングワークロードにおいて重要である。
AWSは推論ワークロードが計算要件においてトレーニングにますます近づいているため、Inferentiaラインを廃止した。³¹ Trainiumアーキテクチャは現在、トレーニングと推論の両方を処理し、チップポートフォリオを簡素化している。
Trainium4は開発中で、2026年末または2027年初頭に提供予定である。³² AWSはTrainium3と比較して、少なくとも6倍のFP4スループット、3倍のFP8性能、4倍のメモリ帯域幅を発表した。³³ Trainium4はNVIDIA NVLink Fusionインターコネクト技術をサポートし、共通ラック構成でNVIDIA GPUとの統合を可能にする。³⁴
Intel Gaudi:価格競争力のある選択肢
IntelはGaudi 3を2024年に発売し、NVIDIA H100に対するコスト効率の高い代替品として位置付けた。³⁵ Gaudi 3は64個のテンソルプロセッサコア、8個の行列乗算エンジン、19.2TB/秒の帯域幅を持つ96MBのオンダイSRAMキャッシュを搭載した2つのチップレットを使用している。³⁶ このチップは3.67TB/秒の帯域幅を持つ128GBのHBM2eメモリを統合している。³⁷
Gaudi 3は約600W TDPで1,835 BF16/FP8行列テラフロップスを提供する。³⁸ NVIDIA H100と比較して、Gaudi 3はより高いBF16行列性能(スパース性なしで1,835対1,979テラフロップス)とより多くのHBM容量(128対80GB)を提供する。³⁹ メモリ帯域幅もH100を上回る。⁴⁰
IntelはGaudi 3が通常NVIDIA H100より40%高速であり、FP8精度でLlama2-13Bをトレーニングする際にH100を最大1.7倍上回る可能性があると主張している。⁴¹ 電力効率の主張はさらに劇的で、LlamaベンチマークでH100の220%、Falconで230%に達する。⁴²
価格優位性は大きい。8アクセラレータのGaudi 3システムは157,613ドルで、同等のH100システムの300,107ドルと比較される。⁴³ チップ単価はGaudi 3が約15,625ドル、H100が30,678ドルである。⁴⁴ このコスト差により、組織は同等の予算で約2倍の計算能力を導入できる。
Gaudi 3はHBM3やHBM3eではなくHBM2eを使用しており、これがコスト低下に貢献しているが、現行世代の代替品と比較してメモリ帯域幅が制限される。⁴⁵ メモリ帯域幅に制約されるワークロードを実行する組織は、このトレードオフを慎重に評価すべきである。
エコシステムの課題がGaudiの採用を制限している。NVIDIAのCUDAがAI開発を支配しており、Intelのツールへの移行にはエンジニアリング投資が必要である。⁴⁶ 競争力のあるハードウェアにもかかわらず、AIアクセラレータにおけるIntelの市場シェアは依然として微々たるものである。⁴⁷
Intelは2026〜2027年に次世代AI GPUが発売される際にGaudiを廃止することを発表した。⁴⁸ この廃止発表は、複数年のGaudiデプロイメントを検討している組織にとって採用リスクを生み出している。パートナーは製造終了が発表された製品ラインへの投資を躊躇する可能性がある。
Groq LPU:推論速度のリーダー
GroqのLanguage Processing Unit(LPU)は根本的に異なるアーキテクチャアプローチを採用し、トレーニングではなく推論に特化して最適化している。⁴⁹ Tensor Streaming Processorアーキテクチャは、INT8で750 TOPS、FP16で188テラフロップスを達成し、80TB/秒の大規模なオンチップSRAM帯域幅を実現している。⁵⁰
第1世代LPUは、900MHzで動作する14nmチップで1平方ミリメートルあたり1テラオプス以上を提供する。⁵¹ 第2世代LPUはSamsungの4nmプロセスを使用する予定である。⁵²
推論速度がGroqの価値提案を定義している。LPUはMixtral 8x7Bを480トークン/秒、Llama 2 70Bを300トークン/秒で処理する。⁵³ Llama 2 7Bのような小規模モデルは750トークン/秒を達成する。⁵⁴ GroqはLlama2-70Bで100トークン/秒を突破した最初のAPIプロバイダーであった。⁵⁵
LPUは言語モデルに対して従来のGPUより最大18倍高速な推論を提供し、決定論的なサブミリ秒のレイテンシを実現する。⁵⁶ エネルギー効率は1トークンあたり1〜3ジュールに達する。⁵⁷
LPUカードの価格は約20,000ドルで、ハイエンドNVIDIA GPUと同等だが、特に推論速度と効率において優れている。⁵⁸ トレードオフは明確である:LPUは推論のみを処理し、トレーニングは行わない。⁵⁹
Groqの展開規模は2025年に大幅に拡大した。同社は米国、カナダ、中東、ヨーロッパに十数のデータセンターを運営している。⁶⁰ 2025年9月、Groqは69億ドルの評価額で7億5000万ドルを調達した。⁶¹
2025年2月に発表されたサウジアラビアとのパートナーシップは、Groqが世界最大のAI推論データセンターと表現するダンマン施設の建設に15億ドルを投じる。⁶² 初期デプロイメントでは19,000 LPUを導入し、2027年までに10万LPUを超える容量拡張が計画されている。⁶³
Cerebras WSE-3:ウェーハスケール集積
Cerebrasは最も革新的なアーキテクチャアプローチを採用し、ウェーハを個々のプロセッサにダイシングするのではなく、ウェーハスケールでチップを製造している。⁶⁴ WSE-3はウェーハ全体にわたって4兆トランジスタを搭載し、46,225平方ミリメートルのシリコンを使用している。⁶⁵
WSE-3は90万個のAI最適化コンピュートコアを搭載し、125ペタフロップスのピークAI性能を提供する。⁶⁶ オンチップSRAMは44GBに達し、21PB/秒のメモリ帯域幅を持つ。⁶⁷ ファブリック帯域幅は214ペタビット/秒に達する。⁶⁸ このチップはTSMCの5nmプロセスで製造されている。⁶⁹
CS-3システムは同じ15キロワットの電力エンベロープでCS-2の性能を2倍に向上させた。⁷⁰ 単一のCS-3は15Uのラックスペースに収まる。⁷¹ 外部メモリオプションにより、構成に応じて容量を1.5TB、12TB、または1.2PBに拡張できる。⁷²
モデル容量は劇的にスケールする。CS-3は最大24兆パラメータのニューラルネットワークモデルをトレーニングできる。⁷³ クラスターは2,048台のCS-3システムにスケールし、最大256エクサフロップスのFP16演算能力を提供する。⁷⁴
Cerebrasは大幅な使いやすさの優位性を主張している。このプラットフォームはLLMに対してGPUより97%少ないコードで済み、10億から24兆パラメータのモデルを純粋なデータ並列モードでトレーニングできる。⁷⁵ コンパクトな4システム構成で70Bモデルを1日でファインチューニングできる。⁷⁶ 2,048システムのフルスケールでは、Llama 70Bを1日でゼロからトレーニングできる。⁷⁷
ダラスのCondor Galaxy 3スーパーコンピュータは、64台のCS-3システムを導入して8エクサフロップスのFP16演算能力を提供する。⁷⁸ TIME誌はWSE-3を2024年のベスト発明に選出した。⁷⁹
SambaNova SN40L:再構成可能なデータフロー
SambaNovaのReconfigurable Dataflow Unit(RDU)アーキテクチャは、GPUともカスタムASICとも異なる。⁸⁰ SN40Lはオンチップデータフローの柔軟性と3層メモリシステム(オンチップSRAM、オンパッケージHBM、オフパッケージDRAM)を組み合わせている。⁸¹
SN40LはTSMCの5nmプロセスをデュアルダイCoWoSパッケージで使用している。⁸² 各ソケットは1,020億トランジスタを搭載し、640 BF16テラフロップスと520MBのオンチップSRAMを提供する。⁸³ DDR層は
[翻訳のためコンテンツを省略]