AmazonのTrainium3がAIチップ戦争に挑戦状を叩きつける
2025年12月11日更新
2025年12月アップデート: Trainium3がTSMC 3nmプロセスで出荷開始。チップあたりFP8で2.52 PFLOPS、144GB HBM3e搭載。フルUltraServer(144チップ)で362 PFLOPSを実現。Anthropic、Decart、Amazon Bedrockが本番ワークロードを稼働中。顧客はGPU代替と比較して50%のコスト削減を報告。Trainium4は2026年末から2027年初頭に発表予定で、NVIDIA NVLink Fusionをサポートし、異種混合クラスターを実現。
AWSはre:Invent 2025でTrainium3 UltraServersを発表し、そのスペックは注目に値する。TSMCの3nmプロセスで製造された各Trainium3チップは、144GBのHBM3eメモリを搭載し、FP8で2.52ペタフロップスの演算能力を提供する。¹ これを144チップのフルUltraServer構成にスケールすると、顧客は362ペタフロップスのAI処理能力にアクセスできる。
この数値はTrainium2と比較して4.4倍の性能向上と4倍のエネルギー効率改善を示している。² Amazonは、顧客がすでにGPU代替と比較してトレーニングと推論のコストを50%削減していると主張している。³ Claudeを開発するAnthropic社は、この新しいシリコン上で本番ワークロードを稼働させている。ハイパースケーラーのAIチップ戦争が激化した。
性能面での優位性
AWSは、生の性能ではなく経済性を通じてNVIDIAの支配に挑戦するためにTrainium3を設計した。このチップは前世代のTrainiumと比較してメガワットあたり5倍のトークンを処理し、大規模AIを法外に高価にしているコスト構造を攻撃している。⁴
メモリ帯域幅は毎秒4.9テラバイトに達し、前世代のほぼ4倍となっている。⁵ 大規模言語モデルは、メモリと演算ユニット間のデータ移動に多くの時間を費やす。帯域幅の向上は、推論とトレーニングのスループット向上に直結する。AWSはTrainium2と比較してモデルトレーニングのレイテンシが4倍低減したと主張している。
ネットワーキングアーキテクチャは印象的にスケールする。NeuronSwitch-v1は各UltraServer内で2倍の帯域幅を提供し、Neuron Fabricネットワーキングはチップ間通信を10マイクロ秒未満に削減する。⁶ EC2 UltraClusters 3.0は数千のサーバーを接続し、単一の論理クラスターで100万個のTrainium3チップまでスケールする。フロンティアモデルのトレーニングには、まさにそのようなスケールが必要だ。
顧客による検証
証拠は本番デプロイメントにある。DecartはGPUの半分のコストでリアルタイム生成動画の推論を4倍高速化している。⁷ Karakuri、Metagenomi、NetoAI、Ricoh、Splash Musicはすべて、トレーニングと推論ワークロードで50%のコスト削減を報告している。Amazon Bedrockはすでに本番トラフィックをTrainium3インフラストラクチャで処理している。
顧客リストにおけるAnthropicの存在は特に重要だ。同社はAI能力の最前線で活動し、OpenAIやGoogleと直接競合するモデルをトレーニングしている。Anthropicが本番ワークロードにTrainium3を選択したことは、AWSのシリコンが最も要求の厳しいAIアプリケーションにおいてエンタープライズ対応であることを証明している。
コスト優位性は時間とともに複利的に増大する。以前は数ヶ月かかっていたトレーニングが数週間で完了するようになった。⁸ 反復サイクルの高速化が研究のスピードを加速させる。推論コストの低減により、より広範なデプロイメントが可能になる。AI実験の費用が高くて参加できなかった組織も、AWSの低価格帯で参加できるようになる。
Trainium4ロードマップがより大きな野望を示唆
AWSはTrainium3の発表と同時にTrainium4の計画を明らかにし、2026年末から2027年初頭の提供を目指している。⁹ このロードマップは、段階的な改善を超えた戦略的野望を示している。
Trainium4は、ネイティブFP4サポートによる6倍の性能向上、約288GBに達する2倍のメモリ容量、4倍の帯域幅改善を約束している。¹⁰ これらのスペックは、同じ時期にNVIDIAが出荷するものに対して競争力のあるポジションにTrainium4を置くことになる。
より重要なのは、Trainium4がUALinkと並んでNVIDIAのNVLink Fusion相互接続技術をサポートすることだ。¹¹ AWSは、NVIDIAの高速相互接続を使用して、カスタムGraviton CPUとTrainium XPUを組み合わせた異種混合クラスターの構築を目指している。この動きは一種の休戦を意味する:AWSはアクセラレータでNVIDIAと競争しながら、NVIDIAの接続規格を統合するのだ。
NVLinkのサポートは、AWSが特別な取り決めを交渉できるほど十分なNVIDIA GPUを購入していることを示唆している。NVIDIAは通常、NVLinkを自社のアクセラレータに限定している。AWSにアクセスを許可したことは、競争と協力が共存する現実的な関係を示している。AWSは競合するシリコンを開発しながらも、NVIDIAの最大のクラウド顧客であり続けている。
競争が企業にとって意味すること
Trainium3の発表により、企業はAIインフラストラクチャの現実的な選択肢を得た。NVIDIAの支配は続いているが、AWSは現在、Trainiumのアーキテクチャに最適化する意志のある顧客に対して、より低いコストで競争力のある性能を提供している。
最適化の要件は重要だ。NVIDIAのCUDAエコシステムは数十年のソフトウェア投資を表している。開発者はCUDAを知っている。フレームワークはCUDAをネイティブにサポートしている。Trainiumへの移行には、AWSのNeuron SDKの採用と、場合によってはパフォーマンスクリティカルなコードの書き換えが必要だ。性能とコストのメリットが、その移行の労力を正当化する必要がある。
推論ワークロードについては、計算上Trainiumが有利になることが多い。推論は、予測可能なメモリアクセスパターンで標準化されたモデルを繰り返し実行する。Trainium向けに推論コードを最適化すれば、スケールに応じて複利的に増大する持続的なコスト削減を実現できる。毎日数百万の推論リクエストを処理している組織は、AWSシリコンに移行することで意味のある節約を達成できる。
トレーニングはより複雑な判断を伴う。フロンティアモデルのトレーニングには、最先端のハードウェア、確立されたツール、実証された信頼性が必要だ。NVIDIAの実績とエコシステムは、GPUクラスターがトレーニングを確実に完了させるという信頼を提供する。Trainiumの相対的な新しさは、企業が重要なトレーニングジョブでは避けたいリスクをもたらす。
より広範な影響
AmazonのAIシリコン投資は、戦略的な必要性を反映している:単一サプライヤーへの依存を減らすことだ。NVIDIAの市場支配力はプレミアム価格を可能にしている。そのプレミアムを支払うすべてのハイパースケーラーは、NVIDIAのR&D予算に資金を提供し、競合他社を強化している。代替シリコンを開発することで、TrainiumがNVIDIA GPUを完全に置き換えることがなくても、そのダイナミクスを打破できる。
GoogleもTPUで同じ戦略を追求している。MicrosoftはAMDと提携しながら、独自のカスタムアクセラレータを開発していると報じられている。ハイパースケーラーは集合的に、NVIDIAのポジションに挑戦するためのリソース、スケール、動機を持っている。Trainium3は、その長期的なゲームにおけるAmazonの最新の一手を表している。
より広範なAIエコシステムにとって、競争は全員に利益をもたらす。NVIDIAは価格性能を改善するプレッシャーに直面する。顧客は代替手段と交渉力を得る。資金力のある複数の競合他社がリードを競うことで、シリコンのイノベーションが加速する。AIチップ市場は独占から健全な競争へと進化する。
Trainium3だけではNVIDIAを王座から引きずり降ろすことはできない。しかし、GoogleのTPU、AMDのMIシリーズ、Intel やスタートアップからの新興代替品と組み合わせると、競争圧力は強まる。NVIDIAの堀は依然として強固だ。挑戦者たちはそれでも掘り続けている。
主要ポイント
インフラストラクチャアーキテクト向け: - Trainium3はチップあたりFP8で2.52ペタフロップス、144GB HBM3e搭載;フルUltraServer(144チップ)で362ペタフロップスを提供 - 性能:Trainium2比4.4倍向上、4倍のエネルギー効率改善、メガワットあたり5倍のトークン処理 - メモリ帯域幅は4.9TB/s(前世代のほぼ4倍);Neuron Fabricによるチップ間通信は10マイクロ秒未満
コスト最適化チーム向け: - AWSはGPU代替と比較してトレーニングと推論のコストを50%削減と主張;Anthropicの本番ワークロードで検証済み - 推論ワークロードはTrainiumに有利:予測可能なメモリアクセスを持つ標準化されたモデル;コスト削減はスケールに応じて複利的に増大 - トレードオフ:Neuron SDKの採用と潜在的なコード書き換えが必要;移行の労力は節約を正当化する必要あり
調達チーム向け: - EC2 UltraClusters 3.0は単一の論理クラスターで100万個のTrainium3チップまでスケール;フロンティアモデルのトレーニングスケールを達成 - 顧客検証:Anthropic、Decart(4倍高速な推論)、Karakuri、Metagenomi、NetoAI、Ricoh、Splash Musicがすべて50%のコスト削減を報告 - トレーニングの複雑さはリスク回避型組織にとってNVIDIAを有利にする;Trainiumの相対的な新しさは実行の不確実性をもたらす
戦略計画向け: - Trainium4ロードマップ(2026年末/2027年初頭):FP4による6倍の性能、2倍のメモリ(約288GB)、4倍の帯域幅、NVLink Fusionサポート - AWSはシリコンでNVIDIAと競争しながらNVIDIAのNVLink相互接続を統合;休戦により異種混合クラスターが可能に - ハイパースケーラーのシリコン戦略:単一サプライヤー依存を削減;支払われるすべてのプレミアムは競合他社を強化するNVIDIAのR&Dに資金提供
より広範なエコシステム向け: - 競争は全員に利益をもたらす:NVIDIAは価格圧力に直面、顧客は代替手段とレバレッジを獲得、イノベーションが加速 - Google TPU、AMD MIシリーズ、Intel、スタートアップからの複合的な圧力が強まる;NVIDIAの堀は強固だが浸食されつつある - AWSは競合するシリコンを開発しながらもNVIDIAの最大のクラウド顧客であり続ける;競争と協力の共存が市場を定義
参考文献
-
Amazon. "Trainium3 UltraServers now available: Enabling customers to train and deploy AI models faster at lower cost." About Amazon, December 2, 2025. https://www.aboutamazon.com/news/aws/trainium-3-ultraserver-faster-ai-training-lower-cost
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks." December 3, 2025. https://www.nextplatform.com/2025/12/03/with-trainium4-aws-will-crank-up-everything-but-the-clocks/
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
Amazon. "Trainium3 UltraServers now available."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
-
The Next Platform. "With Trainium4, AWS Will Crank Up Everything But The Clocks."
URLスラッグ:
- Alt 2: trainium3-vs-nvidia-gpu-enterprise-ai-costs