ブログ

GPU インフラストラクチャ、AI、データセンターに関する知見。

GPU以外のAIアクセラレータ：TPU、Trainium、Gaudi、Groq、Cerebras 2025

Google TPU v7がBlackwellに匹敵。AWS Trainium3が2.52 PFLOPSを達成。Groq LPUが750トークン/秒を実現。NVIDIAの市場シェア80%を超えるAIアクセラレータの最新動向。

2025年のAIラック平均コストは390万ドル、従来型の50万ドルと比較して7倍に増加。GB200NVL72ラックは132kWに到達、Blackwell UltraとRubinは2026-2027年までに576 GPU/ラックで250-900kWを目標に。NVIDIA OCP 2025...

トレーニングチェックポイントのサイズが拡大中—700億パラメータモデルのチェックポイントは現在150〜200GBに達し、最適化されたDR戦略が必要。クラウドプロバイダーがリージョン間GPUフェイルオーバーを提供。弾力的なトレーニングフレームワーク（DeepSpeed,...

AWSは2025年6月にH100の価格を44%引き下げました（p5インスタンスは以前の約98ドル/時から現在約50-55ドル/時の範囲に）。H100の購入価格は25,000〜40,000ドルで安定し、損益分岐点は以前の7〜11ヶ月から12〜18ヶ月にシフトしています...

液体冷却によりモニタリング要件が変化—冷却液温度、流量、圧力が空気温度と並ぶ重要指標に。H100/H200の熱しきい値は80-83°Cでより厳格に...

MetaのData PreProcessing Service（DPP）は、エクサバイト規模のトレーニングクラスター全体でデータストールを解消。WEKApodは8台のストレージノードから720GB/sのスループットを達成し、768台のH100 GPUに電力を供給。PCIe Gen5...

AIデータセンターでは従来の設備の10倍のファイバーが必要とされています。平均ラック密度は2022年の15kWから新設AIホールでは40kWに上昇し、ラックあたりの水平ケーブル配線が2倍に増加しています。データセンター...

MetaはGPU需要を400%過小評価し、緊急調達で8億ドルの追加コストが発生。McKinseyは2030年までに156GW、5.2兆ドルの設備投資が必要と予測。キャパシティプランニングのフレームワークを解説。

Waymoの700台の車両には、エッジで14 PFLOPS、クラウドで500 PFLOPSが必要です。Teslaは月間30億マイルのシミュレーションを実行。自動運転車のGPUインフラストラクチャ要件を完全網羅。

8×H100サーバーを持つ組織で手動割り当てによるGPU使用率が30〜50%にとどまり、数十万ドル規模の無駄が発生。NVIDIAによるRun:ai買収がGPUオーケストレーションを重要インフラ層として確立...