GB200 NVL72の導入:液冷構成における72基のGPU管理
2025年12月8日更新
72基のGPUが単一の計算ユニットとして動作することが、今や本番環境で実現しています。GB200 NVL72は120キロワットを消費し、単一ラックで1.4エクサフロップスのAI計算能力を提供します。¹ このアーキテクチャは従来のノード間の境界を完全に打ち破り、従来のクラスタを悩ませてきた分散コンピューティングのペナルティなしに、1兆パラメータモデルを処理する一貫した計算ファブリックを構築します。これらのシステムを導入する組織は、インフラチームが可能だと考えていた常識を覆すエンジニアリング課題に直面します。
2025年12月更新: GB200 NVL72システムは2024年12月から主要クラウドプロバイダーへの出荷が開始され、2025年第2〜第3四半期に量産が本格化しました。アナリストはサプライチェーン最適化の要件により、2025年の出荷予測を25,000〜35,000キャビネット(当初予測の50,000〜80,000から下方修正)に見直しました。NVIDIAはGTC 2025で既に後継機GB300 NVL72を発表しており、288GB HBM3eメモリ、GPU当たり1.4kW電力、50%向上した性能(1,100 PFLOPS FP4推論)を備えたBlackwell Ultra GPUを搭載しています。GB300システムは2025年第3四半期に生産開始され、Quantaが9月から出荷を開始しました。新規導入を計画している組織は、GB300の入手可能性と即時のGB200ニーズを比較検討する必要があります。
数字だけでも経験豊富なデータセンターアーキテクトを圧倒します:毎秒576テラバイトでアクセス可能な13.5テラバイトのHBM3eメモリ、第5世代NVLinkを通じて毎秒130テラバイトのGPU間帯域幅を提供。² 各ラックの重量は3,000キログラムで、必須の液冷システムを通じて2.4メガワットの冷却能力が必要です。³ 単一システムが300万ドルのコストで、GPT-4クラスのモデルを数ヶ月ではなく数週間でトレーニングできる場合、従来の導入マニュアルは役に立ちません。
CoreWeaveは2025年納入のGB200 NVL72システムを23億ドル分発注し、大規模言語モデルのトレーニングと推論市場を支配するプラットフォームの能力に、インフラ戦略全体を賭けています。⁴ Lambda Labsは、電力と冷却要件をサポートするために施設を完全に再構築する必要があるにもかかわらず、200ユニットを先行購入しました。⁵ これらのシステムへの殺到は根本的な真実を示しています:GB200 NVL72インフラを導入できない組織は、基盤モデル開発において取り残されるリスクがあります。
アーキテクチャがコンピューティングの境界を再定義
GB200 NVL72は、2層NVLinkスイッチシステムを通じて36基のGrace-Blackwell Superchipを接続し、前例のない計算の一貫性を実現します。各Superchipは、NVLink-C2Cで双方向900GB/sの帯域幅で接続されたArmベースのGrace CPUと2基のBlackwell GPUを組み合わせています。⁶ 72基のGPUはメモリを共有し、あたかも単一の巨大なプロセッサであるかのように通信し、従来の分散トレーニングを制限していた同期オーバーヘッドを排除します。
NVLink Switch Traysがシステムのバックボーンを形成し、9つのトレイがそれぞれ4つのNVLink Switchチップをサポートします。これらのスイッチはGPU間でGPU当たり1.8TB/sの全対全接続を提供し、システム内の任意のGPUが300ナノ秒以内に任意のメモリロケーションにアクセスできます。⁷ レイテンシの均一性により、開発者はシステム全体を72倍のリソースを持つ単一GPUとして扱うことができ、ソフトウェア開発が劇的に簡素化されます。
メモリアーキテクチャはコンピューティング史上のあらゆる前例を打ち破ります。システムは576TB/sの総帯域幅で13.5TBのHBM3eメモリを提供し、さらにGrace CPUからアクセス可能な2.25TBのLPDDR5Xを追加で備えています。⁸ メモリの一貫性はすべてのプロセッサに及び、CPUとGPUは明示的なコピーなしでデータ構造を共有できます。以前は複数ノードにわたる複雑なモデル並列処理が必要だった大規模言語モデルが、単一のNVL72のメモリ空間に完全に収まるようになりました。
冷却はアーキテクチャの付属品ではなく、不可欠な要素となります。NVIDIAは厳格な仕様の液冷を義務付けています:入口温度20〜25°C、流量毎分80リットル、圧力損失1.5バール以下。⁹ 冷却システムは継続的な120kWの発熱にもかかわらず、ジャンクション温度を75°C以下に維持します。仕様からの逸脱は性能を60%低下させる自動スロットリングをトリガーするため、冷却はコンピューティングリソースと同様に重要です。
電力供給にはインフラの完全な再設計が必要です。システムは4つの30kW電源シェルフを通じて継続的に120kWを引き込み、各シェルフには480V三相入力が必要です。¹⁰ 電力変換は2段階で行われます:電源シェルフでACから54V DCへ、次にコンピュートボード上で54Vから各負荷点電圧へ。アーキテクチャは97%の変換効率を達成しますが、電力変換だけで3.6kWの廃熱が発生します。
物理的な導入課題が増大
GB200 NVL72の設置には軍事的な精密さと専門機器が必要です。システムは4つの別々のコンポーネントで到着します:1,500kgのコンピュートラック、800kgのNVLink Switchラック、400kgのCDU、300kgの電力分配ユニット。¹¹ 標準的なデータセンターのドアは幅に対応できず、ドアフレームや時には壁の撤去が必要です。Introlの導入チームは、床面を損傷せずにコンポーネントを配置するために、2,000kg対応の特殊な油圧リフトを使用します。
床荷重は即座に構造上の懸念を提示します。コンピュートラックは1,500kgをわずか0.8平方メートルに集中させ、1,875 kg/m²の集中荷重を生み出します。¹² 1,000 kg/m²対応の標準的なフリーアクセスフロアは、重量を分散させるための鉄板補強が必要です。多くの施設では、NVL72導入専用に打設された補強コンクリートパッド上のスラブオングレード設置を選択します。地震地域では、地震時の移動を防ぐための追加アンカーが必要です。
ケーブル管理は5,000以上の個別接続を持つ3次元パズルになります。システムはGPU相互接続用の144本の銅製NVLinkケーブル、ネットワーク接続用の288本の光ケーブル、72本の液冷チューブ、数百本の電力ケーブルを使用します。¹³ NVIDIAは正確なケーブル長とルーティング図を提供しており、1.8TB/s速度での逸脱は信号整合性の問題を引き起こします。設置チームはケーブル管理だけで60〜80時間を費やし、拡張現実ヘッドセットを使用してすべての接続が仕様と一致していることを確認します。
液冷インフラは製薬レベルの清浄度を要求します。冷却ループには200リットルの特殊配合クーラントが含まれ、特定の導電率、pH、粒子レベルを維持する必要があります。¹⁴ 単一の汚染粒子が、個々のチップを冷却するマイクロチャネルコールドプレートを詰まらせる可能性があります。設置チームはクーラント導入前にシステム全体を脱イオン水で3回フラッシュします。このプロセスには12〜16時間かかり、専門のポンプ機器が必要です。
ネットワーク統合には前例のない帯域幅プロビジョニングが必要です。各NVL72は外部接続用に8つの400GbE接続が必要で、システム当たり合計3.2Tb/sになります。¹⁵ この帯域幅要件は多くの施設の外部接続全体を超えます。組織は通常、従来のトップオブラック・スイッチングアーキテクチャをバイパスして、NVL72システムからコアルーターへの専用光ファイバーを敷設します。ネットワーク設計では、分散トレーニング中にNVL72システムがチェックポイントと勾配を交換する際の東西トラフィックパターンを考慮する必要があります。
極限スケールでのソフトウェアオーケストレーション
72基のGPUを一貫したシステムとして管理するには、根本的なソフトウェアアーキテクチャの変更が必要です。NVIDIAのNVLink Switch Systemソフトウェアはすべてのgpu間で単一のメモリ空間を作成しますが、アプリケーションはこの機能を活用するように設計する必要があります。HorovodやPyTorch Distributedなどの従来の分散トレーニングフレームワークは不要なオーバーヘッドになります。開発者はNVIDIAのTransformer Engineライブラリを使用し、手動介入なしで自動的に72基のGPU間でモデルを分割します。¹⁶
コンテナオーケストレーションプラットフォームはNVL72のリソースモデルに苦戦します。Kubernetesはデフォルトでシステムを72個の別々のGPUとして認識し、スケジューリングの競合とリソースの断片化を引き起こします。NVIDIAはNVL72を単一のスケジュール可能なユニットとして提示するカスタムデバイスプラグインを提供していますが、これは標準のMLプラットフォームとの互換性を破壊します。¹⁷ 組織はマルチテナンシーを試みるよりも、NVL72システム全体を単一のワークロードに専念させることが多いです。
統一メモリ空間にもかかわらず、メモリ管理にはNUMA効果の慎重な考慮が必要です。各Grace CPUはローカルGPUへ500GB/s帯域幅のローカルLPDDR5Xメモリを持ちますが、リモートGPUへは100GB/sしかありません。¹⁸ 最適なパフォーマンスにはクロスソケットメモリアクセスを最小化するデータ配置アルゴリズムが必要です。NVIDIAのMagnum IOライブラリは一部の最適化を自動的に処理しますが、カスタムアプリケーションには明示的なNUMA認識が必要です。
72基のGPUが1つとして動作する場合、障害処理は複雑になります。従来、単一GPUの障害はノードの計算能力の1/8を失うことを意味していました。NVL72では、NVLinkトポロジの依存関係により、1つのGPU障害がシステム全体を不安定化させる可能性があります。NVIDIAは障害コンポーネントを回避してNVLinkルーティングを動的に再構成するハードウェアレベルの障害分離を実装していますが、障害GPUごとにパフォーマンスは15〜20%低下します。¹⁹ ほとんどの導入では、本番ユニットの修理を試みるよりも予備のNVL72システムを維持します。
パフォーマンス監視は圧倒的な量のテレメトリを生成します。各GPUは温度、電力、メモリ帯域幅、計算使用率をカバーする毎秒10,000以上のメトリクスを生成します。²⁰ 72基のGPUにCPUとスイッチを掛け合わせると、単一のNVL72は毎秒100万メトリクスを生成します。従来の監視システムはこの量を処理できません。組織は専用の時系列データベースを導入し、AI駆動の分析を使用してテレメトリストリーム内の異常を特定します。
経済モデルが従来の考え方に挑戦
GB200 NVL72の300万ドルの価格は、代替手段と比較するまでは法外に見えます。個別のDGX H100システムから同等の計算能力を構築するには、270万ドルの9ノードが必要ですが、電力消費は5倍、ラックスペースは10倍必要です。²¹ NVL72の一貫したアーキテクチャはノード間通信オーバーヘッドを排除し、大規模モデルトレーニングで30%優れた実効スループットを提供します。プレミアムはトレーニング時間の短縮と運用コストの低減により元が取れます。
電力経済性は120kWの消費にもかかわらずNVL72に有利です。同等の計算を達成する従来の分散システムはネットワークオーバーヘッドを含めて400〜500kWを消費します。²² kWh当たり0.10ドルの産業用電力料金で、電力節約は年間30万ドルに相当します。冷却負荷の削減でさらに年間10万ドル節約されます。一般的な3年間の減価償却期間で、エネルギー節約は初期プレミアムのほぼ半分を相殺します。
トレーニング時間の短縮は競争優位に直接つながります。OpenAIは、NVL72システムでのGPT-4トレーニングが以前のインフラでの90日に対し45日で完了すると推定しています。²³ コンピューティングリソースに毎日100万ドルを費やしている組織にとって、時間の節約は合理的なハードウェアプレミアムを正当化します。AI市場での先行者優位は、純粋な財務計算を超えてスピードを貴重なものにします。
統一アーキテクチャにより稼働率が劇的に向上します。従来のクラスタは通信と同期のオーバーヘッドにより50〜60%のGPU稼働率を達成します。²⁴ NVL72システムはノード間のボトルネックを排除することで85〜90%の稼働率を維持します。改善された稼働率により、各NVL72は従来の120〜130個のGPUに相当する実効計算能力を提供し、大規模AIインフラの経済性を変えます。
運用コストは多くの財務アナリストを驚かせます。システムの複雑さには年俸20万ドル以上の専任エンジニアリングチームが必要です。クーラントだけで年間1万ドル、四半期ごとのテストで2,000ドルかかります。単一のNVL72用の予備部品在庫で50万ドルの資本が拘束されます。しかし、これらのコストはモデル開発のための十分な計算能力を持たないことの機会費用に比べれば微々たるものです。
実際の導入が運用の現実を明らかにする
Anthropicのclaude 3トレーニングインフラ
[翻訳のため内容省略]