高密度ラック:AIデータセンターインフラ向け100kW超設計
2025年12月11日更新
2025年12月アップデート: 2025年のAIラック平均コストは390万ドル、従来型サーバーラックの50万ドルと比較して7倍に増加。GB200NVL72ラックは132kWに到達、Blackwell UltraとRubinは2026-2027年までに576 GPU/ラックで250-900kWを目標としている。NVIDIA OCP 2025では1MWラック設計を発表。Eaton Heavy-Duty SmartRackはAI向けに静的重量5,000ポンドをサポート。100kWインフラ構築コストはラックあたり20万〜30万ドル。
2025年のAIラック平均コストは390万ドルとなり、従来型サーバーラックの50万ドルと比較される。¹ この7倍のコスト増加は、1,000ワットの閾値を超えるGPUがラック電力密度を100kWから1MWへと押し上げる中で、ラック要件の根本的な変革を反映している。² NVIDIAのBlackwell UltraとRubin AIサーバーは、2026-2027年までにラックあたり最大576 GPUで250〜900kWを必要とする。³ これらのシステムを収容するラックインフラは、従来のエンクロージャーでは想定されていなかった構造補強、液体冷却統合、電力分配機能とともに進化しなければならない。
データセンターラック市場は、AIワークロードが物理インフラ要件を再形成する中で、2033年までに94.1億ドルへの成長が予測されている。⁴ ラックあたり10-15kWを処理する従来のデータセンターとは異なり、AI施設は機械学習の計算需要をサポートするためにラックあたり40-250kWを必要とする。⁵ AIインフラを計画する組織は、電力密度と重量容量に関する従来の想定ではなく、現在および予測されるGPU要件に対してラック仕様を評価しなければならない。
電力密度の進化が新たなラック設計を要求
ラックあたり100kW超への急増は、データセンターインフラにおける進化と革命の両方を表している。⁶ 5-10kW負荷向けに設計された従来のラックは、根本的なアーキテクチャの変更なしには現代のGPUサーバー電力要件を安全にサポートできない。
現在の密度範囲は幅広い展開シナリオにまたがっている。高密度AIトレーニングクラスターは40-60kWラックを必要とする。大規模言語モデルのワークロードは少なくとも70kWを要求する。国家安全保障とAI研究向けのスーパーコンピューティングアプリケーションは100kW以上を消費する。⁷ その軌道は加速し続けている。
NVIDIAシステム要件がインフラベンチマークを定義する。2024年に導入されたGB200NVL72ラック設計はピーク電力密度132kWに到達する。⁸ 将来のBlackwell UltraとRubinシステムは、ラックあたり576 GPUで最大900kWを必要とする。⁹ NVIDIAのOCP 2025オープニング基調講演では、最大1MWを要求する次世代AIラックが発表された。¹⁰
電力分配アーキテクチャは密度増加に適応する。整流を集中化することで、ソースにより近い場所でACをDCに変換し、その後高電圧DCをラックに直接分配することで、損失を削減しPUEを改善する。¹¹ Meta、Google、Microsoftを含むハイパースケーラーは、13.8kVまでの中電圧配電と400VDCおよび800VDCでのより高いDC電圧アーキテクチャを展開している。¹²
コストへの影響は重大である。100kW対応の新規インフラ構築にはラックあたり20万〜30万ドルかかるが、将来の成長に対応できる。¹³ 40kW密度向けの既存施設改修にはラックあたり5万〜10万ドルかかる。¹⁴ 投資規模には慎重なキャパシティプランニングが必要である。
高密度展開のための構造要件
GPUサーバーが従来のサーバー質量を超えるにつれ、重量容量が重要になる。AIサーバーは、レガシーラックが安全にサポートできないより高密度のコンポーネント、より大きなヒートシンク、液体冷却ハードウェアを詰め込んでいる。
静的重量容量は完全に装填された構成に対応しなければならない。Eatonは2024年10月にAI専用のHeavy-Duty SmartRackエンクロージャーを発売し、最大5,000ポンドの静的重量容量を特徴としている。¹⁵ 54インチの拡張奥行きは、GPU展開で一般的なより大きなAIサーバーに対応する。¹⁶ 2,000-3,000ポンド負荷向けに設計された標準ラックは、AIサーバー展開前に評価が必要である。
床荷重には施設評価が必要である。満水時のCDU重量は3トンに達する可能性があり、800kg/m²の床荷重容量が必要となる。¹⁷ サーバー重量と液体冷却インフラを合わせると、総床荷重は従来のデータセンター仕様を超える可能性がある。
ラック奥行きは標準寸法を超えて延長される。NVIDIA HGXサーバーおよび類似プラットフォームは、42インチ標準奥行きラックよりも深いエンクロージャーを必要とする。¹⁸ 拡張奥行きの計画は、通路間隔、施設レイアウト、ケーブル配線に影響する。
熱管理統合は構造設計に影響する。高電力ラックは途切れのない気流経路を必要とする熱プルームを生成する。¹⁹ NVIDIAは、最適化された空冷構成のために、底部に2台のサーバー、3-6Uの空きギャップ、その上に2台のサーバーを配置することを推奨している。²⁰ ラックレイアウトは冷却効果に直接影響する。
液体冷却統合要件
AIワークロードを処理するラックは、空冷エンクロージャーでは想定されていなかった液体冷却インフラに対応しなければならない。この統合により、ラック選定と施設計画に複雑さが加わる。
コールドプレートサポートにはマニホールド統合が必要である。ダイレクトツーチップ冷却は、CPUとGPUの熱源に冷却液を届け、ラックあたり30-40kWを除去する。²¹ ラックは、エンクロージャー内の流体分配のための取り付けポイント、配線経路、漏れ封じ込めを提供しなければならない。
リアドア熱交換器マウントはハイブリッド冷却を可能にする。RDHxシステムはラック背面に取り付けられ、最新構成ではラックあたり最大120kWを除去する。²² ラック構造仕様はRDHxの重量と配管接続をサポートしなければならない。
イマージョン互換性は最高密度を可能にする。イマージョン冷却はシステムを誘電性流体に浸し、ファンを排除しながら50-100kWを処理する。²³ 一部の展開では従来のエンクロージャーではなくラックスケールのイマージョンタンクを使用しており、異なる施設計画が必要となる。
ハイブリッドアーキテクチャは冷却アプローチを組み合わせる。2025年の一般的な設計では、70%液体冷却と30%空冷が関与し、ラックが統合ポイントとして機能する。²⁴ ラックは両方の冷却モダリティに同時に対応しなければならない。
流量仕様が冷却能力を決定する。45°C入口温度で1.2 LPM/kWの業界標準は、85kWラックには45°Cへの冷却で102 LPM流量をサポートするCDUと熱交換器が必要であることを意味する。²⁵ ラック配管は必要な流量を制限してはならない。
OCP Open Rack仕様
Open Compute Projectは、ハイパースケール効率向けに最適化されたラック標準を定義している。AIワークロード要件が継続的な仕様進化を推進している。
Open Rack V3(ORV3)が基盤を確立した。Metaは2022年にGoogleとRittalの協力を得て基本仕様を定義・公開した。²⁶ 21インチ幅はEIA 19インチ標準を超え、大幅な気流増加を可能にする。²⁷ 電源シェルフ、整流器、バッテリーバックアップ仕様により統合電力分配が可能となる。
Open Rack Wide(ORW)は次世代AIに対応する。Metaは2025年のOCPでORW仕様を導入し、次世代AIシステムの電力、冷却、保守性の要求に最適化されたオープンソースのダブルワイドラック標準とした。²⁸ この仕様は、標準化され、相互運用可能でスケーラブルなデータセンター設計への基盤的シフトを表している。²⁹
Mt Diablo(Diablo 400)仕様は、AIクラスター用の電力ラックサイドカーを記述している。Google、Meta、Microsoftの共同執筆により、この仕様は従来の48V構成を超えて電力供給を押し上げる分離型電力ラックを定義している。³⁰ Delta Electronicsは、1.1MWスケールのAIラックに電力を供給するためにNVIDIAと開発した800VDC「AI Power Cube」エコシステムをデビューさせた。³¹
Clemente仕様は、MetaのAI/MLトレーニングおよび推論ユースケース向けのフォームファクターにNVIDIA GB300 Host Processor Modulesを統合するコンピュートトレイを記述している。³² この仕様は、サイドカー電力ラックを備えたOCP ORv3 HPRを使用する最初の展開を表している。
業界実装が仕様の価値を実証している。AMDはORWオープンスタンダードに基づいて構築されたラックスケールリファレンスシステム「Helios」を発表した。³³ Rittalのダイレクト液体冷却対応Open Rack V3は、ハイパフォーマンスコンピューティングとAI技術の放熱に対応している。³⁴
AIラック展開向けベンダーソリューション
主要インフラベンダーは2024-2025年を通じてAI専用ラック製品を発売した。
Schneider Electricは2025年6月に高密度NetShelter Racksを発売し、続いてNVIDIAのMGXアーキテクチャをサポートするOCPインスパイアの新しいラックシステムを発売した。³⁵ これらの製品はSchneiderの電力分配および冷却ポートフォリオと統合されている。
Eaton Heavy-Duty SmartRackエンクロージャーは、5,000ポンドの静的重量容量と54インチの拡張奥行きでAI展開をターゲットとしている。³⁶ これらの仕様は、GPUインフラで一般的なより大きく重いサーバーに対応している。
Supermicroは、ラックあたり最大100kWの電力と冷却を備えたラックスケール液体冷却ソリューションを提供し、システム、ラック、クラスターレベルで完全に検証され、リードタイムが短縮されている。³⁷ これらのソリューションはSupermicroのGPUサーバーポートフォリオと統合されている。
Rittalは、AI技術の放熱要件に対応する液体冷却準備を備えたOCP ORV3準拠ラックを提供している。³⁸ これらの製品はダイレクト液体冷却統合をサポートしている。
Legrandは2025年上半期にAIに特化したデータセンターインフラポートフォリオから24%の収益増加を達成し、年間収益5億ユーロを追加する7件の買収を行った。³⁹ 同社のデータセンター収益は2025年に20億ユーロを超えると予測されている。⁴⁰
ネットワークインフラの考慮事項
AIクラスターは従来のデータセンターの5倍のファイバーインフラ密度を必要とする。⁴¹ ラック選定は、AIネットワーキングが要求するケーブル密度に対応しなければならない。
InfiniBandと高速Ethernetケーブルにはルーティング容量が必要である。AIクラスターは、サーバー間でGPUを同期するために超高帯域幅、低遅延ネットワーク(400Gbps以上のEthernetまたはInfiniBand XDR)に依存している。⁴² ネットワークファブリックはラックあたり4-5倍のファイバー相互接続を持つスーパーコンピューター設計に似ている。⁴³
ケーブル管理統合はラック選定に影響する。ラックあたり10-20本のケーブル向けに設計された標準ケーブル管理アクセサリーは、AIネットワーキングが必要とする数百の高速接続に対応できない。調達前にラックのケーブル管理容量を評価すること。
オーバーヘッドとアンダーフロアルーティングはラック配置に影響する。AIケーブル密度は従来のレイズドフロア容量を超える可能性があり、オーバーヘッドケーブル管理の採用を促進している。ラック高さは保守性を維持しながらオーバーヘッドルーティングに対応しなければならない。
密度成長への計画
AIインフラを展開する組織は、現在の要件ではなく予想される成長に合わせてラック投資をサイジングすべきである。
GPUロードマップの認識がキャパシティプランニングに情報を提供する。NVIDIAのH100(700W)からBlackwell(1000W超)、Rubin(より高い)への進行は密度のエスカレーションを続けている。現在のGPU向けに展開されたラックは、次世代の電力要件に対応すべきである。
モジュラー電力分配は段階的な容量増加を可能にする。ラックごとのPDU対バスウェイ配電は、容量がどのようにスケールするかに影響する。ラック選定とともに電力アーキテクチャを計画すること。
冷却ヘッドルームはストランデッドコンピュートを防ぐ。空冷初期展開であっても液体冷却能力を持つラックは、密度が増加するにつれて移行を可能にする。追加コストはラック交換と比較して軽微である。
フロアスペース効率はスケールで複利的に効く。より高密度のラックは、同等の計算容量に対する総ラック数を削減する。ラック数が少なければ、フロアスペースが減り、ケーブル配線が短くなり、潜在的により小さな施設となる。
Introlのグローバルエンジニアリングチームは、初期GPUサーバー展開から100,000アクセラレーター施設まで、257拠点でAIインストレーション向けの高密度ラックインフラを展開している。ラック選定は施設効率と将来のGPU世代への対応能力に直接影響する。
インフラの基盤
ラックはAIインフラ投資の物理的基盤を表している。390万ドルのGPUサーバーとネットワーキング機器を収容するエンクロージャーは、その投資を安全にサポートしながら、それらのシステムが必要とする電力供給と冷却インフラを可能にしなければならない。