1200W GPU向け物理インフラ:電力、冷却、ラック設計要件
2025年12月8日更新
GPU消費電力が700Wから1200Wへと跳ね上がったことは、単なる70%以上の増加にとどまらない。過去10年間にわたりデータセンター設計を導いてきたあらゆる前提を根本から覆し、従来のIT環境というよりも工業製造施設に近いインフラを必要とするようになった。¹ NVIDIAのB200およびGB300 Blackwell Ultraは現在、チップあたり1200〜1400Wを要求し、今後登場するVera Rubinプラットフォームではさらに高い要件が求められる。² 今日インフラを構築する組織は、家庭用暖房機器に匹敵する熱を発生させ、冷却装置込みで30キログラムの重量があり、電気自動車の充電ステーションから借用した電力供給システムを必要とするGPUに備えなければならない。
2025年12月更新: 1200W GPU時代が到来した。GB200システム(スーパーチップあたり1200W)は2025年を通じて出荷され、GB300 Blackwell Ultra(1400W)は現在量産中である。2025年9月からテストサンプルが出荷されているNVIDIAのVera Rubinプラットフォームは、NVL144構成でラックあたり最大600kWを必要とする。これは現行のGB200 NVL72システムの5倍の増加である。2024年に1200W対応インフラを準備した組織は、2000W以上のチップが2027年の視野に入っているという現実に直面している。ここに記載されたインフラに関する決定は依然として基礎となるものだが、将来を見据えた導入では大幅に高い電力密度を計画すべきである。
インフラの課題はスケールで掛け算すると複合的になる。8基の1200W GPUを搭載した単一ラックは、コンピュートだけで10kWを消費するが、サポート機器を含めるとラックあたりの総消費電力は15〜18kWに達する。³ Microsoftの最新データセンター設計はすでに1200Wチップに対応しており、施設はサーバールームというよりもアルミニウム製錬所に近い様相を呈している。⁴ 準備には、電気設備のアップグレード、冷却システムの設置、構造補強に18〜24ヶ月のリードタイムが必要であり、GPU購入前にメガワットあたり500〜800万ドルのコストがかかる。
早期導入者は、インフラ要件を過小評価することで痛い教訓を学んでいる。Cerebrasは23kWのウェハースケールエンジンを導入する際、電力が主な課題だと考えていたが、冷却ポンプからの振動がチップ故障を引き起こすことを発見した。⁵ TeslaのDojoスーパーコンピュータは、一見十分な冷却能力があったにもかかわらず1000W以上のチップがオーバーヒートしたため、施設の完全な再設計が必要となった。⁶ 次世代GPUを導入するすべての組織は、高額な改修を必要とする新たな故障モードを発見しており、数百万ドル規模の失敗を避けるためには適切な準備が不可欠である。
電力供給アーキテクチャは新たな領域へ
従来の208V電力配電は、1200W負荷では物理的に不可能となる。208Vで1200Wを供給するには、三相電力で1相あたり5.8アンペアが必要だが、電気規格に基づく80%ディレーティングを考慮すると7.2アンペア回路となる。⁷ この電流を流すにはGPUごとに親指ほどの太さの6 AWGケーブルが必要となり、標準ラックに物理的に収まらないケーブル束が発生する。設置作業費を除いた原材料だけで、銅がGPUあたり500ドルかかることになる。
480V電力配電が1200Wチップの唯一の実現可能な解決策として浮上している。480V三相では、1200Wは1相あたりわずか1.5アンペアしか必要とせず、12 AWG配線で対応可能である。⁸ ヨーロッパのデータセンターは標準400V配電により優位性を持ち、多くのハイパースケーラーが次世代インフラとして北欧への展開を優先する理由を説明している。北米の施設では208Vから480V配電へのトランス更新が必要となり、変換機器にメガワットあたり50万ドルが追加される。⁹
直流配電は、ACシステムを悩ませる複数の変換非効率を排除する。従来のAC-DC変換では、トランスと整流器の損失により8〜10%の電力が無駄になる。¹⁰ Googleのデータセンターは、380V DC配電で電力会社からチップまで99%の効率を達成している。¹¹ 1200W GPUの場合、DC配電だけで変換損失をチップあたり120W節約できる。節約された電力は変換熱の冷却要件と等しく、効率向上のメリットが複合的に得られる。
電源設計は洗練された電力管理システムへと進化している。従来のPSUは80 Plus Titanium効率94%で最大2000Wに制限されていた。¹² 8基の1200W GPUをサポートするには、N+1冗長性を備えた複数の3000W以上の電源が必要となる。Delta Electronicsは高密度GPU導入専用の4000W電源シェルフを開発し、GaNトランジスタを使用して97%の効率を達成している。¹³ 各電源シェルフのコストは15,000ドルだが、連続運転で年間50,000ドルの電気代を節約できる。
過渡電力管理は、GPUがマイクロ秒単位でアイドルからフルロードに移行するため、極めて重要となる。1200W GPUが200Wのアイドルからフルパワーに移行すると、電力グリッドを不安定にする1000Wのステップ負荷が発生する。¹⁴ コンデンサバンクはこれらの遷移を平滑化するが、慎重なサイジングが必要である。小さすぎると電圧低下でシステムがクラッシュし、大きすぎるとコストが不必要に上昇する。現代のGPU電力供給には、ラックあたり5,000ドルのコストがかかるが電力誘起故障を防止する50,000マイクロファラッドのコンデンサアレイが含まれている。
1200Wの冷却には液冷が必須
1200W GPUの空冷は、いかなる工学的創意工夫をもってしても熱力学的に不可能である。空気で1200Wの熱を除去するには、30°F(約17°C)の温度上昇で400 CFMが必要となる。¹⁵ 8基のGPUには3,200 CFMが必要であり、サーバーラック内に時速100マイル以上の風が発生する。ファン電力だけで500Wを消費し、除去すべき熱がさらに増加する。仮にエアフローが達成可能だとしても、騒音レベルは110 dBAを超え、数分で永久的な聴覚障害を引き起こす。¹⁶
コールドプレートへの直接液冷が最低限の実現可能な解決策となる。CoolIT SystemsのDirect Liquid Coolingは、人間の髪よりも細いマイクロチャネルを持つ専用コールドプレートを使用して、GPUあたり1500Wに対応する。¹⁷ このシステムは、毎分2リットルの流量で30°Cの入口水を使用し、チップ温度を80°C以下に維持する。このエンジニアリングは従来のITよりもF1レーシングに近く、マイクロメートル単位の公差とワットあたり数分の1度の熱抵抗で計測される。
イマージョン冷却は、極端な高密度導入に優れた熱除去を提供する。SubmerのSmartPodXは、誘電性流体イマージョンを使用して60平方フィートで100kWに対応する。¹⁸ 空気がないことで、空冷やコールドプレート冷却を悩ませるホットスポットと温度勾配が排除される。GRCは、1200W GPUがイマージョン冷却で直接液冷よりも15°C低い温度で動作すると報告している。¹⁹ この技術は完全なインフラ再設計を必要とするが、他のアプローチでは不可能な密度を実現する。
二相冷却は、最大の熱除去のために相変化物理学を活用する。3MのNovec流体は50°Cで沸騰し、気化により単相液体の10倍の熱を吸収する。²⁰ Intelは、60°Cの接合部温度を維持しながら実験チップから2000Wを除去する二相冷却を実証した。²¹ この技術はGPUについてはまだ実験段階だが、1500W以上の将来のチップに向けた進化の方向性を示している。早期導入者は、二相へのアップグレードパスを備えた施設を設計する必要がある。
排熱インフラはGPU電力に比例してスケールする。1200W GPUを使用する10MW施設は、冬季の2,500戸の住宅に相当する熱を発生させる。²² 冷却塔は毎分35,000ガロンの凝縮水流量に対応しなければならない。水資源が乏しい地域向けのドライクーラーは50%多い容量を必要とし、20%多くの電力を消費する。インフラはサーバールームをはるかに超えて、メガワットあたり200〜300万ドルのコストがかかる工業規模の機械システムにまで及ぶ。
構造工学は大規模な荷重に直面
統合冷却システムによりGPUの重量は劇的に増加する。むき出しの1200W GPUは5kgだが、コールドプレート、マニホールド、冷却液を追加すると、GPUあたりの総重量は15kgとなる。²³ 8GPU搭載サーバーはフル装備で200kgに近づき、ほとんどのフリーアクセスフロアの耐荷重である1平方メートルあたり150kgを超える。重量の集中により、コンクリートにひびが入り、鉄骨支持が時間とともに曲がる点荷重が発生する。
冷却システムからの振動は予期しない構造上の課題を生む。液冷用の高流量ポンプは、建物構造と共振する50〜120 Hzの周波数で振動を発生させる。²⁴ Cerebrasは、ポンプの振動がはんだ接合部への機械的ストレスを通じてGPUメモリエラーを引き起こすことを発見した。²⁵ 防振マウントが必須となり、ラックあたり10,000ドルの追加コストがかかるが、振動誘起故障を防止するスプリングダンパーシステムを使用する。
耐震対策は重量級GPUインフラで倍増する。カリフォルニア州の建築基準法では400ポンドを超える機器のアンカー固定が必要だが、1200W GPUラックはフル装備で2,000ポンドに近づく。²⁶ 耐震アンカーは転倒せずに1.5gの水平加速度に耐えなければならない。アンカーシステムはラックあたり5,000ドルのコストがかかり、床スラブが荷重に耐えられることを確認するための構造解析が必要である。日本のデータセンターでは、地震時に30cmの水平移動を可能にする免震システムを使用している。
液体分配は、データセンター設計でほとんど考慮されない静水圧荷重を追加する。1200W GPU用の冷却ループには、ラックあたり500リットル以上の冷却液が含まれ、機器重量を超える500kgの重さとなる。²⁷ 配管は、毎分20リットル以上の流量からの動的力に加えて、この重量を支える必要がある。壊滅的な漏れが発生すると、データセンターフロア全体を浸水させるのに十分な液体が放出される。二次封じ込めシステムが必須となり、建設コストが20%増加するが、環境災害を防止する。
フリーアクセスフロアは1200Wインフラに対応するため完全な再設計が必要となる。従来の2フィート(約60cm)のフリーアクセスフロアは、機器の重量を支えることも、必要なケーブルや配管を収容することもできない。現代の1200W導入では、タイルではなくスチールグレーティングを使用した4フィート(約120cm)のフリーアクセスフロアを使用する。²⁸ より深いプレナムは、12インチの冷却配管と大規模なケーブル束を収容する。建設コストは40%増加するが、必要なインフラスペースと耐荷重能力を提供する。
ネットワークおよびケーブルインフラも同様にスケール
各1200W GPUは、コンピュートの孤立化を防ぐために複数の高速ネットワーク接続を必要とする。NVIDIAのB200は、GPUあたり8つの400GbEポートをサポートし、総帯域幅は3.2Tb/sとなる。²⁹ 8基のGPUには冗長性を含めて64本のネットワークケーブルが必要であり、直径8インチのケーブル束が発生する。ケーブルだけでラックあたり200kgの重量があり、高速DACケーブルで50,000ドル、アクティブ光ケーブルで100,000ドルのコストがかかる。
電力ケーブルは重大なインフラ課題となる。各1200W GPUは、カスケード故障を防ぐために専用の電力フィードを必要とする。480Vを使用するとケーブルゲージは小さくなるが、安全要件により個別の回路保護が義務付けられている。8基のGPUを搭載したラックには、接地線と中性線に加えて24本の電力ケーブル(GPUあたり三相)が必要となる。ケーブルトレイシステムは、電力ケーブルとデータケーブル間の適切な分離を維持しながら、メートルあたり100kgのケーブル重量を支える必要がある。
帯域幅要件により光インフラが必須となる。銅ケーブルは3メートルを超える400GbEをサポートできず、有意義なトポロジーには光接続が強制される。³⁰ 各光トランシーバは15Wを消費し、3,000ドルのコストがかかるため、完全に接続された8GPUシステムでは1kWの電力と200,000ドルのトランシーバが追加される。光インフラには、多くの組織が持っていない専門的なクリーニングツール、テスト機器、専門知識が必要となる。
ケーブル管理は、多くの人が認識している以上に冷却効率に影響を与える。不適切なケーブル配線はハイブリッド空冷/液冷システムのエアフローを制限し、サーマルスロットリングを引き起こすホットスポットを発生させる。適切なケーブル管理は、メンテナンスアクセス用にケーブルを整理しながら、エアフロー用に40%のオープンエリアを維持する。³¹ 構造化ケーブリングシステムは、事前に計測された長さと定義されたルーティングパスを使用するが、設置時間が2〜3倍必要となる。この投資は、メンテナンス時間の短縮と冷却効率の向上により回収される。
管理ネットワークは、コントロールプレーンの枯渇を防ぐためにデータパスから分離する必要がある。各1200W GPUは、アウトオブバンド管理用のIPMI/Redfish接続が必要であり、追加のネットワークスイッチとケーブリングが必要となる。³² 環境モニタリングは、温度、湿度、圧力、漏水検知のためにラックあたり数百のセンサーを追加する。管理インフラは数ギガビットのテレメトリを生成し、
[翻訳のため内容は省略]