AIデータセンターにおける液体冷却と空冷:2025年コスト・ベネフィット分析
2025年12月8日更新
空冷は1ラックあたり41.3kWで物理的限界に達する。この閾値を超えると、熱を除去するために必要な空気量が実用的な設計で供給可能な量を超え、いかなるエンジニアリングでも解決できない騒音と熱の混乱を引き起こす。¹ 液体冷却は優れた熱力学によって救済を約束するが、CFOの正気を疑わせるほどのコストがかかる:レトロフィット設置で1メガワットあたり200万〜300万ドル。² 空冷と液体冷却の選択は、単にインフラ予算だけでなく、ミリ秒が勝者と敗者を分けるAI市場における競争力を左右する。
2025年12月更新: 2025年は液体冷却が「最先端から基本インフラへと転換」した年となった。データセンター液体冷却市場は2025年に55.2億ドルに達し、2030年には157.5億ドル(CAGR 23.31%)に達すると予測されている。現在22%のデータセンターが液体冷却システムを導入しており、この技術はニッチな地位を脱してコアインフラとなった。ダイレクト・トゥ・チップ冷却が47%の市場シェアで優位を占め、Microsoftは2025年7月からAzureキャンパス全体へのフリート展開を開始し、将来世代向けにマイクロフルイディクスをテストしている。Colovoreは1ラックあたり最大200kWを提供する9億2500万ドルの施設を確保した。NVIDIA H100/H200やAMD MI300Xなどの最新AIチップは1GPUあたり700W以上を発生させ、空冷では単純に管理できない熱密度となっている。空冷と液体冷却を組み合わせたハイブリッド冷却アーキテクチャが実用的な展開標準となりつつある。
世界中のデータセンターは年間460テラワット時を消費し、従来の施設では冷却が総エネルギー使用量の40%を占める。³ NVIDIAの最新GPUロードマップは、2026年までに1チップあたり1,500ワットに達する消費電力が2年ごとに倍増することを示している。⁴ 組織は、空冷への漸進的な改善が熱密度の指数関数的成長に追いつけない変曲点に直面している。今日下される決定が、今後10年間の運用コストを固定する。
Microsoftは、空冷インフラがGPTトレーニングワークロードをサポートできないことが判明した後、液体冷却のために施設のレトロフィットに10億ドルを費やした。⁵ Amazon Web Servicesは両方の技術を戦略的に展開し、ストレージとCPUワークロードには空冷を使用し、GPUクラスターには液体冷却を予約している。⁶ 異なるアプローチは根本的な真実を反映している:単一の冷却技術がすべての課題を解決するわけではなく、誤った選択は数百万ドルの遊休資産を生む。
すべてを決定する物理学
空気は標準条件で水よりも単位体積あたり3,300倍少ない熱を運ぶ。⁷ この単一の事実が、現代のデータセンターにおけるすべての冷却決定を左右する。空気で1キロワットの熱を移動させるには、10°Fの温度上昇で毎分100立方フィート(CFM)の気流が必要である。これを40kWラックにスケールすると、4,000 CFMが必要となり、これはコールドアイル内のカテゴリ2ハリケーンの風速に相当する。⁸
水の比熱容量4.186 kJ/kg·Kは、1ガロンで3,000立方フィートの空気と同じ熱を吸収できることを意味する。⁹ 毎分10ガロンという控えめな流量で、20°Fの温度上昇で100kWの熱負荷に対応できる。空気で同じ冷却を行うには10,000 CFMが必要で、95デシベルの騒音を発生させ、ファン動力だけで25kWを消費する。¹⁰ 密度が増加するにつれて、物理的優位性は克服不可能となる。
熱伝達係数が完全な話を語る。空気から表面への対流は、速度に応じて25〜250 W/m²·Kを達成する。¹¹ 水から表面への対流は3,000〜15,000 W/m²·Kに達し、60倍の改善により劇的に小型の熱交換器が可能となる。¹² コールドプレートを通じた液体とチップパッケージ間の直接接触は50,000+ W/m²·Kを達成し、伝導性熱伝達の理論限界に近づく。¹³
温度差はこれらの優位性を倍増させる。空冷は適切な熱流束を駆動するために入口とコンポーネント温度の間に30〜40°Fの差を必要とする。液体冷却は10〜15°Fの差で動作し、リーク電流を低減し信頼性を向上させる低いジャンクション温度を維持する。¹⁴ アレニウス方程式モデリングによると、動作温度を10°C下げるごとにコンポーネント寿命が2倍になる。¹⁵
高度と湿度は空冷の効果をさらに制約する。デンバーの1マイルの高度は空気密度を17%低下させ、同等の冷却のために比例してより多くの気流を必要とする。¹⁶ 高湿度環境では、冷たい空気が暖かい表面と出会うと結露のリスクがあり、壊滅的な機器故障を引き起こす可能性がある。液体冷却システムは周囲条件とは独立して動作し、デスバレーからヒマラヤまで一貫した性能を提供する。
空冷技術とその限界
従来のレイズドフロア空冷は、シンプルさと信頼性により40年間データセンターを支配してきた。Computer Room Air Conditioning(CRAC)ユニットはレイズドフロアの下に冷気を送り込み、穿孔タイルを通じてコールドアイルに空気を押し込む正圧を作り出す。サーバーはシャーシを通じて空気を引き込み、加熱された空気をホットアイルに排出する。このシステムは1ラックあたり3〜5kWでは美しく機能するが、高温空気の再循環が冷却能力を圧倒する15kW以上では壊滅的に失敗する。¹⁷
ホットアイル/コールドアイルコンテインメントは空気の混合を防ぐことで効率を向上させる。プラスチックカーテンまたは剛性パネルがホットゾーンとコールドゾーンを分離し、冷却効果を向上させる温度差を維持する。適切に実装されたコンテインメントは冷却エネルギーを20〜30%削減し、冷却能力を40%向上させる。¹⁸ Googleのデータセンターは完全なコンテインメントを備えた高度な空冷を使用してPUE 1.10を達成し、完璧に実行された場合の技術の可能性を証明している。¹⁹
インロー冷却は冷凍機を熱源により近く配置し、空気経路を短縮してファンエネルギーを削減する。VertivのCRVシリーズはサーバーラック間に冷却ユニットを配置し、1ユニットあたり最大55kWに対応する。²⁰ Schneider ElectricのInRowクーラーは、熱負荷に適応する可変速ファンで同様の容量を達成する。²¹ このアプローチは中密度展開には機能するが、2〜3台のサーバーラックごとに1台の冷却ユニットが必要となり、貴重な床面積を消費する。
リアドア熱交換器は、上昇する密度に対する空冷の最後の砦を表している。これらのパッシブまたはアクティブユニットはラックのリアドアに取り付けられ、排気空気が室内に入る前に冷却する。MotivairのChilledDoorは、冷水循環を使用して1ラックあたり最大75kWに対応する。²² この技術は既存の気流パターンを維持しながら熱源で熱を除去するが、設置には正確な位置合わせが必要であり、ドアの重量が古いラックに構造上の懸念を生じさせる。
直接膨張(DX)冷却は、冷媒を冷却ユニットに直接供給することでチルドウォーターインフラを排除する。このアプローチは小規模施設の複雑さを軽減し効率を向上させるが、冷媒漏れリスクと限られたスケーラビリティが採用を制約する。Facebookは冷媒漏れにより複数の施設避難を引き起こした後、DX冷却を放棄し、水ベースのシステムに完全に切り替えた。²³
液体冷却の拡大する分類
シングルフェーズ・ダイレクト・トゥ・チップ冷却は、実績のある信頼性と管理可能な複雑さにより、現在の液体展開を支配している。CPUとGPUに取り付けられたコールドプレートは15〜30°Cで冷却液を循環させ、サーバー熱の70〜80%を除去し、残りはファンが処理する。²⁴ AsetekのInRackCDUシステムは、冗長ポンプと漏れ検知機能で1ラックあたり120kWをサポートする。²⁵ この技術は最小限のサーバー改造で済み、既存のハードウェアを交換せずにレトロフィット設置が可能である。
ツーフェーズ・ダイレクト・トゥ・チップ冷却は、優れた熱除去のために冷媒の相変化を利用する。冷却液は約50°Cのチップ表面温度で沸騰し、蒸気が気化潜熱を運び去る。ZutaCoreのWaterless DLCは、低圧の冷媒R-1234zeを使用して1GPUあたり900Wの冷却を達成する。²⁶ 沸騰の自己調整特性により、熱負荷の変動に関係なく均一な温度が維持されるが、システムの複雑さと冷媒コストが採用を制限している。
シングルフェーズ・イマージョンは、サーバー全体を誘電性流体に浸漬し、すべての空冷要件を排除する。GRCのICEraQシステムは、45〜50°Cの入口温度でサーバーを維持する合成油を使用する。²⁷ SubmerのSmartPodは、生分解性流体を使用した同様の技術で、60平方フィートで100kWに対応する。²⁸ イマージョンはファンを排除し、故障率を低減し、極端な密度を可能にするが、1ガロンあたり50〜100ドルの流体コストとサービス性の課題が採用を遅らせている。²⁹
ツーフェーズ・イマージョンは冷却技術の頂点を表している。3MのNovec流体は34〜56°Cの間で正確に制御された温度で沸騰し、最適なコンポーネント温度を維持する等温冷却を提供する。³⁰ MicrosoftのProject Natickは、空冷限界の10倍である250W/cm²の熱流束を処理するツーフェーズ・イマージョンを実証した。³¹ BitFuryは暗号通貨マイニング用に160メガワットのツーフェーズ・イマージョン冷却を展開し、1ガロンあたり200ドルの流体コストにもかかわらずスケーラビリティを証明した。³²
ハイブリッドアプローチは、最適化された冷却のために技術を組み合わせる。液体冷却が高電力コンポーネントを処理し、空冷がメモリ、ストレージ、ネットワーク機器を管理する。HPEのApolloシステムはこのアプローチを採用し、プロセッサにはダイレクト・トゥ・チップ冷却を、それ以外のすべてには従来の空冷を使用している。³³ この戦略は性能とコストのバランスを取るが、2つの並行した冷却インフラの管理が必要となる。
資本支出比較が驚きを明らかにする
空冷インフラは当初、欺瞞的に安く見える。CRACユニットは30トン容量あたり30,000〜50,000ドルで、100kWのIT負荷に十分である。³⁴ レイズドフロアの設置は1平方フィートあたり15〜25ドル。³⁵ ホットアイルコンテインメントは1ラックあたり5,000〜10,000ドル追加される。³⁶ 1MW施設向けの完全な空冷システムは150万〜200万ドルで、密度要件が出現するまでは一見合理的に見える。
液体冷却インフラは相当な初期投資を必要とする。Cooling Distribution Units(CDU)は500kW容量あたり75,000〜150,000ドル。³⁷ 配管設置は断熱材と漏れ検知を含めて1リニアフィートあたり50〜100ドル。³⁸ コールドプレートとマニホールドは1サーバーあたり5,000〜10,000ドル追加される。³⁹ 1MW向けの完全な液体冷却インフラは300万〜400万ドルで、空冷価格の2倍である。
隠れたコストが計算を劇的に変える。1ラックあたり40kWの空冷は1メガワットあたり25ラックを必要とし、2,500平方フィートを消費する。1ラックあたり100kWの液体冷却は1,000平方フィートでわずか10ラックしか必要としない。年間1平方フィートあたり200ドルのリース料金で、スペース節約は年間30万ドルの利益を生む。⁴⁰ 新施設の建設コストは、スペース要件の削減により、空冷で1メガワットあたり1,000万〜1,500万ドルに対し、液体冷却では800万〜1,200万ドルである。⁴¹
レトロフィットシナリオは直感に反して液体冷却に有利である。既存の施設は通常、1平方フィートあたり100〜150ワットをサポートする。現代の密度に対応するための空冷のアップグレードには、新しいCRACユニット、より大きなダクト、より強力なファン、そしてしばしば新しい電力配電が必要となり、本質的に施設を内部から改装することになる。液体冷却のレトロフィットはCDUと配管を追加しながら、レガシー機器用の既存インフラを維持する。Introlのレトロフィットプロジェクトは一貫して、空冷アップグレードと比較して液体冷却変換で20〜30%低いコストを示している。
機器リフレッシュサイクルはTCO計算に大きく影響する。空冷サーバーはファンベアリングの摩耗と埃の蓄積による冷却効率の低下により、3〜4年ごとに交換が必要である。可動部品のない液体冷却システムはリフレッシュサイクルを5〜7年に延長する。⁴² 延長された寿命は、10年間で1メガワットあたり200万〜300万ドル相当の資本支出を繰り延べる。
運用費用が形勢を逆転させる
エネルギーコストが運用予算を支配し、液体冷却の効率優位性は毎年複利で増加する。空冷は典型的な実装でIT負荷1kWあたり0.5〜1.2kWを消費する。⁴³ 液体冷却は冷却オーバーヘッドをIT負荷1kWあたり0.1〜0.3kWに削減する。⁴⁴ 1kWhあたり0.10ドルで継続的に運用される10MW施設の場合、
[翻訳のため内容を省略]