AI向け液体冷却:ニッチ技術から不可欠なインフラへ
2025年12月11日更新
2025年12月アップデート: 液体冷却市場は28億ドル(2025年)から2032年までに210億ドル以上へ急成長(年平均成長率30%超)。現行NVIDIAラックは132kW、次世代は240kWが必要に。GB200 NVL72により25倍のコスト削減を実現(50MW施設で年間400万ドル以上の削減)。ダイレクト・トゥ・チップ方式は現在、コンポーネントあたり最大1,600Wに対応。Accelsius NeuCoolは40°Cの温水を使用しながらGPUソケットあたり4,500Wの冷却を達成。
世界の液体冷却市場は、2025年の28億ドルから2032年までに210億ドル以上へ急成長し、年平均成長率は30%を超える見込みである。¹ 2025年の中間時点で、空冷から液冷への移行は実験段階から実運用段階へと進んだ。² 最新のNVIDIA GPUサーバーはフル稼働時にラックあたり132キロワットを必要とする。1年以内に登場する次世代では240キロワットが必要となる。³ 従来の空冷ではこれらの密度での放熱に対応できない。液体冷却は、ハイパースケーラー専用の贅沢品から、現行世代のAIインフラを導入するあらゆる組織にとっての必須要件へと変貌した。
経済的な観点からもこの移行は裏付けられている。データセンターは冷却に年間メガワットあたり推定190万〜280万ドルを費やしている。⁴ 液冷式GB200 NVL72システムを導入することで、ハイパースケールデータセンターは最大25倍のコスト削減を達成でき、50メガワット施設では年間400万ドル以上の削減につながる。⁵ この移行に抵抗する組織は、AI能力を決定づけるGPU世代を導入できなくなるだろう。
移行を促す物理法則
AI最適化サーバーとGPU高密度クラスターは、ラックあたり50キロワットを超える電力密度に達し、従来の空冷では安定した効率的な放熱を確保できないレベルに達している。⁶ Uptime Instituteによると、データセンターの平均ラック電力密度は2022年から2024年にかけて38%増加し、AIとハイパースケール環境での成長が最も顕著である。⁷ かつて最大15キロワットだった電力密度は、AIクラスターでは80〜120キロワットに達している。⁸
液体冷却の根本的な優位性は熱力学にある。空気の約1,000倍の密度を持つ液体は、優れた熱容量と熱伝導率により熱の除去に優れている。⁹ 高性能GPUからの熱を効率的に移動させることで、液体冷却はエネルギー集約型の冷却ファンへの依存を低減する。その結果、サーバーのエネルギー消費を平均11%削減しながら、従来の冷却インフラのスペース要件の80%を排除できる。¹⁰
空冷システムはラックあたり10〜15キロワットを超える電力密度への対応に苦戦している。¹¹ 多くのAIワークロードでは30〜60キロワット以上で稼働するラックが必要となる。¹² 空冷が提供できる能力とAIインフラが要求する能力のギャップは、GPU世代が進むごとに拡大している。
ダイレクト・トゥ・チップ冷却が本番環境で主流に
ダイレクト・トゥ・チップ冷却は、本番環境で導入される最も一般的な液体冷却形態となった。¹³ コールドプレートがCPU、GPU、メモリモジュール、電圧レギュレータに直接取り付けられる。閉ループシステムがこれらのプレートを通じて冷却液を循環させ、発生源で熱を除去する。¹⁴
NVIDIAのGB200 NVL72およびGB300 NVL72システムは、ダイレクト・トゥ・チップ液体冷却を標準構成として採用している。¹⁵ 蒸発式や浸漬式冷却とは異なり、NVL72の液体冷却は閉ループシステムとして動作し、冷却液が蒸発したり交換を必要としたりしないため、水を節約できる。¹⁶ このアーキテクチャは、従来の空冷システムと比較して、40倍の収益ポテンシャル、30倍のスループット、25倍のエネルギー効率、300倍の水効率を実現する。¹⁷
ダイレクト・トゥ・チップソリューションは現在、コンポーネントあたり最大1,600ワットに対応し、空冷と比較して58%高いサーバー密度を実現しながら、インフラのエネルギー消費を40%削減する。¹⁸ SupermicroのDLC-2対応NVIDIA HGX B200システムは、CPU、GPU、DIMM、PCIeスイッチ、電圧レギュレータ、電源を液冷化することでシステム熱の最大98%を回収し、50デシベルという低騒音レベルでの静音データセンター運用を可能にしている。¹⁹
Accelsiusは同社のNeuCool技術で2つの熱的マイルストーンを達成した:GPUソケットあたり4,500ワットの冷却成功と、40°Cの温水を使用しながらフル稼働の250キロワットAIラックでGPUを安全な温度に維持することである。²⁰ 冷水ではなく温水を使用できることで、冷却インフラ要件と運用コストが削減される。
浸漬冷却が超高密度環境に対応
浸漬冷却はサーバーを誘電性流体に沈め、ラックあたり100キロワット以上を達成し、一部の設計では250キロワットまでスケールする。²¹ GRCのICEraQなどのシステムは、システムあたり最大368キロワットの冷却能力を達成しながら、電力使用効率(PUE)を1.03未満に維持している。²² このアプローチはファンを完全に排除し、同じ設置面積に10〜15倍のコンピューティングを詰め込むことを可能にする。²³
データセンター浸漬冷却市場は2025年に48.7億ドルに達し、2030年までに111億ドルへと年平均成長率17.91%で成長する見込みである。²⁴ 単相システムは設置の馴染みやすさから最大の市場シェアを維持しているが、二相設計は超高密度とポンプレスアーキテクチャが不可欠なパイロットプロジェクトで採用されている。²⁵
従来の空冷と比較して、単相浸漬冷却は電力需要を最大約半分に削減し、CO2排出量を最大30%削減し、水消費量を最大99%削減することに貢献する。²⁶ 効率向上はAIサービスの収益化までの時間短縮に直接つながる。すべての平方フィートからより高い稼働率を引き出す能力が、ハイパースケール採用を動機付ける最も強力な経済的レバーである。²⁷
2025年5月、IntelはShell Global Solutionsと提携し、第4世代および第5世代Xeonプロセッサ向けの初のIntel認定浸漬冷却ソリューションを発表し、本番規模での高性能熱管理を可能にした。²⁸ この提携は、浸漬冷却がエンタープライズ導入に必要な認証とサポートレベルに達したことを示している。
ハイパースケーラーの導入が標準を確立
MicrosoftのAzure AIクラスター、GoogleのTPU環境、MetaのLLaMAモデル訓練ノードはすべて液体冷却に移行した。²⁹ 2025年に発表されたMicrosoftの先進AIスーパーコンピュータは、GPT-Next訓練ワークロードをサポートする完全液冷ラックを特徴としている。³⁰ ハイパースケーラーのコミットメントは、液体冷却が実験的技術ではなく本番対応インフラであることを実証している。
HPEは2025年2月、NVIDIA Blackwellファミリー初のソリューションであるGB200 NVL72を出荷した。³¹ HPEは世界最速のスーパーコンピュータトップ10のうち7台を構築し、ダイレクト液体冷却における深い専門知識を確立している。³² 同社のリファレンスアーキテクチャはエンタープライズ導入の青写真を提供している。
VertivのNVIDIA GB200 NVL72サーバー向けリファレンスアーキテクチャは、年間エネルギー消費を25%削減し、ラックスペース要件を75%削減し、電力フットプリントを30%縮小する。³³ Schneider Electricの液体冷却インフラは、GB200 NVL72 AIデータセンター向けにラックあたり最大132キロワットをサポートする。³⁴ ベンダーエコシステムは現在、カスタムエンジニアリングを必要とせずにターンキーソリューションを提供している。
MetaはMicrosoftと共同で、ハイブリッドかつ後付け可能なソリューションとしてAir-Assisted Liquid Coolingを開発した。³⁵ このアプローチにより、Metaは既存の空冷インフラ全体を刷新することなく液体冷却の統合を開始でき、既存施設を持つ組織に実用的な移行パスを示した。
後付けの課題は依然として存在
稼働中のデータセンターをより強力なプロセッサに対応させるための後付けは、重大な技術的・物流的課題を伴う。³⁶ 一部の事業者は、既存施設のアップグレードよりも新規施設の建設の方が容易だと結論付けている。³⁷ この決定は、施設の築年数、残存耐用年数、計画されているAI導入の規模に依存する。
液体冷却には、液体分配ユニット、コールドプレート、浸漬タンク、冷却液ポンプなどの専門インフラが必要である。³⁸ 後付けには、サーバーラックの改造、漏れ防止システムの追加、規制遵守の確保が含まれる。³⁹ ブラウンフィールドサイトは、グリーンフィールドプロジェクトが回避できるアーキテクチャ上およびインフラ上の制約に直面する。
浸漬冷却のようなインフラ集約型ソリューションの採用率がブラウンフィールドサイトで20.4%と低いのは、実務上の制約を反映している。⁴⁰ これらの制約には、タンクを収容するための大規模な改修、限られた床面積、既存の電力・冷却インフラとの統合の課題が含まれる。⁴¹ ブラウンフィールドサイトは、インフラ全体の刷新を回避できる液体-空気冷却などの段階的ソリューションを採用する可能性が高い。⁴²
Schneider Electricは、施設をゼロから再設計することなく性能向上を目指すデータセンター事業者向けに、NVIDIAと3つの後付けリファレンス設計で提携した。⁴³ これらの設計は、ほとんどの組織がグリーンフィールドAIデータセンターを建設できず、既存の制約の中で対応しなければならないことを認識している。
運用の複雑さが増大
液体システムはチップのみを冷却するため、補助的な空冷が依然として総熱負荷の20〜30%を処理する必要がある。⁴⁴ ハイブリッド冷却アーキテクチャには、多くの組織が社内で持たない専門知識が必要である。⁴⁵ 運用面での変化は、機械的なアップグレード自体と同様に重要である。
液体冷却は新たな運用要件をもたらす:漏れ検知、油圧冗長性、冷却液品質管理、技術者のスキルアップである。⁴⁶ 従来のデータセンター運用チームは、AIインフラが要求する規模での配管、ポンプ、熱交換器の経験がない場合がある。このスキルギャップは導入スケジュールと継続的な運用に影響を与える。
ZutaCoreは、NVIDIA Grace ARMプロセッサとBlackwell GPUを組み合わせたGB200スーパーチップをサポートするダイレクト・トゥ・チップ液体冷却システムを開発した。⁴⁷ サードパーティソリューションは選択肢を広げるが、ベンダー管理とサポート体制も複雑化させる。
サプライチェーンの問題がハイブリッド冷却計画を複雑化させる可能性があり、貿易政策の変更によりさらに悪化する可能性がある。⁴⁸ コンピューティング能力の急速な増加は、今日最先端にあるデータセンターが急速に時代遅れになる可能性があることを意味する。⁴⁹ 目標が動き続ける中で、将来の電力密度に対応できる容量を備えた施設を設計することは困難である。
地域別の採用パターン
北米はハイパースケールクラウドプロバイダーによる本番規模の展開を通じて市場採用をリードしている。⁵⁰ 米国市場は2024年の10.9億ドルから2034年までに63.9億ドルへ成長する見込みである。⁵¹ AWS、Google、Microsoftからのハイパースケーラー投資が採用を促進し、企業がその後に続いている。
アジア太平洋地域は、日本、中国、韓国が液冷AIクラスターを推進する中で最も急峻な成長を示している。⁵² 高温多湿な気候では従来の空冷はコスト面で採用困難である。⁵³ 浸漬冷却は、地域の条件に特に適した持続可能でスペース効率の高いソリューションを提供する。アジア太平洋地域は予測期間を通じて世界の浸漬冷却市場をリードしている。⁵⁴
地理的分布は、気候への配慮とAIインフラ投資の集中の両方を反映している。積極的なAI開発プログラムを持つ地域が、必要性に駆られて冷却イノベーションを推進している。
戦略計画上の考慮事項
AIインフラを計画する組織は、施設と予算の決定に液体冷却を織り込む必要がある。ダイレクト・トゥ・チップと浸漬冷却の選択は、導入規模、後付けの制約、運用能力に依存する。
新規導入の場合、30キロワットを超えるラックには液体冷却をデフォルト仕様とすべきである。100キロワット以上の密度を計画することで、2027年までのGPUロードマップに対応できる。今日、液体冷却インフラなしで設計された施設は、数年以内に高額な後付けまたは建て替えに直面するだろう。
既存施設の場合、後付けの実現可能性を正直に評価すべきである。Schneider Electricのリファレンス設計は出発点を提供するが、依然として重要なエンジニアリング作業が必要である。空冷インフラに液体冷却を重ねるハイブリッドアプローチは、段階的な前進への道を提供する。