レガシーデータセンターのAI対応改修:液体冷却統合ガイド
2025年12月8日更新
2025年12月アップデート: 改修の必要性はさらに高まっています。最新のAIラックは100〜200kWを必要とし(Vera Rubinは2026年までに600kWを目標)、従来の5〜15kW対応施設ではもはや対応できません。しかし、液体冷却市場が2025年に55.2億ドルに達したことで、コストが低下しソリューションが標準化されました。ダイレクトトゥチップ冷却の市場シェア47%とハイブリッドアーキテクチャにより、改修はかつてないほど実現可能になっています。現在、データセンターの22%が液体冷却を導入しており、レガシー環境向けの実証済み統合パターンが存在します。
5kWラック向けに設計された築15年のデータセンターが、今や40kW GPUクラスターの需要に直面しており、インフラ危機が生じています。組織は5,000万ドルの新施設建設か、500万ドルの戦略的改修かの選択を迫られています。¹ Uptime Instituteの調査によると、2015年以前に建設された企業データセンターの68%が、最新のAIワークロードに必要な電力密度と冷却能力を備えていませんが、これらの施設の82%はリース期間が10年以上残っています。² 改修の必要性は明らかです:組織は既存インフラを変革するか、競合他社がAI導入で先行する中、貴重な不動産投資を放棄するかの選択を迫られています。
451 Researchの調査では、レガシー施設への液体冷却改修により、新規建設の70%のパフォーマンスを20%のコストで達成できることが示されています。³ ある製薬会社は、2008年築のデータセンターを改修して800台のNVIDIA H100 GPUをサポートし、同等の新規建設に必要な3,500万ドルに対して420万ドルの投資で済みました。改修は新規建設の18ヶ月に対し、4ヶ月で完了しました。スマートな改修戦略は既存投資を活かしながら最先端のAI機能を実現しますが、成功には慎重な評価、段階的な実装、そして一定の制約の受け入れが必要です。
レガシーインフラの制約が改修の限界を決定する
2015年以前に建設されたデータセンターは、通常、穴あきタイルから冷気を供給するフリーアクセスフロアで、ラックあたり3〜7kWをサポートしています。⁴ この設計は、それぞれ30〜50kW定格のCRACユニットによる1:1の冷却冗長性を前提としています。電力配分は30A回路を通じて208Vを供給し、オーバーヘッドを考慮するとラック容量は5kWに制限されます。これらの仕様は400Wを消費するDell PowerEdgeサーバーには完璧に機能しました。しかし、1枚あたり700Wを要求し、サーバー全体で10kWを消費するH100 GPUには壊滅的に失敗します。
構造的な制限は、冷却や電力の制約よりも克服が困難です。フリーアクセスフロアは1平方フィートあたり150ポンドを支えますが、液体冷却ラックは3,000ポンドを超えます。⁵ 床の補強には1平方フィートあたり200ドルかかり、施設のダウンタイムが必要です。天井高が12フィート未満だと、ホットアイルコンテインメントのオプションが制限されます。600mm x 1000mmラック向けに最適化された柱間隔は、800mm x 1200mm GPUシステムの効率的なレイアウトを妨げます。投資レベルに関係なく、改修できない施設も存在します。
電力インフラは、ほとんどの改修において最大の制約となります。総容量2MW、IT負荷1.5MWの施設には、GPU導入のための余裕がありません。主要市場でのユーティリティアップグレードには12〜24ヶ月かかり、コストは1メガワットあたり200万ドルを超えます。⁶ 480V配電用に設計されたトランスは、効率的な415V運用のために交換が必要です。2,000A定格のスイッチギアは、高密度GPU導入の3,000A需要に対応できません。組織は既存の電力範囲内で作業するか、長期のアップグレードサイクルに直面する必要があります。
評価手法が改修の実現可能性を決定する
包括的なインフラ文書化から評価を開始します:
電力システム監査:ユーティリティ入口からラックPDUまでの完全な電力経路をマッピングします。トランスの容量を文書化し、経年数とメンテナンス履歴を記録します。故障電流能力を含むスイッチギアの定格を確認します。施設全体の電力だけでなく、各配電レベルで利用可能な容量を計算します。改修で回収可能な非効率な配電による未使用容量を特定します。
冷却システム分析:15年経過した機器は通常70%の効率で稼働するため、実際の冷却能力と銘板能力を測定します。⁷ 数値流体力学を使用して気流パターンをマッピングし、再循環ゾーンを特定します。冷水温度、流量、ポンプ能力を文書化します。夏季のピーク時の冷却塔性能を評価します。インフラのアップグレードなしで利用可能な最大排熱量を計算します。
構造評価:構造エンジニアに施設全体の床荷重容量を評価させます。液体冷却パイプ用に変更できない耐力壁を特定します。コンテインメントシステム用の天井高とクリアランスを確認します。機器配置を制限する柱の位置を文書化します。重い液体冷却ラックの耐震ブレース要件を分析します。
ネットワークインフラレビュー:GPU導入指定エリア間のファイバー接続を確認します。InfiniBandファブリック用の利用可能なダークファイバーを文書化します。追加の高帯域幅接続用のケーブルトレイ容量を評価します。GPUクラスタースイッチング用の十分なスペースを持つミートミールームを特定します。400G接続の適切な曲げ半径を維持するケーブルルートを計画します。
Introlの評価チームは、グローバルカバレッジエリア全体で500以上のレガシー施設を評価し、改修成功確率を予測する標準化されたスコアリングシステムを開発しました。⁸ 100点満点で70点以上のスコアを獲得した施設は、90%の確率で改修に成功します。50点未満の施設は新規建設を検討すべきです。25,000〜50,000ドルの評価投資により、数百万ドルの無駄な改修の試みを防ぐことができます。
既存施設への液体冷却統合戦略
レガシー施設での液体冷却を可能にする3つの主要アプローチがあります:
リアドアヒートエクスチェンジャー(RDX):最も非侵襲的なオプションで、ラックドアに冷却コイルを取り付け、熱が室内に入る前に捕捉します。設置には床の改修は不要で、配管も最小限です。各ドアは施設の冷水を使用して15〜30kWの排熱を処理します。コストは設置を含めてラックあたり8,000〜15,000ドルです。⁹ このアプローチは、冷水容量は十分だが新しい冷却機器用のスペースが限られている施設に適しています。
インロー冷却ユニット:モジュラーユニットが既存の列内のラック位置を占有し、40〜100kW負荷に対してターゲットを絞った冷却を提供します。ユニットは天井上またはフリーアクセスフロア下に配線されたフレキシブルホースを通じて施設の冷水に接続します。各ユニットのコストは20,000〜35,000ドルで、1つのラック位置が犠牲になります。¹⁰ このソリューションは、利用可能なラックスペースはあるが、部屋レベルの冷却が不十分な施設に適しています。
ダイレクトトゥチップ冷却:最も効果的ですが複雑なアプローチで、コールドプレートを通じてプロセッサーに直接液体を供給します。実装にはCDUの設置、マニホールドの配備、広範な配管が必要です。コストはラックあたり50,000〜80,000ドルに達しますが、60kW以上の密度を実現します。¹¹ 施設にはCDU用の十分な機械スペースと、冷媒配給用のアクセス可能な経路が必要です。
段階的な改修実装で混乱を最小化
フェーズ1:インフラ準備(1〜3ヶ月目) 機械室に冷却分配ユニットを設置し、既存の冷水システムに接続します。本番エリアを避けてアクセス可能な経路を通じて主要な冷媒ループを配線します。運用を中断せずに可能な範囲で電力配給をアップグレードします。現在のパフォーマンスをベースラインとするモニタリングシステムを導入します。各本番ワークロードの詳細な移行計画を作成します。
予算:10ラック導入で500,000〜1,500,000ドル ダウンタイム:適切に計画すればゼロ
フェーズ2:パイロット導入(4〜5ヶ月目) 初期液体冷却変換用に2〜3ラックを選択します。できれば開発ワークロードを含むものが望ましいです。ベンダー仕様に正確に従って選択した冷却技術を設置します。障害シナリオと冗長性をテストしながら慎重にシステムをコミッショニングします。温度、圧力、流量を継続的に監視します。より広範な導入のために学んだ教訓を文書化します。
予算:150,000〜300,000ドル ダウンタイム:カットオーバー中にラックあたり4〜8時間
フェーズ3:本番移行(6〜12ヶ月目) 運用の安定性を維持するために、5〜10ラックの波で本番ラックを変換します。ビジネスへの影響を最小限に抑えるために、メンテナンスウィンドウ中に移行をスケジュールします。配管ルートを簡素化するために列ごとに液体冷却を実装します。移行できないレガシー機器には空冷を維持します。実際の負荷に基づいて冷媒温度と流量を最適化します。
予算:ラックあたり100,000〜150,000ドル ダウンタイム:適切な計画でラックあたり2〜4時間
フェーズ4:最適化(13〜18ヶ月目) チラー効率を改善しフリークーリングを可能にするために冷水温度を上げます。実際の気流パターンに基づいてコンテインメント戦略を調整します。IT負荷に合わせて冷却を調整するための可変流量制御を実装します。寄生損失を減らすために不要なCRACユニットを廃止します。機械学習を使用して制御アルゴリズムを微調整します。
予算:200,000〜400,000ドル ダウンタイム:不要
財務分析が改修投資を正当化する
包括的なTCO分析により、説得力のある改修の経済性が明らかになります:
改修投資内訳(20ラックGPUクラスター): - インフラ評価:40,000ドル - 液体冷却機器:1,200,000ドル - 設置とコミッショニング:400,000ドル - 電力配給アップグレード:600,000ドル - 構造改修:300,000ドル - プロジェクト管理:200,000ドル - 予備費(20%):548,000ドル - 総投資額:3,288,000ドル
代替案の新規建設コスト: - 土地取得:2,000,000ドル - 建物建設:8,000,000ドル - 電力インフラ:3,000,000ドル - 冷却システム:2,000,000ドル - ネットワーク接続:500,000ドル - コミッショニング:500,000ドル - 新規建設総額:16,000,000ドル
改修による運用コスト削減: - PUEの1.8から1.3への改善:年間420,000ドル - 新スペースの回避リース費用:年間800,000ドル - 新しい機器によるメンテナンス削減:年間150,000ドル - 効率改善に対するユーティリティインセンティブ:200,000ドル(一時金) - 年間総節約額:1,370,000ドル - 単純回収期間:2.4年
実際の改修成功事例
金融サービス会社(ニューヨーク) 課題:3MW容量の2010年施設がAIトレーディングシステムをサポートする必要があった ソリューション:30ラックにリアドアヒートエクスチェンジャーを導入し、415V電力にアップグレード 投資額:280万ドル 結果:ラックあたりの密度を7kWから25kWに増加、PUEを1.75から1.35に改善 期間:評価から本番稼働まで6ヶ月
医療システム(ボストン) 課題:2005年のデータセンターが医療画像AI用のGPU容量を必要とした ソリューション:15台のGPUラックにインロー冷却を実装、レガシーシステムには空冷を維持 投資額:190万ドル 結果:新規建設なしで480台のA100 GPUを導入、1,200万ドルを節約 期間:ダウンタイムゼロで4ヶ月の実装
製造会社(デトロイト) 課題:レガシー施設がH100 GPUを必要とするデジタルツインシミュレーションをサポートできなかった ソリューション:8台の高密度ラックにダイレクトトゥチップ冷却、構造補強 投資額:120万ドル 結果:ラックあたり45kWの密度を達成、施設寿命を10年延長 期間:構造工事を含め8ヶ月
リスク軽減戦略が改修失敗を防ぐ
ベンダーロックインの防止:OCP仕様などのオープンスタンダードを使用する冷却技術を選択します。依存関係を生む独自の冷媒配合を避けます。複数のメーカーの機器を受け入れるシステムを設計します。ベンダー移行を可能にする詳細な文書を維持します。施設の耐用年数にわたる潜在的な技術変更のための予算を確保します。
容量計画バッファ:将来の成長のために冷却と電力容量の20%を予備として確保します。段階的な拡張を可能にするモジュラーシステムを設計します。予想される成長のために配管などのインフラを事前に設置します。拡張計画をトリガーするために利用率の傾向を監視します。容量増加のためにユーティリティプロバイダーとの関係を維持します。
**運用継続性
[翻訳のためコンテンツは省略されています]