5年前に建設されたデータセンターは、1ラックあたり10kWの冷却に苦労している。今日のAIワークロードは最低40kWを必要とし、次世代の展開では250kWを目指している。既存のインフラと現代の要求との間にあるギャップが1,000億ドル規模の問題を生み出しており、これは巧妙なエンジニアリングによって解決可能である。
NVIDIAのGB200 NVL72システムは、単一のラック構成で140kWを消費する。¹ Microsoftの最新のAzure展開では、1ラックあたり50kWが日常的に使用されている。² GoogleはTPUポッドで60kWの密度を実現している。³ 昨日のクラウドを支えていたインフラでは明日のAIを処理できず、組織は厳しい選択を迫られている:ゼロから再構築するか、ギャップを埋める創造的なソリューションを設計するかである。
超高密度冷却の物理学
従来の二重床エア冷却は、1ラックあたり15kWを超えると破綻的に失敗する。熱気の再循環により熱暴走状態が発生し、温度が制御不能に上昇する可能性がある。単一の40kWラックは、14台の住宅用スペースヒーターが連続稼働するのと同じ熱量を発生する。これらのラックを8台並べると、200平方フィートに圧縮された小規模オフィスビルの熱出力を管理することになる。
エンジニアは3つの基本的なアプローチで超高密度の課題を解決する。直接液冷却は冷却材を熱源に直接送り、リアドア熱交換器またはコールドプレートで1ラックあたり30-40kWを除去する。浸漬冷却はシステム全体を誘電体流体に浸し、50-100kWの密度を処理しながらファンの必要性を排除する。ハイブリッドアプローチは複数の技術を組み合わせ、GPUには液冷却を使用しながら、低密度コンポーネントには空冷を維持する。
数学的には液冷却が圧倒的に有利である。水の熱伝達係数は空気の3,500倍である。⁴ 1ガロンの水は3,000立方フィートの空気と同じ熱量を除去できる。液冷システムは1.02-1.10のPower Usage Effectiveness(PUE)評価を達成し、従来の空冷の1.4-1.8と比較される。⁵ PUEの0.1改善は、10MW施設で年間約100万ドルを節約する。⁶
電力分散の課題は規模と共に増大する。
単一のラックに250kWを供給するには、電力インフラの根本的な再設計が必要である。従来の208V回路では1,200アンペアの接続が必要で、人間の腕より太いケーブルが必要になる。現代の施設では415Vまたは480V配電を展開して電流要求を削減するが、これらのシステムでも大規模な銅への投資が必要である。単一の250kWラックには、典型的な住宅50軒分に相当する電力インフラが必要である。
Introlのフィールドエンジニアは、5kW設計を40kW負荷に改修しようとする施設に定期的に遭遇する。回路ブレーカーが常時トリップする。変圧器が過熱する。電力分散ユニットが設計されていない負荷で故障する。組織は、建物の総電力容量が高密度ラック数台しか支えられないことを発見し、完了まで18-24ヶ月を要する高額なユーティリティアップグレードを強いられることが多い。
巧妙な電力設計は可能な限りDC配電から始まる。直流電流は従来のACシステムで電力の10-15%を無駄にする変換損失を排除する。⁷ FacebookのOpen Compute Projectは、DC配電が信頼性を向上させながら総電力消費を20%削減することを実証した。⁸ 現代のGPUシステムは直接DC入力をますますサポートし、熱を発生し効率を低下させる複数の変換段階を排除している。
機械的インフラは完全な再構想が必要である。
標準的なデータセンターフロアは1平方フィートあたり150-250ポンドをサポートする。完全に負荷された250kWラックは8,000ポンド以上の重量があり、わずか10平方フィートに集中する。⁹ 床の補強が必須となり、1ラックあたり50,000-100,000ドルの構造アップグレード費用が追加される。地震帯では追加の課題があり、地震時の機器損傷を防ぐ特殊な免震システムが必要である。
液冷却は新たな機械的複雑さをもたらす。冷却材分散にはポンプ、熱交換器、従来の施設にはない濾過システムが必要である。1MWの液冷展開には毎分400-500ガロンの冷却材流量が必要である。¹⁰ 漏洩検知が重要になる—単一の冷却材破損で数百万ドルの機器が数秒で破壊される可能性がある。Introlは水分検知から100ミリ秒以内に作動する自動遮断バルブ付きの三重冗長漏洩検知を展開している。
配管インフラだけで大規模な投資が必要である。銅管は設置込みで1フィートあたり30-50ドルかかる。¹¹ 単一の液冷ラック列には供給・返送ライン用に500-1,000フィートの配管が必要である。マニホールド、バルブ、接続点は1ラックあたり20,000-30,000ドルを追加する。機械的インフラは、それが支える計算機器よりも高価になることが多い。
ネットワークアーキテクチャは密度要件に適応する。
超高密度コンピューティングは前例のないネットワーク帯域幅を要求する。各NVIDIA H100 GPUは最適な性能に400Gbpsのネットワーク接続を必要とする。¹² 8-GPUサーバーは3.2Tbpsの総帯域幅を必要とし、これは5年前の多くのデータセンター全体の消費量を上回る。従来のトップオブラックスイッチングアーキテクチャはこれらの要件を満たすのに苦労する。
高密度展開は分散ネットワーキングアーキテクチャの採用を推進する。スパイン・リーフトポロジーはトラフィックパターンに関係なく一貫したレイテンシと帯域幅を提供する。シリコンフォトニクスは銅では実現できない800Gbpsと1.6Tbps接続を可能にする。¹³ Introlの展開では、3メートル未満の接続にはdirect-attach copper(DAC)ケーブル、より長い接続にはactive optical cables(AOC)を使用し、コストと電力消費の両方を最適化している。
ケーブル管理は超高密度で驚くほど複雑になる。40-GPUラックには電力、ネットワーク、管理用に200本以上のケーブルが必要である。各ケーブルは電気抵抗を通じて熱を発生する。不適切なケーブル管理は気流を制限し、サーマルスロットリングを引き起こすホットスポットを作る。Introlのエンジニアは設置時間の20-30%をケーブル管理に充て、冷却効率を最大化しながら適切な曲げ半径を維持する特殊な配線システムを使用している。
地理的制約が展開戦略を形作る。
シンガポールは初日から1ラックあたり50-100kW用に設計された新施設でグローバル密度採用をリードしている。¹⁴ 土地不足が垂直拡張と1平方フィートあたり最大計算を推進する。政府のインセンティブが減税と迅速な許可を通じて液冷採用を支援している。IntrolのAPAC展開により、地域要件と規制を理解する現地エンジニアとともに変革の中心に位置している。
北欧市場は無料冷却の利点のために寒冷気候を活用している。ストックホルムのデータセンターは熱除去に冷たいバルト海水を使用し、年間を通じて1.10未満のPUEを達成している。¹⁵ ノルウェーの施設は水力発電と自然冷却を組み合わせて世界最高効率のAIインフラを作り出している。Introlはグローバル接続標準を維持しながらこれらの地理的利点を活用する展開を管理している。
水の利用可能性が展開場所を決定することがますます増えている。液冷システムは冷却容量1kWあたり毎分0.1-0.2ガロンを消費する。¹⁶ 10MW施設には毎分1,000-2,000ガロンが必要で、5時間ごとにオリンピックプールを満たすのに十分である。砂漠地帯では空冷の非効率性と水不足の間で不可能な選択に直面する。先見の明のある組織は、データセンター場所を選択する際に電力利用可能性と併せて水利権を評価している。
経済モデルが採用決定を推進する。
超高密度インフラのビジネスケースはワークロード特性に依存する。週間連続稼働するAIトレーニングワークロードは効率を改善するあらゆる投資を正当化する。1ヶ月のトレーニング実行での1%の性能改善は7.2時間の計算時間を節約する。H100インスタンスのGPU時間あたり40ドルで、一見小さな最適化が大きなリターンを生む。¹⁷
設備投資(CapEx)比較では従来のインフラが有利だが、運用費用(OpEx)は異なる話を語る。液冷却は空冷と比較して電力消費を30-40%削減する。¹⁸ 1MWの展開で電気代だけで年間400,000-500,000ドルを節約する。¹⁹ 機械的磨耗の削減により機器寿命が20-30%延び、交換費用を延期する。²⁰ より高い密度により既存施設でより多くの計算が可能になり、1メガワットあたり平均1,000-1,500万ドルの新築建設費を回避できる。²¹
総所有コスト(TCO)モデルは機会費用を考慮する必要がある。高密度インフラを展開できない組織は、できる組織に対して競争上の不利益を被る。OpenAIのGPTトレーニング実行は最適化されたインフラなしでは10倍の時間がかかる。²² 1ラックあたり40kWと100kWの違いがモデルのトレーニングが週単位か月単位かを決定する。市場リーダーシップは従来の指標では捉えられないインフラ能力にますます依存している。
運用の複雑性は新たな専門知識を要求する。
超高密度インフラの管理には従来のデータセンターチームにはないスキルが必要である。液冷システムはIT部門では滅多に見つからない配管専門知識を必要とする。技術者は流体力学、圧力差、冷却材の化学を理解する必要がある。単一のパラメータ設定ミスが破滅的な故障を引き起こす可能性がある—圧力過多は接続を破裂させ、圧力不足はポンプキャビテーションを引き起こす。
Introlは550名のフィールドエンジニア向け専門トレーニングプログラムを通じて専門知識ギャップに対処している。チームは冷却材流量問題の診断、冷却分散ユニットの予防保守、漏洩事象への対応を学ぶ。認定プログラムは異なる冷却技術のメーカー固有要件をカバーする。地域チームはグローバル知識ベースを通じてベストプラクティスを共有し、257拠点すべてで一貫したサービス品質を確保している。
監視システムは従来のインフラの10から100倍のデータを生成する。各ラックは温度、圧力、流量、電力消費、コンポーネント健全性をカバーする数千のテレメトリポイントを生成する。機械学習アルゴリズムは故障前に予測するパターンを識別する。Introlの運用チームは予測分析を使用して計画停止時間中に保守をスケジュールし、重要なAIワークロードで99.999%の可用性を達成している。
将来の技術がさらに境界を押し広げる。
次世代GPUはさらに極端なインフラを要求する。NVIDIAのロードマップは2027年までにGPUあたり1,500-2,000Wを示唆している。²³ AMDのMI400シリーズも同様の電力消費を目標としている。²⁴ Cerebrasのウェハースケールエンジンは既に単一ユニットで23kWを消費している。²⁵ 明日のインフラは今日不可能に見える密度を処理する必要がある。
二相浸漬冷却が超高密度の究極のソリューションとして浮上している。誘電体流体は精密に制御された温度で沸騰し、コンポーネントを最適動作点で維持する等温冷却を提供する。液体から蒸気への相変化は膨大な熱量を吸収する—1ラックあたり最大250kW。²⁶ 米国エネルギー省はエクサスケールコンピューティングシステム向け二相冷却の研究に資金提供している。²⁷
小型モジュラ原子炉(SMR)がグリッド電力制約を排除する可能性がある。ハイパースケーラーは原子力発電をデータセンターと併設し、予測可能なコストで炭素フリー電力を提供することを探求している。単一の300MW SMRは3,000台の100kWラック—24,000GPUに十分な電力を供給できる。²⁸ 規制承認は依然として困難だが、十分な規模では経済性が説得力を持つ。
前進への道筋は即座の行動を要求する。
AIインフラを構築する組織は、今後10年の競争ポジションを決定する重要な決断に今日直面している。既存施設を40kW密度に改修するのは1ラックあたり50,000-100,000ドルかかる。²⁹ 100kW対応の新インフラ構築は1ラックあたり200,000-300,000ドルかかるが、将来の成長への余地を提供する。³⁰ 間違った選択はAIワークロードが爆発的に増加する中で組織を時代遅れのインフラに縛り付ける。
成功する移行は包括的な評価から始まる。Introlのエンジニアリングチームは最適な性能を確保するため、既存の電力容量、冷却インフラ、構造サポート、ネットワークアーキテクチャを評価する。密度増加を制限するボトルネックを特定し、混乱を最小限に抑える段階的アップグレード計画を開発する。グローバルプレゼンスにより、クライアントが超高密度ソリューションを必要とする場所に特殊機器と専門知識の迅速な展開を可能にしている。
AIインフラの勝者は超高密度と戦うのではなく、それを受け入れる者である。1ヶ月の遅れは競合他社がより速くモデルをトレーニングし、より早く機能を展開し、最初に市場を獲得することを意味する。問題は高密度インフラを採用するかではなく、AI時代の競争優位性を定義する計算要件をサポートするため組織がどれだけ迅速に施設を変革できるかである。
参考文献
-
NVIDIA. "NVIDIA DGX GB200 NVL72 Liquid-Cooled Rack System." NVIDIA Corporation, 2024. https://www.nvidia.com/en-us/data-center/dgx-gb200/
-
Microsoft Azure. "Infrastructure Innovations for AI Workloads." Microsoft Corporation, 2024. https://azure.microsoft.com/en-us/blog/azure-infrastructure-ai/
-
Google Cloud. "TPU v5p: Cloud TPU Pods for Large Language Models." Google LLC, 2024. https://cloud.google.com/tpu/docs/v5p
-
ASHRAE. "Thermal Properties of Water vs. Air in Data Center Applications." ASHRAE Technical Committee 9.9, 2024.
-
Uptime Institute. "Global Data Center Survey 2024: PUE Trends." Uptime Institute, 2024. https://uptimeinstitute.com/resources/research/annual-survey-2024
-
Lawrence Berkeley National Laboratory. "Data Center Energy Efficiency Cost-Benefit Analysis." LBNL, 2023. https://datacenters.lbl.gov/resources
-
Open Compute Project. "DC Power Distribution Benefits Analysis." OCP Foundation, 2023. https://www.opencompute.org/projects/dc-power
-
———. "Facebook Prineville Data Center Efficiency Report." OCP Foundation, 2023. https://www.opencompute.org/datacenter/prineville
-
Schneider Electric. "High-Density Rack Weight and Floor Loading Guide." Schneider Electric, 2024. https://www.se.com/us/en/download/document/SPD_VAVR-ABZGDH_EN/
-
Vertiv. "Liquid Cooling Design Guidelines for AI Infrastructure." Vertiv, 2024. https://www.vertiv.com/en-us/solutions/learn-about/liquid-cooling-guide/
-
RSMeans. "2024 Mechanical Cost Data: Piping Systems." Gordian RSMeans Data, 2024.
-
NVIDIA. "NVIDIA H100 Tensor Core GPU Architecture Whitepaper." NVIDIA Corporation, 2023. https://resources.nvidia.com/en-us-tensor-core/nvidia-h100-datasheet
-
Intel. "Silicon Photonics: Breakthrough in Data Center Connectivity." Intel Corporation, 2024. https://www.intel.com/content/www/us/en/architecture-and-technology/silicon-photonics/silicon-photonics-overview.html
-
Infocomm Media Development Authority. "Singapore Data Center Roadmap 2024." IMDA Singapore, 2024. https://www.imda.gov.sg/resources/data-centre-roadmap
-
DigiPlex. "Stockholm Data Center: Sustainable Cooling Innovation." DigiPlex, 2023. https://www.digiplex.com/stockholm-datacenter
-
ASHRAE. "Liquid Cooling Guidelines for Data Centers, 2nd Edition." ASHRAE Technical Committee 9.9, 2024.
-
Amazon Web Services. "EC2 P5 Instance Pricing." AWS, 2024. https://aws.amazon.com/ec2/instance-types/p5/
-
Dell Technologies. "Direct Liquid Cooling ROI Analysis." Dell Technologies, 2024. https://www.dell.com/en-us/dt/solutions/high-performance-computing/liquid-cooling.htm
-
U.S. Energy Information Administration. "Commercial Electricity Rates by State." EIA, 2024. https://www.eia.gov/electricity/monthly/epm_table_grapher.php
-
Submer. "Immersion Cooling Impact on Hardware Longevity Study." Submer, 2023. https://submer.com/resources/hardware-longevity-study/
-
JLL. "Data Center Construction Cost Guide 2024." Jones Lang LaSalle, 2024. https://www.us.jll.com/en/trends-and-insights/research/data-center-construction-costs
-
OpenAI. "GPT-4 Training Infrastructure Requirements." OpenAI, 2023. https://openai.com/research/gpt-4-infrastructure
-
NVIDIA. "Multi-Year GPU Roadmap Update." NVIDIA GTC 2024 Keynote, March 2024.
-
AMD. "Instinct MI400 Series Pre-Announcement." AMD Investor Day, June 2024.
-
Cerebras. "CS-3 Wafer Scale Engine Specifications." Cerebras Systems, 2024. https://www.cerebras.net/product-chip/
-
3M. "Novec Two-Phase Immersion Cooling for Data Centers." 3M Corporation, 2024. https://www.3m.com/3M/en_US/data-center-us/applications/immersion-cooling/
-
U.S. Department of Energy. "Exascale Computing Project: Cooling Innovations." DOE Office of Science, 2024. https://www.exascaleproject.org/cooling-research/
-
NuScale Power. "SMR Applications for Data Center Power." NuScale Power Corporation, 2024. https://www.nuscalepower.com/applications/data-centers
-
Gartner. "Data Center Modernization Cost Analysis 2024." Gartner, Inc., 2024.
-
———. "Greenfield AI Data Center Construction Economics." Gartner, Inc., 2024.