ゼロダウンタイム・データセンター移行:GPUクラスター完全プレイブック

液冷GPUの移行により複雑性が増加—冷却液の排出、マニホールドの切断、新サイトでのリークテストが必要。チェックポイントベースのトレーニング復旧は、弾力的トレーニングフレームワーク(DeepSpeed、FSDP)により改善中...

ゼロダウンタイム・データセンター移行:GPUクラスター完全プレイブック

ゼロダウンタイム・データセンター移行:GPUクラスター完全プレイブック

2025年12月8日更新

2025年12月アップデート: 液冷GPUの移行により複雑性が増加—冷却液の排出、マニホールドの切断、新サイトでのリークテストが必要。チェックポイントベースのトレーニング復旧は、弾力的トレーニングフレームワーク(DeepSpeed、FSDP)により改善中。GPU価格(H100あたり25,000〜40,000ドル)により、移行計画がより重要に。マルチクラウドフェイルオーバーが物理的移行の代替手段を提供。コロケーション契約には移行サポートSLAがますます含まれるようになっている。

10,000台のGPUをデータセンター間で移動しながら、AIトレーニングを継続するなど不可能に思えるかもしれない。しかし、Metaが2023年の施設統合時にまさにこの偉業を達成し、移行全体を通じてわずか47秒のコンピュート時間しか失わなかったことを知るまでの話だ。¹ その秘訣は、オーケストレーションされたワークロード移行、冗長ネットワーキング、そしてあらゆる障害モードを予測する綿密な計画にある。計画外のGPUクラスターダウンタイム中、組織は1時間あたり平均560万ドルを失う。これにより、ゼロダウンタイム移行技術はオプションではなく必須となっている。² スムーズな移行と壊滅的な失敗の違いは、何百もの複雑な移行を通じて磨かれた実行方法論にかかっている。

Gartnerの報告によると、83%のデータセンター移行で何らかのサービス中断が発生しており、GPUクラスターは相互接続された性質とステートフルなトレーニングワークロードのため、独自の課題に直面している。³ 1つのInfiniBand接続の設定ミスが、数週間分のモデルトレーニングを破損させる可能性がある。機器移動中の電力変動は、熱保護シャットダウンを引き起こす。物理的な移行が成功しても、新しい施設の冷却能力が突然のGPU熱負荷に対応できないことが判明して失敗するケースもある。ゼロダウンタイム移行技術を習得した組織は、AI運用をリスクにさらすことなく、インフラコストの最適化、容量制約への対応、より良い施設オプションの活用を柔軟に行えるようになる。

GPU相互接続により移行の複雑性が倍増

GPUクラスターは従来のサーバーインフラとは根本的に異なる動作をする。各H100 GPUは、900GB/sで動作するNVLinkブリッジを通じて他の7台のGPUと接続されている。⁴ InfiniBandファブリックは、ナノ秒単位で測定されるレイテンシで数百台のGPUをリンクする。トレーニングジョブは、数千台のGPUにわたって同時に状態を維持し、チェックポイントは数テラバイトに達する。これらの接続を一瞬でも切断すると、アクティブなワークロードが破壊され、トレーニングデータが破損する可能性がある。

移行中はネットワークトポロジーの保持が重要になる。1,024台のGPUクラスターは、均一なレイテンシを維持するために特定のケーブル長を持つファットツリーネットワークトポロジーを使用する。⁵ サーバーを異なるラックレイアウトの新しい施設に移動すると、ケーブル長が変わり、レイテンシのばらつきが生じ、コレクティブ操作が最大40%劣化する。チームは移行開始前に、移行先施設の正確な物理トポロジーをマッピングする必要がある。

ストレージ帯域幅の要件も移行をさらに複雑にする。大規模言語モデルのトレーニングチェックポイントは5TBに達し、一般的なNVMe速度で書き込むには30分を要する。⁶ モデルは移行前にチェックポイントを作成し、新しい場所に転送し、トレーニング再開前に復元する必要がある。大規模モデルの場合、チェックポイント-復元サイクルだけで2〜3時間かかることがあり、障害が連鎖して長時間のダウンタイムに発展するウィンドウが生まれる。

移行前の評価が成功確率を決定する

計画された移行日の90日前から評価を開始する。現在の環境のあらゆる側面を文書化する:

インフラストラクチャマッピング:電力配分、冷却ゾーン、ネットワークトポロジー、ストレージアーキテクチャの詳細な図を作成する。自動検出ツールを使用してGPU相互接続をマッピングし、NVLink構成、InfiniBandルート、PCIe割り当てを把握する。すべてのコンポーネントのファームウェアバージョン、ドライバー構成、BIOS設定を記録する。

ワークロード分析:すべての実行中のワークロードをプロファイリングし、リソース要件と依存関係を理解する。一時停止可能なワークロードと継続運用が必要なワークロードを特定する。各アプリケーションのチェックポイントサイズ、復元時間、最小実行可能構成を計算する。APIエンドポイント、サービス依存関係、クライアント接続要件を文書化する。

容量検証:移行先施設が20%の余裕を持ってすべての要件を満たしていることを確認する。施設全体の容量だけでなく、回路レベルで電力容量を確認する。フルロード条件下での冷却性能を検証する。理論上のスイッチ容量だけでなく、エンドツーエンドでネットワーク帯域幅をテストする。多くの移行は、新しい施設の「100kW利用可能容量」がGPUラックに使用できない20個の5kW回路に分割されていることが判明して失敗する。

リスク評価:すべての潜在的な障害点を特定し、具体的な軽減策を策定する。一般的なリスクには、輸送中の損傷(冗長機器で軽減)、ネットワーク構成エラー(構成を事前に準備しテスト)、電力不安定(一時的なUPSシステムを配備)、熱イベント(機器到着前に冷却能力を確保)などがある。

Introlの移行スペシャリストは、グローバルカバレッジエリア全体で50,000台以上のGPUを移行し、一般的な障害モードを予測するプレイブックを開発してきた。⁷ 成功する移行には、実行時間の3倍の計画時間が必要であることを学んだ。48時間の物理的移行をゼロダウンタイムで達成するには、144時間の準備が必要である。

ワークロード移行戦略が継続運用を可能にする

ゼロダウンタイム移行の鍵は、移行期間中に両施設で並行運用を維持することにある:

フェーズ1 - 橋頭堡の確立(1〜2週目):新しい施設に初期フットプリントとして10〜20%の容量を配備する。コアネットワーキング、ストレージ、管理インフラストラクチャをインストールする。冗長性のために複数の100Gbpsリンクを使用して施設間の高帯域幅接続を確立する。レイヤー2隣接性を維持するためにストレッチVLANを構成する。非クリティカルなワークロードでフェイルオーバー機能をテストする。

フェーズ2 - 重要サービスの複製(3〜4週目):認証、DNS、モニタリング、オーケストレーションサービスを新しい施設にミラーリングする。可能な場合はアクティブ-アクティブ構成、必要な場合はアクティブ-パッシブ構成を実装する。データセット用の非同期レプリケーション、重要なメタデータ用の同期レプリケーションを使用してストレージシステムを同期する。両方の場所からサービス機能を検証する。

フェーズ3 - ワークロードスイング(5〜8週目):ステートレスな推論サービングから始めて、優先順位に従ってワークロードを移行する。メンテナンスウィンドウ中にトレーニングワークロードにチェックポイント-リスタートを使用する。カナリアデプロイメントを実装し、最初に5%のトラフィックを移動し、次に25%、50%、最後に100%を移動する。パフォーマンスメトリクスを継続的に監視し、異常が発生したらすぐにロールバックできる準備をする。

フェーズ4 - 物理的移行(9〜12週目):ソース施設で最小限の実行可能容量を維持しながら、ウェーブごとにハードウェアを移動する。データセンター機器に特化した専門の物流会社を使用する。すべての出荷に衝撃センサーと温度モニターを配備する。新しい施設のローディングドックで機器をステージングし、ラックに設置する前に各システムをテストする。

フェーズ5 - ソースの廃止(13〜14週目):信頼性が高まるにつれて、ソース施設の容量を徐々に削減する。緊急フォールバック用に移行後30日間は施設間接続を維持する。コンプライアンス要件のために構成とドキュメントをアーカイブする。将来の移行を改善するための教訓セッションを実施する。

ネットワークアーキテクチャには特別な注意が必要

GPUクラスターは、予測可能なレイテンシを持つロスレスネットワーキングを必要とする。移行戦略はこれらの特性を維持する必要がある:

ストレッチファブリック設計:VXLANオーバーレイを実装して、施設間でレイヤー2ドメインを拡張する。MACアドレスモビリティとループ防止にEVPNを使用する。利用可能なすべての帯域幅を活用するためにEqual-Cost Multi-Path(ECMP)ルーティングを構成する。50ms未満でフェイルオーバーをトリガーする高速障害検出のためにBidirectional Forwarding Detection(BFD)を配備する。

QoS(サービス品質)の維持:輻輳時のパケット損失を防ぐためにPriority Flow Control(PFC)を構成する。適切なECNマーキングでRoCE(RDMA over Converged Ethernet)を実装する。施設間で一貫してトラフィッククラスをマッピングする。QoSの不一致はサイレントなパフォーマンス劣化を引き起こすため、負荷状態で構成をテストする。

帯域幅の最適化:次の式を使用して帯域幅要件を計算する:(チェックポイントサイズ × GPU数)/ 移行ウィンドウ + 30%オーバーヘッド。1TBのチェックポイントを持つ512台のGPUクラスターは、15分の移行ウィンドウで665GB/sが必要。圧縮と重複排除のためにWAN最適化アプライアンスを使用する。移行トラフィックが本番ワークロードに影響を与えないようにトラフィックシェーピングを実装する。

ストレージ移行には並行戦略が必要

データの重力により、ストレージ移行は最も困難な側面となる。複数のアプローチを同時に実装する:

継続的レプリケーション:移行先施設への非同期レプリケーション用にストレージアレイを構成する。レプリケーションラグを継続的に監視し、重要なデータでは5秒未満を目標とする。帯域幅消費を最小限に抑えるために変更ブロックトラッキングを使用する。ロールバック機能のためにバージョン管理されたスナップショットを維持する。

並列ファイルシステム:両方の場所にまたがる並列ファイルシステム(Lustre、GPFS)を配備する。ストレージ階層化を使用して、コールドデータを最初に、ホットデータを最後に移行する。クロスサイトトラフィックを削減するために移行先で読み取りキャッシングを実装する。分散操作によりレイテンシが増加するため、メタデータサーバーのパフォーマンスを監視する。

チェックポイントシッピング:大規模なトレーニングデータセットの場合、物理的な配送がネットワーク転送より高速であることが証明されている。NVMeドライブアレイを使用してモデルをチェックポイントし、ドライブを一晩で配送する。10TBのチェックポイントは2.5Gbpsで10時間かかるが、宅配便で一晩で配送できる。セキュリティコンプライアンスのために保管の連鎖と暗号化を維持する。

冗長性とテストによるリスク軽減

すべての移行計画には、対応する障害復旧手順が必要である:

機器の冗長性:移行中は両施設で10%の予備容量を維持する。移行先に交換用GPU、スイッチ、ケーブルを事前配置する。重要な移行ウィンドウ中はベンダーサポートエンジニアを待機させる。プライマリシステムが故障した場合の緊急機器レンタルの予算を確保する。

ネットワークの冗長性:施設間に複数の多様なネットワークパスを配備する。共通障害を防ぐために異なるキャリアと物理ルートを使用する。サブ秒の収束時間で自動フェイルオーバーを実装する。移行に向けて毎週フェイルオーバー手順をテストする。

電力の冗長性:移行期間用の一時的な電力分配装置を設置する。重要なシステム用にポータブル発電機を配備する。バッテリーブリッジ機能を備えた自動転送スイッチを実装する。電圧変動が敏感なGPU電子機器を損傷するため、電力品質を継続的に監視する。

ロールバック手順:すべての移行フェーズの詳細なロールバック手順を文書化する。パフォーマンスメトリクスに基づいて明確なロールバックトリガーを定義する。移行の成功が確認されるまでソース施設の機能を維持する。ステージング環境でロールバック手順を練習する。

実際の移行事例

ある金融サービス会社は、アルゴリズム取引業務を中断することなく、2,000台のV100 GPUをシカゴからフェニックスに移行した。6週間にわたって並行運用を維持し、レイテンシへの影響を監視しながら徐々にワークロードを移行した。総移行コストは280万ドルに達したが、低い電力コストと改善されたPUEにより年間400万ドルを節約した。

ある製薬会社は、データ主権要件に準拠するため、ヨーロッパの施設間で創薬クラスター(800台のA100 GPU)を移行した。50TBの分子動力学シミュレーション用にチェックポイントシッピングを使用し、休日の週末に物理的な移行を完了した。移行は予定より12時間早く完了し、研究スケジュールへの影響はゼロだった。

ある自動運転車会社は

[翻訳のためコンテンツを省略]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING