AIインフラストラクチャの災害復旧:GPUクラスタのRPO/RTO戦略
2025年12月8日更新
2025年12月アップデート: トレーニングチェックポイントのサイズが拡大中—700億パラメータモデルのチェックポイントは現在150〜200GBに達し、最適化されたDR戦略が必要となっている。クラウドプロバイダーがリージョン間GPUフェイルオーバーを提供。弾力的なトレーニングフレームワーク(DeepSpeed、FSDP)がチェックポイント効率を向上。モデルウェイトはますます重要なIPとして扱われ、イミュータブルバックアップが求められている。GPU コスト(H100あたり25,000〜40,000ドル)により、DR投資の正当性が高まっている。
OpenAIがチェックポイント破損によりGPT-4のトレーニング進捗72時間分を失った際、このインシデントは無駄になった計算時間で860万ドルのコストを発生させ、製品ローンチを2週間遅延させた。AIインフラストラクチャの災害復旧には、従来のITアプローチを超えたユニークな戦略が求められる。50TBのモデルチェックポイントや30日間のトレーニングランを失うことは、直接コストで数百万ドル、さらに計り知れない競争上の不利益をもたらすからだ。現代のGPUクラスタには、冗長性の極端なコストとデータ損失の壊滅的な影響のバランスを取る高度な復旧戦略が必要である。本ガイドでは、AIインフラストラクチャ投資を保護するための実戦で検証されたアプローチを検討する。
AIワークロードのRPOとRTOの基礎
AIトレーニングのRecovery Point Objective(RPO)は、従来のアプリケーションとは大きく異なる。トレーニングワークロードは定期的なチェックポイントにより2〜4時間のRPOを許容でき、最近のイテレーションの損失を受け入れる。モデルウェイトとハイパーパラメータはゼロRPOが必要で、その損失はトレーニングラン全体を無効にする。データセットは相対的な安定性と再構築可能性から24時間RPOを許容することが多い。本番推論システムは顧客への影響を最小限に抑えるため5分RPOが求められる。これらの差別化された目標は、ビジネス要件を満たしながら保護コストを最適化する。
Recovery Time Objective(RTO)の影響は、トレーニングと推論ワークロードの間で大きく異なる。トレーニングジョブはバッチ処理の性質とチェックポイント復旧機能により4〜8時間のRTOを許容する。推論サービスはSLAコンプライアンスと顧客満足度を維持するため15分RTOが必要。モデルレジストリシステムはキャッシュされたモデルにより継続運用が可能なため1時間RTOが必要。開発環境はビジネスへの影響が最小限であり24時間RTOを許容する。Metaのインフラストラクチャは階層化されたRTO目標を実装し、コストを最適化しながらクリティカルサービスで99.95%の可用性を達成している。
積極的なRPO/RTO目標のコスト影響は、GPUインフラストラクチャにおいて指数関数的に増大する。100TBのトレーニングデータに対して1時間RPOを達成するには、月額50,000ドルの継続的レプリケーション帯域幅200Gbpsが必要。15分RTOはホットスタンバイGPUクラスタを必要とし、インフラストラクチャコストが2倍になる。ゼロRPOは同期レプリケーションを必要とし、トレーニングパフォーマンスに15〜20%の影響を与える。組織は保護レベルと経済的現実のバランスを取る必要がある。Anthropicの分析では、4時間RPO/RTOがトレーニングワークロードに最適であり、1時間目標と比較して年間1,200万ドルの節約になることが明らかになった。
AI固有の復旧課題は、従来の災害復旧アプローチを複雑にする。1TBに達するモデルチェックポイントは、高速ネットワークでも転送に数時間を要する。数百のGPUにわたる分散トレーニング状態は、一貫性のある復旧のために複雑な調整を必要とする。モデル、コード、データ間のバージョン依存関係は復元の複雑さを生む。プライマリサイトとリカバリサイト間のGPUハードウェアの違いはパフォーマンスに影響する。これらの要因により、汎用的な災害復旧ソリューションを超えた専用の復旧戦略が必要となる。
規制およびコンプライアンス要件は、特定のRPO/RTO目標をますます義務付けている。金融サービスAIはリスクモデルに対して当日復旧要件を満たす必要がある。ヘルスケアAIシステムは診断アプリケーションに4時間RTOが必要。GDPRは特定のタイムフレームなしにデータ復旧機能を義務付けている。これらの要件はコスト最適化目標としばしば矛盾し、慎重なアーキテクチャ決定が必要となる。JPMorganのAIインフラストラクチャは規制分類による差別化された復旧戦略を実装している。
データ保護戦略
チェックポイント管理は、AIトレーニング保護の基盤を形成する。30〜60分ごとの自動チェックポイントは、オーバーヘッドと潜在的な損失のバランスを取る。増分チェックポイントは変更されたパラメータのみを保存し、ストレージを80%削減。チェックポイント検証は、以前のバージョンを削除する前に整合性を確保する。分散チェックポイントは複数のストレージターゲットへの保存を並列化する。リングバッファ保持は最後のN個のチェックポイントを保持しロールバックを可能にする。OpenAIのチェックポイントシステムは、トレーニングインフラストラクチャ全体で毎日500TBを99.999%の信頼性で保存している。
マルチティアストレージアーキテクチャは、コストと復旧速度を最適化する。NVMe上のホットティアは最近のチェックポイントに対してサブミニッツ復旧を提供する。SSD上のウォームティアは1週間前のチェックポイントに対して10分復旧を提供する。オブジェクトストレージ上のコールドティアはアーカイブされたチェックポイントに対して1時間復旧を可能にする。インテリジェントティアリングは年齢とアクセスパターンに基づいてデータを自動的に移行する。このアプローチは復旧目標を維持しながらストレージコストを70%削減する。Googleのトレーニングインフラストラクチャは5つのストレージティアを実装し、年間3,000万ドルのストレージ支出を最適化している。
地理的レプリケーションは、リージョン災害とデータセンター障害から保護する。近隣施設への同期レプリケーションは、重要なデータに対してゼロRPOを可能にする。遠隔リージョンへの非同期レプリケーションは1時間RPOで災害復旧を提供する。クロスクラウドレプリケーションは単一プロバイダー依存を排除する。エッジキャッシングは復旧を加速しRTOを50%削減する。Netflixは3つのリージョンにわたってトレーニングデータをレプリケートし、99.99%の耐久性を達成している。
重複排除と圧縮は、レプリケーション帯域幅とストレージコストを最適化する。モデルウェイトはチェックポイント間で60%の類似性を共有することが多く、効果的な重複排除を可能にする。圧縮は情報損失なしに勾配データに対して3:1の比率を達成する。デルタエンコーディングはパラメータの変更のみを送信し、帯域幅を85%削減。コンテンツアウェアチャンキングは重複排除効率を30%向上させる。これらの技術により、Microsoftは災害復旧コストを年間800万ドル削減できた。
バージョニング戦略は、コード、データ、モデルアーティファクト間の一貫性を維持する。トレーニングコードのGitベースのバージョン管理は再現性を確保する。DVC(Data Version Control)はデータセットの変更とリネージを追跡する。モデルレジストリはメタデータ付きのイミュータブルバージョンを維持する。依存関係のピニングは正確なライブラリバージョンを記録する。同期化されたバージョニングはすべてのアーティファクトにわたるポイントインタイム復旧を可能にする。このアプローチにより、Amazonでの復旧シナリオの93%でデータ不整合問題が防止された。
インフラストラクチャ冗長性パターン
アクティブ-アクティブGPUクラスタは、推論ワークロードに対してゼロRTOで即座のフェイルオーバーを提供する。ロードバランサーは複数のリージョンにリクエストを継続的に分散する。セッションアフィニティは障害時のユーザーエクスペリエンスを維持する。段階的なトラフィックシフティングは復旧中のカスケード障害を防止する。コストは2倍になるが、クリティカルサービスのダウンタイムを排除する。Uberの推論インフラストラクチャは3つのアクティブリージョンにまたがり、99.99%の可用性を達成している。
アクティブ-パッシブ構成は、トレーニングワークロードに対してコストと復旧時間のバランスを取る。スタンバイクラスタは検証と開発のために20%の容量を維持する。ラピッドスケーリングはフェイルオーバー中に30分以内で追加GPUをプロビジョニングする。ウォームスタンバイはアクティブ-アクティブと比較してコストを60%削減する。事前配置されたデータは復旧時の転送時間を排除する。TeslaのDojoトレーニングインフラストラクチャはパッシブサイトを維持し、アクティブ-アクティブの40%のコストで4時間RTOを達成している。
パイロットライトアーキテクチャは、迅速な復旧を可能にしながらスタンバイコストを最小化する。コアインフラストラクチャは最小限のコンピュートリソースで運用を維持する。自動プロビジョニングは災害時にフル容量にスケールする。データレプリケーションはRPO目標を維持しながら継続する。このアプローチはフル冗長性の20%のコストで2時間RTOを達成する。Stability AIはパイロットライト戦略を使用し、スタンバイコストを年間500万ドル節約している。
クラウドバースティングは、恒久的な投資なしに弾力的な災害復旧容量を提供する。オンプレミスのプライマリインフラストラクチャはクラウドリソースにフェイルオーバーする。事前に交渉されたクラウドコミットメントは容量の可用性を確保する。ハイブリッドネットワーキングはシームレスなフェイルオーバーを可能にする。コストは実際の災害時にのみ発生する。この戦略により、Adobeは冗長インフラストラクチャへの2,000万ドルの投資を回避できた。
クロスクラウド冗長性は単一プロバイダーリスクを排除する。AWS上のプライマリワークロードはGoogle CloudまたはAzureにフェイルオーバーする。Infrastructure as Codeはプロバイダー間で一貫したデプロイメントを可能にする。クラウド非依存のストレージフォーマットはベンダーロックインを防止する。マルチクラウドは15%の運用複雑性を追加するが、完全停止を防止する。SalesforceのEinstein AIは3つのクラウドプロバイダーにまたがり、99.995%の可用性を達成している。
バックアップと復旧手順
増分バックアップ戦略は、ストレージと帯域幅要件を90%削減する。変更ブロック追跡は効率的なバックアップのために変更されたデータを特定する。合成フルバックアップはソースデータを読み取ることなく増分を結合する。フォーエバーインクリメンタルアプローチは定期的なフルバックアップを排除する。ポイントインタイム復旧は任意のチェックポイントへの復元を可能にする。SnapのAIインフラストラクチャは1時間ごとの増分で5分RPOを達成している。
バックアップ検証は、災害が発生する前に復旧可能性を確保する。自動復元テストは毎週バックアップの整合性を検証する。チェックサム検証は破損を即座に検出する。分離された環境へのテスト復旧は手順を検証する。バックアップスコアリングはテストのために重要なデータを優先する。定期的な検証により、Metaでの復旧シナリオの97%でバックアップ障害が防止された。
復旧オーケストレーションは、複雑な復元手順を自動化する。ランブックはステップバイステップの復旧プロセスを成文化する。依存関係マッピングは正しい復元順序を確保する。並列復旧ストリームは大規模な復元を加速する。進捗追跡は復旧タイムラインへの可視性を提供する。自動オーケストレーションにより、Airbnbの復旧時間は8時間から90分に短縮された。
ベアメタル復旧機能は、バックアップからGPUノード全体を復元する。システムイメージはOS、ドライバー、構成を記録する。ネットワークブートはローカルメディアなしで復旧を可能にする。ハードウェア抽象化は異なるGPUモデルを処理する。構成管理は仕様からノードを再構築する。この機能により、LinkedInは100台の障害ノードを2時間で復旧できた。
アプリケーション整合性バックアップは、AIワークロードの整合性を確保する。チェックポイント調整は整合性のある状態でトレーニングを一時停止する。データベースクワイエシングはメタデータを整合性のある状態でキャプチャする。ストレージシステム間での分散スナップショット調整。プリスクリプトとポストスクリプトはアプリケーション固有の要件を処理する。これらの技術により、Pinterestの復旧の99.8%で破損が防止された。
災害復旧のためのネットワークアーキテクチャ
専用の災害復旧ネットワークは、レプリケーショントラフィックを本番から分離する。ダークファイバーは大規模転送のための無制限の帯域幅を提供する。SD-WANは動的なパス選択と最適化を可能にする。帯域幅予約はレプリケーションパフォーマンスを保証する。ネットワークセグメンテーションは復旧トラフィックが本番に影響するのを防止する。MicrosoftのExpressRouteは100Gbpsの専用災害復旧接続を提供する。
WAN最適化は、地理的距離にわたるデータ転送を加速する。重複排除は転送量を60〜80%削減する。圧縮は追加で3:1の削減を達成する。TCP最適化はレイテンシがスループットに与える影響を克服する。キャッシングは冗長な転送を排除する。これらの最適化により、Baiduは1Gbpsリンクで10Gbpsの実効スループットを達成できた。
マルチパスネットワーキングは冗長性とロードバランシングを提供する。Border Gateway Protocol(BGP)は自動パス選択を可能にする。Equal-cost multi-path(ECMP)はリンク間でトラフィックを分散する。高速リルートはサブセカンドフェイルオーバーを達成する。多様な物理パスは単一障害点を防止する。Amazonの災害復旧ネットワークは4つの独立したキャリアにまたがっている。
暗号化とセキュリティは、レプリケーションと復旧中のデータを保護する。TLS 1.3はデータを保護する
[翻訳用にコンテンツを切り捨て]