AIデータパイプラインアーキテクチャ:ペタバイト規模のトレーニングに100GB/sでデータを供給する
2025年12月11日更新
2025年12月アップデート: MetaのData PreProcessing Service(DPP)は、エクサバイト規模のトレーニングクラスター全体でデータストールを解消しました。WEKApodは8台のストレージノードから720GB/sのスループットを達成し、768台のH100 GPUに電力を供給しています。PCIe Gen5 NVMe SSDは14GB/s以上のシーケンシャル読み取りを実現し、トレーニング階層ストレージの標準となりつつあります。Feature Storeと階層型キャッシュアーキテクチャにより、コールドデータアクセスのレイテンシが10分の1に削減されています。
Metaは、GPUサイクルの56%がトレーニングデータを待機してストールしていることを発見しました。[^1] 同社は分散ファイルシステムであるTectonicにエクサバイト規模のトレーニングデータを保存していますが、ペタバイト規模のデータセットをトレーニングハードウェアのローカルに保持するストレージ容量が不足していました。[^2] この解決策として、データストールを完全に排除するためにスケールするData PreProcessing Service(DPP)の構築が必要でした。大規模モデルをトレーニングする組織は、同じ根本的な課題に直面しています:最も強力なGPUでも、入力データを待っている間は何も達成できないのです。
AIトレーニングにデータを供給するストレージが、GPU投資が期待通りのリターンをもたらすかどうかを決定します。WEKApodは720GB/s以上のスループットと1,800万IOPSを150マイクロ秒未満のレイテンシで達成し、わずか8台のストレージノードで768台のH100 GPUに電力を供給しています。[^3] MetaのRSCスーパーコンピューターは、GPUにデータを供給し続けるために46ペタバイトのキャッシュストレージを使用しています。[^4] GPT-4のトレーニングには、約25,000台のA100 GPUで13兆トークンを90〜100日かけて処理する必要がありました。[^5] 大規模においては、データパイプラインアーキテクチャはコンピュートアーキテクチャと同様に重要になります。
データパイプラインの課題
大規模言語モデルは、ペタバイト規模の高品質で前処理されたデータへのアクセスを必要とします。高速で信頼性の高いストレージがなければ、最も強力なGPUでさえ入力を待ってアイドル状態になります。[^6] ストレージインフラストラクチャのパフォーマンス階層が、正規化、トークン化、トレーニングという計算集約型のパイプラインステージを通じてデータがシームレスに流れることを可能にします。
典型的な機械学習パイプラインでは、CPUが管理するデータ前処理、GPUにオフロードされるモデルトレーニング、そしてCPUに戻される後処理が含まれます。[^7] ボトルネックは、CPU RAMとGPU DRAM間でデータを転送する際に発生します。ストレージスループット、ネットワーク帯域幅、前処理コンピュート、GPU消費量のミスマッチが、高価なアクセラレータ容量を無駄にするストールを生み出します。
Metaのデータストレージとインジェスチョンアーキテクチャ
MetaのエンドツーエンドDSIパイプラインは、分散ストレージ上に構築された中央データウェアハウスと、トレーニングコンピュートから独立して前処理をスケールするData PreProcessing Serviceで構成されています。[^8] このアーキテクチャは、ストレージ、前処理、トレーニングを別々のスケーラブルな階層に分離します。
Tectonicは、AIトレーニングモデル向けの分離型ストレージインフラストラクチャを提供する、Metaのエクサバイト規模の分散ファイルシステムとして機能します。[^9] 同社は、それらの規模に匹敵するローカルストレージ容量なしに、テラバイトからペタバイト規模のデータセットでモデルをトレーニングしています。分離型ストレージは柔軟なリソース割り当てを可能にしますが、ストレージとコンピュートを接続する高帯域幅ネットワークが必要です。
DPP Masterは、データセットテーブル、パーティション、必要な特徴量、変換操作を含むセッション仕様を受け取ります。[^10] Masterは、ペタバイト規模のデータにわたる前処理ワークロードを、スプリットと呼ばれる独立した自己完結型の作業項目に分割します。DPP WorkerはMasterにスプリットを要求し、前処理変換を実行することで、前処理スループットをトレーニングノードのCPU容量から切り離します。
ストレージ階層とキャッシング
Metaは、HDDとSSDを組み合わせた階層型ストレージソリューションを構築しており、SSDは高再利用特徴量のキャッシング階層として機能します。[^11] すべてのトレーニングデータが同じアクセスパターンを必要とするわけではありません:頻繁にアクセスされる特徴量はフラッシュストレージの恩恵を受け、コールドデータは容量最適化メディアに残ります。
このキャッシング戦略は、トレーニングスループットを犠牲にすることなくストレージコストを削減します。高速階層に存在するホットデータが読み取りの大部分を処理し、コールドデータは初期エポック中に容量ストレージからストリーミングされます。データアクセスパターンを理解することで、コストとパフォーマンスのバランスを取るインテリジェントな階層化決定が可能になります。
AIトレーニング用ストレージ技術
異なるストレージ技術は、AIデータパイプラインで異なる役割を果たします。選択は、アクセスパターン、容量要件、予算制約によって異なります。
パラレルファイルシステム
LustreやGPFSなどのパラレルファイルシステムは、大規模な同時実行性で極めて高いパフォーマンスを提供し、同期I/O集約型AIワークロードに最適です。[^12] これらのシステムは多数のストレージサーバーにデータをストライプ化し、サーバー数に応じてスケールする総帯域幅を提供します。
Google Cloudは、Cloud Storage上の高性能キャッシュとしてManaged Lustreを提供し、極めて高いスループットと低レイテンシI/O操作を必要とするAIワークロードを加速します。[^13] 組織はManaged LustreとCloud Storage間でデータをインポートおよびエクスポートし、アクティブなトレーニング用のパフォーマンス階層としてパラレルファイルシステムを使用しながら、耐久性のためにオブジェクトストレージにデータを維持します。
NVMeストレージ
PCIe Gen5 NVMe SSDは、14 GB/sを超えるシーケンシャル読み取りスループットと数百万のランダム読み取りIOPSを処理します。[^14] この技術は、数十テラバイトのデータでAIモデルをトレーニングする際のボトルネックとしてのストレージを排除します。2024年から2025年にかけてのPCIe Gen5の採用により、レーンあたりのスループットは約4 GB/sに倍増し、x16構成では64 GB/sに達しました。
NVMe-oF(NVMe over Fabrics)は、NVMeのパフォーマンスをネットワーク全体に拡張し、ローカルに近いレイテンシを維持する分離型ストレージアーキテクチャを可能にします。トレーニングクラスターは、直接接続ドライブのパフォーマンス上の利点を犠牲にすることなく、共有NVMeストレージプールにアクセスできます。
コールドデータ用オブジェクトストレージ
オブジェクトストレージは、より高いレイテンシを許容するペタバイト規模のデータセットに対してコスト効率の良い容量を提供します。大手eコマース企業は、AWS S3に数百ペタバイトのトレーニングデータを保存しており、AI/MLトレーニングワークロードは複数のAWSリージョンとオンプレミスデータセンターに分散されています。[^15]
オブジェクトストレージは、集中的な処理が始まる前にトレーニングジョブがデータをより高速な階層にロードするバッチインジェスチョンパターンに最適です。経済性からアーカイブとバックアップにはオブジェクトストレージが有利であり、パフォーマンス階層がアクティブなトレーニングI/Oを処理します。
大規模な前処理
データの前処理は大量のコンピュートリソースを消費し、しばしばGPUの完全な利用を妨げるボトルネックになります。Metaの経験では、トレーナーノードのCPUはGPUに供給するのに十分な速度でデータを前処理できず、分散DPPアーキテクチャの動機となりました。[^16]
分散前処理ワーカー
DPPアーキテクチャは、前処理ワーカーをトレーニングノードから独立してスケールします。[^17] 前処理容量の追加には、トレーニングインフラストラクチャを変更することなく、ワーカーインスタンスを追加するだけで済みます。この分離により、組織は特定のデータセットと変換の複雑さに応じて前処理コンピュートを適切にサイズ設定できます。
ワーカーインスタンスは、クリーニング、正規化、トークン化、特徴抽出を含む変換操作を実行します。複雑な変換は、トレーニングスループット単位あたりにより多くの前処理コンピュートを必要とします。単純な変換は、最小限の前処理リソースでトレーニングに追いつくことができます。
加速された前処理
業界の取り組みでは、CPUではなくアクセラレータで前処理変換操作を実行することが増えています。[^18] NVIDIA DALI(Data Loading Library)は、画像のデコード、拡張、フォーマット変換をGPUにオフロードします。加速された前処理により、画像および動画トレーニングパイプラインのCPUボトルネックが解消されます。
前処理をGPUに移行するには、新たなボトルネックを生み出さないよう慎重なパイプライン設計が必要です。前処理に使用されるGPUメモリは、モデルパラメータとアクティベーションに利用可能なメモリを減少させます。前処理加速とトレーニング容量のトレードオフは、ワークロードの特性によって異なります。
Feature Store
Googleは、オンラインサービング準備が整った特徴量にVertex AI Feature Storeを使用することを推奨しています。[^19] Feature Storeは特徴量の値を事前計算してキャッシュし、トレーニング実行間での繰り返し計算を排除します。特徴エンジニアリングジョブをスケジュールして必要な頻度で新しい特徴量の値を定期的に計算することで、リアルタイム前処理のオーバーヘッドなしに新鮮なデータを確保します。
Feature Storeは、特徴計算の複雑さがリクエストごとの時間予算を超えるレコメンデーションモデルで特に価値があります。トレーニングと推論の両方が同じ事前計算された特徴量にアクセスでき、開発と本番環境間の一貫性を維持します。
データパイプライン用ネットワークアーキテクチャ
高帯域幅インターコネクトは、分離型ストレージアーキテクチャの基盤を提供します。InfiniBandとRoCE(RDMA over Converged Ethernet)は、GPUクラスター全体での分散トレーニングと高速データセットアクセスに不可欠な超低レイテンシと高スループットを提供します。[^20]
ストレージネットワーク設計
ストレージネットワークは、総読み取りスループットをGPUトレーニング消費量に一致させる必要があります。データ集約型ワークロードをトレーニングする1,000台のH100 GPUクラスターは、数十ギガバイト/秒の持続ストレージスループットを必要とする場合があります。ストレージとコンピュート階層間のネットワーク容量は、この要件をバーストパターンに対応するヘッドルームとともに超える必要があります。
ネットワークトポロジーは達成可能なスループットに影響します。ファットツリートポロジーは完全な二分帯域幅を提供しますが、オーバーサブスクリプション設計よりもコストがかかります。ストレージI/Oが重いトレーニングワークロードは、ネットワーク輻輳をボトルネックとして排除するノンブロッキングファブリックの恩恵を受けます。
データ転送最適化
並列I/O、プリフェッチ、キャッシング、圧縮、データローカリティ最適化を含むデータ転送最適化技術により、ストレージシステムとコンピュートノード間の効率的なデータ移動が確保されます。[^21] プリフェッチはデータ要件を予測し、コンピュートノードが要求する前にデータをステージングします。圧縮はコンピュートサイクルのコストでネットワーク帯域幅要件を削減します。
データのバッチ処理によりトランザクション頻度が減少し、リクエストごとのオーバーヘッドがより大きな転送に分散されます。[^22] データのフィルタリングにより、GPUに送信する前にサンプルサイズを最小化し、ストレージ読み取りとネットワーク転送の両方を削減します。技術の組み合わせにより、実効ストレージ帯域幅要件を大幅に削減できます。
大規模なデータパイプラインの構築
ペタバイト規模のトレーニングインフラストラクチャを展開する組織は、GPUコンピュート容量に匹敵するストレージ、前処理、ネットワーキングへの統合的アプローチを必要とします。
容量計画
ストレージ容量計画では、モデルのスケーリングに伴うトレーニングデータの成長を考慮する必要があります。組織がより多くのデータを蓄積し、より多くのトークンを必要とする大規模モデルを追求するにつれて、トレーニングデータセットは成長します。組織が再現性のために複数のデータセットバージョンを保持するため、容量要件は複合的に増加します。
スループット計画は容量計画よりも困難です。モデルサイズ、バッチサイズ、データスループット要件の関係は、アーキテクチャとトレーニング構成によって異なります。ターゲットインフラストラクチャで特定のワークロードをベンチマークすることで、最も信頼性の高いスループット要件が得られます。
インフラストラクチャ展開の専門知識
データパイプラインインフラストラクチャの複雑さは、コンピュートインフラストラクチャの複雑さに匹敵するか、それを超えます。ストレージシステム、高速ネットワーク、前処理サービスは、GPUクラスターとシームレスに統合される必要があります。いずれかのコンポーネントの構成エラーは、GPU投資を無駄にするボトルネックを生み出します。
Introlの550人のフィールドエンジニアネットワークは、大規模AIトレーニングに必要な統合インフラストラクチャ展開を専門としています。[^23] 同社は2025年のInc. 5000で14位にランクインし、3年間で9,594%の成長を達成しており、プロフェッショナルなインフラストラクチャサービスへの需要を反映しています。[^24] トレーニングクラスターを構築する組織は、ストレージ、ネットワーキング、コンピュートを統合システムとして対処する展開専門知識の恩恵を受けます。
100,000台のGPUと40,000マイル以上の光ファイバーネットワークインフラストラクチャに及ぶ展開を管理するには、最大規模のトレーニングイニシアチ
[翻訳用にコンテンツを切り詰め]