トレーニングと推論インフラストラクチャ:異なるAIワークロードパターンの最適化

トレーニングと推論インフラストラクチャ:異なるAIワークロードパターンの最適化

トレーニングと推論インフラストラクチャ:異なるAIワークロードパターンの最適化

2025年12月8日更新

2025年12月アップデート: H200(141GB HBM3e)がトレーニングの主力として台頭し、Blackwell GB200が本番環境への導入を開始。推論はコスト効率のためL40S、L4、AMD MI300Xへシフト—MI300Xは現在、推論においてH100と同等の価格性能比を達成。Intel Gaudi 3がIBM Cloudで採用が拡大。投機的デコーディングと継続的バッチ処理(vLLM、TensorRT-LLM)が推論の経済性を変革中。トレーニングと推論のギャップは拡大:トレーニングには800G以上のインターコネクトが必要な一方、推論は汎用イーサネットで動作。

トレーニングインフラストラクチャはモデルを作成するために数ヶ月にわたり数百万ドルを消費する一方、推論インフラストラクチャはそのモデルをマイクロ秒レベルのレイテンシで数十億回提供する。単一のGPT-4トレーニング実行には1億ドルのコストがかかり、25,000台のA100 GPUを90日間稼働させる必要がある。そのモデルを提供するには、スループットではなくレイテンシに最適化された128,000台のGPUをグローバルに分散配置する必要がある。これらの根本的に異なるワークロードパターンは、組織がしばしば混同する別個のインフラストラクチャアプローチを必要とし、その結果40%高いコストと60%低い使用率につながっている。

基本的なワークロード特性

トレーニングワークロードは、規則的な同期パターンを持つ大規模な並列処理を示す。フォワードパスは数千のサンプルのバッチを同時に処理し、すべてのイテレーションで参加しているすべてのGPU間で同期する勾配を計算する。このall-reduce操作は、大規模言語モデルでは1.6Tb/sを超える総帯域幅を必要とする。トレーニングジョブは数週間から数ヶ月にわたって継続的に実行され、1時間ごとに進捗をチェックポイントする。ハードウェア障害は、計算の無駄を防ぐために即座の検出とリカバリを必要とする。

推論ワークロードは、ミリ秒レベルのレイテンシ要件で個々のリクエストを処理する。バッチサイズは通常1から32の範囲で、メモリ容量ではなくレイテンシの制約によって制限される。リクエストパターンはピークと谷の間で10倍の変動がある日中サイクルに従う。地理的分散により、グローバルユーザーに対して100ms未満のレイテンシを確保する。ハードウェア障害は即座にサービス可用性に影響を与え、冗長性と迅速なフェイルオーバー機能を必要とする。

メモリアクセスパターンは、ワークロード間で劇的に異なる。トレーニングは、帯域幅利用に最適化された規則的で予測可能なメモリアクセスを実行する。大きなバッチサイズは多くのサンプル間でメモリ転送オーバーヘッドを償却する。モデルの重みは静的なままで、活性化と勾配がメモリ階層を流れる。推論は入力シーケンスに依存する不規則なアクセスパターンを示す。動的バッチ処理と可変シーケンス長は予測不可能なメモリ要件を生み出す。Transformerモデルのキーバリューキャッシングは、リクエストごとにギガバイトを消費する。

計算使用率のメトリクスは根本的な違いを明らかにする。トレーニングは、慎重なバッチサイズの調整とデータパイプラインの最適化により85-95%のGPU使用率を達成する。大規模モデルではメモリ帯域幅がボトルネックとなり、計算ユニットはデータ移動を待つ。推論はレイテンシの制約とリクエストの変動により、使用率が40%を超えることはまれである。小さなバッチサイズは並列処理能力を十分に活用できない。ネットワーク転送と前処理のオーバーヘッドは実効使用率をさらに低下させる。

通信パターンは、分散トレーニングと推論サービングを区別する。トレーニングは勾配同期のためにall-to-all通信を必要とし、ノード間で持続的な100Gb/sのトラフィックを生成する。ネットワークトポロジーはトレーニング性能に重大な影響を与え、いかなるボトルネックも全体のスループットを低下させる。推論通信は、モデル並列サービングを除いて、主にクライアントとサーバー間で行われ、ノード間トラフィックは最小限である。ロードバランサーは推論ノード間でリクエストを独立して分散する。

ハードウェア最適化戦略

GPU選択は、トレーニングと推論のデプロイメント間で大きく異なる。トレーニングクラスターは、完全なモデル容量をサポートする80GB HBM3メモリを搭載したNVIDIA H100 GPUを優先する。3.35TB/sのメモリ帯域幅は、高速な勾配計算とパラメータ更新を可能にする。GPU間で900GB/sの帯域幅を提供するNVLinkインターコネクトは、集団操作を高速化する。組織は最大性能のためにプレミアムを受け入れ、トレーニングインフラストラクチャにH100あたり30,000ドルを投資する。

推論デプロイメントでは、コスト効率に最適化されたNVIDIA L40SまたはL4 GPUの採用が増加している。48GBメモリを搭載したL40Sは、GPUあたり15,000ドルでほとんどの推論ワークロードを処理する。5,000ドルのL4 GPUは、エッジデプロイメントや小規模モデルに優れている。AMD MI210 GPUは、NVIDIA価格の60%で競争力のある推論性能を提供する。Intel Gaudi2アクセラレータは、ユニットあたり10,000ドルでTransformerモデルに対して同様の推論スループットを達成する。この多様性により、トレーニングハードウェアと比較して推論コストが50%削減される。

メモリ階層の最適化はワークロード間で異なる。トレーニングでは、モデルパラメータ、オプティマイザ状態、勾配を同時に保持するために最大のHBM容量が必要である。70Bパラメータモデルは、Adamオプティマイザ状態を含む混合精度トレーニングに840GBを必要とする。推論ではモデルの重みと活性化メモリのみが必要で、同じモデルに140GBを必要とする。この6倍の削減により、より小さく安価なGPUへのデプロイメントが可能になる。

CPU要件は前処理のニーズによって異なる。トレーニングクラスターは、データローディング、拡張、前処理のためにGPUあたり32 CPUコアを割り当てる。高性能NVMeストレージは、ノードあたり10GB/sでトレーニングパイプラインにデータを供給する。推論サーバーはより少ないCPUリソースを必要とし、通常GPUあたり8-16コアで、リクエストルーティングとレスポンスフォーマットに焦点を当てる。エッジ推論デプロイメントでは、7Bパラメータ未満のモデルに対してCPUのみのサービングを使用する場合がある。

アクセラレータの代替品は、特定のワークロードに対してコスト効果の高いオプションを提供する。Google TPU v4ポッドは、1.1エクサフロップスを提供する4,096チップで大規模トレーニングに優れている。AWS Inferentia2チップは、100万トークンあたり0.75ドルで推論を最適化し、GPUベースのサービングより70%安価である。Cerebras CS-2システムは、40GBメモリ内に収まるモデルのトレーニングを高速化する。これらの専用アクセラレータは、ワークロードパターンがその設計パラメータに一致する場合にコストを削減する。

ネットワークアーキテクチャ要件

トレーニングネットワークは、集団操作のために最小レイテンシで最大帯域幅を要求する。NDR 400Gb/sスイッチを使用するInfiniBandデプロイメントは、RDMA操作で1マイクロ秒未満のレイテンシを提供する。ファットツリートポロジーは、任意のGPUペア間のノンブロッキング通信を保証する。レール最適化設計は、勾配集約とパラメータサーバー通信に別々のネットワークパスを専用に確保する。MetaのResearch SuperClusterは、GPUあたり1.6Tb/sの総帯域幅を提供する4レールInfiniBandを使用している。

推論ネットワークは、地理的分散とエッジ接続性を優先する。Content Delivery Network(CDN)統合により、グローバルユーザーのレイテンシを削減する。エニーキャストルーティングは、最も近い利用可能な推論クラスターにリクエストを誘導する。100Gb/sイーサネットはほとんどの推論デプロイメントに十分であり、必要に応じてRoCEv2がRDMAを有効にする。ロードバランサーは、現在の使用率と応答時間に基づいて利用可能なGPU間でリクエストを分散する。

East-westトラフィックパターンは大きく異なる。トレーニングは大規模モデルトレーニングのために毎日100TBの勾配交換を生成する。All-reduce操作はホットスポットを作成し、慎重なネットワーク設計を必要とする。推論トラフィックは、クライアントとサーバー間の主にnorth-southのままである。モデルサービングは、リクエストレートと出力サイズに応じて、GPUあたり1-10GB/sのレスポンストラフィックを生成する。

ネットワーク回復力の要件はワークロード特性を反映する。トレーニングネットワークは、チェックポイントリカバリメカニズムを通じて短時間の中断を許容する。長時間の停止は高価な計算を無駄にするため、冗長なネットワークパスが動機付けられる。推論ネットワークは、サービス可用性を維持するために即座のフェイルオーバーを必要とする。1秒未満のBGPコンバージェンス時間により、障害時のユーザーへの影響を最小限に抑える。

セキュリティの考慮事項はネットワーク設計に異なる影響を与える。トレーニングネットワークは信頼できる環境内で運用され、暗号化よりもパフォーマンスを優先する。データセットアクセス制御とモデルチェックポイント保護がセキュリティ対策の焦点となる。推論ネットワークはインターネットにさらされるため、TLS暗号化、DDoS保護、API認証が必要である。Webアプリケーションファイアウォールは、推論サーバーに到達する前に悪意のあるリクエストをフィルタリングする。

ストレージシステム設計パターン

トレーニングストレージシステムは、持続的なシーケンシャルスループットに最適化されている。LustreやGPFSなどの並列ファイルシステムは、データセットストリーミングに100GB/sの総帯域幅を提供する。NVMe-oF(NVMe over Fabrics)はデータセットシャードを直接GPUメモリに配信する。AlluxioやJuiceFSを使用した分散キャッシング層は、繰り返しのエポック処理を高速化する。OpenAIのトレーニングインフラストラクチャは、クラスター全体で1TB/sの総ストレージ帯域幅を達成している。

チェックポイントストレージは異なる最適化を必要とする。トレーニング実行は、大規模モデルに対して4時間ごとに50-100TBのチェックポイントを書き込む。MinIOやCephなどのオブジェクトストレージシステムは、トレーニングスループットを中断することなくチェックポイント書き込みを処理する。イレイジャーコーディングは、レプリケーションの200%と比較して20%のストレージオーバーヘッドでフォールトトレランスを提供する。階層型ストレージは、古いチェックポイントをより安価なメディアに移行しながら、迅速なリカバリのために最近のチェックポイントをNVMe上に維持する。

推論ストレージは、モデルのロード速度とキャッシングに焦点を当てる。モデルは推論コンテナの起動時にオブジェクトストレージからロードされ、70Bパラメータモデルでは10-30秒を必要とする。ローカルNVMeキャッシングにより、その後のモデルロードが2秒未満に高速化される。Transformerモデルのキーバリューキャッシュはリクエスト間で永続化され、推論ノードあたり100GB-1TBの高速ストレージを必要とする。RedisまたはApache Igniteは、推論サーバー間の共有コンテキスト用の分散キャッシングを提供する。

データセットのバージョニングと系統追跡は、トレーニングの再現性をサポートする。Data Version Control(DVC)またはDelta Lakeは、時間の経過に伴うデータセットの変更を追跡する。メタデータストアは、各トレーニング実行に使用された正確なデータセットバージョンを記録する。TectonやFeastなどのフィーチャーストアは、トレーニングと推論の間で一貫した特徴を提供する。これらのシステムは、モデル性能を低下させるトレーニングとサービング間のスキューを防ぐ。

ストレージ階層化戦略はアクセスパターンに基づいて異なる。トレーニングデータセットは、アクセス頻度に基づいてNVMe → SSD → HDD → Glacier層を移行する。ホットデータセットは、ドライブあたり7GB/sを提供するNVMe上に残る。推論ストレージは、常にアクセスされるためモデルを無期限にNVMe上に維持する。ロギングとメトリクスデータは、AIワークロードとは独立して従来の階層化パターンに従う。

スケーリング戦略とパターン

トレーニングの水平スケーリングでは、通信オーバーヘッドを慎重に考慮する必要がある。弱スケーリングはGPUあたりのバッチサイズを一定に維持し、クラスターサイズに応じてグローバルバッチサイズを増加させる。強スケーリングは固定のグローバルバッチサイズをより多くのGPUに分割し、トレーニング時間を改善するが効率を低下させる。線形スケーリングは、ほとんどのモデルで512 GPUまで90%の効率を達成する。この点を超えると、通信オーバーヘッドが支配的になり、効率は70%未満に低下する。

モデル並列性により、単一GPUメモリ容量を超えるモデルのトレーニングが可能になる。パイプライン並列性はレイヤーごとにモデルをGPU間で分割し、慎重なスケジューリングで80%の効率を達成する。テンソル並列性は個々のレイヤーをGPU間で分割し、高帯域幅インターコネクトを必要とする。Mixture-of-Expertsモデルのエキスパート並列性は、数千のGPUにスケールする。これらの技術は3D並列性戦略で組み合わされ、GPT-4は25,000 GPU全体で3つの次元すべてを使用している。

推論スケーリングはリクエスト駆動型パターンに従う。Kubernetesの水平ポッドオートスケーリングは、CPU、メモリ、またはカスタムメトリクスに応答する。スケーリング決定では、モデルローディングの10-30秒のコールドスタートペナルティを考慮する。履歴パターンを使用した予測オートスケーリングは、予想される需要に対して事前に容量をプロビジョニングする。スポットインスタンス統合により、フォールトトレラントな推論ワークロードのコストが60%削減される。

地理的分散戦略は根本的に異なる。トレーニングクラスターは単一ロケーションに集中する

[翻訳用にコンテンツを切り詰め]

お見積り依頼_

プロジェクトについてお聞かせください。72時間以内にご回答いたします。

> TRANSMISSION_COMPLETE

リクエストを受信しました_

お問い合わせありがとうございます。弊社チームがリクエストを確認し、72時間以内に回答いたします。

QUEUED FOR PROCESSING