強化学習インフラストラクチャ:RLHFとロボティクスのためのGPUクラスター
2025年12月11日更新
2025年12月アップデート: RLHFトレーニングは計算時間の80%をサンプル生成に費やしており、スループット最適化が極めて重要な課題となっています。OpenRLHFはRayベースのモデル分離により、GPU間で70B以上のパラメータを持つRLHFトレーニングを可能にしました。NVIDIAの3コンピュータアーキテクチャは、トレーニング用のDGX、シミュレーション用のOmniverse、ロボット上の推論用のJetson Thorで構成されています。vLLMアクセラレーションによりサンプル生成のスループットが劇的に向上しています。
RLHFトレーニングは計算時間の80%をサンプル生成に費やしており、大規模言語モデルを人間の好みに合わせて調整する組織にとって、スループット最適化が最も重要なインフラストラクチャ課題となっています。[^1] OpenRLHFは、Actor、Reward、Reference、Criticモデルを異なるGPUに分離することで、70B以上のパラメータを持つRLHFトレーニングを可能にした初の高性能オープンソースフレームワークとして登場しました。[^2] 一方、NVIDIAの物理AIのための3コンピュータアーキテクチャは、トレーニング用のDGXスーパーコンピュータ、シミュレーション用のOmniverseサーバー、ロボット上の推論用のJetson AGX Thorを接続しています。[^3] 強化学習ワークロードは標準的な教師あり学習とは異なるインフラストラクチャパターンを必要とし、RL機能を構築する組織はこれらの違いを考慮したアーキテクチャ決定が必要です。
インフラストラクチャの乖離はメモリ要件から始まります。既存のRLHFフレームワークは70B以上のパラメータモデルの膨大なメモリ需要に苦戦しており、アライメント技術の完全な可能性を制限しています。[^4] GPU間での過度なモデル分割は個々のデバイスでのメモリ断片化を引き起こし、有効バッチサイズを減少させ、全体的なトレーニングを遅延させます。ロボティクスシミュレーションは別の次元を追加します:数百から数千のロボットインスタンスを並列でトレーニングするには、ニューラルネットワークトレーニングと並行してGPUアクセラレーテッド物理エンジンを実行する必要があります。[^5]
RLHFインフラストラクチャパターン
人間のフィードバックからの強化学習には、異なるインフラストラクチャ要件を課す複数の異なるフェーズのオーケストレーションが含まれます。報酬モデリングは人間の好みを予測するモデルをトレーニングします。RLフェーズは次に報酬モデルを使用してポリシー最適化をガイドします。両フェーズは大規模なモデル推論とトレーニングを同時に行い、標準的な教師あり学習には存在しないリソース競合パターンを生み出します。
マルチモデルオーケストレーション
RLHFトレーニングでは4つのモデルを同時に実行する必要があります:Actor(トレーニング中のポリシーモデル)、Rewardモデル(応答のスコアリング)、Referenceモデル(分布ドリフトの防止)、Criticモデル(価値関数の推定)。[^6] 各モデルは数百億のパラメータに達する可能性があります。4つの70Bモデル間でのメモリ割り当てと計算スケジューリングの管理は、典型的なトレーニングインフラストラクチャの複雑さを超えています。
OpenRLHFは、過度な分割なしにGPU間でモデルをインテリジェントに割り当てる分散タスクスケジューラであるRayを通じてマルチモデルの課題に対処しています。[^7] このフレームワークはHybrid Engineスケジューリングを活用し、すべてのモデルとvLLM推論エンジンがGPUリソースを共有できるようにします。このアプローチは、ワークロード需要がトレーニングフェーズと推論フェーズ間でシフトするにつれてリソースを動的に再バランスすることで、アイドル時間を最小化し、利用率を最大化します。
サンプル生成ボトルネック
サンプル生成に費やされる計算時間の80%は、RLHFの基本的な特性を反映しています:ポリシーモデルは報酬スコアリングが行われる前に完全な応答を生成する必要があります。[^8] 標準的なトレーニングは静的データを順方向パスと逆方向パスを通じてバッチ処理します。RLHFは各ステップで新しいサンプルを生成し、実時間を支配する推論ボトルネックを作り出します。
vLLMアクセラレーションは、最適化されたメモリ管理と複数のGPUにわたる並列処理により、サンプル生成スループットを劇的に向上させます。[^9] OpenRLHFのAuto Tensor Parallelism(AutoTP)は利用可能なGPU間で推論を自動的に分散し、トレーニングフェーズに新鮮なサンプルを供給し続ける高スループット生成を実現します。
システムレベルの最適化(2025年)
研究チームは2024年と2025年にRLHFスループットを改善するための複数のアプローチを開発しました。RLHFuse、AReal、Verlは、モデルを共存させて通信オーバーヘッドを削減し、ワークロード需要に合わせてGPUリソースを動的にスケーリングする細粒度の並列処理によりスループットを向上させます。[^10]
Verl、RLHFuse、ReaL、PUZZLEは、個々のモデルがリソースをアイドル状態にする場合のGPU利用率を向上させるため、異なるステージのLLMを同じリソースプールに共存させます。[^11] StreamRLはトレーニングと生成ステージを分離し、専用推論クラスターの高メモリ帯域幅の利点を活用するパイプラインで非同期に実行します。
OPPO(Pipeline Overlap for PPO)は、以前は順次実行されていた計算フェーズをオーバーラップさせることで追加の高速化を達成します。[^12] この技術は、前のバッチが完了する前に後続のバッチを開始することでアイドル時間を削減し、わずかに増加したメモリ使用量と引き換えにスループットを向上させます。
物理AIとロボティクスインフラストラクチャ
ロボティクスアプリケーションは、ニューラルネットワークトレーニングと並行してシミュレーション要件を導入します。ロボットは実世界展開前にシミュレーション環境で学習する必要があり、強化学習を実用的にする速度で実行される物理的に正確な仮想世界が必要です。
NVIDIAの3コンピュータアーキテクチャ
NVIDIAは、トレーニング、シミュレーション、デプロイメントにまたがる物理AI開発のための包括的なスタックを設計しました。[^13] DGX AIスーパーコンピュータは、大規模RLに必要な計算密度でモデルトレーニングを処理します。RTX PROサーバー上で実行されるOmniverseとCosmosは、ロボットが物理ベースのデジタルツインでトレーニングするシミュレーション環境を提供します。Jetson AGX Thorは、自律運用のためのリアルタイムパフォーマンスでロボット上の推論を処理します。
このアーキテクチャは物理AIの独自の要求を反映しています。ロボットはセンサーデータの処理、環境状態の推論、アクションの計画、動作の実行をミリ秒単位で行う必要があります。[^14] トレーニングインフラストラクチャは、限られた計算予算を持つエッジハードウェアに展開された際にこれらのレイテンシ制約を満たすモデルを生成する必要があります。
GPUアクセラレーテッドシミュレーション
NVIDIA Isaac Labは、Isaac Sim上に構築されたロボットトレーニングのためのオープンソースフレームワークを提供し、強化学習、デモンストレーションからの学習、モーションプランニングワークフローをサポートしています。[^15] このフレームワークにより、数百から数千のロボットインスタンスを並列でトレーニングでき、実世界トレーニングでは達成できない速度でポリシーを反復できます。
Google DeepMindとDisney Researchが共同開発したGPUアクセラレーテッド物理エンジンであるNewtonは、高速で物理的に正確な微分可能シミュレーションを提供します。[^16] 微分可能物理はシミュレーションを通じた勾配ベースの最適化を可能にし、ブラックボックス強化学習アプローチと比較してポリシー学習を加速します。
シミュレーションファーストのアプローチは物理AI開発に不可欠です。開発者は展開前にデジタルツインでロボットの動作を検証し、物理ハードウェアを損傷したり人間を傷つける可能性のある故障を検出します。[^17] この方法論は、実際のロボットへのポリシー転送に十分な精度を維持しながら、リアルタイムより速い速度で物理を実行できるシミュレーションインフラストラクチャを必要とします。
ロボティクスのためのマルチGPUオーケストレーション
NVIDIA OSMOは、マルチGPUおよびマルチノードシステムにわたる複数のステージとコンテナにまたがる複雑なロボティクスワークロードのためのクラウドネイティブオーケストレーションを提供します。[^18] ロボティクス開発パイプラインには、データ収集、モデルトレーニング、シミュレーションテスト、デプロイメントパッケージングが含まれます。これらのステージを異種GPUリソース間で調整するには、標準的なKubernetes機能を超えたオーケストレーションが必要です。
Agility Robotics、Boston Dynamics、Figure AI、Skild AIを含む主要なロボティクス企業がNVIDIA IsaacとOmniverse技術を採用しています。[^19] Stanford、ETH Zurich、シンガポール国立大学の研究機関も、ロボティクス研究を進めるために同じアクセラレーテッドコンピューティングインフラストラクチャを活用しています。
インフラストラクチャ要件の比較
RLHFとロボティクスRLは一部のインフラストラクチャパターンを共有していますが、他の点では大きく異なります。
メモリ要件
LLMアライメントのためのRLHFは、複数の大規模モデルを同時にホストする必要があります。70B Actor、70B Reference、および別個のRewardとCriticモデルは、オプティマイザの状態とアクティベーションを考慮する前でも、モデルの重みだけで8〜16のH100 GPUを必要とする場合があります。[^20] ロボティクスポリシーは通常より小さなモデルを含みますが、同時シミュレーション状態が必要です。
ロボティクスシミュレーションのメモリは、環境の複雑さと並列インスタンス数に応じてスケールします。物理状態、センサーデータ、ニューラルネットワーク推論を持つ1,000台のシミュレートされたロボットを実行すると、比較的小さなポリシーネットワークでもかなりのGPUメモリを消費します。
計算パターン
RLHFワークロードは、推論重視のサンプル生成とトレーニング重視のポリシー更新を交互に行います。インフラストラクチャは、動的スケジューリングを備えた共有リソースまたは各フェーズ専用のプールのいずれかを通じて、両方のパターンを効率的に処理する必要があります。
ロボティクストレーニングは、シミュレーションとポリシー更新を同時に実行します。物理計算はニューラルネットワークの順方向パスと逆方向パスとオーバーラップします。GPU利用率パターンは言語モデルトレーニングとは異なり、RLHFサンプル生成のバースト的な推論よりも一貫した負荷があります。
ネットワーク要件
マルチノードRLHFトレーニングには、勾配同期とモデル状態共有のための高帯域幅インターコネクトが必要です。4モデルアーキテクチャは、単一モデルトレーニングと比較して通信オーバーヘッドを倍増させます。
ロボティクス分散トレーニングでは、複数のポリシーが同じシミュレーションで相互作用する場合、共有環境状態のための追加の通信が必要になる場合があります。集中型Criticまたは共有ワールドモデルは、並列シミュレーションインスタンスからの観測の収集を必要とします。
大規模展開
RLインフラストラクチャを大規模に展開する組織は、クラスターアーキテクチャ、リソース割り当て、運用プラクティスに関する決定に直面します。
クラスター設計の考慮事項
RLワークロードは、スケジューリングを簡素化し、混合ハードウェアによるパフォーマンス変動を回避する均質なGPUクラスターから恩恵を受けます。メモリ最適化構成はRLHFのマルチモデル要件に価値があり、計算最適化構成はロボティクスシミュレーションに適しています。
ネットワーク投資は、典型的な推論ワークロードよりもRLにとって重要です。ノード内のNVLinkインターコネクトは、RLHFが必要とするモデル並列通信を加速します。InfiniBandまたは高速Ethernetは、モデルサイズが単一ノード容量を超える場合のマルチノードスケーリングを可能にします。
プロフェッショナルインフラストラクチャ展開
強化学習インフラストラクチャの複雑さは、典型的なAI展開要件を超えています。マルチモデル調整、シミュレーション統合、専門的なネットワーキングは、効率的に解決するために経験豊富なチームを必要とする統合課題を生み出します。
Introlの550人のフィールドエンジニアネットワークは、強化学習システムを含む高度なAIワークロードをサポートするGPUインフラストラクチャ展開を専門としています。[^21] 同社は3年間で9,594%の成長を達成し、2025年Inc. 5000で14位にランクインしており、プロフェッショナルインフラストラクチャサービスに対する企業需要を反映しています。[^22] RL機能を構築する組織は、運用インフラストラクチャへの時間を短縮する展開専門知識から恩恵を受けます。
257のグローバルロケーションにわたるGPU展開の管理により、組織は研究者やアプリケーションが存在する場所にRLインフラストラクチャを配置できます。[^23] Introlは100,000 GPUに達する展開を40,000マイル以上の光ファイバーネットワークインフラストラクチャで処理し、最大規模のRLイニシアチブに匹敵するスケールを提供しています。[^24]
物理インフラストラクチャの品質は、RLトレーニングの安定性に直接影響します。サーマルスロットリング、電力変動、ネットワークの不整合は、デバッグを複雑にするトレーニングの不安定性として現れます。プロフェッショナルな展開により、インフラストラクチャ基盤が信頼性の高いRL実験をサポートすることが保証されます。
RLインフラストラクチャの軌跡
[翻訳のためコンテンツ省略]