身体性AIインフラストラクチャ:ロボティクスとフィジカルAIのGPU要件
2025年12月11日更新
2025年12月アップデート: NVIDIA Isaac SimがAWS EC2 G6e(L40S GPU)で稼働を開始し、シミュレーションスケーリングが2倍に向上。ドイツで製造業向けに10,000基のDGX B200 GPUを搭載した産業用AIファクトリーが立ち上げ予定。フィジカルAIは自動運転車、産業用マニピュレータ、ヒューマノイド、ロボット運営工場を包含し、マルチモーダルセンサートレーニング、複雑な物理シミュレーション、リアルタイムエッジデプロイメントを必要とする。
NVIDIA Isaac SimがAmazon EC2 G6eインスタンスのL40S GPUクラウドインスタンスで稼働を開始し、ロボティクスシミュレーションのスケーリングとAIモデルトレーニングの高速化に2倍のブーストを提供している。[^1] このデプロイメントオプションは、クラウドインフラストラクチャが身体性AI開発に必要な大規模コンピュート要件へのアクセスを拡大する方法を例示している。ドイツで計画中の産業用AIファクトリーは、10,000基のGPUから始まるNVIDIA DGX B200およびRTX PROサーバーを搭載し、欧州の産業リーダーがエンジニアリングシミュレーションから工場デジタルツイン、ロボティクスまでの製造アプリケーションを加速できるようにする。[^2]
フィジカルAIとは、物理世界を理解し相互作用するAIモデルを指し、自動運転車、産業用マニピュレータ、モバイルロボット、ヒューマノイド、工場や倉庫などのロボット運営インフラストラクチャを含む次世代の自律マシンを具現化する。[^3] インフラストラクチャ要件は言語モデルや画像生成とは根本的に異なる:身体性AIシステムは多様なセンサーモダリティでトレーニングし、複雑な物理をシミュレートし、物理的制約の下でリアルタイム動作するエッジデバイスにデプロイする必要がある。
3コンピュータアーキテクチャ
NVIDIAのロボティクスインフラストラクチャへのアプローチは、異なる要件に最適化された3つのコンピューティングプラットフォームにワークロードを分離している。
モデルトレーニング用DGX
NVIDIA DGXシステムは、ロボット向けマルチモーダル基盤モデルのトレーニングに理想的なソフトウェアとインフラストラクチャを組み合わせている。[^4] ロボティクスモデルは、カメラ画像、LiDAR点群、関節エンコーダ読み取り値、力覚トルク測定など多様なデータタイプを取り込む。トレーニングインフラストラクチャは、モデルアーキテクチャの反復に必要なスループットを維持しながら、異種データを大規模に処理する必要がある。
ロボティクス向け基盤モデルは、実世界データとシミュレーションからの合成データの両方でトレーニングする必要がある。高次元のセンサー入力と長い軌道にわたる時間的相関により、データ量は典型的な言語モデルトレーニングを超える。DGXシステムは、大規模マルチモーダルトレーニングが要求するインターコネクト帯域幅とメモリ容量を提供する。
ビジョンおよび言語基盤モデルからの転移学習は、ロボティクスモデル開発を加速する。インターネットスケールの画像とテキストデータでトレーニングされたモデルは、ロボット知覚と推論に転移する表現を提供する。トレーニングインフラストラクチャは、これらの大規模ベースモデルをロボティクス固有のデータでファインチューニングすることをサポートする。
シミュレーション用OVX
OVXシステムは、シミュレーションワークロード向けに業界最高水準のグラフィックスとコンピュート性能を提供する。[^4] フォトリアリスティックレンダリングは、実際のカメラ画像と区別できない合成トレーニングデータを生成する。物理シミュレーションは、物理的現実に一致するセンサー読み取り値とロボット動作を生成する。
Isaac Labは、高忠実度GPUパラレル物理、フォトリアリスティックレンダリング、環境設計とロボットポリシーのトレーニングのためのモジュラーアーキテクチャを組み合わせている。[^5] このフレームワークは、アクチュエータモデル、多周波センサーシミュレーション、データ収集パイプライン、ドメインランダマイゼーションツールを統合している。シミュレーション忠実度は、トレーニングされたポリシーが物理ロボットにどれだけうまく転移するかを決定する。
大規模並列処理によりシミュレーションスループットが加速する。GPU加速物理により、多様なシナリオで同時にトレーニングする数千のロボットインスタンスが可能になる。この並列性により、数週間の実世界データ収集が数時間のシミュレーション経験に変換される。
デプロイメント用AGX
NVIDIA Jetsonを含むAGXシステムは、ロボティクスデプロイメントに優れた性能とエネルギー効率を提供する。[^4] エッジデプロイメントでは、バッテリー駆動ロボットが提供する電力予算内でセンサーレートの推論が必要となる。コンピュートプラットフォームは、洗練されたモデルを実行しながら物理的制約に適合する必要がある。
Jetson Orinは、モバイルロボットやマニピュレータに適したフォームファクタで最大275 TOPSのAI性能を提供する。このプラットフォームは、DGXおよびOVXシステムで開発された同じCUDAコードを実行し、開発ライフサイクル全体で一貫したツーリングを可能にする。
デプロイメントインフラストラクチャは、トレーニングインフラストラクチャが無視するリアルタイム要件を処理する必要がある。100Hz以上で動作する制御ループは、推論に数ミリ秒しか残さない。エッジプラットフォームは、開発システムが平均でのみ達成するレイテンシ境界を保証する必要がある。
シミュレーションインフラストラクチャ要件
シミュレーションインフラストラクチャは、チームがモデルアーキテクチャとトレーニングアプローチをどれだけ速く反復できるかを制御することで、身体性AI開発速度を決定する。
物理シミュレーションスケーリング
Isaac Labは、GPU加速NVIDIA PhysX物理とRTXレンダリングを使用したNVIDIA Isaac Simとネイティブ統合し、高忠実度検証を実現している。[^5] 物理シミュレーション精度は、sim-to-real転移の成功を決定する。より高速にトレーニングする簡略化された物理は、物理ハードウェアで失敗するポリシーを生成する可能性がある。
接触動力学シミュレーションは、マニピュレーションタスクで特別な注意を必要とする。物体を把持するロボットは、簡略化された物理が不十分に近似する複雑な接触力を経験する。高忠実度接触シミュレーションはコンピュート要件を増加させるが、物理的把持への転移を改善する。
GPUクラスタ全体での並列シミュレーションは、数千の環境インスタンスを同時に実行することでトレーニングを加速する。各環境はポリシー学習のための独立した経験を提供する。この並列性には、シミュレートされた環境全体での分散トレーニングをサポートするインフラストラクチャが必要である。
レンダリング要件
フォトリアリスティックレンダリングは、実際のセンサー特性に一致するカメラおよび深度センサーデータを生成する。ドメインランダマイゼーションは、照明、テクスチャ、シーン構成を変化させてポリシーの汎化を改善する。レンダリングパイプラインは、多様な視覚観測を生成しながらスループットを維持する必要がある。
RTXレイトレーシングは、反射、影、グローバルイルミネーションを含む正確な照明シミュレーションを可能にする。産業環境で動作するロボットは、窓、オーバーヘッド照明、反射面からの複雑な照明に遭遇する。正確な照明でのトレーニングは、実際の施設でのデプロイメント性能を向上させる。
センサーノイズシミュレーションは、レンダリングされた画像と点群にリアルな劣化を追加する。実際のセンサーは、完璧なシミュレーションが省略するノイズ、ブラー、アーティファクトを示す。クリーンなシミュレーションデータでトレーニングされたポリシーは、ノイズの多い実際のセンサーデータに直面すると失敗する可能性がある。
データパイプラインアーキテクチャ
シミュレーションは、トレーニングのための効率的な保存と取得を必要とする膨大なデータ量を生成する。単一のシミュレーションキャンペーンで、軌道、観測、報酬のペタバイトを生成する可能性がある。データパイプラインアーキテクチャは、コンピュートインフラストラクチャが完全に活用されるか、データ待ちで飢餓状態になるかを決定する。
LustreやGPFSなどの並列ファイルシステムは、シミュレーションおよびトレーニングクラスタが必要とする帯域幅を提供する。十分な総帯域幅を持つネットワーク接続ストレージは、トレーニング消費に一致するレートでGPUクラスタにデータを供給する。ストレージの過少プロビジョニングは、高価なGPUコンピュートが克服できないボトルネックを作成する。
データバージョニングは、シミュレーション構成、環境パラメータ、生成されたデータセットを追跡する。再現性には、どのシミュレーションがどのトレーニングデータを生成したかを正確に再構築する必要がある。シミュレーション構成のバージョン管理は、実験追跡におけるモデルバージョニングを補完する。
実世界データインフラストラクチャ
シミュレーションだけではデプロイ可能なロボットをトレーニングすることはできない。実世界データは、シミュレーションが不完全に近似する物理現象を捕捉する。
ロボットフリート管理
物理ロボットフリートは、テレオペレーション、自律運転、人間のデモンストレーションを通じてトレーニングデータを生成する。フリート管理インフラストラクチャは、多様な環境で動作する複数のロボット間でデータ収集を調整する。オーケストレーションは、ロボットが遭遇するシナリオの包括的なカバレッジを確保する。
物理ロボットからのデータ収集には、すべてのセンサーモダリティを完全な時間解像度で捕捉する堅牢なロギングが必要である。欠落データは、シミュレーションが埋める必要があるトレーニングセットのギャップを作成する。信頼性の高いロギングインフラストラクチャは、不完全なデータに適用される洗練された収集手順よりも価値がある。
安全監視は、データ収集中のロボット、環境、近くの人間を保護する。物理空間で動作する身体性AIシステムは、純粋にデジタルなAIシステムでは不可能な損害を引き起こす可能性がある。安全インフラストラクチャは複雑さを追加するが、トレーニングが必要とする積極的な探索を可能にする。
アノテーションインフラストラクチャ
教師あり学習には、人間のアノテーターまたは自動システムが提供するラベルが必要である。アノテーションインフラストラクチャは、データ収集レートに一致するようにラベル生成をスケールする。アノテーションのボトルネックは、生データ量に関係なく有用なトレーニングデータを制限する。
セマンティックセグメンテーション、物体検出、姿勢推定ラベルは、知覚モデルトレーニングをサポートする。大規模な手動アノテーションには、分散ワークフォース管理と品質管理が必要である。モデル予測と人間検証を組み合わせた半自動アノテーションはスループットを向上させる。
模倣学習の軌道ラベリングは、模倣する価値のある成功したデモンストレーションを識別する。品質評価は、ポリシーが避けるべき失敗から専門家のデモンストレーションを区別する。ラベリングインフラストラクチャは、バイナリの成功/失敗分類を超えたニュアンスを捕捉する必要がある。
マルチサイトデータ集約
複数の施設でロボットを運用する組織は、トレーニングのためにデータを中央に集約する。ネットワークインフラストラクチャは、エッジロケーションから中央クラスタへの大規模データ転送をサポートする必要がある。転送スケジューリングは、運用時間中のネットワーク競合を回避する。
データガバナンス要件により、ロボティクスデータがどこに流れることができるかが制限される場合がある。施設レイアウト、人間の作業者、または独自のプロセスを捕捉するセンサーデータは、テキストデータが回避する制御に直面する。コンプライアンスインフラストラクチャは、データ処理が組織および規制要件を満たすことを保証する。
連合学習アプローチは、生データを中央集約せずにモデルをトレーニングする。エッジロケーションは観測ではなく勾配更新を提供する。このアーキテクチャは、分散ロボットフリート全体での学習を可能にしながら、データガバナンスの懸念に対処する。
デプロイメントインフラストラクチャ
デプロイメントインフラストラクチャは、トレーニングされたモデルを本番環境で動作する物理ロボットに接続する。
エッジコンピュートプロビジョニング
エッジコンピュートプラットフォームは、必要な推論性能を提供しながら、ロボットのフォームファクタと電力予算に一致する必要がある。バッテリーを搭載したモバイルロボットは、データセンターGPUカードをデプロイできない。プラットフォーム選択は、デプロイメントで達成可能なモデルの複雑さを制約する。
SiemensのIndustrial Copilot for Operationsは、NVIDIA RTX PRO 6000 Blackwell Server Edition GPUでオンプレミス実行され、洗練されたAI機能の産業デプロイメントを実証している。[^2] 産業設定は、多くの場合モバイルロボットよりも実質的なコンピュートインフラストラクチャを許可し、より高性能なモデルを可能にする。
オーバーザエアアップデートインフラストラクチャは、物理アクセスなしにロボットフリートに新しいモデルをデプロイする。安全なアップデート手順は、デプロイメントプロセスを通じてロボットが動作可能な状態を維持することを保証する。ロールバック機能は、運用に影響を与える前に問題のあるアップデートを元に戻す。
リアルタイムシステム統合
ロボティクス制御システムは、AI推論が満たす必要があるリアルタイム制約を課す。制御ループは、センサー処理と推論が固定時間境界内で完了することを期待する。デッドラインを逃すと、単なる性能低下ではなく制御不安定性が発生する。
RTOS(リアルタイムオペレーティングシステム)統合
[翻訳のため内容を省略]