ワールドモデル競争2026:LeCun、DeepMind、World LabsがAGIへの道を再定義する
製品を1つもリリースしていないスタートアップに対して、ローンチ前評価額30億ドル。[^1] Yann LeCunのAMI Labsは、AI研究者を何年も分断してきた仮説への最大の賭けを象徴している:大規模言語モデルは決して汎用知能を達成できず、前進の道はワールドモデルを通るというものだ。
要約
ワールドモデルのパラダイムは2025年後半から2026年初頭にかけて、主流のAI開発へと爆発的に広がった。Yann LeCunは12年間在籍したMetaを離れ、AMI Labsを立ち上げた。同社はテキスト予測だけでなく物理を理解するAIシステム構築のため、30億ユーロの評価額で5億ユーロを調達した。[^2] Google DeepMindは、24fpsで持続的な3D環境を生成できる初のリアルタイムインタラクティブワールドモデル、Genie 3をリリースした。[^3] Fei-Fei LiのWorld LabsはMarbleをローンチし、無料から月額95ドルの価格帯でワールドモデル生成を商用化した。[^4] NVIDIAのCosmosプラットフォームは、ロボティクスおよび自動運転車開発者が物理認識型の合成トレーニングデータを採用する中、200万ダウンロードを達成した。[^5] AIインフラを構築する組織にとって、ワールドモデルはテキスト処理から動画生成、物理シミュレーション、身体化された推論への計算シフトを示唆している。
LLMの限界
大規模言語モデルはスケールによって驚くべき能力を達成した。GPT-4、Claude、Geminiは高度な推論、コード生成、複数ステップの問題解決を実証している。[^6] しかし、根本的な制限が残っている:これらのモデルは物理的現実の理解ではなく、テキストからの統計パターンを学習するのだ。[^7]
2024年に発表された研究は、LLMがすべての計算可能な関数を学習できないこと、したがって汎用問題解決器として使用される場合、必然的にハルシネーションを起こすことを数学的に証明した。[^8] 根本原因はLLMの動作方法にある:物理的現実に根ざすことなく、トレーニングデータから学習したパターンに基づいて、どのトークンが前のトークンに続くかを予測するのだ。[^9]
ハルシネーション問題
LLMは物理的に不可能なシナリオ、歴史的に不正確な出来事、または論理的に矛盾した推論を記述する、もっともらしく聞こえるテキストを生成する。[^10] 身体化された経験を通じて重力について学ぶ人間とは異なり、LLMは「重力」という単語が特定の他の単語の近くに現れる傾向があることだけを学習する。[^11]
| 制限 | 原因 | 結果 |
|---|---|---|
| 事実のハルシネーション | 検証された知識ベースがない[^12] | 自信を持った事実の捏造 |
| 物理的推論の失敗 | 身体化された経験がない[^13] | 不可能な物理を記述 |
| 因果関係の混乱 | パターンマッチング、理解ではない[^14] | 相関を因果として扱う |
| 時間的非一貫性 | 逐次的トークン予測[^15] | 不可能な順序での出来事 |
Yann LeCunは何年もの間、LLMをスケールアップしても汎用知能は生まれないと公に主張してきた。[^16]「LLMは制限が大きすぎる」とLeCunはNVIDIA GTCプレゼンテーションで述べた。「スケールアップしてもAGIには到達できない。」[^17]
彼が提案する代替案:物理的現実の表現を学習し、因果関係についての予測、計画、推論を可能にするワールドモデルだ。[^18]
Yann LeCunのAMI Labs
LeCunは2025年12月、12年間在籍したMetaを離れた。Facebook AI Research(FAIR)の創設ディレクターとしての5年間と、チーフAIサイエンティストとしての7年間だ。[^19] 彼の新しいベンチャー、Advanced Machine Intelligence(AMI)Labsは、ワールドモデル研究を商用化する最も野心的な試みを代表している。[^20]
資金調達と組織構造
AMI Labsは製品をローンチする前に、30億ユーロの評価額で5億ユーロを求める資金調達交渉に入った。[^21] この目標は、LeCunのビジョンと実績に対する投資家の信頼を反映し、AI史上最大のローンチ前調達の1つとなる。[^22]
| 役職 | 人物 | 経歴 |
|---|---|---|
| 会長 | Yann LeCun | チューリング賞受賞者、Meta FAIR創設者[^23] |
| CEO | Alex LeBrun | Nabla(医療AI)元CEO[^24] |
同社は2026年1月までにパリに本社を設立する計画だ。[^25] MetaはAMI Labsに直接投資しないが、両社はLeCunが研究上のつながりを継続できるパートナーシップを締結する予定だ。[^26]
技術的ビジョン
AMI Labsは、単にテキストシーケンスを予測するのではなく、物理を理解し、持続的な記憶を維持し、複雑なアクションを計画するAIシステムの構築を目指している。[^27] LeCunはワールドモデルを「世界がどのように振る舞うかについてのあなたのメンタルモデル」と説明する。[^28]
「あなたが取るかもしれない一連のアクションを想像することができ、あなたのワールドモデルは一連のアクションが世界に与える影響を予測することを可能にする」とLeCunは説明した。[^29]
このアプローチはLLMとは根本的に異なる。GPTスタイルのモデルが次の単語を予測するのに対し、ワールドモデルはその中で取られたアクションに基づいて物理環境の次の状態を予測する。[^30] これにより以下が可能になる:
- 計画: アクションを取る前に結果をシミュレーション
- 物理についての推論: 物体が質量、運動量、空間的関係を持つことを理解
- 因果関係の理解: アクションが予測可能な結果を生むことを学習
- 持続的記憶: 時間を通じて一貫した世界の状態を維持
I-JEPAの基盤
AMI LabsはMetaでのLeCunのI-JEPA(Image Joint Embedding Predictive Architecture)研究を基盤としている。[^31] I-JEPAは他の領域から画像領域の表現を予測することで学習し、明示的なラベルを必要とせずに視覚シーンの抽象的な理解を発達させる。[^32]
このアプローチは、人間が観察を通じて直観的な物理を発達させる方法に類似している。物体が落ちるのを見る子供は、誰もニュートンの法則を説明しなくても、重力の内部モデルを発達させる。[^33] I-JEPAと後続のアーキテクチャは、この学習プロセスを人工システムで再現することを目指している。[^34]
DeepMindのGenie 3
Google DeepMindは2025年8月にGenie 3をリリースした。これは初のリアルタイムインタラクティブ汎用ワールドモデルを代表するものだ。[^35] 静的な環境を生成したり、かなりの処理時間を必要とした以前のシステムとは異なり、Genie 3は毎秒24フレームでナビゲート可能な3D世界を生成する。[^36]
技術的能力
Genie 3はテキストプロンプトから動的な環境を生成し、数分間のリアルタイムインタラクションで視覚的一貫性を維持する。[^37] このシステムはハードコードされた物理エンジンに依存していない。代わりに、モデルがトレーニングを通じて世界がどのように機能するかを自ら学習する。[^38]
| 能力 | 仕様 |
|---|---|
| フレームレート | 24fps リアルタイム[^39] |
| 解像度 | 720p[^40] |
| 一貫性の持続時間 | 数分間[^41] |
| メモリ範囲 | 最大1分の振り返り[^42] |
| 物理 | 自己学習、ハードコードではない[^43] |
「Genie 3は初のリアルタイムインタラクティブ汎用ワールドモデルです」とDeepMindのリサーチディレクター、Shlomi Fruchterは述べた。「以前存在した狭いワールドモデルを超えています。特定の環境に限定されていません。」[^44]
自己回帰アーキテクチャ
モデルは一度に1フレームを生成し、以前に生成されたコンテンツを振り返って次に何が起こるかを決定する。[^45] リアルタイムパフォーマンスを達成するには、潜在的に1分前の視覚メモリとの一貫性を維持しながら、この自己回帰プロセスを毎秒複数回計算する必要がある。[^46]
物理的一貫性は明示的なプログラミングではなくトレーニングから生まれる。[^47] Genie 3の環境が安定した物理を維持するのは、研究者が重力や衝突検出を手動でエンコードしたからではなく、モデルがトレーニングデータから物理的規則性を学習したからだ。[^48]
AGIへの影響
DeepMindはGenie 3を人工汎用知能への足がかりとして位置づけている。[^49] 同研究所は、AIエージェントが物理環境とより多くやり取りするにつれて、ワールドモデル技術が重要な役割を果たすと予想している。[^50]
「Genie 3は、AIエージェントが手動でコンテンツを作成することなく、豊かにシミュレートされた世界を『体験』し、相互作用し、学習できるようにすることで、人工汎用知能への大きな飛躍を示します」とDeepMindの発表は述べている。[^51]
現在の制限
Genie 3は一般公開ではなく、限定的な研究プレビューの段階にある。[^52] 既知の制約には以下が含まれる:
- エージェントインタラクションのための限られたアクション空間
- 数分後の一貫性の崩壊
- 不完全な現実世界の地理的正確性
- 複雑なマルチエージェントインタラクションのモデリングの課題
DeepMindは選ばれた学者やクリエイターへのテストアクセスを拡大し続けている。[^53]
Fei-Fei LiのWorld LabsとMarble
AIの先駆者Fei-Fei Liによって設立されたWorld Labsは、2025年11月に最初の商用利用可能なワールドモデル製品としてMarbleをローンチした。[^54] このスタートアップはMarbleローンチの1年強前に、2億3000万ドルの資金調達を得てステルスから姿を現した。[^55]
製品アーキテクチャ
Marbleはテキストプロンプト、写真、動画、3Dレイアウト、またはパノラマ画像から、持続的でダウンロード可能な3D環境を生成する。[^56] 探索中にオンザフライで世界を生成する競合他社とは異なり、Marbleはユーザーが編集してエクスポートできる個別の環境を生成する。[^57]
| 入力タイプ | 出力 |
|---|---|
| テキストプロンプト | 3D環境 |
| 写真 | 3D環境 |
| 動画 | 3D環境 |
| 3Dレイアウト | AI強化3D環境 |
| パノラマ | 3D環境 |
プラットフォームはAIネイティブの編集ツールと、AIが視覚的詳細を埋める前に空間構造をブロックできるハイブリッド3Dエディタを提供する。[^58] ファイルはUnreal EngineやUnityなどの業界標準ツールと互換性のあるフォーマットでエクスポートされる。[^59]
価格モデル
World Labsはクリエイティブプロフェッショナルをターゲットとしたフリーミアム構造を採用した:[^60]
| ティア | 価格 | 生成数 | 機能 |
|---|---|---|---|
| 無料 | $0 | 4/月 | 基本生成 |
| スタンダード | $20/月 | 12/月 | 標準機能 |
| プロ | $35/月 | 25/月 | 商用権利 |
| マックス | $95/月 | 75/月 | プレミアム機能 |
ターゲットアプリケーション
初期のユースケースはゲーム、映画のビジュアルエフェクト、バーチャルリアリティに焦点を当てている。[^61] MarbleはVision ProとQuest 3 VRヘッドセットをサポートし、生成されたすべての世界がVRで閲覧可能だ。[^62]
Fei-Fei LiはMarbleを「真に空間的にインテリジェントなワールドモデルを作成するための最初のステップ」と位置づけている。[^63] クリエイティブなアプリケーションを超えて、この技術は物理的現実で作成するには高価または危険なシミュレーション環境を通じてロボティクストレーニングを可能にする。[^64]
NVIDIA Cosmos:産業規模のワールドモデル
NVIDIAはCES 2025で、特に自動運転車とロボティクスをターゲットとした物理AIの開発プラットフォームとしてCosmosをローンチした。[^65] 2026年1月までに、Cosmosワールドファンデーションモデルは200万回以上ダウンロードされた。[^66]
プラットフォームアーキテクチャ
Cosmosは生成型ワールドファンデーションモデル、高度なトークナイザー、ガードレール、および高速化されたビデオ処理パイプラインで構成される。[^67] モデルは将来の環境状態の物理認識型ビデオを予測・生成し、大規模な合成トレーニングデータ生成を可能にする。[^68]
| モデルティア | 最適化 | ユースケース |
|---|---|---|
| Nano | リアルタイム、エッジデプロイ[^69] | オンデバイス推論 |
| Super | 高性能ベースライン[^70] | 一般開発 |
| Ultra | 最高品質と忠実度[^71] | カスタムモデル蒸留 |
プラットフォームは人間のインタラクション、環境、産業設定、ロボティクス、運転シナリオにまたがる2000万時間の現実世界データから9000兆トークンでトレーニングされた。[^72]
産業採用
大手ロボティクスおよび自動車企業が合成データ生成のためにCosmosを採用した:[^73]
| 企業 | ドメイン |
|---|---|
| 1X | ヒューマノイドロボット |
| Agility | 二足歩行ロボット |
| Figure AI | ヒューマノイドロボット |
| Waabi | 自動運転トラック |
| XPENG | 電気自動車 |
| Uber | ライドシェア自動運転 |
Cosmosモデルタイプ
3つのモデルタイプが異なる物理AI開発ニーズに対応する:[^74]
Cosmos-Predict: 将来の世界状態をビデオ形式でシミュレート・予測 **Co
[翻訳のため内容を省略]