2026年世界模型竞赛：LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

Yann LeCun为AMI Labs筹集5亿欧元，DeepMind的Genie 3实时模拟3D世界。2026年，构建理解物理规律的AI的竞赛可能将超越大语言模型。

Blake Crosley

Jan 03, 2026 1 min read Disclaimer

2026年世界模型竞赛：LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

一家尚未发布任何产品的初创公司，估值已达30亿美元。[^1] Yann LeCun的AMI Labs代表了迄今为止对一个多年来令AI研究者意见分歧的论点最大的押注：大语言模型永远无法实现通用智能，而前进的道路在于世界模型。

要点速览

世界模型范式在2025年末和2026年初爆发式进入主流AI开发领域。Yann LeCun在Meta工作12年后离职，创立AMI Labs，以30亿欧元估值融资5亿欧元，旨在构建理解物理规律而非仅仅预测文本的AI系统。[^2] Google DeepMind发布了Genie 3，这是首个能够以24帧每秒生成持久3D环境的实时交互式世界模型。[^3] Fei-Fei Li的World Labs推出了Marble，使世界模型生成实现商业化，定价从免费到95美元/月不等。[^4] NVIDIA的Cosmos平台下载量已达200万次，机器人和自动驾驶开发者纷纷采用合成的物理感知训练数据。[^5] 对于构建AI基础设施的组织而言，世界模型标志着计算范式从文本处理向视频生成、物理模拟和具身推理的转变。

大语言模型的天花板

大语言模型通过规模化取得了显著的能力。GPT-4、Claude和Gemini展示了复杂的推理、代码生成和多步骤问题解决能力。[^6] 然而，一个根本性的局限依然存在：这些模型从文本中学习统计模式，而非对物理现实的理解。[^7]

2024年发表的研究从数学上证明，大语言模型无法学习所有可计算函数，因此在用作通用问题解决器时不可避免地会产生幻觉。[^8] 根本原因在于大语言模型的运作方式：基于从训练数据中学到的模式预测哪些标记跟随在先前标记之后，而没有任何物理现实的基础。[^9]

幻觉问题

大语言模型生成听起来合理但可能描述物理上不可能的场景、历史上不准确的事件或逻辑上不一致的推理的文本。[^10] 与通过具身体验学习重力的人类不同，大语言模型只学到"重力"这个词往往出现在某些其他词附近。[^11]

局限性	原因	后果
事实幻觉	没有经过验证的知识库[^12]	自信地捏造事实
物理推理失败	没有具身体验[^13]	描述不可能的物理现象
因果混淆	模式匹配而非理解[^14]	将相关性当作因果性
时间不连贯	顺序标记预测[^15]	事件顺序不可能

Yann LeCun多年来一直公开主张，扩展大语言模型不会产生通用智能。[^16] "大语言模型的局限性太大了，"LeCun在NVIDIA GTC演讲中表示。"仅仅扩大规模不会让我们达到AGI。"[^17]

他提出的替代方案是：学习物理现实表征的世界模型，能够预测、规划和推理因果关系。[^18]

Yann LeCun的AMI Labs

LeCun于2025年12月离开Meta，结束了12年的工作，其中5年担任Facebook AI Research (FAIR)的创始主任，7年担任首席AI科学家。[^19] 他的新企业Advanced Machine Intelligence (AMI) Labs代表了迄今为止将世界模型研究商业化的最雄心勃勃的尝试。[^20]

融资与架构

AMI Labs在推出任何产品之前就以30亿欧元估值寻求5亿欧元融资。[^21] 这一目标将代表AI历史上最大规模的种子轮融资之一，反映出投资者对LeCun愿景和业绩记录的信心。[^22]

职位	人员	背景
执行主席	Yann LeCun	图灵奖得主，Meta FAIR创始人[^23]
CEO	Alex LeBrun	Nabla（医疗AI）前CEO[^24]

公司计划于2026年1月前在巴黎设立总部。[^25] 虽然Meta不会直接投资AMI Labs，但两家公司计划建立合作伙伴关系，让LeCun能够继续保持研究联系。[^26]

技术愿景

AMI Labs旨在创建理解物理规律、保持持久记忆并规划复杂行动的AI系统，而不仅仅是预测文本序列。[^27] LeCun将世界模型描述为"你对世界如何运作的心智模型"。[^28]

"你可以想象你可能采取的一系列行动，你的世界模型将允许你预测这一系列行动对世界的影响，"LeCun解释道。[^29]

这种方法与大语言模型有本质区别。GPT风格的模型预测下一个词，而世界模型预测给定其中采取的行动后物理环境的下一个状态。[^30] 这实现了：

规划：在采取行动前模拟结果
物理推理：理解物体具有质量、动量和空间关系
因果理解：学习行动产生可预测的后果
持久记忆：跨时间保持一致的世界状态

I-JEPA基础

AMI Labs建立在LeCun在Meta的I-JEPA（Image Joint Embedding Predictive Architecture，图像联合嵌入预测架构）研究基础上。[^31] I-JEPA通过从其他区域预测图像区域的表征来学习，无需显式标签即可发展对视觉场景的抽象理解。[^32]

这种方法类似于人类如何通过观察发展直觉物理。一个孩子观察物体下落会发展出重力的内部模型，而无需任何人解释牛顿定律。[^33] I-JEPA和后续架构旨在在人工系统中复制这一学习过程。[^34]

DeepMind的Genie 3

Google DeepMind于2025年8月发布了Genie 3，代表了首个实时交互式通用世界模型。[^35] 与之前生成静态环境或需要大量处理时间的系统不同，Genie 3以每秒24帧的速度生成可导航的3D世界。[^36]

技术能力

Genie 3从文本提示生成动态环境，在几分钟的实时交互中保持视觉一致性。[^37] 该系统不依赖硬编码的物理引擎；相反，模型通过训练自学世界如何运作。[^38]

能力	规格
帧率	实时24 fps[^39]
分辨率	720p[^40]
一致性持续时间	几分钟[^41]
记忆范围	最长1分钟回溯[^42]
物理	自学习，非硬编码[^43]

"Genie 3是首个实时交互式通用世界模型，"DeepMind研究主管Shlomi Fruchter表示。"它超越了之前存在的狭义世界模型。它不特定于任何特定环境。"[^44]

自回归架构

该模型一次生成一帧，回顾之前生成的内容来决定接下来发生什么。[^45] 实现实时性能需要每秒多次计算这个自回归过程，同时与可能一分钟前的视觉记忆保持一致性。[^46]

物理一致性来自训练而非显式编程。[^47] Genie 3环境保持稳定的物理特性，是因为模型从训练数据中学习了物理规律，而不是因为研究人员手动编码了重力或碰撞检测。[^48]

AGI影响

DeepMind将Genie 3定位为通向通用人工智能的垫脚石。[^49] 该实验室预计，随着AI代理越来越多地与物理环境交互，世界模型技术将发挥关键作用。[^50]

"Genie 3标志着向通用人工智能迈出的重大一步，它使AI代理能够'体验'、与丰富模拟的世界交互并从中学习，而无需手动创建内容，"DeepMind的公告称。[^51]

当前局限

Genie 3仍处于有限的研究预览阶段，而非公开发布。[^52] 已知的限制包括：

代理交互的动作空间有限
几分钟后一致性崩溃
真实世界地理准确性不完整
建模复杂多代理交互存在挑战

DeepMind继续向选定的学者和创作者扩大测试访问。[^53]

Fei-Fei Li的World Labs和Marble

由AI先驱Fei-Fei Li创立的World Labs于2025年11月推出Marble，作为首个商业可用的世界模型产品。[^54] 这家初创公司在Marble推出前一年多以2.3亿美元融资走出隐秘模式。[^55]

产品架构

Marble从文本提示、照片、视频、3D布局或全景图像生成持久、可下载的3D环境。[^56] 与在探索过程中即时生成世界的竞争对手不同，Marble生成用户可以编辑和导出的离散环境。[^57]

输入类型	输出
文本提示	3D环境
照片	3D环境
视频	3D环境
3D布局	AI增强的3D环境
全景图	3D环境

该平台提供AI原生编辑工具和混合3D编辑器，支持在AI填充视觉细节之前阻塞空间结构。[^58] 文件以与Unreal Engine和Unity等行业标准工具兼容的格式导出。[^59]

定价模式

World Labs采用面向创意专业人士的免费增值模式：[^60]

等级	价格	生成次数	功能
免费	$0	4次/月	基础生成
标准	$20/月	12次/月	标准功能
专业	$35/月	25次/月	商业权利
旗舰	$95/月	75次/月	高级功能

目标应用

初期用例聚焦于游戏、电影视觉特效和虚拟现实。[^61] Marble支持Vision Pro和Quest 3 VR头显，每个生成的世界都可以在VR中查看。[^62]

Fei-Fei Li将Marble定位为"创建真正具有空间智能的世界模型的第一步"。[^63] 除了创意应用外，该技术还能通过模拟环境实现机器人训练，而在物理现实中创建这些环境可能成本高昂或存在危险。[^64]

NVIDIA Cosmos：工业级世界模型

NVIDIA在CES 2025上推出Cosmos作为物理AI开发平台，专门针对自动驾驶汽车和机器人。[^65] 到2026年1月，Cosmos世界基础模型的下载量已超过200万次。[^66]

平台架构

Cosmos包含生成式世界基础模型、高级分词器、护栏和加速视频处理管道。[^67] 这些模型预测和生成未来环境状态的物理感知视频，能够大规模生成合成训练数据。[^68]

模型层级	优化方向	用例
Nano	实时、边缘部署[^69]	设备端推理
Super	高性能基准[^70]	通用开发
Ultra	最高质量和保真度[^71]	自定义模型蒸馏

该平台在9000万亿个标记上进行训练，数据来自2000万小时的真实世界数据，涵盖人类交互、环境、工业场景、机器人和驾驶场景。[^72]

行业采用

领先的机器人和汽车公司采用Cosmos进行合成数据生成：[^73]

公司	领域
1X	人形机器人
Agility	双足机器人
Figure AI	人形机器人
Waabi	自动驾驶卡车
XPENG	电动汽车
Uber	共享出行自动驾驶

Cosmos模型类型

三种模型类型满足不同的物理AI开发需求：[^74]

Cosmos-Predict：以视频形式模拟和预测未来世界状态 **Co

[内容因翻译需要而截断]

2026年世界模型竞赛：LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

要点速览

大语言模型的天花板

幻觉问题

Yann LeCun的AMI Labs

融资与架构

技术愿景

I-JEPA基础

DeepMind的Genie 3

技术能力

自回归架构

AGI影响

当前局限

Fei-Fei Li的World Labs和Marble

产品架构

定价模式

目标应用

NVIDIA Cosmos：工业级世界模型

平台架构

行业采用

Cosmos模型类型

You Might Also Like

数据中心AIOps：使用大语言模型管理AI基础设施

AI 推理的负载均衡：在 1000+ GPU 上分发请求

面向AI的分解式计算：可组合基础设施架构

申请报价_

请求已收到_