2026年世界模型竞赛:LeCun、DeepMind和World Labs如何重新定义通向AGI的道路
一家尚未发布任何产品的初创公司,估值已达30亿美元。[^1] Yann LeCun的AMI Labs代表了迄今为止对一个多年来令AI研究者意见分歧的论点最大的押注:大语言模型永远无法实现通用智能,而前进的道路在于世界模型。
要点速览
世界模型范式在2025年末和2026年初爆发式进入主流AI开发领域。Yann LeCun在Meta工作12年后离职,创立AMI Labs,以30亿欧元估值融资5亿欧元,旨在构建理解物理规律而非仅仅预测文本的AI系统。[^2] Google DeepMind发布了Genie 3,这是首个能够以24帧每秒生成持久3D环境的实时交互式世界模型。[^3] Fei-Fei Li的World Labs推出了Marble,使世界模型生成实现商业化,定价从免费到95美元/月不等。[^4] NVIDIA的Cosmos平台下载量已达200万次,机器人和自动驾驶开发者纷纷采用合成的物理感知训练数据。[^5] 对于构建AI基础设施的组织而言,世界模型标志着计算范式从文本处理向视频生成、物理模拟和具身推理的转变。
大语言模型的天花板
大语言模型通过规模化取得了显著的能力。GPT-4、Claude和Gemini展示了复杂的推理、代码生成和多步骤问题解决能力。[^6] 然而,一个根本性的局限依然存在:这些模型从文本中学习统计模式,而非对物理现实的理解。[^7]
2024年发表的研究从数学上证明,大语言模型无法学习所有可计算函数,因此在用作通用问题解决器时不可避免地会产生幻觉。[^8] 根本原因在于大语言模型的运作方式:基于从训练数据中学到的模式预测哪些标记跟随在先前标记之后,而没有任何物理现实的基础。[^9]
幻觉问题
大语言模型生成听起来合理但可能描述物理上不可能的场景、历史上不准确的事件或逻辑上不一致的推理的文本。[^10] 与通过具身体验学习重力的人类不同,大语言模型只学到"重力"这个词往往出现在某些其他词附近。[^11]
| 局限性 | 原因 | 后果 |
|---|---|---|
| 事实幻觉 | 没有经过验证的知识库[^12] | 自信地捏造事实 |
| 物理推理失败 | 没有具身体验[^13] | 描述不可能的物理现象 |
| 因果混淆 | 模式匹配而非理解[^14] | 将相关性当作因果性 |
| 时间不连贯 | 顺序标记预测[^15] | 事件顺序不可能 |
Yann LeCun多年来一直公开主张,扩展大语言模型不会产生通用智能。[^16] "大语言模型的局限性太大了,"LeCun在NVIDIA GTC演讲中表示。"仅仅扩大规模不会让我们达到AGI。"[^17]
他提出的替代方案是:学习物理现实表征的世界模型,能够预测、规划和推理因果关系。[^18]
Yann LeCun的AMI Labs
LeCun于2025年12月离开Meta,结束了12年的工作,其中5年担任Facebook AI Research (FAIR)的创始主任,7年担任首席AI科学家。[^19] 他的新企业Advanced Machine Intelligence (AMI) Labs代表了迄今为止将世界模型研究商业化的最雄心勃勃的尝试。[^20]
融资与架构
AMI Labs在推出任何产品之前就以30亿欧元估值寻求5亿欧元融资。[^21] 这一目标将代表AI历史上最大规模的种子轮融资之一,反映出投资者对LeCun愿景和业绩记录的信心。[^22]
| 职位 | 人员 | 背景 |
|---|---|---|
| 执行主席 | Yann LeCun | 图灵奖得主,Meta FAIR创始人[^23] |
| CEO | Alex LeBrun | Nabla(医疗AI)前CEO[^24] |
公司计划于2026年1月前在巴黎设立总部。[^25] 虽然Meta不会直接投资AMI Labs,但两家公司计划建立合作伙伴关系,让LeCun能够继续保持研究联系。[^26]
技术愿景
AMI Labs旨在创建理解物理规律、保持持久记忆并规划复杂行动的AI系统,而不仅仅是预测文本序列。[^27] LeCun将世界模型描述为"你对世界如何运作的心智模型"。[^28]
"你可以想象你可能采取的一系列行动,你的世界模型将允许你预测这一系列行动对世界的影响,"LeCun解释道。[^29]
这种方法与大语言模型有本质区别。GPT风格的模型预测下一个词,而世界模型预测给定其中采取的行动后物理环境的下一个状态。[^30] 这实现了:
- 规划:在采取行动前模拟结果
- 物理推理:理解物体具有质量、动量和空间关系
- 因果理解:学习行动产生可预测的后果
- 持久记忆:跨时间保持一致的世界状态
I-JEPA基础
AMI Labs建立在LeCun在Meta的I-JEPA(Image Joint Embedding Predictive Architecture,图像联合嵌入预测架构)研究基础上。[^31] I-JEPA通过从其他区域预测图像区域的表征来学习,无需显式标签即可发展对视觉场景的抽象理解。[^32]
这种方法类似于人类如何通过观察发展直觉物理。一个孩子观察物体下落会发展出重力的内部模型,而无需任何人解释牛顿定律。[^33] I-JEPA和后续架构旨在在人工系统中复制这一学习过程。[^34]
DeepMind的Genie 3
Google DeepMind于2025年8月发布了Genie 3,代表了首个实时交互式通用世界模型。[^35] 与之前生成静态环境或需要大量处理时间的系统不同,Genie 3以每秒24帧的速度生成可导航的3D世界。[^36]
技术能力
Genie 3从文本提示生成动态环境,在几分钟的实时交互中保持视觉一致性。[^37] 该系统不依赖硬编码的物理引擎;相反,模型通过训练自学世界如何运作。[^38]
| 能力 | 规格 |
|---|---|
| 帧率 | 实时24 fps[^39] |
| 分辨率 | 720p[^40] |
| 一致性持续时间 | 几分钟[^41] |
| 记忆范围 | 最长1分钟回溯[^42] |
| 物理 | 自学习,非硬编码[^43] |
"Genie 3是首个实时交互式通用世界模型,"DeepMind研究主管Shlomi Fruchter表示。"它超越了之前存在的狭义世界模型。它不特定于任何特定环境。"[^44]
自回归架构
该模型一次生成一帧,回顾之前生成的内容来决定接下来发生什么。[^45] 实现实时性能需要每秒多次计算这个自回归过程,同时与可能一分钟前的视觉记忆保持一致性。[^46]
物理一致性来自训练而非显式编程。[^47] Genie 3环境保持稳定的物理特性,是因为模型从训练数据中学习了物理规律,而不是因为研究人员手动编码了重力或碰撞检测。[^48]
AGI影响
DeepMind将Genie 3定位为通向通用人工智能的垫脚石。[^49] 该实验室预计,随着AI代理越来越多地与物理环境交互,世界模型技术将发挥关键作用。[^50]
"Genie 3标志着向通用人工智能迈出的重大一步,它使AI代理能够'体验'、与丰富模拟的世界交互并从中学习,而无需手动创建内容,"DeepMind的公告称。[^51]
当前局限
Genie 3仍处于有限的研究预览阶段,而非公开发布。[^52] 已知的限制包括:
- 代理交互的动作空间有限
- 几分钟后一致性崩溃
- 真实世界地理准确性不完整
- 建模复杂多代理交互存在挑战
DeepMind继续向选定的学者和创作者扩大测试访问。[^53]
Fei-Fei Li的World Labs和Marble
由AI先驱Fei-Fei Li创立的World Labs于2025年11月推出Marble,作为首个商业可用的世界模型产品。[^54] 这家初创公司在Marble推出前一年多以2.3亿美元融资走出隐秘模式。[^55]
产品架构
Marble从文本提示、照片、视频、3D布局或全景图像生成持久、可下载的3D环境。[^56] 与在探索过程中即时生成世界的竞争对手不同,Marble生成用户可以编辑和导出的离散环境。[^57]
| 输入类型 | 输出 |
|---|---|
| 文本提示 | 3D环境 |
| 照片 | 3D环境 |
| 视频 | 3D环境 |
| 3D布局 | AI增强的3D环境 |
| 全景图 | 3D环境 |
该平台提供AI原生编辑工具和混合3D编辑器,支持在AI填充视觉细节之前阻塞空间结构。[^58] 文件以与Unreal Engine和Unity等行业标准工具兼容的格式导出。[^59]
定价模式
World Labs采用面向创意专业人士的免费增值模式:[^60]
| 等级 | 价格 | 生成次数 | 功能 |
|---|---|---|---|
| 免费 | $0 | 4次/月 | 基础生成 |
| 标准 | $20/月 | 12次/月 | 标准功能 |
| 专业 | $35/月 | 25次/月 | 商业权利 |
| 旗舰 | $95/月 | 75次/月 | 高级功能 |
目标应用
初期用例聚焦于游戏、电影视觉特效和虚拟现实。[^61] Marble支持Vision Pro和Quest 3 VR头显,每个生成的世界都可以在VR中查看。[^62]
Fei-Fei Li将Marble定位为"创建真正具有空间智能的世界模型的第一步"。[^63] 除了创意应用外,该技术还能通过模拟环境实现机器人训练,而在物理现实中创建这些环境可能成本高昂或存在危险。[^64]
NVIDIA Cosmos:工业级世界模型
NVIDIA在CES 2025上推出Cosmos作为物理AI开发平台,专门针对自动驾驶汽车和机器人。[^65] 到2026年1月,Cosmos世界基础模型的下载量已超过200万次。[^66]
平台架构
Cosmos包含生成式世界基础模型、高级分词器、护栏和加速视频处理管道。[^67] 这些模型预测和生成未来环境状态的物理感知视频,能够大规模生成合成训练数据。[^68]
| 模型层级 | 优化方向 | 用例 |
|---|---|---|
| Nano | 实时、边缘部署[^69] | 设备端推理 |
| Super | 高性能基准[^70] | 通用开发 |
| Ultra | 最高质量和保真度[^71] | 自定义模型蒸馏 |
该平台在9000万亿个标记上进行训练,数据来自2000万小时的真实世界数据,涵盖人类交互、环境、工业场景、机器人和驾驶场景。[^72]
行业采用
领先的机器人和汽车公司采用Cosmos进行合成数据生成:[^73]
| 公司 | 领域 |
|---|---|
| 1X | 人形机器人 |
| Agility | 双足机器人 |
| Figure AI | 人形机器人 |
| Waabi | 自动驾驶卡车 |
| XPENG | 电动汽车 |
| Uber | 共享出行自动驾驶 |
Cosmos模型类型
三种模型类型满足不同的物理AI开发需求:[^74]
Cosmos-Predict:以视频形式模拟和预测未来世界状态 **Co
[内容因翻译需要而截断]