2026年世界模型竞赛:LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

Yann LeCun为AMI Labs筹集5亿欧元,DeepMind的Genie 3实时模拟3D世界。2026年,构建理解物理规律的AI的竞赛可能将超越大语言模型。

2026年世界模型竞赛:LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

2026年世界模型竞赛:LeCun、DeepMind和World Labs如何重新定义通向AGI的道路

一家尚未发布任何产品的初创公司,估值已达30亿美元。[^1] Yann LeCun的AMI Labs代表了迄今为止对一个多年来令AI研究者意见分歧的论点最大的押注:大语言模型永远无法实现通用智能,而前进的道路在于世界模型。

要点速览

世界模型范式在2025年末和2026年初爆发式进入主流AI开发领域。Yann LeCun在Meta工作12年后离职,创立AMI Labs,以30亿欧元估值融资5亿欧元,旨在构建理解物理规律而非仅仅预测文本的AI系统。[^2] Google DeepMind发布了Genie 3,这是首个能够以24帧每秒生成持久3D环境的实时交互式世界模型。[^3] Fei-Fei Li的World Labs推出了Marble,使世界模型生成实现商业化,定价从免费到95美元/月不等。[^4] NVIDIA的Cosmos平台下载量已达200万次,机器人和自动驾驶开发者纷纷采用合成的物理感知训练数据。[^5] 对于构建AI基础设施的组织而言,世界模型标志着计算范式从文本处理向视频生成、物理模拟和具身推理的转变。

大语言模型的天花板

大语言模型通过规模化取得了显著的能力。GPT-4、Claude和Gemini展示了复杂的推理、代码生成和多步骤问题解决能力。[^6] 然而,一个根本性的局限依然存在:这些模型从文本中学习统计模式,而非对物理现实的理解。[^7]

2024年发表的研究从数学上证明,大语言模型无法学习所有可计算函数,因此在用作通用问题解决器时不可避免地会产生幻觉。[^8] 根本原因在于大语言模型的运作方式:基于从训练数据中学到的模式预测哪些标记跟随在先前标记之后,而没有任何物理现实的基础。[^9]

幻觉问题

大语言模型生成听起来合理但可能描述物理上不可能的场景、历史上不准确的事件或逻辑上不一致的推理的文本。[^10] 与通过具身体验学习重力的人类不同,大语言模型只学到"重力"这个词往往出现在某些其他词附近。[^11]

局限性 原因 后果
事实幻觉 没有经过验证的知识库[^12] 自信地捏造事实
物理推理失败 没有具身体验[^13] 描述不可能的物理现象
因果混淆 模式匹配而非理解[^14] 将相关性当作因果性
时间不连贯 顺序标记预测[^15] 事件顺序不可能

Yann LeCun多年来一直公开主张,扩展大语言模型不会产生通用智能。[^16] "大语言模型的局限性太大了,"LeCun在NVIDIA GTC演讲中表示。"仅仅扩大规模不会让我们达到AGI。"[^17]

他提出的替代方案是:学习物理现实表征的世界模型,能够预测、规划和推理因果关系。[^18]

Yann LeCun的AMI Labs

LeCun于2025年12月离开Meta,结束了12年的工作,其中5年担任Facebook AI Research (FAIR)的创始主任,7年担任首席AI科学家。[^19] 他的新企业Advanced Machine Intelligence (AMI) Labs代表了迄今为止将世界模型研究商业化的最雄心勃勃的尝试。[^20]

融资与架构

AMI Labs在推出任何产品之前就以30亿欧元估值寻求5亿欧元融资。[^21] 这一目标将代表AI历史上最大规模的种子轮融资之一,反映出投资者对LeCun愿景和业绩记录的信心。[^22]

职位 人员 背景
执行主席 Yann LeCun 图灵奖得主,Meta FAIR创始人[^23]
CEO Alex LeBrun Nabla(医疗AI)前CEO[^24]

公司计划于2026年1月前在巴黎设立总部。[^25] 虽然Meta不会直接投资AMI Labs,但两家公司计划建立合作伙伴关系,让LeCun能够继续保持研究联系。[^26]

技术愿景

AMI Labs旨在创建理解物理规律、保持持久记忆并规划复杂行动的AI系统,而不仅仅是预测文本序列。[^27] LeCun将世界模型描述为"你对世界如何运作的心智模型"。[^28]

"你可以想象你可能采取的一系列行动,你的世界模型将允许你预测这一系列行动对世界的影响,"LeCun解释道。[^29]

这种方法与大语言模型有本质区别。GPT风格的模型预测下一个词,而世界模型预测给定其中采取的行动后物理环境的下一个状态。[^30] 这实现了:

  • 规划:在采取行动前模拟结果
  • 物理推理:理解物体具有质量、动量和空间关系
  • 因果理解:学习行动产生可预测的后果
  • 持久记忆:跨时间保持一致的世界状态

I-JEPA基础

AMI Labs建立在LeCun在Meta的I-JEPA(Image Joint Embedding Predictive Architecture,图像联合嵌入预测架构)研究基础上。[^31] I-JEPA通过从其他区域预测图像区域的表征来学习,无需显式标签即可发展对视觉场景的抽象理解。[^32]

这种方法类似于人类如何通过观察发展直觉物理。一个孩子观察物体下落会发展出重力的内部模型,而无需任何人解释牛顿定律。[^33] I-JEPA和后续架构旨在在人工系统中复制这一学习过程。[^34]

DeepMind的Genie 3

Google DeepMind于2025年8月发布了Genie 3,代表了首个实时交互式通用世界模型。[^35] 与之前生成静态环境或需要大量处理时间的系统不同,Genie 3以每秒24帧的速度生成可导航的3D世界。[^36]

技术能力

Genie 3从文本提示生成动态环境,在几分钟的实时交互中保持视觉一致性。[^37] 该系统不依赖硬编码的物理引擎;相反,模型通过训练自学世界如何运作。[^38]

能力 规格
帧率 实时24 fps[^39]
分辨率 720p[^40]
一致性持续时间 几分钟[^41]
记忆范围 最长1分钟回溯[^42]
物理 自学习,非硬编码[^43]

"Genie 3是首个实时交互式通用世界模型,"DeepMind研究主管Shlomi Fruchter表示。"它超越了之前存在的狭义世界模型。它不特定于任何特定环境。"[^44]

自回归架构

该模型一次生成一帧,回顾之前生成的内容来决定接下来发生什么。[^45] 实现实时性能需要每秒多次计算这个自回归过程,同时与可能一分钟前的视觉记忆保持一致性。[^46]

物理一致性来自训练而非显式编程。[^47] Genie 3环境保持稳定的物理特性,是因为模型从训练数据中学习了物理规律,而不是因为研究人员手动编码了重力或碰撞检测。[^48]

AGI影响

DeepMind将Genie 3定位为通向通用人工智能的垫脚石。[^49] 该实验室预计,随着AI代理越来越多地与物理环境交互,世界模型技术将发挥关键作用。[^50]

"Genie 3标志着向通用人工智能迈出的重大一步,它使AI代理能够'体验'、与丰富模拟的世界交互并从中学习,而无需手动创建内容,"DeepMind的公告称。[^51]

当前局限

Genie 3仍处于有限的研究预览阶段,而非公开发布。[^52] 已知的限制包括:

  • 代理交互的动作空间有限
  • 几分钟后一致性崩溃
  • 真实世界地理准确性不完整
  • 建模复杂多代理交互存在挑战

DeepMind继续向选定的学者和创作者扩大测试访问。[^53]

Fei-Fei Li的World Labs和Marble

由AI先驱Fei-Fei Li创立的World Labs于2025年11月推出Marble,作为首个商业可用的世界模型产品。[^54] 这家初创公司在Marble推出前一年多以2.3亿美元融资走出隐秘模式。[^55]

产品架构

Marble从文本提示、照片、视频、3D布局或全景图像生成持久、可下载的3D环境。[^56] 与在探索过程中即时生成世界的竞争对手不同,Marble生成用户可以编辑和导出的离散环境。[^57]

输入类型 输出
文本提示 3D环境
照片 3D环境
视频 3D环境
3D布局 AI增强的3D环境
全景图 3D环境

该平台提供AI原生编辑工具和混合3D编辑器,支持在AI填充视觉细节之前阻塞空间结构。[^58] 文件以与Unreal Engine和Unity等行业标准工具兼容的格式导出。[^59]

定价模式

World Labs采用面向创意专业人士的免费增值模式:[^60]

等级 价格 生成次数 功能
免费 $0 4次/月 基础生成
标准 $20/月 12次/月 标准功能
专业 $35/月 25次/月 商业权利
旗舰 $95/月 75次/月 高级功能

目标应用

初期用例聚焦于游戏、电影视觉特效和虚拟现实。[^61] Marble支持Vision Pro和Quest 3 VR头显,每个生成的世界都可以在VR中查看。[^62]

Fei-Fei Li将Marble定位为"创建真正具有空间智能的世界模型的第一步"。[^63] 除了创意应用外,该技术还能通过模拟环境实现机器人训练,而在物理现实中创建这些环境可能成本高昂或存在危险。[^64]

NVIDIA Cosmos:工业级世界模型

NVIDIA在CES 2025上推出Cosmos作为物理AI开发平台,专门针对自动驾驶汽车和机器人。[^65] 到2026年1月,Cosmos世界基础模型的下载量已超过200万次。[^66]

平台架构

Cosmos包含生成式世界基础模型、高级分词器、护栏和加速视频处理管道。[^67] 这些模型预测和生成未来环境状态的物理感知视频,能够大规模生成合成训练数据。[^68]

模型层级 优化方向 用例
Nano 实时、边缘部署[^69] 设备端推理
Super 高性能基准[^70] 通用开发
Ultra 最高质量和保真度[^71] 自定义模型蒸馏

该平台在9000万亿个标记上进行训练,数据来自2000万小时的真实世界数据,涵盖人类交互、环境、工业场景、机器人和驾驶场景。[^72]

行业采用

领先的机器人和汽车公司采用Cosmos进行合成数据生成:[^73]

公司 领域
1X 人形机器人
Agility 双足机器人
Figure AI 人形机器人
Waabi 自动驾驶卡车
XPENG 电动汽车
Uber 共享出行自动驾驶

Cosmos模型类型

三种模型类型满足不同的物理AI开发需求:[^74]

Cosmos-Predict:以视频形式模拟和预测未来世界状态 **Co

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中