NVIDIA 物理AI亮相 NeurIPS:Alpamayo-R1 与 Cosmos 生态系统
2025年12月12日
2025年12月更新: NVIDIA 在 NeurIPS 2025 上发布了 Alpamayo-R1(AR1),这是首个用于自动驾驶的开源推理视觉-语言-动作模型。Cosmos 平台扩展了用于仿真的 LidarGen 和用于人形机器人的 ProtoMotions3。Figure AI、1X、Agility Robotics 及其他机器人领域的领军企业正在基于该生态系统进行开发。
要点概述
NVIDIA 正在开源物理AI的核心组件。Alpamayo-R1 将思维链推理与轨迹规划相结合,应用于自动驾驶——这一能力此前仅存在于专有系统中。Cosmos 世界基础模型平台现已包含视频生成、激光雷达合成和人形机器人训练工具。随着主要机器人公司采用这些模型,NVIDIA 正将自己定位为机器人和自动驾驶车辆的基础设施层,如同其在大语言模型训练领域的主导地位一样。
事件回顾
NVIDIA 于2025年12月1日在圣地亚哥的 NeurIPS 2025 上发布了 Alpamayo-R1(AR1),并将其描述为"全球首个工业级开源推理视觉语言动作(VLA)自动驾驶模型"。1
该模型将思维链AI推理与路径规划相结合。AR1 逐步分解驾驶场景,考虑可能的轨迹,然后利用上下文数据选择最优路线。2 该方法旨在提高复杂边缘场景下的安全性,这些场景对传统自动驾驶系统构成挑战。
"正如大语言模型彻底改变了生成式和智能体AI,Cosmos 世界基础模型是物理AI的重大突破,"黄仁勋在早前的 CES 和 GTC 发布会上表示。3
AR1 基于 Cosmos-Reason1-7B 构建,这是 NVIDIA 作为更广泛 Cosmos 平台一部分发布的推理视觉语言模型。4 该模型、评估框架(AlpaSim)和部分训练数据已在 GitHub 和 Hugging Face 上以开源许可证发布,可用于非商业研究。
对基础设施的意义
物理AI像大语言模型一样扩展:Cosmos 平台将语言模型的成功方法(大型基础模型、开放权重、开发者工具)应用于机器人和自动驾驶车辆。组织可以在专有数据上微调 Alpamayo-R1 或 Cosmos 模型,而无需从头开始构建。
仿真成为差异化因素:LidarGen 生成合成激光雷达数据;Cosmos Transfer 将仿真转换为逼真视频;ProtoMotions3 在物理精确的环境中训练人形机器人。计算需求相当可观:训练单个机器人策略通常需要在 H100 级硬件上消耗 1,000-10,000 GPU小时。进入物理AI领域的组织需要专用 GPU 集群或新型云服务合作伙伴。
开源加速采用:通过开源 AR1,NVIDIA 推动了其硬件堆栈的采用。每个训练或微调这些模型的组织都在 NVIDIA GPU 上运行。开放模型策略在大语言模型开发中证明有效;NVIDIA 将其应用于物理AI。
机器人生态系统日趋成熟:Figure AI、1X、Agility Robotics 和 X-Humanoid 在 Cosmos 上构建,表明人形机器人行业正在向共享基础设施靠拢。这与云端AI开发在 PyTorch 和 Transformer 架构上标准化的过程相似。
技术细节
NVIDIA DRIVE Alpamayo-R1 架构
| 组件 | 规格 |
|---|---|
| 模型基础 | Cosmos-Reason1-7B |
| 模型类型 | 视觉-语言-动作(VLA) |
| 核心特性 | 用于轨迹规划的思维链推理 |
| 训练数据 | 1,727+ 小时驾驶数据(部分开源) |
| 评估 | AlpaSim 框架(开源) |
| 可用性 | GitHub、Hugging Face |
AR1 的推理方法:5 1. 通过多模态输入感知环境 2. 使用思维链对决策过程进行推理 3. 生成轨迹预测 4. 通过自然语言描述表达动作
评估显示,该模型在推理、轨迹生成、对齐、安全性和延迟指标方面达到了业界领先水平。6
Cosmos 平台组件
| 模型 | 用途 | 应用场景 |
|---|---|---|
| Cosmos Predict | 下一帧生成 | 边缘案例数据集创建 |
| Cosmos Transfer | 结构化到逼真视频 | 合成训练数据 |
| Cosmos Reason | 思维链评估 | 质量评估 |
| LidarGen | 激光雷达数据合成 | 自动驾驶仿真 |
| ProtoMotions3 | 人形机器人训练框架 | 机器人策略开发 |
LidarGen
首个为自动驾驶仿真生成合成激光雷达数据的世界模型:7 - 基于 Cosmos 架构构建 - 生成距离图和点云 - 无需物理传感器数据采集即可实现激光雷达场景测试 - 减少自动驾驶开发对真实世界数据的需求
ProtoMotions3
用于人形机器人训练的 GPU 加速框架:8 - 基于 NVIDIA Newton 和 Isaac Lab 构建 - 使用 Cosmos WFM 生成的场景 - 训练物理仿真的数字人和人形机器人 - 策略模型可导出至 NVIDIA GR00T N 用于真实硬件
行业采用
使用 Cosmos 世界基础模型的组织:9
| 公司 | 应用 |
|---|---|
| 1X | 通过 Cosmos Predict/Transfer 进行 NEO Gamma 人形机器人训练 |
| Agility Robotics | 大规模合成数据生成 |
| Figure AI | 物理AI开发 |
| Foretellix | 自动驾驶测试和验证 |
| Gatik | 自动驾驶卡车 |
| Oxa | 通用自主平台 |
| PlusAI | 自动驾驶卡车 |
| X-Humanoid | 人形机器人 |
Agility Robotics 首席技术官 Pras Velagapudi 表示:"Cosmos 为我们提供了将逼真训练数据扩展到超出现实世界可行采集范围的机会。"10
NeurIPS 更广泛的发布
NVIDIA 研究人员在 NeurIPS 2025 上发表了 70 多篇论文、演讲和研讨会。11 其他开源发布包括:
数字AI模型: - MultiTalker Parakeet:多说话人环境语音识别 - Sortformer:说话人分离模型 - Nemotron Content Safety Reasoning:安全评估
认可: - Artificial Analysis 开放性指数将 NVIDIA Nemotron 系列评为"AI生态系统中最开放的之一"12
未来展望
2026年:Alpamayo-R1 衍生产品在 L4 级自动驾驶项目中投入生产部署。
2026-2027年:人形机器人制造商发布基于 Cosmos/ProtoMotions3 流程训练的产品。
持续进行:Cosmos 平台扩展更多针对专业领域(制造、物流、医疗)的世界模型。
市场影响:黄仁勋提到的价值 50 万亿美元的制造和物流行业将需要大规模 GPU 基础设施用于仿真和推理。物理AI代表了 NVIDIA 在大语言模型训练之外的下一个增长方向。
核心要点
对于基础设施规划者: - 物理AI仿真在 H100 级硬件上每个机器人策略需要 1,000-10,000 GPU小时 - 基于 Cosmos 的工作流推动 NVIDIA 硬件需求;为自动驾驶/机器人项目相应预算 - 合成数据生成减少但不能完全消除真实世界数据采集需求 - L4 级自主驾驶时间表取决于像 AR1 这样的推理模型的进展 - Isaac Sim 最低需要 RTX 4090;生产训练需要 A100/H100 集群
对于运营团队: - 开放模型可在 GitHub 和 Hugging Face 上评估 - AlpaSim 提供标准化评估框架 - Isaac Lab/Isaac Sim 集成用于机器人开发 - LidarGen 无需硬件即可实现激光雷达仿真
对于战略规划: - 物理AI遵循大语言模型模式:基础模型、微调、开放生态系统 - 机器人行业正在整合到 NVIDIA 基础设施堆栈 - 1X、Figure AI、Agility 的时间表表明人形产品将在 2026-2027 年推出 - 制造/物流AI代表下一波基础设施投资浪潮
参考文献
如需支持物理AI开发的 GPU 基础设施,请联系 Introl。
-
NVIDIA Blog. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." December 1, 2025. ↩
-
TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." December 1, 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." January 7, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." October 2025. ↩
-
WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." December 2, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1 Publication." 2025. ↩
-
NVIDIA Blog. "Physical AI Open Datasets." December 2025. ↩
-
Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." December 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." March 18, 2025. ↩
-
NVIDIA Newsroom. "Cosmos Platform Announcement." 2025. ↩
-
NVIDIA Blog. "NeurIPS 2025." December 2025. ↩
-
Artificial Analysis. "Openness Index." 2025. ↩
-
Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." December 2025. ↩
-
TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." December 2025. ↩
-
Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." December 2025. ↩