NVIDIA Physical AI tại NeurIPS: Alpamayo-R1 và Hệ sinh thái Cosmos
Ngày 12 tháng 12 năm 2025
Cập nhật tháng 12/2025: NVIDIA phát hành Alpamayo-R1 (AR1) tại NeurIPS 2025, mô hình vision-language-action suy luận mở đầu tiên dành cho xe tự lái. Nền tảng Cosmos mở rộng với LidarGen cho mô phỏng và ProtoMotions3 cho robot hình người. Figure AI, 1X, Agility Robotics và các công ty robot hàng đầu khác đang xây dựng trên hệ sinh thái này.
Tóm tắt
NVIDIA đang mã nguồn mở các khối xây dựng của physical AI. Alpamayo-R1 kết hợp suy luận theo chuỗi tư duy với lập kế hoạch quỹ đạo cho xe tự hành—một khả năng trước đây bị khóa trong các hệ thống độc quyền. Nền tảng mô hình nền tảng thế giới Cosmos giờ đây bao gồm các công cụ tạo video, tổng hợp lidar và huấn luyện robot hình người. Với việc các công ty robot lớn áp dụng những mô hình này, NVIDIA định vị mình là tầng cơ sở hạ tầng cho robot và xe tự hành theo cách mà họ đang thống trị huấn luyện LLM.
Điều gì đã xảy ra
NVIDIA công bố Alpamayo-R1 (AR1) tại NeurIPS 2025 ở San Diego vào ngày 1 tháng 12, mô tả nó là "mô hình vision language action (VLA) suy luận mở quy mô công nghiệp đầu tiên trên thế giới dành cho xe tự lái."1
Mô hình tích hợp suy luận AI theo chuỗi tư duy với lập kế hoạch đường đi. AR1 phân tích từng bước các kịch bản lái xe, xem xét các quỹ đạo có thể, sau đó sử dụng dữ liệu ngữ cảnh để chọn tuyến đường tối ưu.2 Phương pháp này nhằm cải thiện an toàn trong các kịch bản phức tạp, các trường hợp biên thách thức các hệ thống AV truyền thống.
"Giống như các mô hình ngôn ngữ lớn đã cách mạng hóa AI tạo sinh và agentic, các mô hình nền tảng thế giới Cosmos là một bước đột phá cho physical AI," Jensen Huang phát biểu tại các thông báo CES và GTC trước đó.3
AR1 được xây dựng trên Cosmos-Reason1-7B, một mô hình vision-language suy luận mà NVIDIA phát hành như một phần của nền tảng Cosmos rộng hơn.4 Mô hình, framework đánh giá (AlpaSim) và tập con dữ liệu huấn luyện có sẵn trên GitHub và Hugging Face theo giấy phép mở cho nghiên cứu phi thương mại.
Tại sao điều này quan trọng đối với cơ sở hạ tầng
Physical AI mở rộng như LLM: Nền tảng Cosmos áp dụng cách tiếp cận tương tự đã hiệu quả với các mô hình ngôn ngữ (mô hình nền tảng lớn, trọng số mở, công cụ dành cho nhà phát triển) cho robot và xe tự hành. Các tổ chức có thể tinh chỉnh Alpamayo-R1 hoặc các mô hình Cosmos trên dữ liệu độc quyền thay vì xây dựng từ đầu.
Mô phỏng trở thành yếu tố khác biệt: LidarGen tạo dữ liệu lidar tổng hợp; Cosmos Transfer chuyển đổi mô phỏng thành video chân thực; ProtoMotions3 huấn luyện robot hình người trong môi trường vật lý chính xác. Yêu cầu tính toán rất lớn: huấn luyện một chính sách robot đơn lẻ thường yêu cầu 1.000-10.000 giờ GPU trên phần cứng cấp H100. Các tổ chức tham gia physical AI cần các cụm GPU chuyên dụng hoặc quan hệ đối tác neocloud.
Mã nguồn mở thúc đẩy việc áp dụng: Bằng cách phát hành AR1 công khai, NVIDIA thúc đẩy việc áp dụng stack phần cứng của mình. Mọi tổ chức huấn luyện hoặc tinh chỉnh các mô hình này đều chạy trên GPU NVIDIA. Chiến lược mô hình mở đã chứng minh hiệu quả cho phát triển LLM; NVIDIA áp dụng nó cho physical AI.
Hệ sinh thái robot trưởng thành: Figure AI, 1X, Agility Robotics và X-Humanoid xây dựng trên Cosmos báo hiệu ngành robot hình người đang hội tụ về cơ sở hạ tầng chung. Điều này tương tự như cách phát triển AI đám mây tiêu chuẩn hóa trên PyTorch và kiến trúc transformer.
Chi tiết kỹ thuật
Kiến trúc NVIDIA DRIVE Alpamayo-R1
| Thành phần | Thông số |
|---|---|
| Mô hình cơ sở | Cosmos-Reason1-7B |
| Loại mô hình | Vision-Language-Action (VLA) |
| Tính năng chính | Suy luận theo chuỗi tư duy cho lập kế hoạch quỹ đạo |
| Dữ liệu huấn luyện | Hơn 1.727 giờ dữ liệu lái xe (tập con mở) |
| Đánh giá | Framework AlpaSim (mã nguồn mở) |
| Khả dụng | GitHub, Hugging Face |
Phương pháp suy luận của AR1:5 1. Nhận thức môi trường thông qua đầu vào đa phương thức 2. Suy luận qua quá trình quyết định bằng chuỗi tư duy 3. Tạo dự đoán quỹ đạo 4. Diễn đạt hành động thông qua mô tả ngôn ngữ tự nhiên
Các đánh giá cho thấy hiệu suất tiên tiến nhất trên các chỉ số suy luận, tạo quỹ đạo, căn chỉnh, an toàn và độ trễ.6
Các thành phần nền tảng Cosmos
| Mô hình | Mục đích | Trường hợp sử dụng |
|---|---|---|
| Cosmos Predict | Tạo khung hình tiếp theo | Tạo tập dữ liệu trường hợp biên |
| Cosmos Transfer | Video từ cấu trúc sang chân thực | Dữ liệu huấn luyện tổng hợp |
| Cosmos Reason | Đánh giá chuỗi tư duy | Đánh giá chất lượng |
| LidarGen | Tổng hợp dữ liệu lidar | Mô phỏng AV |
| ProtoMotions3 | Framework huấn luyện hình người | Phát triển chính sách robot |
LidarGen
Mô hình thế giới đầu tiên tạo dữ liệu lidar tổng hợp cho mô phỏng AV:7 - Xây dựng trên kiến trúc Cosmos - Tạo bản đồ phạm vi và đám mây điểm - Cho phép kiểm thử kịch bản dựa trên lidar mà không cần thu thập dữ liệu cảm biến vật lý - Giảm yêu cầu dữ liệu thực tế cho phát triển AV
ProtoMotions3
Framework tăng tốc GPU cho huấn luyện robot hình người:8 - Xây dựng trên NVIDIA Newton và Isaac Lab - Sử dụng cảnh do Cosmos WFM tạo ra - Huấn luyện con người kỹ thuật số và robot hình người được mô phỏng vật lý - Các mô hình chính sách xuất sang NVIDIA GR00T N cho phần cứng thực
Áp dụng trong ngành
Các tổ chức sử dụng mô hình nền tảng thế giới Cosmos:9
| Công ty | Ứng dụng |
|---|---|
| 1X | Huấn luyện robot hình người NEO Gamma qua Cosmos Predict/Transfer |
| Agility Robotics | Tạo dữ liệu tổng hợp quy mô lớn |
| Figure AI | Phát triển physical AI |
| Foretellix | Kiểm thử và xác nhận AV |
| Gatik | Vận tải tự hành |
| Oxa | Nền tảng tự chủ phổ quát |
| PlusAI | Vận tải tự hành |
| X-Humanoid | Robot hình người |
CTO của Agility Robotics Pras Velagapudi: "Cosmos mang đến cho chúng tôi cơ hội mở rộng dữ liệu huấn luyện chân thực vượt xa những gì chúng tôi có thể thu thập trong thế giới thực."10
Các thông báo rộng hơn tại NeurIPS
Các nhà nghiên cứu NVIDIA đã trình bày hơn 70 bài báo, bài nói và hội thảo tại NeurIPS 2025.11 Các bản phát hành mở bổ sung bao gồm:
Mô hình AI kỹ thuật số: - MultiTalker Parakeet: Nhận dạng giọng nói cho môi trường nhiều người nói - Sortformer: Mô hình phân đoạn người nói - Nemotron Content Safety Reasoning: Đánh giá an toàn
Công nhận: - Chỉ số Độ mở của Artificial Analysis đánh giá dòng NVIDIA Nemotron "nằm trong số mở nhất trong hệ sinh thái AI"12
Điều gì tiếp theo
2026: Triển khai sản xuất các dẫn xuất Alpamayo-R1 trong các chương trình AV Cấp độ 4.
2026-2027: Các nhà sản xuất robot hình người xuất xưởng sản phẩm được huấn luyện trên pipeline Cosmos/ProtoMotions3.
Liên tục: Nền tảng Cosmos mở rộng với các mô hình thế giới bổ sung cho các lĩnh vực chuyên biệt (sản xuất, logistics, y tế).
Tác động thị trường: Các ngành sản xuất và logistics trị giá 50 nghìn tỷ đô la mà Huang đề cập sẽ yêu cầu cơ sở hạ tầng GPU khổng lồ cho mô phỏng và suy luận. Physical AI đại diện cho vector tăng trưởng tiếp theo của NVIDIA ngoài huấn luyện LLM.
Những điểm chính
Cho các nhà hoạch định cơ sở hạ tầng: - Mô phỏng physical AI yêu cầu 1.000-10.000 giờ GPU cho mỗi chính sách robot trên phần cứng cấp H100 - Quy trình làm việc dựa trên Cosmos thúc đẩy nhu cầu phần cứng NVIDIA; lập ngân sách phù hợp cho các chương trình AV/robot - Tạo dữ liệu tổng hợp giảm nhưng không loại bỏ nhu cầu thu thập dữ liệu thực tế - Các mốc thời gian tự chủ Cấp độ 4 phụ thuộc vào tiến bộ trong các mô hình suy luận như AR1 - Isaac Sim chạy tối thiểu trên RTX 4090; huấn luyện sản xuất yêu cầu cụm A100/H100
Cho các đội ngũ vận hành: - Các mô hình mở có sẵn trên GitHub và Hugging Face để đánh giá - AlpaSim cung cấp framework đánh giá tiêu chuẩn hóa - Tích hợp Isaac Lab/Isaac Sim cho phát triển robot - LidarGen cho phép mô phỏng lidar mà không cần phần cứng
Cho hoạch định chiến lược: - Physical AI theo playbook LLM: mô hình nền tảng, tinh chỉnh, hệ sinh thái mở - Ngành robot đang hợp nhất trên stack cơ sở hạ tầng NVIDIA - Thời điểm của 1X, Figure AI, Agility gợi ý sản phẩm hình người trong 2026-2027 - AI sản xuất/logistics đại diện cho làn sóng đầu tư cơ sở hạ tầng tiếp theo
Tài liệu tham khảo
Để biết thông tin về cơ sở hạ tầng GPU hỗ trợ phát triển physical AI, liên hệ Introl.
-
NVIDIA Blog. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." Ngày 1 tháng 12 năm 2025. ↩
-
TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." Ngày 1 tháng 12 năm 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." Ngày 7 tháng 1 năm 2025. ↩
-
NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." Tháng 10 năm 2025. ↩
-
WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." Ngày 2 tháng 12 năm 2025. ↩
-
NVIDIA Research. "Alpamayo-R1 Publication." 2025. ↩
-
NVIDIA Blog. "Physical AI Open Datasets." Tháng 12 năm 2025. ↩
-
Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." Tháng 12 năm 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." Ngày 18 tháng 3 năm 2025. ↩
-
NVIDIA Newsroom. "Cosmos Platform Announcement." 2025. ↩
-
NVIDIA Blog. "NeurIPS 2025." Tháng 12 năm 2025. ↩
-
Artificial Analysis. "Openness Index." 2025. ↩
-
Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." Tháng 12 năm 2025. ↩
-
TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." Tháng 12 năm 2025. ↩
-
Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." Tháng 12 năm 2025. ↩