Фізичний ШІ NVIDIA на NeurIPS: Alpamayo-R1 та екосистема Cosmos
12 грудня 2025
Оновлення грудня 2025: NVIDIA випустила Alpamayo-R1 (AR1) на NeurIPS 2025, першу відкриту модель зір-мова-дія з міркуванням для автономного водіння. Платформа Cosmos розширилась LidarGen для симуляції та ProtoMotions3 для гуманоїдної робототехніки. Figure AI, 1X, Agility Robotics та інші лідери робототехніки будують на цій екосистемі.
Резюме
NVIDIA відкриває вихідний код будівельних блоків фізичного ШІ. Alpamayo-R1 поєднує ланцюгове міркування з плануванням траєкторії для автономних транспортних засобів — можливість, яка раніше була закрита за пропрієтарними системами. Платформа базових моделей Cosmos тепер включає генерацію відео, синтез лідару та інструменти навчання гуманоїдних роботів. Оскільки провідні робототехнічні компанії впроваджують ці моделі, NVIDIA позиціонує себе як інфраструктурний рівень для роботів та автономних транспортних засобів так само, як вона домінує в навчанні LLM.
Що сталося
NVIDIA представила Alpamayo-R1 (AR1) на NeurIPS 2025 у Сан-Дієго 1 грудня, описуючи її як "першу у світі промислову відкриту модель зір-мова-дія (VLA) з міркуванням для автономного водіння."1
Модель інтегрує ланцюгове ШІ-міркування з плануванням шляху. AR1 розбиває сценарії водіння крок за кроком, розглядає можливі траєкторії, а потім використовує контекстуальні дані для вибору оптимальних маршрутів.2 Підхід спрямований на покращення безпеки у складних граничних сценаріях, які кидають виклик традиційним AV-системам.
"Так само, як великі мовні моделі революціонізували генеративний та агентний ШІ, базові моделі Cosmos є проривом для фізичного ШІ," заявив Дженсен Хуанг на попередніх анонсах CES та GTC.3
AR1 побудований на Cosmos-Reason1-7B, моделі зір-мова з міркуванням, яку NVIDIA випустила як частину ширшої платформи Cosmos.4 Модель, фреймворк оцінки (AlpaSim) та підмножина навчальних даних доступні на GitHub та Hugging Face під відкритими ліцензіями для некомерційних досліджень.
Чому це важливо для інфраструктури
Фізичний ШІ масштабується як LLM: Платформа Cosmos застосовує той самий підхід, який спрацював для мовних моделей (великі базові моделі, відкриті ваги, інструменти розробника) до робототехніки та автономних транспортних засобів. Організації можуть тонко налаштовувати Alpamayo-R1 або моделі Cosmos на власних даних замість побудови з нуля.
Симуляція стає диференціатором: LidarGen генерує синтетичні дані лідару; Cosmos Transfer перетворює симуляції на фотореалістичне відео; ProtoMotions3 навчає гуманоїдних роботів у фізично точних середовищах. Обчислювальні вимоги значні: навчання однієї робототехнічної політики зазвичай вимагає 1,000-10,000 GPU-годин на обладнанні класу H100. Організаціям, що входять у фізичний ШІ, потрібні виділені GPU-кластери або партнерства з неохмарами.
Відкритий код прискорює впровадження: Випускаючи AR1 відкрито, NVIDIA стимулює впровадження свого апаратного стеку. Кожна організація, яка навчає або налаштовує ці моделі, працює на GPU NVIDIA. Стратегія відкритої моделі виявилась ефективною для розробки LLM; NVIDIA застосовує її до фізичного ШІ.
Екосистема робототехніки дозріває: Figure AI, 1X, Agility Robotics та X-Humanoid, що будують на Cosmos, сигналізують про конвергенцію індустрії гуманоїдної робототехніки на спільній інфраструктурі. Це паралельно тому, як розробка хмарного ШІ стандартизувалася на PyTorch та архітектурах трансформерів.
Технічні деталі
Архітектура NVIDIA DRIVE Alpamayo-R1
| Компонент | Специфікація |
|---|---|
| Базова модель | Cosmos-Reason1-7B |
| Тип моделі | Зір-Мова-Дія (VLA) |
| Ключова особливість | Ланцюгове міркування для планування траєкторії |
| Дані навчання | 1,727+ годин даних водіння (підмножина відкрита) |
| Оцінка | Фреймворк AlpaSim (відкритий код) |
| Доступність | GitHub, Hugging Face |
Підхід міркування AR1:5 1. Сприймає середовище через мультимодальні входи 2. Міркує через процес прийняття рішень за допомогою ланцюгового мислення 3. Генерує прогнози траєкторії 4. Артикулює дії через описи природною мовою
Оцінки показують найсучасніші результати за метриками міркування, генерації траєкторії, вирівнювання, безпеки та затримки.6
Компоненти платформи Cosmos
| Модель | Призначення | Випадок використання |
|---|---|---|
| Cosmos Predict | Генерація наступного кадру | Створення датасетів граничних випадків |
| Cosmos Transfer | Структуроване до фотореалістичного відео | Синтетичні дані навчання |
| Cosmos Reason | Оцінка ланцюгового мислення | Оцінка якості |
| LidarGen | Синтез даних лідару | AV симуляція |
| ProtoMotions3 | Фреймворк навчання гуманоїдів | Розробка політик роботів |
LidarGen
Перша світова модель, що генерує синтетичні дані лідару для AV симуляції:7 - Побудована на архітектурі Cosmos - Генерує карти дальності та хмари точок - Дозволяє тестування сценаріїв на основі лідару без збору даних фізичних сенсорів - Зменшує вимоги до даних реального світу для розробки AV
ProtoMotions3
GPU-прискорений фреймворк для навчання гуманоїдних роботів:8 - Побудований на NVIDIA Newton та Isaac Lab - Використовує сцени, згенеровані Cosmos WFM - Навчає фізично симульованих цифрових людей та гуманоїдних роботів - Моделі політик експортуються до NVIDIA GR00T N для реального обладнання
Впровадження в індустрії
Організації, що використовують базові моделі Cosmos:9
| Компанія | Застосування |
|---|---|
| 1X | Навчання гуманоїда NEO Gamma через Cosmos Predict/Transfer |
| Agility Robotics | Масштабна генерація синтетичних даних |
| Figure AI | Розробка фізичного ШІ |
| Foretellix | Тестування та валідація AV |
| Gatik | Автономні вантажоперевезення |
| Oxa | Універсальна платформа автономії |
| PlusAI | Автономні вантажоперевезення |
| X-Humanoid | Гуманоїдна робототехніка |
Прас Велагапуді, CTO Agility Robotics: "Cosmos пропонує нам можливість масштабувати наші фотореалістичні дані навчання за межі того, що ми можемо практично зібрати в реальному світі."10
Ширші анонси NeurIPS
Дослідники NVIDIA представили понад 70 статей, доповідей та воркшопів на NeurIPS 2025.11 Додаткові відкриті релізи включають:
Моделі цифрового ШІ: - MultiTalker Parakeet: Розпізнавання мови для середовищ з кількома мовцями - Sortformer: Модель діаризації мовців - Nemotron Content Safety Reasoning: Оцінка безпеки
Визнання: - Індекс відкритості Artificial Analysis оцінив сімейство NVIDIA Nemotron як "одне з найбільш відкритих в екосистемі ШІ"12
Що далі
2026: Виробничі розгортання похідних Alpamayo-R1 у програмах AV рівня 4.
2026-2027: Виробники гуманоїдних роботів постачають продукти, навчені на конвеєрі Cosmos/ProtoMotions3.
Триває: Платформа Cosmos розширюється додатковими світовими моделями для спеціалізованих доменів (виробництво, логістика, охорона здоров'я).
Вплив на ринок: Галузі виробництва та логістики вартістю трильйонів, на які посилається Хуанг, потребуватимуть масивної GPU інфраструктури для симуляції та інференсу. Фізичний ШІ представляє наступний вектор зростання NVIDIA за межами навчання LLM.
Ключові висновки
Для планувальників інфраструктури: - Симуляція фізичного ШІ вимагає 1,000-10,000 GPU-годин на робототехнічну політику на обладнанні класу H100 - Робочі процеси на основі Cosmos стимулюють попит на обладнання NVIDIA; плануйте бюджет відповідно для програм AV/робототехніки - Генерація синтетичних даних зменшує, але не усуває потребу в зборі даних реального світу - Терміни автономії рівня 4 залежать від прогресу в моделях міркування, таких як AR1 - Isaac Sim вимагає мінімум RTX 4090; виробниче навчання вимагає кластерів A100/H100
Для операційних команд: - Відкриті моделі доступні на GitHub та Hugging Face для оцінки - AlpaSim надає стандартизований фреймворк оцінки - Інтеграція Isaac Lab/Isaac Sim для розробки робототехніки - LidarGen дозволяє симуляцію лідару без обладнання
Для стратегічного планування: - Фізичний ШІ слідує підручнику LLM: базові моделі, тонке налаштування, відкрита екосистема - Індустрія робототехніки консолідується на інфраструктурному стеку NVIDIA - Терміни 1X, Figure AI, Agility припускають гуманоїдні продукти у 2026-2027 - ШІ для виробництва/логістики представляє наступну хвилю інфраструктурних інвестицій
Посилання
Для GPU інфраструктури, що підтримує розробку фізичного ШІ, зверніться до Introl.
-
Блог NVIDIA. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." 1 грудня 2025. ↩
-
TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." 1 грудня 2025. ↩
-
Прес-служба NVIDIA. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." 7 січня 2025. ↩
-
NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." Жовтень 2025. ↩
-
WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." 2 грудня 2025. ↩
-
NVIDIA Research. "Alpamayo-R1 Publication." 2025. ↩
-
Блог NVIDIA. "Physical AI Open Datasets." Грудень 2025. ↩
-
Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." Грудень 2025. ↩
-
Прес-служба NVIDIA. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." 18 березня 2025. ↩
-
Прес-служба NVIDIA. "Cosmos Platform Announcement." 2025. ↩
-
Блог NVIDIA. "NeurIPS 2025." Грудень 2025. ↩
-
Artificial Analysis. "Openness Index." 2025. ↩
-
Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." Грудень 2025. ↩
-
TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." Грудень 2025. ↩
-
Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." Грудень 2025. ↩