Фізичний ШІ NVIDIA на NeurIPS: Alpamayo-R1 та екосистема Cosmos
12 грудня 2025 року
Оновлення за грудень 2025: NVIDIA представила Alpamayo-R1 (AR1) на конференції NeurIPS 2025 — першу відкриту модель візуально-мовних дій (VLA) з можливостями міркування для автономного водіння. Платформа Cosmos розширилася завдяки LidarGen для симуляції та ProtoMotions3 для гуманоїдної робототехніки. Figure AI, 1X, Agility Robotics та інші лідери галузі робототехніки будують свої рішення на цій екосистемі.
Коротко
NVIDIA робить будівельні блоки фізичного ШІ відкритими. Alpamayo-R1 поєднує покрокове міркування (chain-of-thought) з плануванням траєкторії для автономних транспортних засобів — можливість, яка раніше була закрита у пропрієтарних системах. Платформа фундаментальних моделей світу Cosmos тепер включає генерацію відео, синтез лідарних даних та інструменти для навчання гуманоїдних роботів. З огляду на те, що провідні компанії в галузі робототехніки впроваджують ці моделі, NVIDIA позиціонує себе як інфраструктурний рівень для роботів і автономних транспортних засобів так само, як домінує у навчанні великих мовних моделей.
Що сталося
NVIDIA представила Alpamayo-R1 (AR1) на конференції NeurIPS 2025 у Сан-Дієго 1 грудня, описавши її як «першу в світі відкриту модель візуально-мовних дій (VLA) з можливостями міркування промислового масштабу для автономного водіння».1
Модель інтегрує покрокове ШІ-міркування з плануванням маршруту. AR1 розбиває сценарії водіння поетапно, розглядає можливі траєкторії, а потім використовує контекстні дані для вибору оптимальних маршрутів.2 Цей підхід спрямований на підвищення безпеки у складних, граничних сценаріях, які є викликом для традиційних систем автономного водіння.
«Так само, як великі мовні моделі здійснили революцію в генеративному та агентному ШІ, фундаментальні моделі світу Cosmos є проривом для фізичного ШІ», — заявив Дженсен Хуанг на попередніх анонсах CES та GTC.3
AR1 побудована на базі Cosmos-Reason1-7B — візуально-мовної моделі з можливостями міркування, яку NVIDIA випустила як частину ширшої платформи Cosmos.4 Модель, фреймворк оцінки (AlpaSim) та підмножина навчальних даних доступні на GitHub та Hugging Face під відкритими ліцензіями для некомерційних досліджень.
Чому це важливо для інфраструктури
Фізичний ШІ масштабується як великі мовні моделі: Платформа Cosmos застосовує той самий підхід, що спрацював для мовних моделей (великі фундаментальні моделі, відкриті ваги, інструменти для розробників) до робототехніки та автономних транспортних засобів. Організації можуть дотренувати Alpamayo-R1 або моделі Cosmos на власних даних, замість того щоб будувати все з нуля.
Симуляція стає диференціатором: LidarGen генерує синтетичні лідарні дані; Cosmos Transfer перетворює симуляції у фотореалістичне відео; ProtoMotions3 навчає гуманоїдних роботів у фізично точних середовищах. Обчислювальні вимоги значні: навчання однієї політики для робототехніки зазвичай потребує 1 000–10 000 GPU-годин на апаратному забезпеченні класу H100. Організаціям, що входять у сферу фізичного ШІ, потрібні виділені GPU-кластери або партнерство з neоcloud-провайдерами.
Відкритий код прискорює впровадження: Випускаючи AR1 у відкритий доступ, NVIDIA стимулює впровадження свого апаратного стеку. Кожна організація, що навчає або дотреновує ці моделі, працює на GPU NVIDIA. Стратегія відкритих моделей довела свою ефективність для розробки великих мовних моделей; NVIDIA застосовує її до фізичного ШІ.
Екосистема робототехніки дозріває: Figure AI, 1X, Agility Robotics та X-Humanoid, що будують на Cosmos, сигналізують про те, що індустрія гуманоїдної робототехніки консолідується навколо спільної інфраструктури. Це паралельно до того, як хмарна ШІ-розробка стандартизувалася на PyTorch та архітектурах трансформерів.
Технічні деталі
Архітектура NVIDIA DRIVE Alpamayo-R1
| Компонент | Специфікація |
|---|---|
| Базова модель | Cosmos-Reason1-7B |
| Тип моделі | Vision-Language-Action (VLA) |
| Ключова особливість | Покрокове міркування для планування траєкторії |
| Навчальні дані | 1 727+ годин даних водіння (підмножина відкрита) |
| Оцінка | Фреймворк AlpaSim (відкритий код) |
| Доступність | GitHub, Hugging Face |
Підхід до міркування AR1:5 1. Сприймає середовище через мультимодальні входи 2. Проходить через процес прийняття рішень, використовуючи покрокове міркування 3. Генерує прогнози траєкторії 4. Формулює дії через описи природною мовою
Оцінки демонструють найсучасніші результати за метриками міркування, генерації траєкторії, узгодженості, безпеки та латентності.6
Компоненти платформи Cosmos
| Модель | Призначення | Випадок використання |
|---|---|---|
| Cosmos Predict | Генерація наступного кадру | Створення датасетів граничних випадків |
| Cosmos Transfer | Структуроване у фотореалістичне відео | Синтетичні навчальні дані |
| Cosmos Reason | Покрокова оцінка | Оцінка якості |
| LidarGen | Синтез лідарних даних | Симуляція автономних транспортних засобів |
| ProtoMotions3 | Фреймворк навчання гуманоїдів | Розробка політик роботів |
LidarGen
Перша модель світу, що генерує синтетичні лідарні дані для симуляції автономних транспортних засобів:7 - Побудована на архітектурі Cosmos - Генерує карти відстаней та хмари точок - Уможливлює тестування сценаріїв на основі лідару без збору даних фізичних сенсорів - Зменшує вимоги до реальних даних для розробки автономних транспортних засобів
ProtoMotions3
GPU-прискорений фреймворк для навчання гуманоїдних роботів:8 - Побудований на NVIDIA Newton та Isaac Lab - Використовує сцени, згенеровані Cosmos WFM - Навчає фізично симульованих цифрових людей та гуманоїдних роботів - Моделі політик експортуються до NVIDIA GR00T N для реального апаратного забезпечення
Галузеве впровадження
Організації, що використовують фундаментальні моделі світу Cosmos:9
| Компанія | Застосування |
|---|---|
| 1X | Навчання гуманоїда NEO Gamma через Cosmos Predict/Transfer |
| Agility Robotics | Масштабна генерація синтетичних даних |
| Figure AI | Розробка фізичного ШІ |
| Foretellix | Тестування та валідація автономних транспортних засобів |
| Gatik | Автономні вантажівки |
| Oxa | Універсальна платформа автономності |
| PlusAI | Автономні вантажівки |
| X-Humanoid | Гуманоїдна робототехніка |
Технічний директор Agility Robotics Прас Велагапуді: «Cosmos надає нам можливість масштабувати наші фотореалістичні навчальні дані далеко за межі того, що ми можемо реально зібрати в реальному світі».10
Ширші анонси NeurIPS
Дослідники NVIDIA представили понад 70 доповідей, виступів та воркшопів на NeurIPS 2025.11 Додаткові відкриті релізи включають:
Моделі цифрового ШІ: - MultiTalker Parakeet: розпізнавання мовлення для багатомовних середовищ - Sortformer: модель діаризації мовців - Nemotron Content Safety Reasoning: оцінка безпеки контенту
Визнання: - Індекс відкритості Artificial Analysis оцінив сімейство NVIDIA Nemotron як «одне з найбільш відкритих в екосистемі ШІ»12
Що далі
2026: Продуктові впровадження похідних від Alpamayo-R1 у програмах автономного водіння рівня 4.
2026–2027: Виробники гуманоїдних роботів випускають продукти, навчені на конвеєрі Cosmos/ProtoMotions3.
Постійно: Платформа Cosmos розширюється додатковими моделями світу для спеціалізованих доменів (виробництво, логістика, охорона здоров'я).
Вплив на ринок: Галузі виробництва та логістики вартістю 50 трильйонів доларів, про які згадує Хуанг, потребуватимуть масивної GPU-інфраструктури для симуляції та інференсу. Фізичний ШІ представляє наступний вектор зростання NVIDIA за межами навчання великих мовних моделей.
Ключові висновки
Для планувальників інфраструктури: - Симуляція фізичного ШІ потребує 1 000–10 000 GPU-годин на політику робототехніки на апаратному забезпеченні класу H100 - Робочі процеси на базі Cosmos стимулюють попит на апаратне забезпечення NVIDIA; плануйте бюджет відповідно для програм автономних транспортних засобів/робототехніки - Генерація синтетичних даних зменшує, але не усуває потребу в зборі реальних даних - Терміни досягнення автономності рівня 4 залежать від прогресу в моделях міркування, таких як AR1 - Isaac Sim працює мінімум на RTX 4090; продуктове навчання потребує кластерів A100/H100
Для операційних команд: - Відкриті моделі доступні на GitHub та Hugging Face для оцінки - AlpaSim надає стандартизований фреймворк оцінки - Інтеграція Isaac Lab/Isaac Sim для розробки робототехніки - LidarGen уможливлює симуляцію лідару без апаратного забезпечення
Для стратегічного планування: - Фізичний ШІ слідує сценарію великих мовних моделей: фундаментальні моделі, дотренування, відкрита екосистема - Галузь робототехніки консолідується навколо інфраструктурного стеку NVIDIA - Терміни 1X, Figure AI, Agility вказують на гуманоїдні продукти у 2026–2027 роках - ШІ для виробництва/логістики представляє наступну хвилю інфраструктурних інвестицій
Посилання
Щодо GPU-інфраструктури для розробки фізичного ШІ звертайтесь до Introl.
-
NVIDIA Blog. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." December 1, 2025. ↩
-
TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." December 1, 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." January 7, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." October 2025. ↩
-
WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." December 2, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1 Publication." 2025. ↩
-
NVIDIA Blog. "Physical AI Open Datasets." December 2025. ↩
-
Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." December 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." March 18, 2025. ↩
-
NVIDIA Newsroom. "Cosmos Platform Announcement." 2025. ↩
-
NVIDIA Blog. "NeurIPS 2025." December 2025. ↩
-
Artificial Analysis. "Openness Index." 2025. ↩
-
Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." December 2025. ↩
-
TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." December 2025. ↩
-
Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." December 2025. ↩