NVIDIA NeurIPS 2025: Alpamayo-R1 та розвиток фізичного ШІ трансформують автономні системи

NVIDIA випускає Alpamayo-R1, модель міркування з 10B параметрів для автономного водіння з затримкою 99мс та набором даних на 1727 годин з 25 країн.

NVIDIA NeurIPS 2025: Alpamayo-R1 та розвиток фізичного ШІ трансформують автономні системи

NVIDIA NeurIPS 2025: Alpamayo-R1 та розвиток фізичного ШІ трансформують автономні системи

10 грудня 2025 Автор: Blake Crosley

NVIDIA представила DRIVE Alpamayo-R1 (AR1), модель візуальної мови дій з міркуванням на 10 мільярдів параметрів для мобільності, на NeurIPS 2025 у Сан-Дієго.1 Цей випуск представляє найбільший внесок NVIDIA у відкритий код для досліджень автономного водіння, разом із набором даних водіння на 1727 годин з 25 країн — приблизно втричі більше за Waymo Open Dataset.2 Дослідники NVIDIA представили понад 70 статей та сесій на конференції, що сигналізує про розширення ролі компанії від апаратного забезпечення до розробки моделей ШІ.3

Випуск Alpamayo-R1 вирішує фундаментальну проблему в розробці автономних транспортних засобів: непрозорість «чорної скриньки» в прийнятті рішень ШІ. AR1 генерує проміжний «процес мислення» перед виконанням дій, дозволяючи інспектувати ланцюги міркувань, а не лише входи та виходи.4 Цей підхід застосовує ланцюгове мислення ШІ до фізичних систем реального світу, де пояснюваність впливає на безпеку та регуляторне прийняття.

Архітектура Alpamayo-R1

NVIDIA DRIVE Alpamayo-R1 інтегрує ланцюгове мислення з плануванням траєкторії — критичний компонент для підвищення безпеки автономних транспортних засобів у складних дорожніх сценаріях та забезпечення автономії 4-го рівня.5

Технічні специфікації

Специфікація Значення
Параметри 10B (масштабується від 0.5B до 7B варіантів)
Необхідна VRAM Мінімум 24GB
Затримка інференсу 99мс (здатність реального часу)
Дані для навчання 1B+ зображень з 80 000 годин водіння
Входи камер 4 камери на 10Hz (передня широка, передня теле, перехресна ліва, перехресна права)
Вхідна роздільність 1080x1920 (зменшена до 320x576)

Модель досягає 12% покращення точності планування у складних випадках порівняно з базовими лініями лише траєкторії, зі зменшенням на 35% показника з'їзду з дороги та зменшенням на 25% показника близьких зустрічей у симуляції із замкнутим контуром.6

Основа та дизайн

Alpamayo-R1 побудований на базовій моделі Cosmos-Reason від NVIDIA, зокрема Cosmos-Reason1-7B, донавченій на 3.7 мільйонах зразків візуальних запитань і відповідей для розвитку фізичного здорового глузду та втіленого міркування.7 Модульна архітектура поєднує візуальний кодувальник, механізм міркування та декодер траєкторії на основі дифузії для генерації планів у реальному часі.

Дизайн відходить від наскрізних нейронних мереж, які безпосередньо відображають входи на виходи. Натомість AR1 виробляє проміжні міркування, які можуть оцінювати людські рецензенти та системи безпеки. Пояснюваність підтримує як ітерацію розробки, так і регуляторну відповідність для автономних систем.

Масштаб набору даних

Супровідний набір даних містить 1727 годин відеозаписів водіння з 25 країн, встановлюючи безпрецедентну географічну та сценарну різноманітність для досліджень автономного водіння.7 Масштаб перевищує Waymo Open Dataset приблизно в 3 рази, забезпечуючи значно ширші дані для навчання та оцінки.

NVIDIA випустила підмножину даних для навчання та оцінки через колекцію Physical AI Open Datasets. Відкритий фреймворк AlpaSim дозволяє дослідникам оцінювати продуктивність AR1 на стандартизованих бенчмарках.8 Поєднання моделі, даних та фреймворку оцінки забезпечує повну інфраструктуру для досліджень автономного водіння.

Наслідки для інфраструктури

Розвиток фізичного ШІ від NVIDIA створює специфічні вимоги до обчислень, які впливають на планування інфраструктури.

Вимоги до навчання

Моделі візія-мова-дія, такі як Alpamayo-R1, потребують мультимодальних конвеєрів навчання, що обробляють відео, сенсорні та текстові дані одночасно. Корпус навчання з понад 1 мільярда зображень вимагає інфраструктури зберігання петабайтного масштабу. Накладні витрати на обробку відео підвищують вимоги до обчислень у 3-5 разів порівняно з еквівалентними моделями лише для тексту.

Мінімальна інфраструктура для навчання: - Кластер GPU з міжз'єднаннями NVLink/NVSwitch для ефективної синхронізації градієнтів - Високошвидкісне сховище (100+ GB/s агреговано) для потокової передачі відеонаборів даних - Ємність зберігання 10+ PB для багатокамерних наборів даних водіння - Орієнтовна вартість навчання: $500K-2M для повного навчання моделі з нуля

Організації, що розробляють автономні системи, повинні планувати інфраструктуру, що підтримує відеоінтенсивні навантаження навчання. Тонке налаштування Alpamayo-R1 для конкретних доменів вимагає значно менше обчислень — досяжно на 8-GPU кластерах з 24GB+ VRAM на GPU.

Розгортання інференсу

Інференс автономних транспортних засобів працює під суворими обмеженнями затримки — ціль затримки 99мс означає, що рішення повинні бути завершені протягом одного кадру при 10Hz. NVIDIA DRIVE Orin забезпечує 254 TOPS при 65-70W, дозволяючи інференс AR1 у реальному часі в транспортних засобах.9

Варіанти граничного розгортання: | Платформа | Продуктивність | Потужність | Випадок використання | |----------|-------------|-------|----------| | DRIVE Orin | 254 TOPS | 65-70W | Серійні транспортні засоби | | DRIVE Thor | 1,000+ TOPS | ~100W | Системи L4 наступного покоління | | Jetson AGX Orin | 275 TOPS | 15-60W | Розробка/робототехніка |

Повний конвеєр охоплює від GPU-кластерів центрів обробки даних для навчання до вбудованих обчислень транспортних засобів для розгортання. Організації повинні планувати обидва рівні інфраструктури.

Додаткові релізи NeurIPS

NVIDIA представила кілька додаткових моделей та фреймворків, що підтримують розвиток ШІ в різних доменах.

Моделі цифрового ШІ

NVIDIA випустила MultiTalker Parakeet, модель розпізнавання мови для середовищ з кількома мовцями, та Sortformer, модель діаризації, що ідентифікує та розділяє мовців.9 Nemotron Content Safety Reasoning забезпечує можливості модерації контенту з явним міркуванням.

Ці випуски розширюють програмну екосистему NVIDIA від апаратного забезпечення до виробничих компонентів ШІ. Організації можуть розгортати моделі NVIDIA на апаратному забезпеченні NVIDIA з оптимізованою інтеграцією. Вертикальна інтеграція зміцнює позицію NVIDIA як постачальника платформи ШІ, а не чистого постачальника апаратного забезпечення.

Інструменти розробки

NVIDIA відкрила NeMo Data Designer Library під Apache 2.0, що дозволяє генерувати синтетичні дані для навчання.10 NeMo Gym забезпечує середовища навчання з підкріпленням для розробки ШІ. Інструменти знижують бар'єри для розробки ШІ, одночасно створюючи прив'язку до екосистеми на платформах NVIDIA.

Інструменти для синтетичних даних вирішують обмеження даних для навчання, що стримують розвиток ШІ. Організації, які не можуть зібрати достатньо реальних даних, можуть генерувати синтетичні альтернативи. Ця можливість особливо корисна для автономних систем, де збір реальних даних пов'язаний з міркуваннями безпеки.

Конкурентна динаміка

Випуски моделей NVIDIA впливають на конкурентне позиціонування як для апаратного забезпечення, так і для розробки ШІ.

Платформна стратегія

Випускаючи потужні моделі, які оптимально працюють на апаратному забезпеченні NVIDIA, компанія зміцнює свою позицію в екосистемі. Організації, що використовують моделі NVIDIA, природно розгортають їх на GPU NVIDIA. Інтеграція створює витрати на перехід, що виходять за межі специфікацій апаратного забезпечення.

Стратегія паралельна підходу Apple до інтеграції апаратного та програмного забезпечення, що створює прив'язку до платформи. NVIDIA поширюється від чіпів до систем до моделей, кожен шар підсилює інші. Конкуренти стикаються з труднощами у відповідності інтегрованому стеку.

Позиціонування відкритого коду

Випуски з відкритим кодом позиціонують NVIDIA як співпрацюючого учасника розвитку ШІ, а не чисто комерційного постачальника. Це позиціонування підтримує регуляторне та суспільне сприйняття, оскільки ШІ стикається з посиленим контролем. Відкриті моделі та набори даних демонструють прихильність до доступу дослідницької спільноти.

Однак оптимальна продуктивність вимагає апаратного забезпечення NVIDIA. Доступність відкритого коду демократизує доступ, тоді як комерційні розгортання концентруються на платформах NVIDIA. Підхід захоплює переваги відкритості, не жертвуючи комерційною перевагою.

Рамка прийняття рішень: коли впроваджувати Alpamayo-R1

Сценарій Рекомендація Обґрунтування
Дослідження/академія Впровадити негайно Доступ з відкритим кодом, набір даних у 3 рази більший за альтернативи
Стартап АВ (до виробництва) Оцінити для тонкого налаштування Скорочує час розробки, доведена затримка 99мс
Постачальник 1-го рівня Порівняти з існуючим Пояснюваність ланцюгового мислення допомагає регуляторному схваленню
Оператор автопарку Чекати виробничої валідації Вимоги до апаратного забезпечення (DRIVE Orin) можуть вимагати оновлень транспортних засобів

Практичні кроки: 1. Завантажити та оцінити: Отримати доступ до Alpamayo-R1-10B з Hugging Face (потрібно мінімум 24GB VRAM) 2. Протестувати на ваших сценаріях: Використовувати фреймворк AlpaSim для стандартизованої оцінки 3. Планувати інфраструктуру зберігання: Закласти в бюджет 10+ PB для серйозної розробки фізичного ШІ 4. Розглянути шлях тонкого налаштування: 8-GPU кластер достатній для адаптації до домену

Професійна підтримка

Складна інфраструктура ШІ виграє від досвідчених партнерів з впровадження.

550 польових інженерів Introl підтримують організації, що розгортають інфраструктуру для автономних систем та застосунків фізичного ШІ.14 Компанія посіла 14-те місце в Inc. 5000 2025 року з трирічним зростанням 9594%.15

Професійне розгортання в 257 глобальних локаціях задовольняє потреби інфраструктури фізичного ШІ незалежно від географії.16 Досвід впровадження знижує ризик, коли організації впроваджують нові можливості ШІ.

Ключові висновки

Для розробників автономних транспортних засобів: - Alpamayo-R1 надає першу відкриту модель VLA з міркуванням промислового масштабу із затримкою 99мс у реальному часі - Ланцюгове мислення забезпечує пояснюваність, дружню до регуляторів - Набір даних на 1727 годин (3x Waymo) забезпечує безпрецедентну різноманітність навчання

Для планувальників інфраструктури: - Навчання вимагає петабайтного сховища та високошвидкісних GPU-міжз'єднань - Тонке налаштування досяжне на 8-GPU кластерах з 24GB+ VRAM - Граничне розгортання орієнтоване на DRIVE Orin (254 TOPS) або Thor (1,000+ TOPS)

Для стратегічного планування: - Вертикальна інтеграція NVIDIA (чіпи → системи → моделі) створює витрати на перехід - Доступність відкритого коду дозволяє впровадження, але оптимальна продуктивність вимагає апаратного забезпечення NVIDIA - Інфраструктура фізичного ШІ значно відрізняється від розгортань ШІ лише для тексту

Перспективи

Випуски NVIDIA на NeurIPS 2025 демонструють зростаючі амбіції від апаратного забезпечення до моделей ШІ та інструментів розробки. Alpamayo-R1 просуває дослідження автономного водіння, водночас встановлюючи NVIDIA як контриб'ютора відкритого розвитку ШІ. Випуски зміцнюють позицію NVIDIA як інтегрованого постачальника платформи ШІ.

Організації, що будують автономні системи або застосунки фізичного ШІ, повинні оцінити випуски NeurIPS для прискорення розробки. Поєднання моделей, наборів даних та інструментів знижує тягар розробки, тоді як доступність відкритого коду дозволяє налаштування для конкретних застосунків. Планування інфраструктури повинно враховувати обчислювальні та дані вимоги, які вимагають ці передові застосунки.

Посилання


Категорія: Дослідження та моделі ШІ Терміновість: Середня — Дослідницькі випуски з наслідками для планування інфраструктури Кількість слів: ~2 000


  1. NVIDIA. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." December 2025. https://blogs.nvidia.com/blog/neurips-open-source-digital-physical-ai/ 

  2. WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." December 2025. https://winbuzzer.com/2025/12/02/alpamayo-r1-nvidia-releases-vision-reasoning-model-and-massive-1727-hour-dataset-for-autonomous-driving-xcxwbn/ 

  3. NVIDIA. "At NeurIPS, NVIDIA Advances Open Model Development." December 2025. 

  4. ContentGrip. "New Nvidia AI model brings reasoning to self-driving tech." December 2025. https://www.contentgrip.com/nvidia-alpamayo-r1-ai/ 

  5. TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." December 2025. https://techcrunch.com/2025/12/01/nvidia-announces-new-open-ai-models-and-tools-for-autonomous-driving-research/ 

  6. NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving." October 2025. https://research.nvidia.com/publication/2025-10_alpamayo-r1 

  7. Hugging Face. "nvidia/Alpamayo-R1-10B Model Card." December 2025. https://huggingface.co/nvidia/Alpamayo-R1-10B 

  8. NVIDIA Developer Forums. "Physical AI at NeurIPS 2025." December 2025. https://forums.developer.nvidia.com/t/physical-ai-at-neurips-2025-annoucements/353373 

  9. NVIDIA Developer. "DRIVE AGX Autonomous Vehicle Development Platform." 2025. https://developer.nvidia.com/drive/agx 

  10. MLQ AI. "NVIDIA Unveils Alpamayo-R1 and New AI Tools for Speech, Safety and Autonomous Driving." December 2025. https://mlq.ai/news/nvidia-unveils-alpamayo-r1-and-new-ai-tools-for-speech-safety-and-autonomous-driving-at-neurips-2025/ 

  11. NVIDIA. "At NeurIPS, NVIDIA Advances Open Model Development." December 2025. 

  12. ArXiv. "Alpamayo-R1: Bridging Reasoning and Action Prediction." 2511.00088. https://arxiv.org/abs/2511.00088 

  13. NVIDIA Blog. "Next-Gen Vehicles Built on NVIDIA DRIVE Orin." 2025. https://blogs.nvidia.com/blog/new-era-transportation-drive-orin/ 

  14. Introl. "Company Overview." Introl. 2025. https://introl.com 

  15. Inc. "Inc. 5000 2025." Inc. Magazine. 2025. 

  16. Introl. "Coverage Area." Introl. 2025. https://introl.com/coverage-area 

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING