AI Fisik NVIDIA di NeurIPS: Alpamayo-R1 dan Ekosistem Cosmos

NVIDIA merilis Alpamayo-R1, VLA penalaran terbuka pertama untuk kendaraan otonom. Platform Cosmos diperluas dengan LidarGen, ProtoMotions3. Figure AI, 1X mengadopsi.

AI Fisik NVIDIA di NeurIPS: Alpamayo-R1 dan Ekosistem Cosmos

AI Fisik NVIDIA di NeurIPS: Alpamayo-R1 dan Ekosistem Cosmos

12 Desember 2025

Pembaruan Desember 2025: NVIDIA merilis Alpamayo-R1 (AR1) di NeurIPS 2025, model vision-language-action penalaran terbuka pertama untuk mengemudi otonom. Platform Cosmos diperluas dengan LidarGen untuk simulasi dan ProtoMotions3 untuk robotika humanoid. Figure AI, 1X, Agility Robotics, dan pemimpin robotika lainnya membangun di atas ekosistem ini.


Ringkasan

NVIDIA membuka sumber blok bangunan AI fisik. Alpamayo-R1 menggabungkan penalaran chain-of-thought dengan perencanaan trajektori untuk kendaraan otonom—kemampuan yang sebelumnya terkunci di balik sistem proprietary. Platform world foundation model Cosmos kini mencakup generasi video, sintesis lidar, dan alat pelatihan robot humanoid. Dengan perusahaan robotika besar mengadopsi model-model ini, NVIDIA memposisikan diri sebagai lapisan infrastruktur untuk robot dan kendaraan otonom dengan cara yang sama seperti dominasinya dalam pelatihan LLM.


Apa yang Terjadi

NVIDIA mengungkap Alpamayo-R1 (AR1) di NeurIPS 2025 di San Diego pada 1 Desember, menggambarkannya sebagai "model vision language action (VLA) penalaran terbuka skala industri pertama di dunia untuk mengemudi otonom."1

Model ini mengintegrasikan penalaran AI chain-of-thought dengan perencanaan jalur. AR1 menguraikan skenario mengemudi langkah demi langkah, mempertimbangkan kemungkinan trajektori, kemudian menggunakan data kontekstual untuk memilih rute optimal.2 Pendekatan ini bertujuan meningkatkan keselamatan dalam skenario kompleks dan kasus tepi yang menantang sistem AV tradisional.

"Seperti halnya model bahasa besar merevolusi AI generatif dan agentik, world foundation model Cosmos merupakan terobosan untuk AI fisik," pernyataan Jensen Huang pada pengumuman CES dan GTC sebelumnya.3

AR1 dibangun di atas Cosmos-Reason1-7B, model vision-language penalaran yang dirilis NVIDIA sebagai bagian dari platform Cosmos yang lebih luas.4 Model, kerangka evaluasi (AlpaSim), dan subset data pelatihan tersedia di GitHub dan Hugging Face di bawah lisensi terbuka untuk penelitian non-komersial.


Mengapa Ini Penting untuk Infrastruktur

AI Fisik Berskala Seperti LLM: Platform Cosmos menerapkan pendekatan yang sama yang berhasil untuk model bahasa (foundation model besar, bobot terbuka, alat pengembang) ke robotika dan kendaraan otonom. Organisasi dapat melakukan fine-tune Alpamayo-R1 atau model Cosmos pada data proprietary alih-alih membangun dari nol.

Simulasi Menjadi Pembeda: LidarGen menghasilkan data lidar sintetis; Cosmos Transfer mengonversi simulasi ke video fotorealistik; ProtoMotions3 melatih robot humanoid dalam lingkungan fisika yang akurat. Kebutuhan komputasi cukup substansial: melatih satu kebijakan robotika biasanya membutuhkan 1.000-10.000 jam GPU pada perangkat keras kelas H100. Organisasi yang memasuki AI fisik membutuhkan klaster GPU khusus atau kemitraan neocloud.

Open Source Mempercepat Adopsi: Dengan merilis AR1 secara terbuka, NVIDIA mendorong adopsi stack perangkat kerasnya. Setiap organisasi yang melatih atau melakukan fine-tune model ini berjalan di GPU NVIDIA. Strategi model terbuka terbukti efektif untuk pengembangan LLM; NVIDIA menerapkannya ke AI fisik.

Ekosistem Robotika Matang: Figure AI, 1X, Agility Robotics, dan X-Humanoid yang membangun di atas Cosmos menandakan industri robotika humanoid yang konvergen pada infrastruktur bersama. Ini paralel dengan bagaimana pengembangan AI cloud terstandarisasi pada PyTorch dan arsitektur transformer.


Detail Teknis

Arsitektur NVIDIA DRIVE Alpamayo-R1

Komponen Spesifikasi
Basis Model Cosmos-Reason1-7B
Tipe Model Vision-Language-Action (VLA)
Fitur Utama Penalaran chain-of-thought untuk perencanaan trajektori
Data Pelatihan 1.727+ jam data mengemudi (subset terbuka)
Evaluasi Kerangka AlpaSim (open source)
Ketersediaan GitHub, Hugging Face

Pendekatan penalaran AR1:5 1. Mempersepsi lingkungan melalui input multi-modal 2. Menalar melalui proses keputusan menggunakan chain-of-thought 3. Menghasilkan prediksi trajektori 4. Mengartikulasikan tindakan melalui deskripsi bahasa alami

Evaluasi menunjukkan performa state-of-the-art di seluruh metrik penalaran, generasi trajektori, alignment, keselamatan, dan latensi.6

Komponen Platform Cosmos

Model Tujuan Kasus Penggunaan
Cosmos Predict Generasi frame berikutnya Pembuatan dataset kasus tepi
Cosmos Transfer Video terstruktur ke fotorealistik Data pelatihan sintetis
Cosmos Reason Evaluasi chain-of-thought Penilaian kualitas
LidarGen Sintesis data lidar Simulasi AV
ProtoMotions3 Kerangka pelatihan humanoid Pengembangan kebijakan robot

LidarGen

World model pertama yang menghasilkan data lidar sintetis untuk simulasi AV:7 - Dibangun di atas arsitektur Cosmos - Menghasilkan range maps dan point clouds - Memungkinkan pengujian skenario berbasis lidar tanpa pengumpulan data sensor fisik - Mengurangi kebutuhan data dunia nyata untuk pengembangan AV

ProtoMotions3

Kerangka terakselasi GPU untuk pelatihan robot humanoid:8 - Dibangun di atas NVIDIA Newton dan Isaac Lab - Menggunakan scene yang dihasilkan Cosmos WFM - Melatih manusia digital dan robot humanoid yang disimulasikan secara fisik - Model kebijakan diekspor ke NVIDIA GR00T N untuk perangkat keras nyata

Adopsi Industri

Organisasi yang menggunakan world foundation model Cosmos:9

Perusahaan Aplikasi
1X Pelatihan humanoid NEO Gamma via Cosmos Predict/Transfer
Agility Robotics Generasi data sintetis skala besar
Figure AI Pengembangan AI fisik
Foretellix Pengujian dan validasi AV
Gatik Truk otonom
Oxa Platform otonomi universal
PlusAI Truk otonom
X-Humanoid Robotika humanoid

CTO Agility Robotics Pras Velagapudi: "Cosmos menawarkan kami kesempatan untuk menskalakan data pelatihan fotorealistik kami melampaui apa yang dapat kami kumpulkan secara layak di dunia nyata."10


Pengumuman NeurIPS yang Lebih Luas

Peneliti NVIDIA mempresentasikan 70+ makalah, ceramah, dan lokakarya di NeurIPS 2025.11 Rilis terbuka tambahan meliputi:

Model AI Digital: - MultiTalker Parakeet: Pengenalan ucapan untuk lingkungan multi-pembicara - Sortformer: Model speaker diarization - Nemotron Content Safety Reasoning: Evaluasi keselamatan

Pengakuan: - Artificial Analysis Openness Index menilai keluarga NVIDIA Nemotron "di antara yang paling terbuka dalam ekosistem AI"12


Langkah Selanjutnya

2026: Deployment produksi turunan Alpamayo-R1 dalam program AV Level 4.

2026-2027: Produsen robot humanoid mengirimkan produk yang dilatih di pipeline Cosmos/ProtoMotions3.

Berkelanjutan: Platform Cosmos diperluas dengan world model tambahan untuk domain khusus (manufaktur, logistik, kesehatan).

Dampak Pasar: Industri manufaktur dan logistik senilai $50 triliun yang dirujuk Huang akan membutuhkan infrastruktur GPU masif untuk simulasi dan inferensi. AI fisik merepresentasikan vektor pertumbuhan NVIDIA berikutnya melampaui pelatihan LLM.


Poin-Poin Utama

Untuk perencana infrastruktur: - Simulasi AI fisik membutuhkan 1.000-10.000 jam GPU per kebijakan robotika pada perangkat keras kelas H100 - Alur kerja berbasis Cosmos mendorong permintaan perangkat keras NVIDIA; anggarkan sesuai untuk program AV/robotika - Generasi data sintetis mengurangi tetapi tidak menghilangkan kebutuhan pengumpulan data dunia nyata - Timeline otonomi Level 4 bergantung pada kemajuan model penalaran seperti AR1 - Isaac Sim berjalan minimum pada RTX 4090; pelatihan produksi membutuhkan klaster A100/H100

Untuk tim operasi: - Model terbuka tersedia di GitHub dan Hugging Face untuk evaluasi - AlpaSim menyediakan kerangka evaluasi terstandarisasi - Integrasi Isaac Lab/Isaac Sim untuk pengembangan robotika - LidarGen memungkinkan simulasi lidar tanpa perangkat keras

Untuk perencanaan strategis: - AI fisik mengikuti playbook LLM: foundation model, fine-tuning, ekosistem terbuka - Industri robotika berkonsolidasi pada stack infrastruktur NVIDIA - Timing 1X, Figure AI, Agility menunjukkan produk humanoid pada 2026-2027 - AI manufaktur/logistik merepresentasikan gelombang investasi infrastruktur berikutnya


Referensi


Untuk infrastruktur GPU yang mendukung pengembangan AI fisik, hubungi Introl.


  1. NVIDIA Blog. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." 1 Desember 2025. 

  2. TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." 1 Desember 2025. 

  3. NVIDIA Newsroom. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." 7 Januari 2025. 

  4. NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." Oktober 2025. 

  5. WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." 2 Desember 2025. 

  6. NVIDIA Research. "Alpamayo-R1 Publication." 2025. 

  7. NVIDIA Blog. "Physical AI Open Datasets." Desember 2025. 

  8. Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." Desember 2025. 

  9. NVIDIA Newsroom. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." 18 Maret 2025. 

  10. NVIDIA Newsroom. "Cosmos Platform Announcement." 2025. 

  11. NVIDIA Blog. "NeurIPS 2025." Desember 2025. 

  12. Artificial Analysis. "Openness Index." 2025. 

  13. Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." Desember 2025. 

  14. TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." Desember 2025. 

  15. Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." Desember 2025. 

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING