NVIDIA Physical AI ที่ NeurIPS: Alpamayo-R1 และระบบนิเวศ Cosmos
12 ธันวาคม 2025
อัปเดตเดือนธันวาคม 2025: NVIDIA เปิดตัว Alpamayo-R1 (AR1) ที่งาน NeurIPS 2025 ซึ่งเป็นโมเดล vision-language-action แบบเปิดตัวแรกที่มีความสามารถด้านการให้เหตุผลสำหรับการขับขี่อัตโนมัติ แพลตฟอร์ม Cosmos ขยายตัวด้วย LidarGen สำหรับการจำลอง และ ProtoMotions3 สำหรับหุ่นยนต์ฮิวแมนนอยด์ โดยมี Figure AI, 1X, Agility Robotics และผู้นำด้านหุ่นยนต์รายอื่นๆ กำลังพัฒนาบนระบบนิเวศนี้
สรุปสั้นๆ
NVIDIA กำลังเปิดซอร์สส่วนประกอบพื้นฐานของ physical AI Alpamayo-R1 ผสมผสานการให้เหตุผลแบบ chain-of-thought เข้ากับการวางแผนเส้นทางสำหรับยานยนต์อัตโนมัติ—ความสามารถที่ก่อนหน้านี้ถูกจำกัดอยู่ในระบบที่เป็นกรรมสิทธิ์ แพลตฟอร์ม Cosmos world foundation model ตอนนี้รวมถึงการสร้างวิดีโอ การสังเคราะห์ lidar และเครื่องมือฝึกหุ่นยนต์ฮิวแมนนอยด์ ด้วยบริษัทหุ่นยนต์รายใหญ่ที่นำโมเดลเหล่านี้ไปใช้ NVIDIA วางตำแหน่งตัวเองเป็นชั้นโครงสร้างพื้นฐานสำหรับหุ่นยนต์และยานยนต์อัตโนมัติ เช่นเดียวกับที่ครองตลาดการฝึก LLM
เกิดอะไรขึ้น
NVIDIA เปิดตัว Alpamayo-R1 (AR1) ที่งาน NeurIPS 2025 ในซานดิเอโกเมื่อวันที่ 1 ธันวาคม โดยอธิบายว่าเป็น "โมเดล vision language action (VLA) แบบเปิดที่มีความสามารถด้านการให้เหตุผลระดับอุตสาหกรรมตัวแรกของโลกสำหรับการขับขี่อัตโนมัติ"1
โมเดลนี้ผสมผสานการให้เหตุผล AI แบบ chain-of-thought เข้ากับการวางแผนเส้นทาง AR1 แยกสถานการณ์การขับขี่ออกเป็นขั้นตอน พิจารณาเส้นทางที่เป็นไปได้ จากนั้นใช้ข้อมูลบริบทเพื่อเลือกเส้นทางที่เหมาะสมที่สุด2 แนวทางนี้มุ่งปรับปรุงความปลอดภัยในสถานการณ์ที่ซับซ้อนและกรณีพิเศษที่ท้าทายระบบ AV แบบดั้งเดิม
"เช่นเดียวกับที่โมเดลภาษาขนาดใหญ่ปฏิวัติ generative และ agentic AI นั้น Cosmos world foundation models ก็เป็นความก้าวหน้าครั้งสำคัญสำหรับ physical AI" Jensen Huang กล่าวในการประกาศก่อนหน้าที่งาน CES และ GTC3
AR1 สร้างขึ้นบน Cosmos-Reason1-7B ซึ่งเป็นโมเดลภาษาเชิงภาพที่มีความสามารถด้านการให้เหตุผลที่ NVIDIA เปิดตัวเป็นส่วนหนึ่งของแพลตฟอร์ม Cosmos ที่กว้างขึ้น4 โมเดล, กรอบการประเมิน (AlpaSim) และชุดข้อมูลฝึกบางส่วนมีให้ใช้งานบน GitHub และ Hugging Face ภายใต้ใบอนุญาตแบบเปิดสำหรับการวิจัยที่ไม่ใช่เชิงพาณิชย์
ทำไมจึงสำคัญสำหรับโครงสร้างพื้นฐาน
Physical AI ขยายตัวเหมือน LLM: แพลตฟอร์ม Cosmos ใช้แนวทางเดียวกันที่ใช้ได้ผลกับโมเดลภาษา (foundation models ขนาดใหญ่, open weights, เครื่องมือสำหรับนักพัฒนา) กับหุ่นยนต์และยานยนต์อัตโนมัติ องค์กรสามารถปรับแต่ง Alpamayo-R1 หรือโมเดล Cosmos ด้วยข้อมูลที่เป็นกรรมสิทธิ์แทนที่จะสร้างตั้งแต่ต้น
การจำลองกลายเป็นจุดแข่งขัน: LidarGen สร้างข้อมูล lidar สังเคราะห์; Cosmos Transfer แปลงการจำลองเป็นวิดีโอที่สมจริงเหมือนภาพถ่าย; ProtoMotions3 ฝึกหุ่นยนต์ฮิวแมนนอยด์ในสภาพแวดล้อมที่จำลองฟิสิกส์อย่างแม่นยำ ความต้องการการคำนวณนั้นมหาศาล: การฝึก robotics policy เดียวโดยทั่วไปต้องการ 1,000-10,000 GPU-hours บนฮาร์ดแวร์ระดับ H100 องค์กรที่เข้าสู่ physical AI ต้องการคลัสเตอร์ GPU เฉพาะหรือความร่วมมือกับ neocloud
โอเพนซอร์สเร่งการนำไปใช้: โดยการเปิดตัว AR1 อย่างเปิดเผย NVIDIA ผลักดันการนำ hardware stack ของตนไปใช้ ทุกองค์กรที่ฝึกหรือปรับแต่งโมเดลเหล่านี้ทำงานบน GPU ของ NVIDIA กลยุทธ์โมเดลเปิดพิสูจน์แล้วว่าได้ผลสำหรับการพัฒนา LLM; NVIDIA นำมาใช้กับ physical AI
ระบบนิเวศหุ่นยนต์เติบโตเต็มที่: Figure AI, 1X, Agility Robotics และ X-Humanoid ที่สร้างบน Cosmos บ่งบอกว่าอุตสาหกรรมหุ่นยนต์ฮิวแมนนอยด์กำลังมาบรรจบกันบนโครงสร้างพื้นฐานร่วม สิ่งนี้คล้ายกับการที่การพัฒนา cloud AI มาตรฐานบน PyTorch และสถาปัตยกรรม transformer
รายละเอียดทางเทคนิค
สถาปัตยกรรม NVIDIA DRIVE Alpamayo-R1
| ส่วนประกอบ | ข้อมูลจำเพาะ |
|---|---|
| Model Base | Cosmos-Reason1-7B |
| Model Type | Vision-Language-Action (VLA) |
| คุณสมบัติหลัก | การให้เหตุผลแบบ chain-of-thought สำหรับการวางแผนเส้นทาง |
| ข้อมูลฝึก | 1,727+ ชั่วโมงของข้อมูลการขับขี่ (บางส่วนเปิดเผย) |
| การประเมิน | กรอบ AlpaSim (โอเพนซอร์ส) |
| ความพร้อมใช้งาน | GitHub, Hugging Face |
แนวทางการให้เหตุผลของ AR1:5 1. รับรู้สภาพแวดล้อมผ่านอินพุตหลายโหมด 2. ให้เหตุผลผ่านกระบวนการตัดสินใจโดยใช้ chain-of-thought 3. สร้างการทำนายเส้นทาง 4. อธิบายการกระทำผ่านคำอธิบายภาษาธรรมชาติ
การประเมินแสดงประสิทธิภาพระดับชั้นนำในด้านการให้เหตุผล การสร้างเส้นทาง ความสอดคล้อง ความปลอดภัย และเมตริกความหน่วง6
ส่วนประกอบแพลตฟอร์ม Cosmos
| โมเดล | วัตถุประสงค์ | กรณีใช้งาน |
|---|---|---|
| Cosmos Predict | การสร้างเฟรมถัดไป | การสร้างชุดข้อมูลกรณีพิเศษ |
| Cosmos Transfer | วิดีโอโครงสร้างเป็นภาพสมจริง | ข้อมูลฝึกสังเคราะห์ |
| Cosmos Reason | การประเมินแบบ chain-of-thought | การประเมินคุณภาพ |
| LidarGen | การสังเคราะห์ข้อมูล lidar | การจำลอง AV |
| ProtoMotions3 | กรอบการฝึกฮิวแมนนอยด์ | การพัฒนา robot policy |
LidarGen
world model ตัวแรกที่สร้างข้อมูล lidar สังเคราะห์สำหรับการจำลอง AV:7 - สร้างบนสถาปัตยกรรม Cosmos - สร้าง range maps และ point clouds - เปิดใช้งานการทดสอบสถานการณ์ด้วย lidar โดยไม่ต้องเก็บข้อมูลเซ็นเซอร์จริง - ลดความต้องการข้อมูลจากโลกจริงสำหรับการพัฒนา AV
ProtoMotions3
กรอบการฝึกหุ่นยนต์ฮิวแมนนอยด์ที่เร่งด้วย GPU:8 - สร้างบน NVIDIA Newton และ Isaac Lab - ใช้ฉากที่สร้างโดย Cosmos WFM - ฝึกมนุษย์ดิจิทัลและหุ่นยนต์ฮิวแมนนอยด์ที่จำลองทางฟิสิกส์ - โมเดล policy ส่งออกไปยัง NVIDIA GR00T N สำหรับฮาร์ดแวร์จริง
การนำไปใช้ในอุตสาหกรรม
องค์กรที่ใช้ Cosmos world foundation models:9
| บริษัท | การใช้งาน |
|---|---|
| 1X | การฝึกฮิวแมนนอยด์ NEO Gamma ผ่าน Cosmos Predict/Transfer |
| Agility Robotics | การสร้างข้อมูลสังเคราะห์ขนาดใหญ่ |
| Figure AI | การพัฒนา physical AI |
| Foretellix | การทดสอบและตรวจสอบ AV |
| Gatik | รถบรรทุกอัตโนมัติ |
| Oxa | แพลตฟอร์มความเป็นอิสระสากล |
| PlusAI | รถบรรทุกอัตโนมัติ |
| X-Humanoid | หุ่นยนต์ฮิวแมนนอยด์ |
Pras Velagapudi, CTO ของ Agility Robotics: "Cosmos เสนอโอกาสให้เราขยายข้อมูลฝึกที่สมจริงเหมือนภาพถ่ายให้เกินกว่าที่เราจะเก็บได้จริงในโลกจริง"10
ประกาศอื่นๆ ที่ NeurIPS
นักวิจัย NVIDIA นำเสนอมากกว่า 70 บทความ การบรรยาย และเวิร์กช็อปที่ NeurIPS 202511 การเปิดตัวแบบเปิดเพิ่มเติมรวมถึง:
โมเดล Digital AI: - MultiTalker Parakeet: การรู้จำเสียงพูดสำหรับสภาพแวดล้อมที่มีผู้พูดหลายคน - Sortformer: โมเดลแยกผู้พูด - Nemotron Content Safety Reasoning: การประเมินความปลอดภัย
การยกย่อง: - Artificial Analysis Openness Index จัดอันดับตระกูล NVIDIA Nemotron ว่า "เปิดกว้างที่สุดในระบบนิเวศ AI"12
อะไรต่อไป
2026: การปรับใช้ในการผลิตของอนุพันธ์ Alpamayo-R1 ในโปรแกรม AV ระดับ 4
2026-2027: ผู้ผลิตหุ่นยนต์ฮิวแมนนอยด์ส่งมอบผลิตภัณฑ์ที่ฝึกบนท่อ Cosmos/ProtoMotions3
ต่อเนื่อง: แพลตฟอร์ม Cosmos ขยายตัวด้วย world models เพิ่มเติมสำหรับโดเมนเฉพาะทาง (การผลิต โลจิสติกส์ การดูแลสุขภาพ)
ผลกระทบต่อตลาด: อุตสาหกรรมการผลิตและโลจิสติกส์มูลค่า 50 ล้านล้านดอลลาร์ที่ Huang อ้างถึงจะต้องการโครงสร้างพื้นฐาน GPU มหาศาลสำหรับการจำลองและการอนุมาน Physical AI เป็นเวกเตอร์การเติบโตถัดไปของ NVIDIA นอกเหนือจากการฝึก LLM
ประเด็นสำคัญ
สำหรับนักวางแผนโครงสร้างพื้นฐาน: - การจำลอง physical AI ต้องการ 1,000-10,000 GPU-hours ต่อ robotics policy บนฮาร์ดแวร์ระดับ H100 - เวิร์กโฟลว์ที่ใช้ Cosmos ขับเคลื่อนความต้องการฮาร์ดแวร์ NVIDIA; วางแผนงบประมาณตามโปรแกรม AV/หุ่นยนต์ - การสร้างข้อมูลสังเคราะห์ลดแต่ไม่ขจัดความต้องการเก็บข้อมูลจากโลกจริง - ไทม์ไลน์ความเป็นอิสระระดับ 4 ขึ้นอยู่กับความก้าวหน้าในโมเดลการให้เหตุผลเช่น AR1 - Isaac Sim ต้องการ RTX 4090 ขั้นต่ำ; การฝึกในการผลิตต้องการคลัสเตอร์ A100/H100
สำหรับทีมปฏิบัติการ: - โมเดลเปิดมีให้ใช้งานบน GitHub และ Hugging Face สำหรับการประเมิน - AlpaSim ให้กรอบการประเมินที่เป็นมาตรฐาน - การรวม Isaac Lab/Isaac Sim สำหรับการพัฒนาหุ่นยนต์ - LidarGen เปิดใช้งานการจำลอง lidar โดยไม่ต้องใช้ฮาร์ดแวร์
สำหรับการวางแผนเชิงกลยุทธ์: - Physical AI ปฏิบัติตามแนวทาง LLM: foundation models, fine-tuning, ระบบนิเวศเปิด - อุตสาหกรรมหุ่นยนต์กำลังรวมตัวบน infrastructure stack ของ NVIDIA - ไทม์ไลน์ของ 1X, Figure AI, Agility บ่งบอกว่าผลิตภัณฑ์ฮิวแมนนอยด์จะมาในปี 2026-2027 - AI ด้านการผลิต/โลจิสติกส์เป็นคลื่นการลงทุนโครงสร้างพื้นฐานถัดไป
อ้างอิง
สำหรับโครงสร้างพื้นฐาน GPU ที่รองรับการพัฒนา physical AI ติดต่อ Introl
-
NVIDIA Blog. "At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI." December 1, 2025. ↩
-
TechCrunch. "Nvidia announces new open AI models and tools for autonomous driving research." December 1, 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development." January 7, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail." October 2025. ↩
-
WinBuzzer. "Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset." December 2, 2025. ↩
-
NVIDIA Research. "Alpamayo-R1 Publication." 2025. ↩
-
NVIDIA Blog. "Physical AI Open Datasets." December 2025. ↩
-
Edge AI and Vision Alliance. "NVIDIA Advances Open Model Development for Digital and Physical AI." December 2025. ↩
-
NVIDIA Newsroom. "NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools." March 18, 2025. ↩
-
NVIDIA Newsroom. "Cosmos Platform Announcement." 2025. ↩
-
NVIDIA Blog. "NeurIPS 2025." December 2025. ↩
-
Artificial Analysis. "Openness Index." 2025. ↩
-
Analytics India Magazine. "NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025." December 2025. ↩
-
TechRepublic. "Nvidia Unveils Advances in Open Digital and Physical AI." December 2025. ↩
-
Interesting Engineering. "NVIDIA debuts first open reasoning AI for self-driving vehicles." December 2025. ↩