L'IA physique de NVIDIA au NeurIPS : Alpamayo-R1 et l'écosystème Cosmos
12 décembre 2025
Mise à jour de décembre 2025 : NVIDIA a lancé Alpamayo-R1 (AR1) au NeurIPS 2025, le premier modèle vision-langage-action (VLA) ouvert avec raisonnement pour la conduite autonome. La plateforme Cosmos s'est enrichie de LidarGen pour la simulation et de ProtoMotions3 pour la robotique humanoïde. Figure AI, 1X, Agility Robotics et d'autres leaders de la robotique développent leurs solutions sur cet écosystème.
Résumé
NVIDIA rend open source les composants fondamentaux de l'IA physique. Alpamayo-R1 combine le raisonnement par chaîne de pensée avec la planification de trajectoire pour les véhicules autonomes — une capacité auparavant réservée aux systèmes propriétaires. La plateforme de modèles de fondation mondiaux Cosmos inclut désormais la génération vidéo, la synthèse lidar et les outils d'entraînement pour robots humanoïdes. Avec l'adoption de ces modèles par les principales entreprises de robotique, NVIDIA se positionne comme la couche d'infrastructure pour les robots et les véhicules autonomes, de la même manière qu'elle domine l'entraînement des LLM.
Ce qui s'est passé
NVIDIA a dévoilé Alpamayo-R1 (AR1) au NeurIPS 2025 à San Diego le 1er décembre, le décrivant comme « le premier modèle vision-langage-action (VLA) ouvert avec raisonnement à l'échelle industrielle pour la conduite autonome ».1
Le modèle intègre le raisonnement IA par chaîne de pensée avec la planification de trajectoire. AR1 décompose les scénarios de conduite étape par étape, considère les trajectoires possibles, puis utilise les données contextuelles pour sélectionner les itinéraires optimaux.2 Cette approche vise à améliorer la sécurité dans les scénarios complexes et les cas limites qui mettent à l'épreuve les systèmes de véhicules autonomes traditionnels.
« Tout comme les grands modèles de langage ont révolutionné l'IA générative et agentique, les modèles de fondation mondiaux Cosmos représentent une percée pour l'IA physique », a déclaré Jensen Huang lors des annonces précédentes au CES et au GTC.3
AR1 s'appuie sur Cosmos-Reason1-7B, un modèle vision-langage avec raisonnement que NVIDIA a publié dans le cadre de la plateforme Cosmos élargie.4 Le modèle, le framework d'évaluation (AlpaSim) et un sous-ensemble des données d'entraînement sont disponibles sur GitHub et Hugging Face sous licences ouvertes pour la recherche non commerciale.
Pourquoi c'est important pour l'infrastructure
L'IA physique évolue comme les LLM : La plateforme Cosmos applique la même approche qui a fonctionné pour les modèles de langage (grands modèles de fondation, poids ouverts, outils pour développeurs) à la robotique et aux véhicules autonomes. Les organisations peuvent affiner Alpamayo-R1 ou les modèles Cosmos sur des données propriétaires plutôt que de partir de zéro.
La simulation devient un différenciateur : LidarGen génère des données lidar synthétiques ; Cosmos Transfer convertit les simulations en vidéo photoréaliste ; ProtoMotions3 entraîne les robots humanoïdes dans des environnements physiquement précis. Les besoins en calcul sont substantiels : l'entraînement d'une seule politique robotique nécessite généralement 1 000 à 10 000 heures-GPU sur du matériel de classe H100. Les organisations qui se lancent dans l'IA physique ont besoin de clusters GPU dédiés ou de partenariats avec des neoclouds.
L'open source accélère l'adoption : En publiant AR1 en open source, NVIDIA favorise l'adoption de son stack matériel. Chaque organisation qui entraîne ou affine ces modèles utilise des GPU NVIDIA. La stratégie du modèle ouvert s'est avérée efficace pour le développement des LLM ; NVIDIA l'applique à l'IA physique.
L'écosystème robotique mûrit : Le fait que Figure AI, 1X, Agility Robotics et X-Humanoid développent sur Cosmos indique que l'industrie de la robotique humanoïde converge vers une infrastructure partagée. Cela fait écho à la standardisation du développement d'IA cloud sur PyTorch et les architectures transformer.
Détails techniques
Architecture de NVIDIA DRIVE Alpamayo-R1
| Composant | Spécification |
|---|---|
| Modèle de base | Cosmos-Reason1-7B |
| Type de modèle | Vision-Langage-Action (VLA) |
| Fonctionnalité clé | Raisonnement par chaîne de pensée pour la planification de trajectoire |
| Données d'entraînement | Plus de 1 727 heures de données de conduite (sous-ensemble ouvert) |
| Évaluation | Framework AlpaSim (open source) |
| Disponibilité | GitHub, Hugging Face |
Approche de raisonnement d'AR1 :5 1. Perçoit l'environnement via des entrées multimodales 2. Raisonne à travers le processus de décision en utilisant la chaîne de pensée 3. Génère des prédictions de trajectoire 4. Articule les actions via des descriptions en langage naturel
Les évaluations montrent des performances à l'état de l'art en termes de raisonnement, génération de trajectoire, alignement, sécurité et latence.6
Composants de la plateforme Cosmos
| Modèle | Objectif | Cas d'usage |
|---|---|---|
| Cosmos Predict | Génération de l'image suivante | Création de jeux de données de cas limites |
| Cosmos Transfer | Vidéo structurée vers photoréaliste | Données d'entraînement synthétiques |
| Cosmos Reason | Évaluation par chaîne de pensée | Évaluation de la qualité |
| LidarGen | Synthèse de données lidar | Simulation de véhicules autonomes |
| ProtoMotions3 | Framework d'entraînement humanoïde | Développement de politiques robotiques |
LidarGen
Le premier modèle mondial générant des données lidar synthétiques pour la simulation de véhicules autonomes :7 - Construit sur l'architecture Cosmos - Génère des cartes de portée et des nuages de points - Permet les tests de scénarios basés sur le lidar sans collecte de données de capteurs physiques - Réduit les besoins en données réelles pour le développement des véhicules autonomes
ProtoMotions3
Framework accéléré par GPU pour l'entraînement de robots humanoïdes :8 - Construit sur NVIDIA Newton et Isaac Lab - Utilise des scènes générées par Cosmos WFM - Entraîne des humains numériques et des robots humanoïdes physiquement simulés - Les modèles de politique s'exportent vers NVIDIA GR00T N pour le matériel réel
Adoption par l'industrie
Organisations utilisant les modèles de fondation mondiaux Cosmos :9
| Entreprise | Application |
|---|---|
| 1X | Entraînement de l'humanoïde NEO Gamma via Cosmos Predict/Transfer |
| Agility Robotics | Génération de données synthétiques à grande échelle |
| Figure AI | Développement d'IA physique |
| Foretellix | Tests et validation de véhicules autonomes |
| Gatik | Transport routier autonome |
| Oxa | Plateforme d'autonomie universelle |
| PlusAI | Transport routier autonome |
| X-Humanoid | Robotique humanoïde |
Pras Velagapudi, CTO d'Agility Robotics : « Cosmos nous offre l'opportunité de faire évoluer nos données d'entraînement photoréalistes au-delà de ce que nous pouvons raisonnablement collecter dans le monde réel. »10
Autres annonces du NeurIPS
Les chercheurs de NVIDIA ont présenté plus de 70 articles, conférences et ateliers au NeurIPS 2025.11 Parmi les autres publications ouvertes :
Modèles d'IA numérique : - MultiTalker Parakeet : Reconnaissance vocale pour environnements multi-locuteurs - Sortformer : Modèle de diarisation des locuteurs - Nemotron Content Safety Reasoning : Évaluation de la sécurité
Reconnaissance : - L'indice d'ouverture d'Artificial Analysis a classé la famille NVIDIA Nemotron « parmi les plus ouvertes de l'écosystème IA »12
Perspectives
2026 : Déploiements en production de dérivés d'Alpamayo-R1 dans les programmes de véhicules autonomes de niveau 4.
2026-2027 : Les fabricants de robots humanoïdes commercialisent des produits entraînés sur le pipeline Cosmos/ProtoMotions3.
En continu : La plateforme Cosmos s'étend avec des modèles mondiaux supplémentaires pour des domaines spécialisés (fabrication, logistique, santé).
Impact sur le marché : Les industries de la fabrication et de la logistique, représentant 50 000 milliards de dollars selon Huang, nécessiteront une infrastructure GPU massive pour la simulation et l'inférence. L'IA physique représente le prochain vecteur de croissance de NVIDIA au-delà de l'entraînement des LLM.
Points clés à retenir
Pour les planificateurs d'infrastructure : - La simulation d'IA physique nécessite 1 000 à 10 000 heures-GPU par politique robotique sur du matériel de classe H100 - Les workflows basés sur Cosmos stimulent la demande de matériel NVIDIA ; budgétisez en conséquence pour les programmes de véhicules autonomes/robotique - La génération de données synthétiques réduit mais n'élimine pas les besoins de collecte de données réelles - Les délais d'autonomie de niveau 4 dépendent des avancées des modèles de raisonnement comme AR1 - Isaac Sim nécessite au minimum une RTX 4090 ; l'entraînement en production requiert des clusters A100/H100
Pour les équipes opérationnelles : - Modèles ouverts disponibles sur GitHub et Hugging Face pour évaluation - AlpaSim fournit un framework d'évaluation standardisé - Intégration Isaac Lab/Isaac Sim pour le développement robotique - LidarGen permet la simulation lidar sans matériel
Pour la planification stratégique : - L'IA physique suit le modèle des LLM : modèles de fondation, affinage, écosystème ouvert - L'industrie robotique se consolide sur le stack d'infrastructure NVIDIA - Le calendrier de 1X, Figure AI et Agility suggère des produits humanoïdes en 2026-2027 - L'IA pour la fabrication/logistique représente la prochaine vague d'investissement en infrastructure
Références
Pour une infrastructure GPU supportant le développement d'IA physique, contactez Introl.
-
Blog NVIDIA. « At NeurIPS, NVIDIA Advances Open Model Development for Digital and Physical AI. » 1er décembre 2025. ↩
-
TechCrunch. « Nvidia announces new open AI models and tools for autonomous driving research. » 1er décembre 2025. ↩
-
Salle de presse NVIDIA. « NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development. » 7 janvier 2025. ↩
-
NVIDIA Research. « Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail. » Octobre 2025. ↩
-
WinBuzzer. « Alpamayo-R1: NVIDIA Releases Vision Reasoning Model and Massive 1,727-Hour Dataset. » 2 décembre 2025. ↩
-
NVIDIA Research. « Alpamayo-R1 Publication. » 2025. ↩
-
Blog NVIDIA. « Physical AI Open Datasets. » Décembre 2025. ↩
-
Edge AI and Vision Alliance. « NVIDIA Advances Open Model Development for Digital and Physical AI. » Décembre 2025. ↩
-
Salle de presse NVIDIA. « NVIDIA Announces Major Release of Cosmos World Foundation Models and Physical AI Data Tools. » 18 mars 2025. ↩
-
Salle de presse NVIDIA. « Cosmos Platform Announcement. » 2025. ↩
-
Blog NVIDIA. « NeurIPS 2025. » Décembre 2025. ↩
-
Artificial Analysis. « Openness Index. » 2025. ↩
-
Analytics India Magazine. « NVIDIA Open Sources Reasoning Model for Autonomous Driving at NeurIPS 2025. » Décembre 2025. ↩
-
TechRepublic. « Nvidia Unveils Advances in Open Digital and Physical AI. » Décembre 2025. ↩
-
Interesting Engineering. « NVIDIA debuts first open reasoning AI for self-driving vehicles. » Décembre 2025. ↩