Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI
Trois milliards de dollars de valorisation pré-lancement pour une startup qui n'a pas encore commercialisé un seul produit.[^1] AMI Labs de Yann LeCun représente le pari le plus ambitieux à ce jour sur une thèse qui divise les chercheurs en IA depuis des années : les grands modèles de langage n'atteindront jamais l'intelligence générale, et la voie à suivre passe plutôt par les modèles du monde.
En bref
Le paradigme des modèles du monde a fait irruption dans le développement mainstream de l'IA fin 2025 et début 2026. Yann LeCun a quitté Meta après 12 ans pour lancer AMI Labs, levant 500 M€ pour une valorisation de 3 Md€ afin de construire des systèmes d'IA qui comprennent la physique plutôt que de simplement prédire du texte.[^2] Google DeepMind a publié Genie 3, le premier modèle du monde interactif en temps réel capable de générer des environnements 3D persistants à 24 images par seconde.[^3] World Labs de Fei-Fei Li a lancé Marble, rendant la génération de modèles du monde commercialement disponible avec des tarifs allant de la gratuité à 95 $/mois.[^4] La plateforme Cosmos de NVIDIA a atteint 2 millions de téléchargements alors que les développeurs en robotique et véhicules autonomes adoptent les données d'entraînement synthétiques sensibles à la physique.[^5] Pour les organisations qui construisent des infrastructures d'IA, les modèles du monde signalent un virage computationnel du traitement de texte vers la génération vidéo, la simulation physique et le raisonnement incarné.
Le plafond des LLM
Les grands modèles de langage ont atteint des capacités remarquables grâce à la mise à l'échelle. GPT-4, Claude et Gemini démontrent un raisonnement sophistiqué, une génération de code et une résolution de problèmes en plusieurs étapes.[^6] Pourtant, une limitation fondamentale persiste : ces modèles apprennent des motifs statistiques à partir de texte, pas une compréhension de la réalité physique.[^7]
Des recherches publiées en 2024 ont prouvé mathématiquement que les LLM ne peuvent pas apprendre toutes les fonctions calculables et hallucinneront donc inévitablement lorsqu'ils sont utilisés comme résolveurs de problèmes généraux.[^8] La cause profonde réside dans le fonctionnement des LLM : prédire quels tokens suivent les tokens précédents en fonction de motifs appris à partir des données d'entraînement, sans aucun ancrage dans la réalité physique.[^9]
Le problème des hallucinations
Les LLM génèrent du texte plausible qui peut décrire des scénarios physiquement impossibles, des événements historiquement inexacts ou un raisonnement logiquement incohérent.[^10] Contrairement aux humains qui apprennent la gravité à travers l'expérience incarnée, les LLM apprennent seulement que le mot « gravité » tend à apparaître près de certains autres mots.[^11]
| Limitation | Cause | Conséquence |
|---|---|---|
| Hallucination factuelle | Pas de base de connaissances vérifiée[^12] | Fabrication confiante de faits |
| Échec du raisonnement physique | Pas d'expérience incarnée[^13] | Décrit une physique impossible |
| Confusion causale | Reconnaissance de motifs, pas compréhension[^14] | Corrélation traitée comme causalité |
| Incohérence temporelle | Prédiction séquentielle de tokens[^15] | Événements dans un ordre impossible |
Yann LeCun a argumenté publiquement pendant des années que la mise à l'échelle des LLM ne produira pas d'intelligence générale.[^16] « Les LLM sont trop limités », a déclaré LeCun lors de sa présentation à NVIDIA GTC. « Les mettre à l'échelle ne nous permettra pas d'atteindre l'AGI. »[^17]
L'alternative qu'il propose : des modèles du monde qui apprennent des représentations de la réalité physique, permettant la prédiction, la planification et le raisonnement sur les causes et les effets.[^18]
AMI Labs de Yann LeCun
LeCun a quitté Meta en décembre 2025 après 12 ans, dont cinq en tant que directeur fondateur de Facebook AI Research (FAIR) et sept en tant que scientifique en chef de l'IA.[^19] Sa nouvelle entreprise, Advanced Machine Intelligence (AMI) Labs, représente la tentative la plus ambitieuse à ce jour de commercialiser la recherche sur les modèles du monde.[^20]
Financement et structure
AMI Labs a entamé des discussions de financement visant 500 millions d'euros pour une valorisation de 3 milliards d'euros avant de lancer tout produit.[^21] L'objectif représenterait l'une des plus grandes levées de fonds pré-lancement de l'histoire de l'IA, reflétant la confiance des investisseurs dans la vision et le parcours de LeCun.[^22]
| Rôle | Personne | Parcours |
|---|---|---|
| Président exécutif | Yann LeCun | Lauréat du prix Turing, fondateur de Meta FAIR[^23] |
| PDG | Alex LeBrun | Ancien PDG de Nabla (IA médicale)[^24] |
L'entreprise prévoit d'établir son siège à Paris d'ici janvier 2026.[^25] Bien que Meta n'investisse pas directement dans AMI Labs, les entreprises prévoient de forger un partenariat permettant à LeCun de maintenir ses connexions de recherche.[^26]
Vision technique
AMI Labs vise à créer des systèmes d'IA qui comprennent la physique, maintiennent une mémoire persistante et planifient des actions complexes plutôt que de simplement prédire des séquences de texte.[^27] LeCun décrit un modèle du monde comme « votre modèle mental de la façon dont le monde se comporte ».[^28]
« Vous pouvez imaginer une séquence d'actions que vous pourriez entreprendre, et votre modèle du monde vous permettra de prédire quel sera l'effet de la séquence d'actions sur le monde », a expliqué LeCun.[^29]
L'approche diffère fondamentalement des LLM. Là où les modèles de type GPT prédisent le mot suivant, les modèles du monde prédisent l'état suivant d'un environnement physique en fonction des actions entreprises en son sein.[^30] Cela permet :
- Planification : Simuler les résultats avant d'agir
- Raisonnement sur la physique : Comprendre que les objets ont une masse, une quantité de mouvement et des relations spatiales
- Compréhension cause-effet : Apprendre que les actions produisent des conséquences prévisibles
- Mémoire persistante : Maintenir un état du monde cohérent dans le temps
Fondation I-JEPA
AMI Labs s'appuie sur la recherche I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun chez Meta.[^31] I-JEPA apprend en prédisant des représentations de régions d'images à partir d'autres régions, développant une compréhension abstraite des scènes visuelles sans avoir besoin d'étiquettes explicites.[^32]
L'approche est parallèle à la façon dont les humains développent une physique intuitive par l'observation. Un enfant qui regarde des objets tomber développe un modèle interne de la gravité sans que personne n'explique les lois de Newton.[^33] I-JEPA et les architectures successeurs visent à reproduire ce processus d'apprentissage dans des systèmes artificiels.[^34]
Genie 3 de DeepMind
Google DeepMind a publié Genie 3 en août 2025, représentant le premier modèle du monde interactif à usage général en temps réel.[^35] Contrairement aux systèmes précédents qui généraient des environnements statiques ou nécessitaient un temps de traitement significatif, Genie 3 produit des mondes 3D navigables à 24 images par seconde.[^36]
Capacités techniques
Genie 3 génère des environnements dynamiques à partir de prompts textuels, maintenant une cohérence visuelle pendant plusieurs minutes d'interaction en temps réel.[^37] Le système ne repose pas sur des moteurs physiques codés en dur ; au lieu de cela, le modèle apprend par lui-même comment le monde fonctionne à travers l'entraînement.[^38]
| Capacité | Spécification |
|---|---|
| Fréquence d'images | 24 fps temps réel[^39] |
| Résolution | 720p[^40] |
| Durée de cohérence | Plusieurs minutes[^41] |
| Horizon de mémoire | Jusqu'à 1 minute de rétrospective[^42] |
| Physique | Auto-apprise, non codée en dur[^43] |
« Genie 3 est le premier modèle du monde interactif à usage général en temps réel », a déclaré Shlomi Fruchter, directeur de recherche chez DeepMind. « Il va au-delà des modèles du monde étroits qui existaient auparavant. Il n'est pas spécifique à un environnement particulier. »[^44]
Architecture auto-régressive
Le modèle génère une image à la fois, regardant en arrière le contenu précédemment généré pour déterminer ce qui se passe ensuite.[^45] Atteindre des performances en temps réel nécessite de calculer ce processus auto-régressif plusieurs fois par seconde tout en maintenant la cohérence avec une mémoire visuelle potentiellement vieille d'une minute.[^46]
La cohérence physique émerge de l'entraînement plutôt que de la programmation explicite.[^47] Les environnements Genie 3 maintiennent une physique stable parce que le modèle a appris les régularités physiques à partir des données d'entraînement, pas parce que les chercheurs ont manuellement encodé la gravité ou la détection de collision.[^48]
Implications pour l'AGI
DeepMind positionne Genie 3 comme une étape vers l'intelligence artificielle générale.[^49] Le laboratoire s'attend à ce que la technologie des modèles du monde joue un rôle critique à mesure que les agents IA interagissent davantage avec les environnements physiques.[^50]
« Genie 3 marque un bond majeur vers l'intelligence artificielle générale en permettant aux agents IA d'"expérimenter", d'interagir avec et d'apprendre de mondes richement simulés sans création manuelle de contenu », selon l'annonce de DeepMind.[^51]
Limitations actuelles
Genie 3 reste en aperçu de recherche limité plutôt qu'en version publique.[^52] Les contraintes connues incluent :
- Espace d'action limité pour les interactions des agents
- Dégradation de la cohérence après plusieurs minutes
- Précision géographique incomplète du monde réel
- Défis pour modéliser les interactions multi-agents complexes
DeepMind continue d'étendre l'accès aux tests à des universitaires et créateurs sélectionnés.[^53]
World Labs de Fei-Fei Li et Marble
World Labs, fondé par la pionnière de l'IA Fei-Fei Li, a lancé Marble en novembre 2025 comme premier produit de modèle du monde commercialement disponible.[^54] La startup est sortie du mode furtif avec 230 millions de dollars de financement un peu plus d'un an avant le lancement de Marble.[^55]
Architecture du produit
Marble génère des environnements 3D persistants et téléchargeables à partir de prompts textuels, photos, vidéos, layouts 3D ou images panoramiques.[^56] Contrairement aux concurrents qui génèrent des mondes à la volée pendant l'exploration, Marble produit des environnements discrets que les utilisateurs peuvent éditer et exporter.[^57]
| Type d'entrée | Sortie |
|---|---|
| Prompt textuel | Environnement 3D |
| Photo | Environnement 3D |
| Vidéo | Environnement 3D |
| Layout 3D | Environnement 3D amélioré par IA |
| Panorama | Environnement 3D |
La plateforme offre des outils d'édition natifs IA et un éditeur 3D hybride permettant de bloquer la structure spatiale avant que l'IA ne remplisse les détails visuels.[^58] Les fichiers s'exportent dans des formats compatibles avec les outils standards de l'industrie comme Unreal Engine et Unity.[^59]
Modèle tarifaire
World Labs a adopté une structure freemium ciblant les professionnels créatifs :[^60]
| Niveau | Prix | Générations | Fonctionnalités |
|---|---|---|---|
| Gratuit | 0 $ | 4/mois | Génération de base |
| Standard | 20 $/mois | 12/mois | Fonctionnalités standard |
| Pro | 35 $/mois | 25/mois | Droits commerciaux |
| Max | 95 $/mois | 75/mois | Fonctionnalités premium |
Applications cibles
Les cas d'utilisation initiaux se concentrent sur le gaming, les effets visuels pour le cinéma et la réalité virtuelle.[^61] Marble prend en charge les casques VR Vision Pro et Quest 3, chaque monde généré étant visualisable en VR.[^62]
Fei-Fei Li positionne Marble comme « la première étape vers la création d'un modèle du monde véritablement spatialement intelligent ».[^63] Au-delà des applications créatives, la technologie permet l'entraînement robotique à travers des environnements simulés qui seraient coûteux ou dangereux à créer dans la réalité physique.[^64]
NVIDIA Cosmos : modèles du monde à l'échelle industrielle
NVIDIA a lancé Cosmos au CES 2025 comme plateforme pour le développement de l'IA physique, ciblant spécifiquement les véhicules autonomes et la robotique.[^65] En janvier 2026, les modèles de fondation du monde Cosmos avaient été téléchargés plus de 2 millions de fois.[^66]
Architecture de la plateforme
Cosmos comprend des modèles de fondation du monde génératifs, des tokenizers avancés, des garde-fous et un pipeline de traitement vidéo accéléré.[^67] Les modèles prédisent et génèrent des vidéos sensibles à la physique des états futurs de l'environnement, permettant la génération de données d'entraînement synthétiques à grande échelle.[^68]
| Niveau du modèle | Optimisation | Cas d'utilisation |
|---|---|---|
| Nano | Temps réel, déploiement edge[^69] | Inférence sur appareil |
| Super | Haute performance de référence[^70] | Développement général |
| Ultra | Qualité et fidélité maximales[^71] | Distillation de modèles personnalisés |
La plateforme a été entraînée sur 9 000 billions de tokens provenant de 20 millions d'heures de données du monde réel couvrant les interactions humaines, les environnements, les contextes industriels, la robotique et les scénarios de conduite.[^72]
Adoption industrielle
Les principales entreprises de robotique et automobile ont adopté Cosmos pour la génération de données synthétiques :[^73]
| Entreprise | Domaine |
|---|---|
| 1X | Robots humanoïdes |
| Agility | Robots bipèdes |
| Figure AI | Robots humanoïdes |
| Waabi | Camionnage autonome |
| XPENG | Véhicules électriques |
| Uber | Autonome pour covoiturage |
Types de modèles Cosmos
Trois types de modèles répondent à différents besoins de développement d'IA physique :[^74]
Cosmos-Predict : Simule et prédit les états futurs du monde sous forme vidéo **Co
[Contenu tronqué pour la traduction]