Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

Yann LeCun lève 500 M€ pour AMI Labs tandis que Genie 3 de DeepMind simule des mondes 3D en temps réel. La course de 2026 pour construire une IA qui comprend la physique pourrait éclipser les LLM.

Blake Crosley

Jan 03, 2026 10 min read Disclaimer

Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

Trois milliards de dollars de valorisation pré-lancement pour une startup qui n'a pas encore commercialisé un seul produit.[^1] AMI Labs de Yann LeCun représente le pari le plus ambitieux à ce jour sur une thèse qui divise les chercheurs en IA depuis des années : les grands modèles de langage n'atteindront jamais l'intelligence générale, et la voie à suivre passe plutôt par les modèles du monde.

En bref

Le paradigme des modèles du monde a fait irruption dans le développement mainstream de l'IA fin 2025 et début 2026. Yann LeCun a quitté Meta après 12 ans pour lancer AMI Labs, levant 500 M€ pour une valorisation de 3 Md€ afin de construire des systèmes d'IA qui comprennent la physique plutôt que de simplement prédire du texte.[^2] Google DeepMind a publié Genie 3, le premier modèle du monde interactif en temps réel capable de générer des environnements 3D persistants à 24 images par seconde.[^3] World Labs de Fei-Fei Li a lancé Marble, rendant la génération de modèles du monde commercialement disponible avec des tarifs allant de la gratuité à 95 $/mois.[^4] La plateforme Cosmos de NVIDIA a atteint 2 millions de téléchargements alors que les développeurs en robotique et véhicules autonomes adoptent les données d'entraînement synthétiques sensibles à la physique.[^5] Pour les organisations qui construisent des infrastructures d'IA, les modèles du monde signalent un virage computationnel du traitement de texte vers la génération vidéo, la simulation physique et le raisonnement incarné.

Le plafond des LLM

Les grands modèles de langage ont atteint des capacités remarquables grâce à la mise à l'échelle. GPT-4, Claude et Gemini démontrent un raisonnement sophistiqué, une génération de code et une résolution de problèmes en plusieurs étapes.[^6] Pourtant, une limitation fondamentale persiste : ces modèles apprennent des motifs statistiques à partir de texte, pas une compréhension de la réalité physique.[^7]

Des recherches publiées en 2024 ont prouvé mathématiquement que les LLM ne peuvent pas apprendre toutes les fonctions calculables et hallucinneront donc inévitablement lorsqu'ils sont utilisés comme résolveurs de problèmes généraux.[^8] La cause profonde réside dans le fonctionnement des LLM : prédire quels tokens suivent les tokens précédents en fonction de motifs appris à partir des données d'entraînement, sans aucun ancrage dans la réalité physique.[^9]

Le problème des hallucinations

Les LLM génèrent du texte plausible qui peut décrire des scénarios physiquement impossibles, des événements historiquement inexacts ou un raisonnement logiquement incohérent.[^10] Contrairement aux humains qui apprennent la gravité à travers l'expérience incarnée, les LLM apprennent seulement que le mot « gravité » tend à apparaître près de certains autres mots.[^11]

Limitation	Cause	Conséquence
Hallucination factuelle	Pas de base de connaissances vérifiée[^12]	Fabrication confiante de faits
Échec du raisonnement physique	Pas d'expérience incarnée[^13]	Décrit une physique impossible
Confusion causale	Reconnaissance de motifs, pas compréhension[^14]	Corrélation traitée comme causalité
Incohérence temporelle	Prédiction séquentielle de tokens[^15]	Événements dans un ordre impossible

Yann LeCun a argumenté publiquement pendant des années que la mise à l'échelle des LLM ne produira pas d'intelligence générale.[^16] « Les LLM sont trop limités », a déclaré LeCun lors de sa présentation à NVIDIA GTC. « Les mettre à l'échelle ne nous permettra pas d'atteindre l'AGI. »[^17]

L'alternative qu'il propose : des modèles du monde qui apprennent des représentations de la réalité physique, permettant la prédiction, la planification et le raisonnement sur les causes et les effets.[^18]

AMI Labs de Yann LeCun

LeCun a quitté Meta en décembre 2025 après 12 ans, dont cinq en tant que directeur fondateur de Facebook AI Research (FAIR) et sept en tant que scientifique en chef de l'IA.[^19] Sa nouvelle entreprise, Advanced Machine Intelligence (AMI) Labs, représente la tentative la plus ambitieuse à ce jour de commercialiser la recherche sur les modèles du monde.[^20]

Financement et structure

AMI Labs a entamé des discussions de financement visant 500 millions d'euros pour une valorisation de 3 milliards d'euros avant de lancer tout produit.[^21] L'objectif représenterait l'une des plus grandes levées de fonds pré-lancement de l'histoire de l'IA, reflétant la confiance des investisseurs dans la vision et le parcours de LeCun.[^22]

Rôle	Personne	Parcours
Président exécutif	Yann LeCun	Lauréat du prix Turing, fondateur de Meta FAIR[^23]
PDG	Alex LeBrun	Ancien PDG de Nabla (IA médicale)[^24]

L'entreprise prévoit d'établir son siège à Paris d'ici janvier 2026.[^25] Bien que Meta n'investisse pas directement dans AMI Labs, les entreprises prévoient de forger un partenariat permettant à LeCun de maintenir ses connexions de recherche.[^26]

Vision technique

AMI Labs vise à créer des systèmes d'IA qui comprennent la physique, maintiennent une mémoire persistante et planifient des actions complexes plutôt que de simplement prédire des séquences de texte.[^27] LeCun décrit un modèle du monde comme « votre modèle mental de la façon dont le monde se comporte ».[^28]

« Vous pouvez imaginer une séquence d'actions que vous pourriez entreprendre, et votre modèle du monde vous permettra de prédire quel sera l'effet de la séquence d'actions sur le monde », a expliqué LeCun.[^29]

L'approche diffère fondamentalement des LLM. Là où les modèles de type GPT prédisent le mot suivant, les modèles du monde prédisent l'état suivant d'un environnement physique en fonction des actions entreprises en son sein.[^30] Cela permet :

Planification : Simuler les résultats avant d'agir
Raisonnement sur la physique : Comprendre que les objets ont une masse, une quantité de mouvement et des relations spatiales
Compréhension cause-effet : Apprendre que les actions produisent des conséquences prévisibles
Mémoire persistante : Maintenir un état du monde cohérent dans le temps

Fondation I-JEPA

AMI Labs s'appuie sur la recherche I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun chez Meta.[^31] I-JEPA apprend en prédisant des représentations de régions d'images à partir d'autres régions, développant une compréhension abstraite des scènes visuelles sans avoir besoin d'étiquettes explicites.[^32]

L'approche est parallèle à la façon dont les humains développent une physique intuitive par l'observation. Un enfant qui regarde des objets tomber développe un modèle interne de la gravité sans que personne n'explique les lois de Newton.[^33] I-JEPA et les architectures successeurs visent à reproduire ce processus d'apprentissage dans des systèmes artificiels.[^34]

Genie 3 de DeepMind

Google DeepMind a publié Genie 3 en août 2025, représentant le premier modèle du monde interactif à usage général en temps réel.[^35] Contrairement aux systèmes précédents qui généraient des environnements statiques ou nécessitaient un temps de traitement significatif, Genie 3 produit des mondes 3D navigables à 24 images par seconde.[^36]

Capacités techniques

Genie 3 génère des environnements dynamiques à partir de prompts textuels, maintenant une cohérence visuelle pendant plusieurs minutes d'interaction en temps réel.[^37] Le système ne repose pas sur des moteurs physiques codés en dur ; au lieu de cela, le modèle apprend par lui-même comment le monde fonctionne à travers l'entraînement.[^38]

Capacité	Spécification
Fréquence d'images	24 fps temps réel[^39]
Résolution	720p[^40]
Durée de cohérence	Plusieurs minutes[^41]
Horizon de mémoire	Jusqu'à 1 minute de rétrospective[^42]
Physique	Auto-apprise, non codée en dur[^43]

« Genie 3 est le premier modèle du monde interactif à usage général en temps réel », a déclaré Shlomi Fruchter, directeur de recherche chez DeepMind. « Il va au-delà des modèles du monde étroits qui existaient auparavant. Il n'est pas spécifique à un environnement particulier. »[^44]

Architecture auto-régressive

Le modèle génère une image à la fois, regardant en arrière le contenu précédemment généré pour déterminer ce qui se passe ensuite.[^45] Atteindre des performances en temps réel nécessite de calculer ce processus auto-régressif plusieurs fois par seconde tout en maintenant la cohérence avec une mémoire visuelle potentiellement vieille d'une minute.[^46]

La cohérence physique émerge de l'entraînement plutôt que de la programmation explicite.[^47] Les environnements Genie 3 maintiennent une physique stable parce que le modèle a appris les régularités physiques à partir des données d'entraînement, pas parce que les chercheurs ont manuellement encodé la gravité ou la détection de collision.[^48]

Implications pour l'AGI

DeepMind positionne Genie 3 comme une étape vers l'intelligence artificielle générale.[^49] Le laboratoire s'attend à ce que la technologie des modèles du monde joue un rôle critique à mesure que les agents IA interagissent davantage avec les environnements physiques.[^50]

« Genie 3 marque un bond majeur vers l'intelligence artificielle générale en permettant aux agents IA d'"expérimenter", d'interagir avec et d'apprendre de mondes richement simulés sans création manuelle de contenu », selon l'annonce de DeepMind.[^51]

Limitations actuelles

Genie 3 reste en aperçu de recherche limité plutôt qu'en version publique.[^52] Les contraintes connues incluent :

Espace d'action limité pour les interactions des agents
Dégradation de la cohérence après plusieurs minutes
Précision géographique incomplète du monde réel
Défis pour modéliser les interactions multi-agents complexes

DeepMind continue d'étendre l'accès aux tests à des universitaires et créateurs sélectionnés.[^53]

World Labs de Fei-Fei Li et Marble

World Labs, fondé par la pionnière de l'IA Fei-Fei Li, a lancé Marble en novembre 2025 comme premier produit de modèle du monde commercialement disponible.[^54] La startup est sortie du mode furtif avec 230 millions de dollars de financement un peu plus d'un an avant le lancement de Marble.[^55]

Architecture du produit

Marble génère des environnements 3D persistants et téléchargeables à partir de prompts textuels, photos, vidéos, layouts 3D ou images panoramiques.[^56] Contrairement aux concurrents qui génèrent des mondes à la volée pendant l'exploration, Marble produit des environnements discrets que les utilisateurs peuvent éditer et exporter.[^57]

Type d'entrée	Sortie
Prompt textuel	Environnement 3D
Photo	Environnement 3D
Vidéo	Environnement 3D
Layout 3D	Environnement 3D amélioré par IA
Panorama	Environnement 3D

La plateforme offre des outils d'édition natifs IA et un éditeur 3D hybride permettant de bloquer la structure spatiale avant que l'IA ne remplisse les détails visuels.[^58] Les fichiers s'exportent dans des formats compatibles avec les outils standards de l'industrie comme Unreal Engine et Unity.[^59]

Modèle tarifaire

World Labs a adopté une structure freemium ciblant les professionnels créatifs :[^60]

Niveau	Prix	Générations	Fonctionnalités
Gratuit	0 $	4/mois	Génération de base
Standard	20 $/mois	12/mois	Fonctionnalités standard
Pro	35 $/mois	25/mois	Droits commerciaux
Max	95 $/mois	75/mois	Fonctionnalités premium

Applications cibles

Les cas d'utilisation initiaux se concentrent sur le gaming, les effets visuels pour le cinéma et la réalité virtuelle.[^61] Marble prend en charge les casques VR Vision Pro et Quest 3, chaque monde généré étant visualisable en VR.[^62]

Fei-Fei Li positionne Marble comme « la première étape vers la création d'un modèle du monde véritablement spatialement intelligent ».[^63] Au-delà des applications créatives, la technologie permet l'entraînement robotique à travers des environnements simulés qui seraient coûteux ou dangereux à créer dans la réalité physique.[^64]

NVIDIA Cosmos : modèles du monde à l'échelle industrielle

NVIDIA a lancé Cosmos au CES 2025 comme plateforme pour le développement de l'IA physique, ciblant spécifiquement les véhicules autonomes et la robotique.[^65] En janvier 2026, les modèles de fondation du monde Cosmos avaient été téléchargés plus de 2 millions de fois.[^66]

Architecture de la plateforme

Cosmos comprend des modèles de fondation du monde génératifs, des tokenizers avancés, des garde-fous et un pipeline de traitement vidéo accéléré.[^67] Les modèles prédisent et génèrent des vidéos sensibles à la physique des états futurs de l'environnement, permettant la génération de données d'entraînement synthétiques à grande échelle.[^68]

Niveau du modèle	Optimisation	Cas d'utilisation
Nano	Temps réel, déploiement edge[^69]	Inférence sur appareil
Super	Haute performance de référence[^70]	Développement général
Ultra	Qualité et fidélité maximales[^71]	Distillation de modèles personnalisés

La plateforme a été entraînée sur 9 000 billions de tokens provenant de 20 millions d'heures de données du monde réel couvrant les interactions humaines, les environnements, les contextes industriels, la robotique et les scénarios de conduite.[^72]

Adoption industrielle

Les principales entreprises de robotique et automobile ont adopté Cosmos pour la génération de données synthétiques :[^73]

Entreprise	Domaine
1X	Robots humanoïdes
Agility	Robots bipèdes
Figure AI	Robots humanoïdes
Waabi	Camionnage autonome
XPENG	Véhicules électriques
Uber	Autonome pour covoiturage

Types de modèles Cosmos

Trois types de modèles répondent à différents besoins de développement d'IA physique :[^74]

Cosmos-Predict : Simule et prédit les états futurs du monde sous forme vidéo **Co

[Contenu tronqué pour la traduction]

Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

En bref

Le plafond des LLM

Le problème des hallucinations

AMI Labs de Yann LeCun

Financement et structure

Vision technique

Fondation I-JEPA

Genie 3 de DeepMind

Capacités techniques

Architecture auto-régressive

Implications pour l'AGI

Limitations actuelles

World Labs de Fei-Fei Li et Marble

Architecture du produit

Modèle tarifaire

Applications cibles

NVIDIA Cosmos : modèles du monde à l'échelle industrielle

Architecture de la plateforme

Adoption industrielle

Types de modèles Cosmos

You Might Also Like

AIOps pour les centres de données : utiliser les LLM pour gé...

Équilibrage de charge pour l'inférence IA : Distribution des...

L'informatique désagrégée pour l'IA : architecture d'infrast...

Demander un devis_

Demande reçue_