Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

Yann LeCun lève 500 M€ pour AMI Labs tandis que Genie 3 de DeepMind simule des mondes 3D en temps réel. La course de 2026 pour construire une IA qui comprend la physique pourrait éclipser les LLM.

Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

Course aux modèles du monde 2026 : comment LeCun, DeepMind et World Labs redéfinissent la voie vers l'AGI

Trois milliards de dollars de valorisation pré-lancement pour une startup qui n'a pas encore commercialisé un seul produit.[^1] AMI Labs de Yann LeCun représente le pari le plus ambitieux à ce jour sur une thèse qui divise les chercheurs en IA depuis des années : les grands modèles de langage n'atteindront jamais l'intelligence générale, et la voie à suivre passe plutôt par les modèles du monde.

En bref

Le paradigme des modèles du monde a fait irruption dans le développement mainstream de l'IA fin 2025 et début 2026. Yann LeCun a quitté Meta après 12 ans pour lancer AMI Labs, levant 500 M€ pour une valorisation de 3 Md€ afin de construire des systèmes d'IA qui comprennent la physique plutôt que de simplement prédire du texte.[^2] Google DeepMind a publié Genie 3, le premier modèle du monde interactif en temps réel capable de générer des environnements 3D persistants à 24 images par seconde.[^3] World Labs de Fei-Fei Li a lancé Marble, rendant la génération de modèles du monde commercialement disponible avec des tarifs allant de la gratuité à 95 $/mois.[^4] La plateforme Cosmos de NVIDIA a atteint 2 millions de téléchargements alors que les développeurs en robotique et véhicules autonomes adoptent les données d'entraînement synthétiques sensibles à la physique.[^5] Pour les organisations qui construisent des infrastructures d'IA, les modèles du monde signalent un virage computationnel du traitement de texte vers la génération vidéo, la simulation physique et le raisonnement incarné.

Le plafond des LLM

Les grands modèles de langage ont atteint des capacités remarquables grâce à la mise à l'échelle. GPT-4, Claude et Gemini démontrent un raisonnement sophistiqué, une génération de code et une résolution de problèmes en plusieurs étapes.[^6] Pourtant, une limitation fondamentale persiste : ces modèles apprennent des motifs statistiques à partir de texte, pas une compréhension de la réalité physique.[^7]

Des recherches publiées en 2024 ont prouvé mathématiquement que les LLM ne peuvent pas apprendre toutes les fonctions calculables et hallucinneront donc inévitablement lorsqu'ils sont utilisés comme résolveurs de problèmes généraux.[^8] La cause profonde réside dans le fonctionnement des LLM : prédire quels tokens suivent les tokens précédents en fonction de motifs appris à partir des données d'entraînement, sans aucun ancrage dans la réalité physique.[^9]

Le problème des hallucinations

Les LLM génèrent du texte plausible qui peut décrire des scénarios physiquement impossibles, des événements historiquement inexacts ou un raisonnement logiquement incohérent.[^10] Contrairement aux humains qui apprennent la gravité à travers l'expérience incarnée, les LLM apprennent seulement que le mot « gravité » tend à apparaître près de certains autres mots.[^11]

Limitation Cause Conséquence
Hallucination factuelle Pas de base de connaissances vérifiée[^12] Fabrication confiante de faits
Échec du raisonnement physique Pas d'expérience incarnée[^13] Décrit une physique impossible
Confusion causale Reconnaissance de motifs, pas compréhension[^14] Corrélation traitée comme causalité
Incohérence temporelle Prédiction séquentielle de tokens[^15] Événements dans un ordre impossible

Yann LeCun a argumenté publiquement pendant des années que la mise à l'échelle des LLM ne produira pas d'intelligence générale.[^16] « Les LLM sont trop limités », a déclaré LeCun lors de sa présentation à NVIDIA GTC. « Les mettre à l'échelle ne nous permettra pas d'atteindre l'AGI. »[^17]

L'alternative qu'il propose : des modèles du monde qui apprennent des représentations de la réalité physique, permettant la prédiction, la planification et le raisonnement sur les causes et les effets.[^18]

AMI Labs de Yann LeCun

LeCun a quitté Meta en décembre 2025 après 12 ans, dont cinq en tant que directeur fondateur de Facebook AI Research (FAIR) et sept en tant que scientifique en chef de l'IA.[^19] Sa nouvelle entreprise, Advanced Machine Intelligence (AMI) Labs, représente la tentative la plus ambitieuse à ce jour de commercialiser la recherche sur les modèles du monde.[^20]

Financement et structure

AMI Labs a entamé des discussions de financement visant 500 millions d'euros pour une valorisation de 3 milliards d'euros avant de lancer tout produit.[^21] L'objectif représenterait l'une des plus grandes levées de fonds pré-lancement de l'histoire de l'IA, reflétant la confiance des investisseurs dans la vision et le parcours de LeCun.[^22]

Rôle Personne Parcours
Président exécutif Yann LeCun Lauréat du prix Turing, fondateur de Meta FAIR[^23]
PDG Alex LeBrun Ancien PDG de Nabla (IA médicale)[^24]

L'entreprise prévoit d'établir son siège à Paris d'ici janvier 2026.[^25] Bien que Meta n'investisse pas directement dans AMI Labs, les entreprises prévoient de forger un partenariat permettant à LeCun de maintenir ses connexions de recherche.[^26]

Vision technique

AMI Labs vise à créer des systèmes d'IA qui comprennent la physique, maintiennent une mémoire persistante et planifient des actions complexes plutôt que de simplement prédire des séquences de texte.[^27] LeCun décrit un modèle du monde comme « votre modèle mental de la façon dont le monde se comporte ».[^28]

« Vous pouvez imaginer une séquence d'actions que vous pourriez entreprendre, et votre modèle du monde vous permettra de prédire quel sera l'effet de la séquence d'actions sur le monde », a expliqué LeCun.[^29]

L'approche diffère fondamentalement des LLM. Là où les modèles de type GPT prédisent le mot suivant, les modèles du monde prédisent l'état suivant d'un environnement physique en fonction des actions entreprises en son sein.[^30] Cela permet :

  • Planification : Simuler les résultats avant d'agir
  • Raisonnement sur la physique : Comprendre que les objets ont une masse, une quantité de mouvement et des relations spatiales
  • Compréhension cause-effet : Apprendre que les actions produisent des conséquences prévisibles
  • Mémoire persistante : Maintenir un état du monde cohérent dans le temps

Fondation I-JEPA

AMI Labs s'appuie sur la recherche I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun chez Meta.[^31] I-JEPA apprend en prédisant des représentations de régions d'images à partir d'autres régions, développant une compréhension abstraite des scènes visuelles sans avoir besoin d'étiquettes explicites.[^32]

L'approche est parallèle à la façon dont les humains développent une physique intuitive par l'observation. Un enfant qui regarde des objets tomber développe un modèle interne de la gravité sans que personne n'explique les lois de Newton.[^33] I-JEPA et les architectures successeurs visent à reproduire ce processus d'apprentissage dans des systèmes artificiels.[^34]

Genie 3 de DeepMind

Google DeepMind a publié Genie 3 en août 2025, représentant le premier modèle du monde interactif à usage général en temps réel.[^35] Contrairement aux systèmes précédents qui généraient des environnements statiques ou nécessitaient un temps de traitement significatif, Genie 3 produit des mondes 3D navigables à 24 images par seconde.[^36]

Capacités techniques

Genie 3 génère des environnements dynamiques à partir de prompts textuels, maintenant une cohérence visuelle pendant plusieurs minutes d'interaction en temps réel.[^37] Le système ne repose pas sur des moteurs physiques codés en dur ; au lieu de cela, le modèle apprend par lui-même comment le monde fonctionne à travers l'entraînement.[^38]

Capacité Spécification
Fréquence d'images 24 fps temps réel[^39]
Résolution 720p[^40]
Durée de cohérence Plusieurs minutes[^41]
Horizon de mémoire Jusqu'à 1 minute de rétrospective[^42]
Physique Auto-apprise, non codée en dur[^43]

« Genie 3 est le premier modèle du monde interactif à usage général en temps réel », a déclaré Shlomi Fruchter, directeur de recherche chez DeepMind. « Il va au-delà des modèles du monde étroits qui existaient auparavant. Il n'est pas spécifique à un environnement particulier. »[^44]

Architecture auto-régressive

Le modèle génère une image à la fois, regardant en arrière le contenu précédemment généré pour déterminer ce qui se passe ensuite.[^45] Atteindre des performances en temps réel nécessite de calculer ce processus auto-régressif plusieurs fois par seconde tout en maintenant la cohérence avec une mémoire visuelle potentiellement vieille d'une minute.[^46]

La cohérence physique émerge de l'entraînement plutôt que de la programmation explicite.[^47] Les environnements Genie 3 maintiennent une physique stable parce que le modèle a appris les régularités physiques à partir des données d'entraînement, pas parce que les chercheurs ont manuellement encodé la gravité ou la détection de collision.[^48]

Implications pour l'AGI

DeepMind positionne Genie 3 comme une étape vers l'intelligence artificielle générale.[^49] Le laboratoire s'attend à ce que la technologie des modèles du monde joue un rôle critique à mesure que les agents IA interagissent davantage avec les environnements physiques.[^50]

« Genie 3 marque un bond majeur vers l'intelligence artificielle générale en permettant aux agents IA d'"expérimenter", d'interagir avec et d'apprendre de mondes richement simulés sans création manuelle de contenu », selon l'annonce de DeepMind.[^51]

Limitations actuelles

Genie 3 reste en aperçu de recherche limité plutôt qu'en version publique.[^52] Les contraintes connues incluent :

  • Espace d'action limité pour les interactions des agents
  • Dégradation de la cohérence après plusieurs minutes
  • Précision géographique incomplète du monde réel
  • Défis pour modéliser les interactions multi-agents complexes

DeepMind continue d'étendre l'accès aux tests à des universitaires et créateurs sélectionnés.[^53]

World Labs de Fei-Fei Li et Marble

World Labs, fondé par la pionnière de l'IA Fei-Fei Li, a lancé Marble en novembre 2025 comme premier produit de modèle du monde commercialement disponible.[^54] La startup est sortie du mode furtif avec 230 millions de dollars de financement un peu plus d'un an avant le lancement de Marble.[^55]

Architecture du produit

Marble génère des environnements 3D persistants et téléchargeables à partir de prompts textuels, photos, vidéos, layouts 3D ou images panoramiques.[^56] Contrairement aux concurrents qui génèrent des mondes à la volée pendant l'exploration, Marble produit des environnements discrets que les utilisateurs peuvent éditer et exporter.[^57]

Type d'entrée Sortie
Prompt textuel Environnement 3D
Photo Environnement 3D
Vidéo Environnement 3D
Layout 3D Environnement 3D amélioré par IA
Panorama Environnement 3D

La plateforme offre des outils d'édition natifs IA et un éditeur 3D hybride permettant de bloquer la structure spatiale avant que l'IA ne remplisse les détails visuels.[^58] Les fichiers s'exportent dans des formats compatibles avec les outils standards de l'industrie comme Unreal Engine et Unity.[^59]

Modèle tarifaire

World Labs a adopté une structure freemium ciblant les professionnels créatifs :[^60]

Niveau Prix Générations Fonctionnalités
Gratuit 0 $ 4/mois Génération de base
Standard 20 $/mois 12/mois Fonctionnalités standard
Pro 35 $/mois 25/mois Droits commerciaux
Max 95 $/mois 75/mois Fonctionnalités premium

Applications cibles

Les cas d'utilisation initiaux se concentrent sur le gaming, les effets visuels pour le cinéma et la réalité virtuelle.[^61] Marble prend en charge les casques VR Vision Pro et Quest 3, chaque monde généré étant visualisable en VR.[^62]

Fei-Fei Li positionne Marble comme « la première étape vers la création d'un modèle du monde véritablement spatialement intelligent ».[^63] Au-delà des applications créatives, la technologie permet l'entraînement robotique à travers des environnements simulés qui seraient coûteux ou dangereux à créer dans la réalité physique.[^64]

NVIDIA Cosmos : modèles du monde à l'échelle industrielle

NVIDIA a lancé Cosmos au CES 2025 comme plateforme pour le développement de l'IA physique, ciblant spécifiquement les véhicules autonomes et la robotique.[^65] En janvier 2026, les modèles de fondation du monde Cosmos avaient été téléchargés plus de 2 millions de fois.[^66]

Architecture de la plateforme

Cosmos comprend des modèles de fondation du monde génératifs, des tokenizers avancés, des garde-fous et un pipeline de traitement vidéo accéléré.[^67] Les modèles prédisent et génèrent des vidéos sensibles à la physique des états futurs de l'environnement, permettant la génération de données d'entraînement synthétiques à grande échelle.[^68]

Niveau du modèle Optimisation Cas d'utilisation
Nano Temps réel, déploiement edge[^69] Inférence sur appareil
Super Haute performance de référence[^70] Développement général
Ultra Qualité et fidélité maximales[^71] Distillation de modèles personnalisés

La plateforme a été entraînée sur 9 000 billions de tokens provenant de 20 millions d'heures de données du monde réel couvrant les interactions humaines, les environnements, les contextes industriels, la robotique et les scénarios de conduite.[^72]

Adoption industrielle

Les principales entreprises de robotique et automobile ont adopté Cosmos pour la génération de données synthétiques :[^73]

Entreprise Domaine
1X Robots humanoïdes
Agility Robots bipèdes
Figure AI Robots humanoïdes
Waabi Camionnage autonome
XPENG Véhicules électriques
Uber Autonome pour covoiturage

Types de modèles Cosmos

Trois types de modèles répondent à différents besoins de développement d'IA physique :[^74]

Cosmos-Predict : Simule et prédit les états futurs du monde sous forme vidéo **Co

[Contenu tronqué pour la traduction]

Demander un devis_

Parlez-nous de votre projet et nous vous répondrons sous 72 heures.

> TRANSMISSION_TERMINÉE

Demande reçue_

Merci pour votre demande. Notre équipe examinera votre requête et vous répondra sous 72 heures.

EN ATTENTE DE TRAITEMENT