La carrera de los modelos del mundo 2026: Cómo LeCun, DeepMind y World Labs están redefiniendo el camino hacia la AGI

Yann LeCun recauda 500 millones de euros para AMI Labs mientras Genie 3 de DeepMind simula mundos 3D en tiempo real. La carrera de 2026 para construir IA que comprenda la física podría eclipsar a los LLMs.

La carrera de los modelos del mundo 2026: Cómo LeCun, DeepMind y World Labs están redefiniendo el camino hacia la AGI

La carrera de los modelos del mundo 2026: Cómo LeCun, DeepMind y World Labs están redefiniendo el camino hacia la AGI

Tres mil millones de dólares en valoración previa al lanzamiento para una startup que no ha lanzado un solo producto.[^1] AMI Labs de Yann LeCun representa la mayor apuesta hasta la fecha en una tesis que ha dividido a los investigadores de IA durante años: los modelos de lenguaje grandes nunca lograrán la inteligencia general, y el camino hacia adelante pasa por los modelos del mundo.

Resumen

El paradigma de los modelos del mundo irrumpió en el desarrollo de IA convencional a finales de 2025 y principios de 2026. Yann LeCun dejó Meta después de 12 años para lanzar AMI Labs, recaudando 500 millones de euros con una valoración de 3.000 millones de euros para construir sistemas de IA que comprendan la física en lugar de solo predecir texto.[^2] Google DeepMind lanzó Genie 3, el primer modelo del mundo interactivo en tiempo real capaz de generar entornos 3D persistentes a 24 fps.[^3] World Labs de Fei-Fei Li lanzó Marble, haciendo que la generación de modelos del mundo esté disponible comercialmente con precios desde gratis hasta 95 dólares al mes.[^4] La plataforma Cosmos de NVIDIA ha tenido 2 millones de descargas a medida que los desarrolladores de robótica y vehículos autónomos adoptan datos de entrenamiento sintéticos conscientes de la física.[^5] Para las organizaciones que construyen infraestructura de IA, los modelos del mundo señalan un cambio computacional del procesamiento de texto hacia la generación de video, simulación física y razonamiento encarnado.

El techo de los LLM

Los modelos de lenguaje grandes lograron capacidades notables a través de la escala. GPT-4, Claude y Gemini demuestran razonamiento sofisticado, generación de código y resolución de problemas en múltiples pasos.[^6] Sin embargo, persiste una limitación fundamental: estos modelos aprenden patrones estadísticos del texto, no comprensión de la realidad física.[^7]

Una investigación publicada en 2024 demostró matemáticamente que los LLMs no pueden aprender todas las funciones computables y, por lo tanto, inevitablemente alucinarán cuando se usen como solucionadores de problemas generales.[^8] La causa raíz está en cómo operan los LLMs: prediciendo qué tokens siguen a los tokens anteriores basándose en patrones aprendidos de los datos de entrenamiento, sin ningún anclaje en la realidad física.[^9]

El problema de las alucinaciones

Los LLMs generan texto que suena plausible pero que puede describir escenarios físicamente imposibles, eventos históricamente inexactos o razonamiento lógicamente inconsistente.[^10] A diferencia de los humanos que aprenden sobre la gravedad a través de la experiencia corporal, los LLMs solo aprenden que la palabra "gravedad" tiende a aparecer cerca de ciertas otras palabras.[^11]

Limitación Causa Consecuencia
Alucinación factual Sin base de conocimiento verificada[^12] Fabricación confiada de hechos
Fallo en razonamiento físico Sin experiencia encarnada[^13] Describe física imposible
Confusión causal Coincidencia de patrones, no comprensión[^14] Correlación tratada como causalidad
Incoherencia temporal Predicción secuencial de tokens[^15] Eventos en orden imposible

Yann LeCun ha argumentado públicamente durante años que escalar los LLMs no producirá inteligencia general.[^16] "Los LLMs son demasiado limitantes", declaró LeCun en su presentación en NVIDIA GTC. "Escalarlos no nos permitirá alcanzar la AGI".[^17]

La alternativa que propone: modelos del mundo que aprenden representaciones de la realidad física, permitiendo predicción, planificación y razonamiento sobre causa y efecto.[^18]

AMI Labs de Yann LeCun

LeCun dejó Meta en diciembre de 2025 después de 12 años, cinco como director fundador de Facebook AI Research (FAIR) y siete como científico jefe de IA.[^19] Su nueva empresa, Advanced Machine Intelligence (AMI) Labs, representa el intento más ambicioso hasta la fecha de comercializar la investigación en modelos del mundo.[^20]

Financiación y estructura

AMI Labs entró en conversaciones de financiación buscando 500 millones de euros con una valoración de 3.000 millones de euros antes de lanzar cualquier producto.[^21] El objetivo representaría una de las mayores rondas previas al lanzamiento en la historia de la IA, reflejando la confianza de los inversores en la visión y trayectoria de LeCun.[^22]

Rol Persona Trayectoria
Presidente ejecutivo Yann LeCun Ganador del Premio Turing, fundador de Meta FAIR[^23]
CEO Alex LeBrun Ex CEO de Nabla (IA médica)[^24]

La empresa planea establecer su sede en París para enero de 2026.[^25] Aunque Meta no invertirá directamente en AMI Labs, las empresas planean forjar una asociación que permita a LeCun continuar las conexiones de investigación.[^26]

Visión técnica

AMI Labs tiene como objetivo crear sistemas de IA que comprendan la física, mantengan memoria persistente y planifiquen acciones complejas en lugar de simplemente predecir secuencias de texto.[^27] LeCun describe un modelo del mundo como "tu modelo mental de cómo se comporta el mundo".[^28]

"Puedes imaginar una secuencia de acciones que podrías tomar, y tu modelo del mundo te permitirá predecir cuál será el efecto de la secuencia de acciones en el mundo", explicó LeCun.[^29]

El enfoque difiere fundamentalmente de los LLMs. Donde los modelos estilo GPT predicen la siguiente palabra, los modelos del mundo predicen el siguiente estado de un entorno físico dadas las acciones tomadas dentro de él.[^30] Esto permite:

  • Planificación: Simular resultados antes de tomar acción
  • Razonamiento sobre física: Comprender que los objetos tienen masa, momento y relaciones espaciales
  • Comprensión causa-efecto: Aprender que las acciones producen consecuencias predecibles
  • Memoria persistente: Mantener un estado del mundo consistente a través del tiempo

Fundamento I-JEPA

AMI Labs se basa en la investigación I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun en Meta.[^31] I-JEPA aprende prediciendo representaciones de regiones de imagen a partir de otras regiones, desarrollando comprensión abstracta de escenas visuales sin necesitar etiquetas explícitas.[^32]

El enfoque es paralelo a cómo los humanos desarrollan física intuitiva a través de la observación. Un niño que observa objetos caer desarrolla un modelo interno de la gravedad sin que nadie le explique las leyes de Newton.[^33] I-JEPA y las arquitecturas sucesoras tienen como objetivo replicar este proceso de aprendizaje en sistemas artificiales.[^34]

Genie 3 de DeepMind

Google DeepMind lanzó Genie 3 en agosto de 2025, representando el primer modelo del mundo interactivo de propósito general en tiempo real.[^35] A diferencia de sistemas anteriores que generaban entornos estáticos o requerían tiempo de procesamiento significativo, Genie 3 produce mundos 3D navegables a 24 cuadros por segundo.[^36]

Capacidades técnicas

Genie 3 genera entornos dinámicos a partir de indicaciones de texto, manteniendo consistencia visual durante varios minutos de interacción en tiempo real.[^37] El sistema no depende de motores de física codificados; en cambio, el modelo se enseña a sí mismo cómo funciona el mundo a través del entrenamiento.[^38]

Capacidad Especificación
Tasa de cuadros 24 fps en tiempo real[^39]
Resolución 720p[^40]
Duración de consistencia Varios minutos[^41]
Horizonte de memoria Hasta 1 minuto de retrospección[^42]
Física Auto-aprendida, no codificada[^43]

"Genie 3 es el primer modelo del mundo interactivo de propósito general en tiempo real", declaró Shlomi Fruchter, director de investigación en DeepMind. "Va más allá de los modelos del mundo estrechos que existían antes. No es específico para ningún entorno particular".[^44]

Arquitectura auto-regresiva

El modelo genera un cuadro a la vez, mirando hacia atrás el contenido generado previamente para determinar qué sucede a continuación.[^45] Lograr rendimiento en tiempo real requiere computar este proceso auto-regresivo múltiples veces por segundo mientras se mantiene consistencia con memoria visual potencialmente de un minuto de antigüedad.[^46]

La consistencia física emerge del entrenamiento en lugar de la programación explícita.[^47] Los entornos de Genie 3 mantienen física estable porque el modelo aprendió regularidades físicas de los datos de entrenamiento, no porque los investigadores codificaran manualmente la gravedad o la detección de colisiones.[^48]

Implicaciones para la AGI

DeepMind posiciona a Genie 3 como un peldaño hacia la inteligencia artificial general.[^49] El laboratorio espera que la tecnología de modelos del mundo juegue un papel crítico a medida que los agentes de IA interactúen más con entornos físicos.[^50]

"Genie 3 marca un gran salto hacia la Inteligencia Artificial General al permitir que los agentes de IA 'experimenten', interactúen y aprendan de mundos ricamente simulados sin creación manual de contenido", según el anuncio de DeepMind.[^51]

Limitaciones actuales

Genie 3 permanece en vista previa de investigación limitada en lugar de lanzamiento público.[^52] Las restricciones conocidas incluyen:

  • Espacio de acción limitado para interacciones de agentes
  • Ruptura de consistencia después de varios minutos
  • Precisión geográfica del mundo real incompleta
  • Desafíos para modelar interacciones complejas de múltiples agentes

DeepMind continúa expandiendo el acceso de prueba a académicos y creadores seleccionados.[^53]

World Labs de Fei-Fei Li y Marble

World Labs, fundada por la pionera de IA Fei-Fei Li, lanzó Marble en noviembre de 2025 como el primer producto de modelo del mundo disponible comercialmente.[^54] La startup surgió del modo sigiloso con 230 millones de dólares en financiación apenas un año antes del lanzamiento de Marble.[^55]

Arquitectura del producto

Marble genera entornos 3D persistentes y descargables a partir de indicaciones de texto, fotos, videos, diseños 3D o imágenes panorámicas.[^56] A diferencia de los competidores que generan mundos sobre la marcha durante la exploración, Marble produce entornos discretos que los usuarios pueden editar y exportar.[^57]

Tipo de entrada Salida
Indicación de texto Entorno 3D
Foto Entorno 3D
Video Entorno 3D
Diseño 3D Entorno 3D mejorado con IA
Panorama Entorno 3D

La plataforma ofrece herramientas de edición nativas de IA y un editor 3D híbrido que permite bloquear la estructura espacial antes de que la IA complete los detalles visuales.[^58] Los archivos se exportan en formatos compatibles con herramientas estándar de la industria como Unreal Engine y Unity.[^59]

Modelo de precios

World Labs adoptó una estructura freemium dirigida a profesionales creativos:[^60]

Nivel Precio Generaciones Características
Gratuito $0 4/mes Generación básica
Standard $20/mes 12/mes Características estándar
Pro $35/mes 25/mes Derechos comerciales
Max $95/mes 75/mes Características premium

Aplicaciones objetivo

Los casos de uso iniciales se centran en videojuegos, efectos visuales para cine y realidad virtual.[^61] Marble es compatible con los auriculares VR Vision Pro y Quest 3, con cada mundo generado visible en VR.[^62]

Fei-Fei Li posiciona a Marble como "el primer paso hacia la creación de un modelo del mundo verdaderamente inteligente espacialmente".[^63] Más allá de las aplicaciones creativas, la tecnología permite el entrenamiento de robótica a través de entornos simulados que serían costosos o peligrosos de crear en la realidad física.[^64]

NVIDIA Cosmos: Modelos del mundo a escala industrial

NVIDIA lanzó Cosmos en CES 2025 como una plataforma para el desarrollo de IA física, dirigida específicamente a vehículos autónomos y robótica.[^65] Para enero de 2026, los modelos de base mundial de Cosmos habían sido descargados más de 2 millones de veces.[^66]

Arquitectura de la plataforma

Cosmos comprende modelos de base mundial generativos, tokenizadores avanzados, barreras de seguridad y un pipeline de procesamiento de video acelerado.[^67] Los modelos predicen y generan videos conscientes de la física de estados futuros del entorno, permitiendo la generación de datos de entrenamiento sintéticos a escala masiva.[^68]

Nivel del modelo Optimización Caso de uso
Nano Tiempo real, despliegue en el borde[^69] Inferencia en dispositivo
Super Línea base de alto rendimiento[^70] Desarrollo general
Ultra Máxima calidad y fidelidad[^71] Destilación de modelos personalizados

La plataforma se entrenó con 9.000 billones de tokens de 20 millones de horas de datos del mundo real que abarcan interacciones humanas, entornos, configuraciones industriales, robótica y escenarios de conducción.[^72]

Adopción industrial

Las principales empresas de robótica y automoción adoptaron Cosmos para la generación de datos sintéticos:[^73]

Empresa Dominio
1X Robots humanoides
Agility Robots bípedos
Figure AI Robots humanoides
Waabi Camiones autónomos
XPENG Vehículos eléctricos
Uber Vehículos autónomos de transporte compartido

Tipos de modelos Cosmos

Tres tipos de modelos abordan diferentes necesidades de desarrollo de IA física:[^74]

Cosmos-Predict: Simula y predice estados futuros del mundo en forma de video **Co

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO