Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI
Três bilhões de dólares em avaliação pré-lançamento para uma startup que ainda não lançou um único produto.[^1] A AMI Labs de Yann LeCun representa a maior aposta até agora em uma tese que tem dividido pesquisadores de IA há anos: grandes modelos de linguagem nunca alcançarão inteligência geral, e o caminho adiante passa pelos world models.
TL;DR
O paradigma dos world models explodiu no desenvolvimento mainstream de IA no final de 2025 e início de 2026. Yann LeCun deixou a Meta após 12 anos para lançar a AMI Labs, levantando €500M com avaliação de €3B para construir sistemas de IA que entendem física em vez de apenas prever texto.[^2] O Google DeepMind lançou o Genie 3, o primeiro world model interativo em tempo real capaz de gerar ambientes 3D persistentes a 24 fps.[^3] A World Labs de Fei-Fei Li lançou o Marble, tornando a geração de world models comercialmente disponível com preços de gratuito a $95/mês.[^4] A plataforma Cosmos da NVIDIA teve 2 milhões de downloads enquanto desenvolvedores de robótica e veículos autônomos adotam dados de treinamento sintéticos conscientes de física.[^5] Para organizações construindo infraestrutura de IA, os world models sinalizam uma mudança computacional do processamento de texto para geração de vídeo, simulação de física e raciocínio incorporado.
O Teto dos LLMs
Grandes modelos de linguagem alcançaram capacidades notáveis através de escala. GPT-4, Claude e Gemini demonstram raciocínio sofisticado, geração de código e resolução de problemas em múltiplas etapas.[^6] No entanto, uma limitação fundamental persiste: esses modelos aprendem padrões estatísticos do texto, não compreensão da realidade física.[^7]
Pesquisas publicadas em 2024 provaram matematicamente que LLMs não podem aprender todas as funções computáveis e, portanto, inevitavelmente vão alucinar quando usados como solucionadores de problemas gerais.[^8] A causa raiz está em como os LLMs operam: prevendo quais tokens seguem tokens anteriores com base em padrões aprendidos dos dados de treinamento, sem qualquer ancoragem na realidade física.[^9]
O Problema da Alucinação
LLMs geram texto que soa plausível mas pode descrever cenários fisicamente impossíveis, eventos historicamente imprecisos ou raciocínio logicamente inconsistente.[^10] Diferentemente dos humanos que aprendem sobre gravidade através de experiência incorporada, LLMs apenas aprendem que a palavra "gravidade" tende a aparecer perto de certas outras palavras.[^11]
| Limitação | Causa | Consequência |
|---|---|---|
| Alucinação factual | Sem base de conhecimento verificada[^12] | Fabricação confiante de fatos |
| Falha no raciocínio físico | Sem experiência incorporada[^13] | Descreve física impossível |
| Confusão causal | Correspondência de padrões, não compreensão[^14] | Correlação tratada como causalidade |
| Incoerência temporal | Previsão sequencial de tokens[^15] | Eventos em ordem impossível |
Yann LeCun tem argumentado publicamente há anos que escalar LLMs não produzirá inteligência geral.[^16] "LLMs são muito limitantes", afirmou LeCun em sua apresentação no NVIDIA GTC. "Escalá-los não nos permitirá alcançar a AGI."[^17]
A alternativa que ele propõe: world models que aprendem representações da realidade física, permitindo previsão, planejamento e raciocínio sobre causa e efeito.[^18]
AMI Labs de Yann LeCun
LeCun deixou a Meta em dezembro de 2025 após 12 anos, cinco como diretor fundador do Facebook AI Research (FAIR) e sete como cientista-chefe de IA.[^19] Seu novo empreendimento, Advanced Machine Intelligence (AMI) Labs, representa a tentativa mais ambiciosa até agora de comercializar pesquisa em world models.[^20]
Financiamento e Estrutura
A AMI Labs entrou em discussões de financiamento buscando €500 milhões com avaliação de €3 bilhões antes de lançar qualquer produto.[^21] O objetivo representaria uma das maiores captações pré-lançamento da história da IA, refletindo a confiança dos investidores na visão e histórico de LeCun.[^22]
| Cargo | Pessoa | Background |
|---|---|---|
| Presidente Executivo | Yann LeCun | Vencedor do Prêmio Turing, fundador do Meta FAIR[^23] |
| CEO | Alex LeBrun | Ex-CEO da Nabla (IA médica)[^24] |
A empresa planeja estabelecer sede em Paris até janeiro de 2026.[^25] Embora a Meta não invista diretamente na AMI Labs, as empresas planejam forjar uma parceria permitindo que LeCun mantenha conexões de pesquisa.[^26]
Visão Técnica
A AMI Labs visa criar sistemas de IA que entendem física, mantêm memória persistente e planejam ações complexas em vez de simplesmente prever sequências de texto.[^27] LeCun descreve um world model como "seu modelo mental de como o mundo se comporta."[^28]
"Você pode imaginar uma sequência de ações que pode tomar, e seu world model permitirá que você preveja qual será o efeito da sequência de ações no mundo", explicou LeCun.[^29]
A abordagem difere fundamentalmente dos LLMs. Enquanto modelos estilo GPT preveem a próxima palavra, world models preveem o próximo estado de um ambiente físico dadas as ações tomadas dentro dele.[^30] Isso permite:
- Planejamento: Simular resultados antes de agir
- Raciocínio sobre física: Entender que objetos têm massa, momento e relações espaciais
- Compreensão de causa-efeito: Aprender que ações produzem consequências previsíveis
- Memória persistente: Manter estado do mundo consistente ao longo do tempo
Fundação I-JEPA
A AMI Labs se baseia na pesquisa I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun na Meta.[^31] O I-JEPA aprende prevendo representações de regiões de imagens a partir de outras regiões, desenvolvendo compreensão abstrata de cenas visuais sem precisar de rótulos explícitos.[^32]
A abordagem paralela como humanos desenvolvem física intuitiva através da observação. Uma criança observando objetos caírem desenvolve um modelo interno de gravidade sem ninguém explicar as leis de Newton.[^33] O I-JEPA e arquiteturas sucessoras visam replicar esse processo de aprendizagem em sistemas artificiais.[^34]
Genie 3 da DeepMind
O Google DeepMind lançou o Genie 3 em agosto de 2025, representando o primeiro world model de propósito geral interativo em tempo real.[^35] Diferentemente de sistemas anteriores que geravam ambientes estáticos ou requeriam tempo de processamento significativo, o Genie 3 produz mundos 3D navegáveis a 24 quadros por segundo.[^36]
Capacidades Técnicas
O Genie 3 gera ambientes dinâmicos a partir de prompts de texto, mantendo consistência visual por vários minutos de interação em tempo real.[^37] O sistema não depende de engines de física codificados; em vez disso, o modelo ensina a si mesmo como o mundo funciona através do treinamento.[^38]
| Capacidade | Especificação |
|---|---|
| Taxa de quadros | 24 fps em tempo real[^39] |
| Resolução | 720p[^40] |
| Duração de consistência | Vários minutos[^41] |
| Horizonte de memória | Até 1 minuto de retrospectiva[^42] |
| Física | Auto-aprendida, não codificada[^43] |
"O Genie 3 é o primeiro world model de propósito geral interativo em tempo real", afirmou Shlomi Fruchter, diretor de pesquisa da DeepMind. "Ele vai além dos world models estreitos que existiam antes. Não é específico para nenhum ambiente particular."[^44]
Arquitetura Auto-Regressiva
O modelo gera um quadro por vez, olhando para trás no conteúdo previamente gerado para determinar o que acontece em seguida.[^45] Alcançar desempenho em tempo real requer computar esse processo auto-regressivo múltiplas vezes por segundo enquanto mantém consistência com memória visual potencialmente de um minuto atrás.[^46]
Consistência física emerge do treinamento em vez de programação explícita.[^47] Ambientes do Genie 3 mantêm física estável porque o modelo aprendeu regularidades físicas dos dados de treinamento, não porque pesquisadores codificaram manualmente gravidade ou detecção de colisão.[^48]
Implicações para AGI
A DeepMind posiciona o Genie 3 como um degrau rumo à inteligência artificial geral.[^49] O laboratório espera que a tecnologia de world models desempenhe um papel crítico à medida que agentes de IA interagem mais com ambientes físicos.[^50]
"O Genie 3 marca um grande salto rumo à Inteligência Artificial Geral ao permitir que agentes de IA 'experimentem', interajam e aprendam com mundos ricamente simulados sem criação manual de conteúdo", de acordo com o anúncio da DeepMind.[^51]
Limitações Atuais
O Genie 3 permanece em preview de pesquisa limitada em vez de lançamento público.[^52] Restrições conhecidas incluem:
- Espaço de ação limitado para interações de agentes
- Quebra de consistência após vários minutos
- Precisão geográfica do mundo real incompleta
- Desafios modelando interações complexas multi-agentes
A DeepMind continua expandindo o acesso de teste para acadêmicos e criadores selecionados.[^53]
World Labs de Fei-Fei Li e Marble
A World Labs, fundada pela pioneira de IA Fei-Fei Li, lançou o Marble em novembro de 2025 como o primeiro produto de world model comercialmente disponível.[^54] A startup emergiu do modo stealth com $230 milhões em financiamento pouco mais de um ano antes do lançamento do Marble.[^55]
Arquitetura do Produto
O Marble gera ambientes 3D persistentes e baixáveis a partir de prompts de texto, fotos, vídeos, layouts 3D ou imagens panorâmicas.[^56] Diferentemente de concorrentes que geram mundos dinamicamente durante a exploração, o Marble produz ambientes discretos que usuários podem editar e exportar.[^57]
| Tipo de Entrada | Saída |
|---|---|
| Prompt de texto | Ambiente 3D |
| Foto | Ambiente 3D |
| Vídeo | Ambiente 3D |
| Layout 3D | Ambiente 3D aprimorado por IA |
| Panorama | Ambiente 3D |
A plataforma oferece ferramentas de edição nativas de IA e um editor 3D híbrido permitindo bloqueio de estrutura espacial antes da IA preencher detalhes visuais.[^58] Arquivos exportam em formatos compatíveis com ferramentas padrão da indústria como Unreal Engine e Unity.[^59]
Modelo de Preços
A World Labs adotou uma estrutura freemium direcionada a profissionais criativos:[^60]
| Plano | Preço | Gerações | Recursos |
|---|---|---|---|
| Free | $0 | 4/mês | Geração básica |
| Standard | $20/mês | 12/mês | Recursos padrão |
| Pro | $35/mês | 25/mês | Direitos comerciais |
| Max | $95/mês | 75/mês | Recursos premium |
Aplicações Alvo
Casos de uso iniciais focam em jogos, efeitos visuais para cinema e realidade virtual.[^61] O Marble suporta headsets VR Vision Pro e Quest 3, com cada mundo gerado visualizável em VR.[^62]
Fei-Fei Li posiciona o Marble como "o primeiro passo para criar um world model verdadeiramente espacialmente inteligente."[^63] Além de aplicações criativas, a tecnologia permite treinamento de robótica através de ambientes simulados que seriam caros ou perigosos de criar na realidade física.[^64]
NVIDIA Cosmos: World Models em Escala Industrial
A NVIDIA lançou o Cosmos na CES 2025 como uma plataforma para desenvolvimento de IA física, especificamente direcionada a veículos autônomos e robótica.[^65] Até janeiro de 2026, os world foundation models do Cosmos haviam sido baixados mais de 2 milhões de vezes.[^66]
Arquitetura da Plataforma
O Cosmos compreende world foundation models generativos, tokenizadores avançados, guardrails e um pipeline de processamento de vídeo acelerado.[^67] Os modelos preveem e geram vídeos conscientes de física de estados futuros do ambiente, permitindo geração de dados de treinamento sintéticos em escala massiva.[^68]
| Nível do Modelo | Otimização | Caso de Uso |
|---|---|---|
| Nano | Tempo real, implantação na borda[^69] | Inferência no dispositivo |
| Super | Baseline de alto desempenho[^70] | Desenvolvimento geral |
| Ultra | Máxima qualidade e fidelidade[^71] | Destilação de modelo personalizado |
A plataforma treinou em 9.000 trilhões de tokens de 20 milhões de horas de dados do mundo real abrangendo interações humanas, ambientes, configurações industriais, robótica e cenários de direção.[^72]
Adoção pela Indústria
Empresas líderes de robótica e automotivas adotaram o Cosmos para geração de dados sintéticos:[^73]
| Empresa | Domínio |
|---|---|
| 1X | Robôs humanoides |
| Agility | Robôs bípedes |
| Figure AI | Robôs humanoides |
| Waabi | Caminhões autônomos |
| XPENG | Veículos elétricos |
| Uber | Autônomo para compartilhamento de viagens |
Tipos de Modelos Cosmos
Três tipos de modelos atendem diferentes necessidades de desenvolvimento de IA física:[^74]
Cosmos-Predict: Simula e prevê estados futuros do mundo em forma de vídeo **Co
[Conteúdo truncado para tradução]