Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

Yann LeCun levanta €500M para a AMI Labs enquanto o Genie 3 da DeepMind simula mundos 3D em tempo real. A corrida de 2026 para construir IA que entende física pode eclipsar os LLMs.

Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

Três bilhões de dólares em avaliação pré-lançamento para uma startup que ainda não lançou um único produto.[^1] A AMI Labs de Yann LeCun representa a maior aposta até agora em uma tese que tem dividido pesquisadores de IA há anos: grandes modelos de linguagem nunca alcançarão inteligência geral, e o caminho adiante passa pelos world models.

TL;DR

O paradigma dos world models explodiu no desenvolvimento mainstream de IA no final de 2025 e início de 2026. Yann LeCun deixou a Meta após 12 anos para lançar a AMI Labs, levantando €500M com avaliação de €3B para construir sistemas de IA que entendem física em vez de apenas prever texto.[^2] O Google DeepMind lançou o Genie 3, o primeiro world model interativo em tempo real capaz de gerar ambientes 3D persistentes a 24 fps.[^3] A World Labs de Fei-Fei Li lançou o Marble, tornando a geração de world models comercialmente disponível com preços de gratuito a $95/mês.[^4] A plataforma Cosmos da NVIDIA teve 2 milhões de downloads enquanto desenvolvedores de robótica e veículos autônomos adotam dados de treinamento sintéticos conscientes de física.[^5] Para organizações construindo infraestrutura de IA, os world models sinalizam uma mudança computacional do processamento de texto para geração de vídeo, simulação de física e raciocínio incorporado.

O Teto dos LLMs

Grandes modelos de linguagem alcançaram capacidades notáveis através de escala. GPT-4, Claude e Gemini demonstram raciocínio sofisticado, geração de código e resolução de problemas em múltiplas etapas.[^6] No entanto, uma limitação fundamental persiste: esses modelos aprendem padrões estatísticos do texto, não compreensão da realidade física.[^7]

Pesquisas publicadas em 2024 provaram matematicamente que LLMs não podem aprender todas as funções computáveis e, portanto, inevitavelmente vão alucinar quando usados como solucionadores de problemas gerais.[^8] A causa raiz está em como os LLMs operam: prevendo quais tokens seguem tokens anteriores com base em padrões aprendidos dos dados de treinamento, sem qualquer ancoragem na realidade física.[^9]

O Problema da Alucinação

LLMs geram texto que soa plausível mas pode descrever cenários fisicamente impossíveis, eventos historicamente imprecisos ou raciocínio logicamente inconsistente.[^10] Diferentemente dos humanos que aprendem sobre gravidade através de experiência incorporada, LLMs apenas aprendem que a palavra "gravidade" tende a aparecer perto de certas outras palavras.[^11]

Limitação Causa Consequência
Alucinação factual Sem base de conhecimento verificada[^12] Fabricação confiante de fatos
Falha no raciocínio físico Sem experiência incorporada[^13] Descreve física impossível
Confusão causal Correspondência de padrões, não compreensão[^14] Correlação tratada como causalidade
Incoerência temporal Previsão sequencial de tokens[^15] Eventos em ordem impossível

Yann LeCun tem argumentado publicamente há anos que escalar LLMs não produzirá inteligência geral.[^16] "LLMs são muito limitantes", afirmou LeCun em sua apresentação no NVIDIA GTC. "Escalá-los não nos permitirá alcançar a AGI."[^17]

A alternativa que ele propõe: world models que aprendem representações da realidade física, permitindo previsão, planejamento e raciocínio sobre causa e efeito.[^18]

AMI Labs de Yann LeCun

LeCun deixou a Meta em dezembro de 2025 após 12 anos, cinco como diretor fundador do Facebook AI Research (FAIR) e sete como cientista-chefe de IA.[^19] Seu novo empreendimento, Advanced Machine Intelligence (AMI) Labs, representa a tentativa mais ambiciosa até agora de comercializar pesquisa em world models.[^20]

Financiamento e Estrutura

A AMI Labs entrou em discussões de financiamento buscando €500 milhões com avaliação de €3 bilhões antes de lançar qualquer produto.[^21] O objetivo representaria uma das maiores captações pré-lançamento da história da IA, refletindo a confiança dos investidores na visão e histórico de LeCun.[^22]

Cargo Pessoa Background
Presidente Executivo Yann LeCun Vencedor do Prêmio Turing, fundador do Meta FAIR[^23]
CEO Alex LeBrun Ex-CEO da Nabla (IA médica)[^24]

A empresa planeja estabelecer sede em Paris até janeiro de 2026.[^25] Embora a Meta não invista diretamente na AMI Labs, as empresas planejam forjar uma parceria permitindo que LeCun mantenha conexões de pesquisa.[^26]

Visão Técnica

A AMI Labs visa criar sistemas de IA que entendem física, mantêm memória persistente e planejam ações complexas em vez de simplesmente prever sequências de texto.[^27] LeCun descreve um world model como "seu modelo mental de como o mundo se comporta."[^28]

"Você pode imaginar uma sequência de ações que pode tomar, e seu world model permitirá que você preveja qual será o efeito da sequência de ações no mundo", explicou LeCun.[^29]

A abordagem difere fundamentalmente dos LLMs. Enquanto modelos estilo GPT preveem a próxima palavra, world models preveem o próximo estado de um ambiente físico dadas as ações tomadas dentro dele.[^30] Isso permite:

  • Planejamento: Simular resultados antes de agir
  • Raciocínio sobre física: Entender que objetos têm massa, momento e relações espaciais
  • Compreensão de causa-efeito: Aprender que ações produzem consequências previsíveis
  • Memória persistente: Manter estado do mundo consistente ao longo do tempo

Fundação I-JEPA

A AMI Labs se baseia na pesquisa I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun na Meta.[^31] O I-JEPA aprende prevendo representações de regiões de imagens a partir de outras regiões, desenvolvendo compreensão abstrata de cenas visuais sem precisar de rótulos explícitos.[^32]

A abordagem paralela como humanos desenvolvem física intuitiva através da observação. Uma criança observando objetos caírem desenvolve um modelo interno de gravidade sem ninguém explicar as leis de Newton.[^33] O I-JEPA e arquiteturas sucessoras visam replicar esse processo de aprendizagem em sistemas artificiais.[^34]

Genie 3 da DeepMind

O Google DeepMind lançou o Genie 3 em agosto de 2025, representando o primeiro world model de propósito geral interativo em tempo real.[^35] Diferentemente de sistemas anteriores que geravam ambientes estáticos ou requeriam tempo de processamento significativo, o Genie 3 produz mundos 3D navegáveis a 24 quadros por segundo.[^36]

Capacidades Técnicas

O Genie 3 gera ambientes dinâmicos a partir de prompts de texto, mantendo consistência visual por vários minutos de interação em tempo real.[^37] O sistema não depende de engines de física codificados; em vez disso, o modelo ensina a si mesmo como o mundo funciona através do treinamento.[^38]

Capacidade Especificação
Taxa de quadros 24 fps em tempo real[^39]
Resolução 720p[^40]
Duração de consistência Vários minutos[^41]
Horizonte de memória Até 1 minuto de retrospectiva[^42]
Física Auto-aprendida, não codificada[^43]

"O Genie 3 é o primeiro world model de propósito geral interativo em tempo real", afirmou Shlomi Fruchter, diretor de pesquisa da DeepMind. "Ele vai além dos world models estreitos que existiam antes. Não é específico para nenhum ambiente particular."[^44]

Arquitetura Auto-Regressiva

O modelo gera um quadro por vez, olhando para trás no conteúdo previamente gerado para determinar o que acontece em seguida.[^45] Alcançar desempenho em tempo real requer computar esse processo auto-regressivo múltiplas vezes por segundo enquanto mantém consistência com memória visual potencialmente de um minuto atrás.[^46]

Consistência física emerge do treinamento em vez de programação explícita.[^47] Ambientes do Genie 3 mantêm física estável porque o modelo aprendeu regularidades físicas dos dados de treinamento, não porque pesquisadores codificaram manualmente gravidade ou detecção de colisão.[^48]

Implicações para AGI

A DeepMind posiciona o Genie 3 como um degrau rumo à inteligência artificial geral.[^49] O laboratório espera que a tecnologia de world models desempenhe um papel crítico à medida que agentes de IA interagem mais com ambientes físicos.[^50]

"O Genie 3 marca um grande salto rumo à Inteligência Artificial Geral ao permitir que agentes de IA 'experimentem', interajam e aprendam com mundos ricamente simulados sem criação manual de conteúdo", de acordo com o anúncio da DeepMind.[^51]

Limitações Atuais

O Genie 3 permanece em preview de pesquisa limitada em vez de lançamento público.[^52] Restrições conhecidas incluem:

  • Espaço de ação limitado para interações de agentes
  • Quebra de consistência após vários minutos
  • Precisão geográfica do mundo real incompleta
  • Desafios modelando interações complexas multi-agentes

A DeepMind continua expandindo o acesso de teste para acadêmicos e criadores selecionados.[^53]

World Labs de Fei-Fei Li e Marble

A World Labs, fundada pela pioneira de IA Fei-Fei Li, lançou o Marble em novembro de 2025 como o primeiro produto de world model comercialmente disponível.[^54] A startup emergiu do modo stealth com $230 milhões em financiamento pouco mais de um ano antes do lançamento do Marble.[^55]

Arquitetura do Produto

O Marble gera ambientes 3D persistentes e baixáveis a partir de prompts de texto, fotos, vídeos, layouts 3D ou imagens panorâmicas.[^56] Diferentemente de concorrentes que geram mundos dinamicamente durante a exploração, o Marble produz ambientes discretos que usuários podem editar e exportar.[^57]

Tipo de Entrada Saída
Prompt de texto Ambiente 3D
Foto Ambiente 3D
Vídeo Ambiente 3D
Layout 3D Ambiente 3D aprimorado por IA
Panorama Ambiente 3D

A plataforma oferece ferramentas de edição nativas de IA e um editor 3D híbrido permitindo bloqueio de estrutura espacial antes da IA preencher detalhes visuais.[^58] Arquivos exportam em formatos compatíveis com ferramentas padrão da indústria como Unreal Engine e Unity.[^59]

Modelo de Preços

A World Labs adotou uma estrutura freemium direcionada a profissionais criativos:[^60]

Plano Preço Gerações Recursos
Free $0 4/mês Geração básica
Standard $20/mês 12/mês Recursos padrão
Pro $35/mês 25/mês Direitos comerciais
Max $95/mês 75/mês Recursos premium

Aplicações Alvo

Casos de uso iniciais focam em jogos, efeitos visuais para cinema e realidade virtual.[^61] O Marble suporta headsets VR Vision Pro e Quest 3, com cada mundo gerado visualizável em VR.[^62]

Fei-Fei Li posiciona o Marble como "o primeiro passo para criar um world model verdadeiramente espacialmente inteligente."[^63] Além de aplicações criativas, a tecnologia permite treinamento de robótica através de ambientes simulados que seriam caros ou perigosos de criar na realidade física.[^64]

NVIDIA Cosmos: World Models em Escala Industrial

A NVIDIA lançou o Cosmos na CES 2025 como uma plataforma para desenvolvimento de IA física, especificamente direcionada a veículos autônomos e robótica.[^65] Até janeiro de 2026, os world foundation models do Cosmos haviam sido baixados mais de 2 milhões de vezes.[^66]

Arquitetura da Plataforma

O Cosmos compreende world foundation models generativos, tokenizadores avançados, guardrails e um pipeline de processamento de vídeo acelerado.[^67] Os modelos preveem e geram vídeos conscientes de física de estados futuros do ambiente, permitindo geração de dados de treinamento sintéticos em escala massiva.[^68]

Nível do Modelo Otimização Caso de Uso
Nano Tempo real, implantação na borda[^69] Inferência no dispositivo
Super Baseline de alto desempenho[^70] Desenvolvimento geral
Ultra Máxima qualidade e fidelidade[^71] Destilação de modelo personalizado

A plataforma treinou em 9.000 trilhões de tokens de 20 milhões de horas de dados do mundo real abrangendo interações humanas, ambientes, configurações industriais, robótica e cenários de direção.[^72]

Adoção pela Indústria

Empresas líderes de robótica e automotivas adotaram o Cosmos para geração de dados sintéticos:[^73]

Empresa Domínio
1X Robôs humanoides
Agility Robôs bípedes
Figure AI Robôs humanoides
Waabi Caminhões autônomos
XPENG Veículos elétricos
Uber Autônomo para compartilhamento de viagens

Tipos de Modelos Cosmos

Três tipos de modelos atendem diferentes necessidades de desenvolvimento de IA física:[^74]

Cosmos-Predict: Simula e prevê estados futuros do mundo em forma de vídeo **Co

[Conteúdo truncado para tradução]

Solicitar Orçamento_

Conte-nos sobre seu projeto e responderemos em até 72 horas.

> TRANSMISSÃO_CONCLUÍDA

Solicitação Recebida_

Obrigado por sua consulta. Nossa equipe analisará sua solicitação e responderá em até 72 horas.

EM FILA PARA PROCESSAMENTO