Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

Yann LeCun levanta €500M para a AMI Labs enquanto o Genie 3 da DeepMind simula mundos 3D em tempo real. A corrida de 2026 para construir IA que entende física pode eclipsar os LLMs.

Blake Crosley

Jan 03, 2026 9 min read Disclaimer

Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

Três bilhões de dólares em avaliação pré-lançamento para uma startup que ainda não lançou um único produto.[^1] A AMI Labs de Yann LeCun representa a maior aposta até agora em uma tese que tem dividido pesquisadores de IA há anos: grandes modelos de linguagem nunca alcançarão inteligência geral, e o caminho adiante passa pelos world models.

TL;DR

O paradigma dos world models explodiu no desenvolvimento mainstream de IA no final de 2025 e início de 2026. Yann LeCun deixou a Meta após 12 anos para lançar a AMI Labs, levantando €500M com avaliação de €3B para construir sistemas de IA que entendem física em vez de apenas prever texto.[^2] O Google DeepMind lançou o Genie 3, o primeiro world model interativo em tempo real capaz de gerar ambientes 3D persistentes a 24 fps.[^3] A World Labs de Fei-Fei Li lançou o Marble, tornando a geração de world models comercialmente disponível com preços de gratuito a $95/mês.[^4] A plataforma Cosmos da NVIDIA teve 2 milhões de downloads enquanto desenvolvedores de robótica e veículos autônomos adotam dados de treinamento sintéticos conscientes de física.[^5] Para organizações construindo infraestrutura de IA, os world models sinalizam uma mudança computacional do processamento de texto para geração de vídeo, simulação de física e raciocínio incorporado.

O Teto dos LLMs

Grandes modelos de linguagem alcançaram capacidades notáveis através de escala. GPT-4, Claude e Gemini demonstram raciocínio sofisticado, geração de código e resolução de problemas em múltiplas etapas.[^6] No entanto, uma limitação fundamental persiste: esses modelos aprendem padrões estatísticos do texto, não compreensão da realidade física.[^7]

Pesquisas publicadas em 2024 provaram matematicamente que LLMs não podem aprender todas as funções computáveis e, portanto, inevitavelmente vão alucinar quando usados como solucionadores de problemas gerais.[^8] A causa raiz está em como os LLMs operam: prevendo quais tokens seguem tokens anteriores com base em padrões aprendidos dos dados de treinamento, sem qualquer ancoragem na realidade física.[^9]

O Problema da Alucinação

LLMs geram texto que soa plausível mas pode descrever cenários fisicamente impossíveis, eventos historicamente imprecisos ou raciocínio logicamente inconsistente.[^10] Diferentemente dos humanos que aprendem sobre gravidade através de experiência incorporada, LLMs apenas aprendem que a palavra "gravidade" tende a aparecer perto de certas outras palavras.[^11]

Limitação	Causa	Consequência
Alucinação factual	Sem base de conhecimento verificada[^12]	Fabricação confiante de fatos
Falha no raciocínio físico	Sem experiência incorporada[^13]	Descreve física impossível
Confusão causal	Correspondência de padrões, não compreensão[^14]	Correlação tratada como causalidade
Incoerência temporal	Previsão sequencial de tokens[^15]	Eventos em ordem impossível

Yann LeCun tem argumentado publicamente há anos que escalar LLMs não produzirá inteligência geral.[^16] "LLMs são muito limitantes", afirmou LeCun em sua apresentação no NVIDIA GTC. "Escalá-los não nos permitirá alcançar a AGI."[^17]

A alternativa que ele propõe: world models que aprendem representações da realidade física, permitindo previsão, planejamento e raciocínio sobre causa e efeito.[^18]

AMI Labs de Yann LeCun

LeCun deixou a Meta em dezembro de 2025 após 12 anos, cinco como diretor fundador do Facebook AI Research (FAIR) e sete como cientista-chefe de IA.[^19] Seu novo empreendimento, Advanced Machine Intelligence (AMI) Labs, representa a tentativa mais ambiciosa até agora de comercializar pesquisa em world models.[^20]

Financiamento e Estrutura

A AMI Labs entrou em discussões de financiamento buscando €500 milhões com avaliação de €3 bilhões antes de lançar qualquer produto.[^21] O objetivo representaria uma das maiores captações pré-lançamento da história da IA, refletindo a confiança dos investidores na visão e histórico de LeCun.[^22]

Cargo	Pessoa	Background
Presidente Executivo	Yann LeCun	Vencedor do Prêmio Turing, fundador do Meta FAIR[^23]
CEO	Alex LeBrun	Ex-CEO da Nabla (IA médica)[^24]

A empresa planeja estabelecer sede em Paris até janeiro de 2026.[^25] Embora a Meta não invista diretamente na AMI Labs, as empresas planejam forjar uma parceria permitindo que LeCun mantenha conexões de pesquisa.[^26]

Visão Técnica

A AMI Labs visa criar sistemas de IA que entendem física, mantêm memória persistente e planejam ações complexas em vez de simplesmente prever sequências de texto.[^27] LeCun descreve um world model como "seu modelo mental de como o mundo se comporta."[^28]

"Você pode imaginar uma sequência de ações que pode tomar, e seu world model permitirá que você preveja qual será o efeito da sequência de ações no mundo", explicou LeCun.[^29]

A abordagem difere fundamentalmente dos LLMs. Enquanto modelos estilo GPT preveem a próxima palavra, world models preveem o próximo estado de um ambiente físico dadas as ações tomadas dentro dele.[^30] Isso permite:

Planejamento: Simular resultados antes de agir
Raciocínio sobre física: Entender que objetos têm massa, momento e relações espaciais
Compreensão de causa-efeito: Aprender que ações produzem consequências previsíveis
Memória persistente: Manter estado do mundo consistente ao longo do tempo

Fundação I-JEPA

A AMI Labs se baseia na pesquisa I-JEPA (Image Joint Embedding Predictive Architecture) de LeCun na Meta.[^31] O I-JEPA aprende prevendo representações de regiões de imagens a partir de outras regiões, desenvolvendo compreensão abstrata de cenas visuais sem precisar de rótulos explícitos.[^32]

A abordagem paralela como humanos desenvolvem física intuitiva através da observação. Uma criança observando objetos caírem desenvolve um modelo interno de gravidade sem ninguém explicar as leis de Newton.[^33] O I-JEPA e arquiteturas sucessoras visam replicar esse processo de aprendizagem em sistemas artificiais.[^34]

Genie 3 da DeepMind

O Google DeepMind lançou o Genie 3 em agosto de 2025, representando o primeiro world model de propósito geral interativo em tempo real.[^35] Diferentemente de sistemas anteriores que geravam ambientes estáticos ou requeriam tempo de processamento significativo, o Genie 3 produz mundos 3D navegáveis a 24 quadros por segundo.[^36]

Capacidades Técnicas

O Genie 3 gera ambientes dinâmicos a partir de prompts de texto, mantendo consistência visual por vários minutos de interação em tempo real.[^37] O sistema não depende de engines de física codificados; em vez disso, o modelo ensina a si mesmo como o mundo funciona através do treinamento.[^38]

Capacidade	Especificação
Taxa de quadros	24 fps em tempo real[^39]
Resolução	720p[^40]
Duração de consistência	Vários minutos[^41]
Horizonte de memória	Até 1 minuto de retrospectiva[^42]
Física	Auto-aprendida, não codificada[^43]

"O Genie 3 é o primeiro world model de propósito geral interativo em tempo real", afirmou Shlomi Fruchter, diretor de pesquisa da DeepMind. "Ele vai além dos world models estreitos que existiam antes. Não é específico para nenhum ambiente particular."[^44]

Arquitetura Auto-Regressiva

O modelo gera um quadro por vez, olhando para trás no conteúdo previamente gerado para determinar o que acontece em seguida.[^45] Alcançar desempenho em tempo real requer computar esse processo auto-regressivo múltiplas vezes por segundo enquanto mantém consistência com memória visual potencialmente de um minuto atrás.[^46]

Consistência física emerge do treinamento em vez de programação explícita.[^47] Ambientes do Genie 3 mantêm física estável porque o modelo aprendeu regularidades físicas dos dados de treinamento, não porque pesquisadores codificaram manualmente gravidade ou detecção de colisão.[^48]

Implicações para AGI

A DeepMind posiciona o Genie 3 como um degrau rumo à inteligência artificial geral.[^49] O laboratório espera que a tecnologia de world models desempenhe um papel crítico à medida que agentes de IA interagem mais com ambientes físicos.[^50]

"O Genie 3 marca um grande salto rumo à Inteligência Artificial Geral ao permitir que agentes de IA 'experimentem', interajam e aprendam com mundos ricamente simulados sem criação manual de conteúdo", de acordo com o anúncio da DeepMind.[^51]

Limitações Atuais

O Genie 3 permanece em preview de pesquisa limitada em vez de lançamento público.[^52] Restrições conhecidas incluem:

Espaço de ação limitado para interações de agentes
Quebra de consistência após vários minutos
Precisão geográfica do mundo real incompleta
Desafios modelando interações complexas multi-agentes

A DeepMind continua expandindo o acesso de teste para acadêmicos e criadores selecionados.[^53]

World Labs de Fei-Fei Li e Marble

A World Labs, fundada pela pioneira de IA Fei-Fei Li, lançou o Marble em novembro de 2025 como o primeiro produto de world model comercialmente disponível.[^54] A startup emergiu do modo stealth com $230 milhões em financiamento pouco mais de um ano antes do lançamento do Marble.[^55]

Arquitetura do Produto

O Marble gera ambientes 3D persistentes e baixáveis a partir de prompts de texto, fotos, vídeos, layouts 3D ou imagens panorâmicas.[^56] Diferentemente de concorrentes que geram mundos dinamicamente durante a exploração, o Marble produz ambientes discretos que usuários podem editar e exportar.[^57]

Tipo de Entrada	Saída
Prompt de texto	Ambiente 3D
Foto	Ambiente 3D
Vídeo	Ambiente 3D
Layout 3D	Ambiente 3D aprimorado por IA
Panorama	Ambiente 3D

A plataforma oferece ferramentas de edição nativas de IA e um editor 3D híbrido permitindo bloqueio de estrutura espacial antes da IA preencher detalhes visuais.[^58] Arquivos exportam em formatos compatíveis com ferramentas padrão da indústria como Unreal Engine e Unity.[^59]

Modelo de Preços

A World Labs adotou uma estrutura freemium direcionada a profissionais criativos:[^60]

Plano	Preço	Gerações	Recursos
Free	$0	4/mês	Geração básica
Standard	$20/mês	12/mês	Recursos padrão
Pro	$35/mês	25/mês	Direitos comerciais
Max	$95/mês	75/mês	Recursos premium

Aplicações Alvo

Casos de uso iniciais focam em jogos, efeitos visuais para cinema e realidade virtual.[^61] O Marble suporta headsets VR Vision Pro e Quest 3, com cada mundo gerado visualizável em VR.[^62]

Fei-Fei Li posiciona o Marble como "o primeiro passo para criar um world model verdadeiramente espacialmente inteligente."[^63] Além de aplicações criativas, a tecnologia permite treinamento de robótica através de ambientes simulados que seriam caros ou perigosos de criar na realidade física.[^64]

NVIDIA Cosmos: World Models em Escala Industrial

A NVIDIA lançou o Cosmos na CES 2025 como uma plataforma para desenvolvimento de IA física, especificamente direcionada a veículos autônomos e robótica.[^65] Até janeiro de 2026, os world foundation models do Cosmos haviam sido baixados mais de 2 milhões de vezes.[^66]

Arquitetura da Plataforma

O Cosmos compreende world foundation models generativos, tokenizadores avançados, guardrails e um pipeline de processamento de vídeo acelerado.[^67] Os modelos preveem e geram vídeos conscientes de física de estados futuros do ambiente, permitindo geração de dados de treinamento sintéticos em escala massiva.[^68]

Nível do Modelo	Otimização	Caso de Uso
Nano	Tempo real, implantação na borda[^69]	Inferência no dispositivo
Super	Baseline de alto desempenho[^70]	Desenvolvimento geral
Ultra	Máxima qualidade e fidelidade[^71]	Destilação de modelo personalizado

A plataforma treinou em 9.000 trilhões de tokens de 20 milhões de horas de dados do mundo real abrangendo interações humanas, ambientes, configurações industriais, robótica e cenários de direção.[^72]

Adoção pela Indústria

Empresas líderes de robótica e automotivas adotaram o Cosmos para geração de dados sintéticos:[^73]

Empresa	Domínio
1X	Robôs humanoides
Agility	Robôs bípedes
Figure AI	Robôs humanoides
Waabi	Caminhões autônomos
XPENG	Veículos elétricos
Uber	Autônomo para compartilhamento de viagens

Tipos de Modelos Cosmos

Três tipos de modelos atendem diferentes necessidades de desenvolvimento de IA física:[^74]

Cosmos-Predict: Simula e prevê estados futuros do mundo em forma de vídeo **Co

[Conteúdo truncado para tradução]

Corrida dos World Models 2026: Como LeCun, DeepMind e World Labs Estão Redefinindo o Caminho para a AGI

TL;DR

O Teto dos LLMs

O Problema da Alucinação

AMI Labs de Yann LeCun

Financiamento e Estrutura

Visão Técnica

Fundação I-JEPA

Genie 3 da DeepMind

Capacidades Técnicas

Arquitetura Auto-Regressiva

Implicações para AGI

Limitações Atuais

World Labs de Fei-Fei Li e Marble

Arquitetura do Produto

Modelo de Preços

Aplicações Alvo

NVIDIA Cosmos: World Models em Escala Industrial

Arquitetura da Plataforma

Adoção pela Indústria

Tipos de Modelos Cosmos

You Might Also Like

AIOps para Data Centers: Usando LLMs para Gerenciar Infraest...

Balanceamento de Carga para Inferência de IA: Distribuindo R...

Computação Desagregada para IA: Arquitetura de Infraestrutur...

Solicitar Orçamento_

Solicitação Recebida_