Pensando Sem Tokens: Como Raciocínio Latente Faz um Modelo 3.5B Performar Como 50B
O raciocínio cadeia-de-pensamento dominou o paradigma de test-time scaling: modelos geram tokens de raciocínio visíveis, "pensando em voz alta".[^1] Um novo paper desafia completamente essa suposição. Ao iterar um bloco recorrente em espaço latente, pesquisadores demonstram que um modelo de 3.5 bilhões de parâmetros alcança desempenho equivalente a 50 bilhões de parâmetros.[^2]
TL;DR
O paper introduz uma arquitetura que se desenrola para profundidade arbitrária no tempo de inferência sem produzir tokens adicionais.[^3]
O Problema de Geração de Tokens
Consumo de Janela de Contexto: Cada token de raciocínio ocupa espaço de contexto.[^9]
Scaling de Latência: Geração de tokens permanece fundamentalmente sequencial.[^10]
Como Raciocínio Latente Funciona
O Bloco Recorrente
Entrada → Camadas 1-N → Bloco Recorrente ↺ → Camadas N+1-M → Saída
↑___________|
(iterar K vezes)
Desempenho em Benchmarks
No desenrolamento máximo, o modelo 3.5B alcança desempenho equivalente a ~50 bilhões de parâmetros.[^26]
Comparação com Raciocínio Baseado em Tokens
| Dimensão | Cadeia-de-Pensamento | Raciocínio Latente |
|---|---|---|
| Scaling de compute | Geração de tokens | Iterações recorrentes |
| Uso de contexto | Consome contexto | Neutro ao contexto |
| Interpretabilidade | Raciocínio visível | Opaco |
Pontos-Chave
- Tokens Não Requeridos: Raciocínio pode ocorrer inteiramente no espaço de representação oculta
- Expansão Efetiva Massiva: 3.5B → 50B equivalente via profundidade recorrente
- Simplicidade de Treino: Modelagem de linguagem padrão, sem dados especializados