Denken Zonder Tokens: Hoe Latent Reasoning een 3.5B Model als 50B Laat Presteren
Chain-of-thought reasoning domineert het test-time scaling paradigma: modellen genereren zichtbare reasoning-tokens, "hardop denkend".[^1] Een nieuw paper stelt deze aanname volledig ter discussie. Door een recurrent blok in latente ruimte te itereren, tonen onderzoekers aan dat een 3.5 miljard parameter model prestaties behaalt equivalent aan 50 miljard parameters.[^2]
TL;DR
Het paper introduceert een architectuur die uitrolt naar willekeurige diepte bij inferentie zonder extra tokens te produceren.[^3]
Het Token-Generatie Probleem
Context Window Consumptie: Elke reasoning-token neemt contextruimte in.[^9]
Latency Scaling: Token-generatie blijft fundamenteel sequentieel.[^10]
Hoe Latent Reasoning Werkt
Het Recurrente Blok
Input → Lagen 1-N → Recurrent Blok ↺ → Lagen N+1-M → Output
↑___________|
(itereer K keer)
Benchmark Prestaties
Bij maximale uitrol behaalt het 3.5B model prestaties equivalent aan ~50 miljard parameters.[^26]
Vergelijking met Token-gebaseerde Reasoning
| Dimensie | Chain-of-Thought | Latent Reasoning |
|---|---|---|
| Compute scaling | Token generatie | Recurrente iteraties |
| Context gebruik | Verbruikt context | Context-neutraal |
| Interpreteerbaarheid | Zichtbare reasoning | Ondoorzichtig |
Kernpunten
- Tokens Niet Vereist: Reasoning kan volledig in hidden representation space plaatsvinden
- Massieve Effectieve Expansie: 3.5B → 50B equivalent via recurrente diepte
- Training Eenvoud: Standaard language modeling, geen gespecialiseerde data