Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt
Chain-of-Thought-Reasoning dominiert das Test-Time-Scaling-Paradigma: Modelle generieren sichtbare Reasoning-Tokens, "denken laut" bevor sie Antworten produzieren.[^1] Ein neues Paper stellt diese Annahme vollständig in Frage. Durch Iteration eines rekurrenten Blocks im latenten Raum demonstrieren Forscher, dass ein 3.5-Milliarden-Parameter-Modell Performance äquivalent zu 50 Milliarden Parametern bei Reasoning-Benchmarks erreicht.[^2]
TL;DR
Das Paper führt eine Architektur ein, die zur Inferenzzeit auf beliebige Tiefe ausrollt ohne zusätzliche Tokens zu produzieren.[^3] Ein rekurrenter Block verarbeitet Hidden States iterativ, ermöglicht dem Modell "härter zu denken" bei schwierigen Problemen.[^4]
Das Token-Generierungs-Problem
Aktuelle Reasoning-Modelle erreichen ihre Fähigkeiten durch Generierung erweiterter Reasoning-Token-Ketten.[^8]
Kontext-Fenster-Verbrauch: Jedes Reasoning-Token belegt Kontextplatz.[^9]
Latenz-Skalierung: Token-Generierung bleibt fundamental sequentiell.[^10]
Verbalisierungs-Engpass: Manches Reasoning lässt sich schwer in natürlicher Sprache ausdrücken.[^11]
Wie Latentes Reasoning Funktioniert
Der Rekurrente Block
Input → Schichten 1-N → Rekurrenter Block ↺ → Schichten N+1-M → Output
↑___________|
(iteriere K mal)
Der rekurrente Block transformiert Hidden States ohne sichtbaren Output zu produzieren.[^14]
Variable Tiefe bei Inferenz
| Inferenz-Tiefe | Compute-Kosten | Performance |
|---|---|---|
| Baseline (1x) | Standard | Baseline |
| 5x Iterationen | ~5x Compute | Moderate Gewinne |
| 50x+ Iterationen | ~50x Compute | Dramatische Gewinne |
Benchmark-Performance
Bei maximalem Ausrollen erreicht das 3.5B-Modell Performance äquivalent zu ~50 Milliarden Parametern unter Standard-Inferenz.[^26]
Vergleich zu Token-basiertem Reasoning
| Dimension | Chain-of-Thought | Latentes Reasoning |
|---|---|---|
| Compute-Skalierung | Token-Generierung | Rekurrente Iterationen |
| Kontext-Nutzung | Verbraucht Kontext | Kontext-neutral |
| Interpretierbarkeit | Sichtbares Reasoning | Opak |
Kernerkenntnisse
- Tokens Nicht Erforderlich: Reasoning kann vollständig im Hidden State Space stattfinden
- Massive Effektive Expansion: 3.5B → 50B-Äquivalent durch rekurrente Tiefe
- Training-Einfachheit: Standard Language Modeling, keine spezialisierten Daten
- Flexible Inferenz: Compute-Performance-Tradeoff bei Deployment kontrollierbar