Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

Eine neue Architektur lässt AI-Modelle im latenten Raum statt mit Token-Generierung reasonen. Der rekursive Tiefenansatz skaliert Test-Time-Compute ohne Chain-of-Thought.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

Chain-of-Thought-Reasoning dominiert das Test-Time-Scaling-Paradigma: Modelle generieren sichtbare Reasoning-Tokens, "denken laut" bevor sie Antworten produzieren.[^1] Ein neues Paper stellt diese Annahme vollständig in Frage. Durch Iteration eines rekurrenten Blocks im latenten Raum demonstrieren Forscher, dass ein 3.5-Milliarden-Parameter-Modell Performance äquivalent zu 50 Milliarden Parametern bei Reasoning-Benchmarks erreicht.[^2]

TL;DR

Das Paper führt eine Architektur ein, die zur Inferenzzeit auf beliebige Tiefe ausrollt ohne zusätzliche Tokens zu produzieren.[^3] Ein rekurrenter Block verarbeitet Hidden States iterativ, ermöglicht dem Modell "härter zu denken" bei schwierigen Problemen.[^4]

Das Token-Generierungs-Problem

Aktuelle Reasoning-Modelle erreichen ihre Fähigkeiten durch Generierung erweiterter Reasoning-Token-Ketten.[^8]

Kontext-Fenster-Verbrauch: Jedes Reasoning-Token belegt Kontextplatz.[^9]

Latenz-Skalierung: Token-Generierung bleibt fundamental sequentiell.[^10]

Verbalisierungs-Engpass: Manches Reasoning lässt sich schwer in natürlicher Sprache ausdrücken.[^11]

Wie Latentes Reasoning Funktioniert

Der Rekurrente Block

Input → Schichten 1-N → Rekurrenter Block ↺ → Schichten N+1-M → Output
                            ↑___________|
                            (iteriere K mal)

Der rekurrente Block transformiert Hidden States ohne sichtbaren Output zu produzieren.[^14]

Variable Tiefe bei Inferenz

Inferenz-Tiefe	Compute-Kosten	Performance
Baseline (1x)	Standard	Baseline
5x Iterationen	~5x Compute	Moderate Gewinne
50x+ Iterationen	~50x Compute	Dramatische Gewinne

Benchmark-Performance

Bei maximalem Ausrollen erreicht das 3.5B-Modell Performance äquivalent zu ~50 Milliarden Parametern unter Standard-Inferenz.[^26]

Vergleich zu Token-basiertem Reasoning

Dimension	Chain-of-Thought	Latentes Reasoning
Compute-Skalierung	Token-Generierung	Rekurrente Iterationen
Kontext-Nutzung	Verbraucht Kontext	Kontext-neutral
Interpretierbarkeit	Sichtbares Reasoning	Opak

Kernerkenntnisse

Tokens Nicht Erforderlich: Reasoning kann vollständig im Hidden State Space stattfinden
Massive Effektive Expansion: 3.5B → 50B-Äquivalent durch rekurrente Tiefe
Training-Einfachheit: Standard Language Modeling, keine spezialisierten Daten
Flexible Inferenz: Compute-Performance-Tradeoff bei Deployment kontrollierbar

Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

TL;DR

Das Token-Generierungs-Problem

Wie Latentes Reasoning Funktioniert

Der Rekurrente Block

Variable Tiefe bei Inferenz

Benchmark-Performance

Vergleich zu Token-basiertem Reasoning

Kernerkenntnisse

You Might Also Like

ROI-Rechner für Immersionskühlung: 2-4 Jahre Amortisation be...

UK AI Corridor: Londons aufstrebender Compute-Hub

vLLM-Produktionsbereitstellung: Aufbau einer Hochdurchsatz-I...

Angebot anfordern_

Anfrage erhalten_