Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

Eine neue Architektur lässt AI-Modelle im latenten Raum statt mit Token-Generierung reasonen. Der rekursive Tiefenansatz skaliert Test-Time-Compute ohne Chain-of-Thought.

Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

Denken Ohne Tokens: Wie Latentes Reasoning ein 3.5B-Modell wie 50B Performen Lässt

Chain-of-Thought-Reasoning dominiert das Test-Time-Scaling-Paradigma: Modelle generieren sichtbare Reasoning-Tokens, "denken laut" bevor sie Antworten produzieren.[^1] Ein neues Paper stellt diese Annahme vollständig in Frage. Durch Iteration eines rekurrenten Blocks im latenten Raum demonstrieren Forscher, dass ein 3.5-Milliarden-Parameter-Modell Performance äquivalent zu 50 Milliarden Parametern bei Reasoning-Benchmarks erreicht.[^2]

TL;DR

Das Paper führt eine Architektur ein, die zur Inferenzzeit auf beliebige Tiefe ausrollt ohne zusätzliche Tokens zu produzieren.[^3] Ein rekurrenter Block verarbeitet Hidden States iterativ, ermöglicht dem Modell "härter zu denken" bei schwierigen Problemen.[^4]

Das Token-Generierungs-Problem

Aktuelle Reasoning-Modelle erreichen ihre Fähigkeiten durch Generierung erweiterter Reasoning-Token-Ketten.[^8]

Kontext-Fenster-Verbrauch: Jedes Reasoning-Token belegt Kontextplatz.[^9]

Latenz-Skalierung: Token-Generierung bleibt fundamental sequentiell.[^10]

Verbalisierungs-Engpass: Manches Reasoning lässt sich schwer in natürlicher Sprache ausdrücken.[^11]

Wie Latentes Reasoning Funktioniert

Der Rekurrente Block

Input → Schichten 1-N → Rekurrenter Block ↺ → Schichten N+1-M → Output
                            ↑___________|
                            (iteriere K mal)

Der rekurrente Block transformiert Hidden States ohne sichtbaren Output zu produzieren.[^14]

Variable Tiefe bei Inferenz

Inferenz-Tiefe Compute-Kosten Performance
Baseline (1x) Standard Baseline
5x Iterationen ~5x Compute Moderate Gewinne
50x+ Iterationen ~50x Compute Dramatische Gewinne

Benchmark-Performance

Bei maximalem Ausrollen erreicht das 3.5B-Modell Performance äquivalent zu ~50 Milliarden Parametern unter Standard-Inferenz.[^26]

Vergleich zu Token-basiertem Reasoning

Dimension Chain-of-Thought Latentes Reasoning
Compute-Skalierung Token-Generierung Rekurrente Iterationen
Kontext-Nutzung Verbraucht Kontext Kontext-neutral
Interpretierbarkeit Sichtbares Reasoning Opak

Kernerkenntnisse

  1. Tokens Nicht Erforderlich: Reasoning kann vollständig im Hidden State Space stattfinden
  2. Massive Effektive Expansion: 3.5B → 50B-Äquivalent durch rekurrente Tiefe
  3. Training-Einfachheit: Standard Language Modeling, keine spezialisierten Daten
  4. Flexible Inferenz: Compute-Performance-Tradeoff bei Deployment kontrollierbar

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT