Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

MITs RLM-Architektur ermöglicht es Modellen, Kontext an Sub-LLMs und Python-Skripte zu delegieren. 100-fache Kontexterweiterung mit 2-3-facher Token-Effizienz. Prime Intellect sagt das Paradigma von 2026 voraus.

Blake Crosley

Jan 07, 2026 6 min read Disclaimer

Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

Kontextfenster haben sich dramatisch erweitert: 100K, 200K, sogar 1 Million Token.[^1] Dennoch bleiben fundamentale Grenzen bestehen. Lineare Speicherkosten, Aufmerksamkeitsdegradation bei extremen Längen und die Unfähigkeit, einmal konsumierte Informationen erneut zu besuchen oder neu zu organisieren, schränken ein, was Langkontext-Modelle erreichen können.[^2] Rekursive Sprachmodelle (RLMs) verfolgen einen völlig anderen Ansatz. Anstatt alles in den Kontext zu stopfen, lehren RLMs Modelle, ihren eigenen Kontext aktiv zu verwalten, indem sie Python-Skripte und Sub-LLM-Aufrufe verwenden.[^3]

Zusammenfassung

Das RLM-Paper vom MIT führt eine Architektur ein, bei der das Hauptsprachmodell Arbeit an eine persistente Python-REPL und erzeugbare Sub-LLM-Instanzen delegiert.[^4] Anstatt massive Eingaben direkt zu laden, inspiziert und transformiert das Modell Daten programmatisch.[^5] Tests zeigen, dass RLMs Eingaben bis zu 100x über die Kontextfenster des Modells hinaus verarbeiten können, während sie Basismodelle und gängige Langkontext-Scaffolds deutlich übertreffen.[^6] Bei CodeQA erreicht GPT-5 eine Baseline-Genauigkeit von 24%, während RLM 62% erreicht.[^7] Prime Intellect hat eine RLM-Trainingsinfrastruktur implementiert und prognostiziert, dass dieser Ansatz den nächsten großen Durchbruch bei KI-Agenten definieren wird.[^8]

Das Langkontext-Problem

Transformer-Attention skaliert quadratisch mit der Sequenzlänge.[^9] Während effiziente Attention-Varianten diese Kosten reduzieren, bleiben fundamentale Herausforderungen bestehen:

Kontextdegradation

Studien zeigen, dass die Modellleistung mit wachsendem Kontext abnimmt, selbst wenn das Modell die Länge technisch unterstützt.[^10] Die berühmten "Nadel im Heuhaufen"-Tests zeigen, dass Informationen in der Mitte langer Kontexte oft ignoriert oder vergessen werden.[^11]

Statischer Kontext

Traditionelle Kontextfenster funktionieren als Write-Once-Puffer. Sobald Token in den Kontext eintreten, kann das Modell sie nicht reorganisieren, zusammenfassen oder selektiv abrufen.[^12] Irrelevante Informationen bleiben neben wichtigen Details bestehen.

Speicherkosten

Jeder zusätzliche Token im Kontext erfordert proportionalen Speicher für Key-Value-Caches während der Inferenz.[^13] Kontexte mit einer Million Token erfordern erheblichen GPU-Speicher selbst für einzelne Abfragen.

Die RLM-Lösung

RLMs kehren das Paradigma von "Modell empfängt Kontext" zu "Modell verwaltet Kontext" um.[^14]

Kernarchitektur

Das RLM bietet dem Hauptmodell drei Schlüsselfähigkeiten:[^15]

Fähigkeit	Implementierung	Zweck
Python REPL	Persistente Umgebung	Daten speichern, transformieren, abrufen
Sub-LLMs	Erzeugbare Instanzen via `llm_batch()`	Analyseaufgaben delegieren
Answer-Variable	`answer["content"]` + `answer["ready"]`	Iterative Antwortverfeinerung

Das Hauptmodell verarbeitet niemals direkt massive Eingaben. Stattdessen schreibt es Python-Code, um den Informationsfluss zu verwalten.

Das Control-Plane-Design

Die Python-REPL dient als das, was Prime Intellect "eine Control Plane für langen Kontext" nennt.[^16] Die Umgebung bietet:

Persistenter Zustand: Variablen überleben über Modelldurchläufe hinweg und ermöglichen komplexe mehrstufige Workflows.[^17]

Parallelverarbeitung: Die llm_batch()-Funktion erzeugt mehrere Sub-LLM-Aufrufe gleichzeitig und beschleunigt parallelisierbare Aufgaben dramatisch.[^18]

Tool-Isolation: Nur Sub-LLMs erhalten Tool-Zugriff (Websuche, Dateilesen usw.), was Token-Aufblähung im Kontext des Hauptmodells verhindert.[^19]

Vorinstallierte Pakete: Rechenintensive Aufgaben erhalten numpy, scipy, sympy automatisch verfügbar.[^20]

Das Answer-Variable-Muster

Endgültige Antworten entstehen iterativ statt in einer einzigen Generierung:[^21]

# Modell schreibt in Answer-Variable
answer["content"] = "Teillösung..."
answer["ready"] = False  # Weiter verarbeiten

# Spätere Iterationen verfeinern
answer["content"] = "Vollständige Lösung..."
answer["ready"] = True  # Abschluss signalisieren

Dieses Muster ermöglicht es dem Modell, Antworten durch mehrere REPL-Interaktionen zu überarbeiten und zu verbessern.[^22]

Wie Context Folding funktioniert

Die Forscher beschreiben den RLM-Ansatz als "gelerntes Context Folding" statt Zusammenfassung:[^23]

Keine Zusammenfassung

Traditionelle Ansätze komprimieren Kontext durch Zusammenfassung, wobei unweigerlich Informationen verloren gehen.[^24] Der RLM-Ansatz bewahrt alle Informationen durch:

Rohdaten speichern in Python-Variablen
Selektiv abfragen durch Sub-LLM-Aufrufe
Programmatisch transformieren bei Bedarf
Niemals zusammenfassen des ursprünglichen Inhalts

Delegation an Sub-LLMs

Wenn das Hauptmodell eine Analyse eines großen Dokumentabschnitts benötigt, erzeugt es ein Sub-LLM mit nur diesem Abschnitt:[^25]

# Hauptmodell-Code
results = llm_batch([
    {"prompt": f"Analysiere Abschnitt 1: {section_1}"},
    {"prompt": f"Analysiere Abschnitt 2: {section_2}"},
    {"prompt": f"Analysiere Abschnitt 3: {section_3}"}
])
# Ergebnisse verarbeiten ohne jemals das vollständige Dokument zu laden

Der Kontext des Hauptmodells bleibt schlank, während Sub-LLMs token-intensive Operationen übernehmen.[^26]

Benchmark-Leistung

Tests in vier verschiedenen Umgebungen zeigen signifikante Fähigkeiten:[^27]

DeepDive (Webrecherche)

Sub-LLMs übernehmen Web-Scraping und Inhaltsextraktion. Das Hauptmodell orchestriert die Suchstrategie und synthetisiert Ergebnisse.[^28]

Ansatz	Reward
Standard-LLM	~45%
RLM (ohne Tipps)	~55%
RLM (mit Strategietipps)	~70%

Oolong (Langkontext-Aggregation)

Komplexe reale Dokumente (D&D-Sitzungstranskripte) testeten Kontextverarbeitung bei ~1,5M Zeichen:[^29]

Ansatz	Genauigkeit
Standard-LLM	~35%
RLM	~75%

Bemerkenswert ist, dass RLM bei synthetischen Daten unterperformte, was darauf hindeutet, dass der Ansatz bei realistischer Komplexität statt künstlicher Benchmarks glänzt.

CodeQA (Dokument-QA)

Vielleicht das beeindruckendste Ergebnis:[^30]

Modell	Ansatz	Genauigkeit
GPT-5	Baseline	24,0%
GPT-5	Zusammenfassungsagent	41,3%
GPT-5	RLM	62,0%

RLM hat die Baseline-Leistung mehr als verdoppelt und die Zusammenfassung deutlich übertroffen.

Verbatim-Copy

JSON-Strukturerhaltung durch iterative Verfeinerung:[^31]

Ansatz	Genauigkeit
Standard-LLM	~65%
RLM	~77%

Math-Python (Einschränkung)

RLM unterperformt derzeit bei mathematischen Aufgaben um 15-25%:[^32]

Ansatz	Genauigkeit
Standard-LLM	~70%
RLM	~50%

Die Forscher führen dies darauf zurück, dass Modelle noch nicht darauf trainiert sind, das RLM-Scaffolding effektiv für mathematisches Reasoning zu nutzen.

Token-Effizienz

Über die Genauigkeit hinaus verbessert RLM die Token-Effizienz dramatisch:[^33]

Hauptmodell-Token: 2-3-fache Reduktion der vom Primärmodell verarbeiteten Token für gleichwertige oder bessere Ergebnisse.[^34]

Gesamt-Token: Können durch Sub-LLM-Aufrufe steigen, aber der Hauptmodellkontext bleibt unabhängig von der Eingabegröße begrenzt.[^35]

Latenz-Kompromiss: Sequentielle REPL-Operationen fügen 40-80% Latenz im Vergleich zur Single-Pass-Inferenz hinzu.[^36]

Prime Intellects Vorhersagen für 2026

Prime Intellect hat RLM-Trainingsinfrastruktur aufgebaut und macht mutige Vorhersagen:[^37]

Das Paradigma von 2026

Sie positionieren RLMs als den nächsten großen Durchbruch basierend auf drei Prämissen:[^38]

1. Trainingsvorteil: Im Gegensatz zu festen Scaffolds können RLMs End-to-End mit Reinforcement Learning trainiert werden, um das Kontextmanagement zu verbessern.[^39]

2. Komplementär zur Attention: "Sowohl effiziente Attention als auch Context Folding werden für echte Langzeit-Agenten benötigt. Bessere Attention verzögert die Kontextdegradation. Context Folding ermöglicht aktives Management."[^40]

3. Langzeit-Agenten: RLMs ermöglichen Agenten, die über Wochen oder Monate operieren und Kontext über erweiterte Aufgaben-Timelines verwalten.[^41]

RLMEnv-Infrastruktur

Prime Intellect veröffentlichte RLM-kompatible Umgebungen und Trainingsinfrastruktur:[^42]

Mehrere Umgebungen auf ihrem Environments Hub
Integration mit dem prime-rl Training Framework
Offen für Community-Experimente

Ungenutztes Potenzial

Aktuelle Modelle zeigen "erhebliche ungenutztes Performance aufgrund schlechter Nutzung des Scaffoldings."[^43] Modelle, die nicht speziell für RLM trainiert wurden, unternutzen dessen Fähigkeiten. Dies deutet auf große Gewinne durch RLM-natives Training hin.

Open Source Release

Das MIT-Team veröffentlichte vollständige Ressourcen:[^44]

Paper: arXiv:2512.24601
Code: https://github.com/alexzhang13/rlm
Umgebungen: Verschiedene Langkontext-Benchmarks

Implikationen für die KI-Entwicklung

Agenten-Architektur

RLMs legen ein neues Muster für den Aufbau fähiger Agenten nahe:[^45]

Orchestrator-Modell mit begrenztem Kontext
Worker-Sub-LLMs für spezifische Aufgaben
Python-Umgebung für Zustandsverwaltung
Iterative Verfeinerung statt Single-Shot

Trainingsanforderungen

Um RLMs voll auszuschöpfen, benötigen Modelle Training, das Folgendes umfasst:[^46]

Codegenerierung für REPL-Interaktion
Sub-LLM-Delegationsstrategien
Multi-Turn-Antwortverfeinerung
Langzeit-Reward-Signale

Kostenstruktur

RLMs verschieben Kosten von der Kontextlänge zur Orchestrierungskomplexität:[^47]

Dimension	Traditionell	RLM
Hauptmodellkontext	Skaliert mit Eingabe	Begrenzt
Sub-LLM-Aufrufe	N/A	Skaliert mit Komplexität
Latenz	Single Pass	Multi-Turn
Speicher	Skaliert mit Kontext	Begrenzt

Wichtige Erkenntnisse

Rekursive Sprachmodelle führen einen Paradigmenwechsel in der Kontextverarbeitung ein:

Aktives Kontextmanagement: Modelle kontrollieren ihren eigenen Kontext, anstatt ihn passiv zu empfangen
100-fache Erweiterung: Verarbeitung von Eingaben weit über native Kontextfenster hinaus
Erhaltene Informationen: Kein zusammenfassungsbasierter Informationsverlust
Token-Effizienz: 2-3-fache Reduktion des Token-Verbrauchs des Hauptmodells
Trainingspotenzial: Große Gewinne durch RLM-natives Training erwartet
Langzeit-Agenten: Architektur geeignet für erweiterte Aufgaben-Timelines

Prime Intellects Überzeugung, dass RLMs "das Paradigma von 2026" darstellen, spiegelt die wachsende Erkenntnis wider, dass Kontextmanagement wichtiger sein könnte als Kontextlänge.

Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

Zusammenfassung

Das Langkontext-Problem

Kontextdegradation

Statischer Kontext

Speicherkosten

Die RLM-Lösung

Kernarchitektur

Das Control-Plane-Design

Das Answer-Variable-Muster

Wie Context Folding funktioniert

Keine Zusammenfassung

Delegation an Sub-LLMs

Benchmark-Leistung

DeepDive (Webrecherche)

Oolong (Langkontext-Aggregation)

CodeQA (Dokument-QA)

Verbatim-Copy

Math-Python (Einschränkung)

Token-Effizienz

Prime Intellects Vorhersagen für 2026

Das Paradigma von 2026

RLMEnv-Infrastruktur

Ungenutztes Potenzial

Open Source Release

Implikationen für die KI-Entwicklung

Agenten-Architektur

Trainingsanforderungen

Kostenstruktur

Wichtige Erkenntnisse

You Might Also Like

Japans KI-Infrastruktur: Asiens größte Volkswirtschaft erwac...

KV-Cache-Optimierung: Speichereffizienz für LLMs in der Prod...

Singapur und Südostasien entwickeln sich zu globalen Zentren...

Angebot anfordern_

Anfrage erhalten_