Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten
Kontextfenster haben sich dramatisch erweitert: 100K, 200K, sogar 1 Million Token.[^1] Dennoch bleiben fundamentale Grenzen bestehen. Lineare Speicherkosten, Aufmerksamkeitsdegradation bei extremen Längen und die Unfähigkeit, einmal konsumierte Informationen erneut zu besuchen oder neu zu organisieren, schränken ein, was Langkontext-Modelle erreichen können.[^2] Rekursive Sprachmodelle (RLMs) verfolgen einen völlig anderen Ansatz. Anstatt alles in den Kontext zu stopfen, lehren RLMs Modelle, ihren eigenen Kontext aktiv zu verwalten, indem sie Python-Skripte und Sub-LLM-Aufrufe verwenden.[^3]
Zusammenfassung
Das RLM-Paper vom MIT führt eine Architektur ein, bei der das Hauptsprachmodell Arbeit an eine persistente Python-REPL und erzeugbare Sub-LLM-Instanzen delegiert.[^4] Anstatt massive Eingaben direkt zu laden, inspiziert und transformiert das Modell Daten programmatisch.[^5] Tests zeigen, dass RLMs Eingaben bis zu 100x über die Kontextfenster des Modells hinaus verarbeiten können, während sie Basismodelle und gängige Langkontext-Scaffolds deutlich übertreffen.[^6] Bei CodeQA erreicht GPT-5 eine Baseline-Genauigkeit von 24%, während RLM 62% erreicht.[^7] Prime Intellect hat eine RLM-Trainingsinfrastruktur implementiert und prognostiziert, dass dieser Ansatz den nächsten großen Durchbruch bei KI-Agenten definieren wird.[^8]
Das Langkontext-Problem
Transformer-Attention skaliert quadratisch mit der Sequenzlänge.[^9] Während effiziente Attention-Varianten diese Kosten reduzieren, bleiben fundamentale Herausforderungen bestehen:
Kontextdegradation
Studien zeigen, dass die Modellleistung mit wachsendem Kontext abnimmt, selbst wenn das Modell die Länge technisch unterstützt.[^10] Die berühmten "Nadel im Heuhaufen"-Tests zeigen, dass Informationen in der Mitte langer Kontexte oft ignoriert oder vergessen werden.[^11]
Statischer Kontext
Traditionelle Kontextfenster funktionieren als Write-Once-Puffer. Sobald Token in den Kontext eintreten, kann das Modell sie nicht reorganisieren, zusammenfassen oder selektiv abrufen.[^12] Irrelevante Informationen bleiben neben wichtigen Details bestehen.
Speicherkosten
Jeder zusätzliche Token im Kontext erfordert proportionalen Speicher für Key-Value-Caches während der Inferenz.[^13] Kontexte mit einer Million Token erfordern erheblichen GPU-Speicher selbst für einzelne Abfragen.
Die RLM-Lösung
RLMs kehren das Paradigma von "Modell empfängt Kontext" zu "Modell verwaltet Kontext" um.[^14]
Kernarchitektur
Das RLM bietet dem Hauptmodell drei Schlüsselfähigkeiten:[^15]
| Fähigkeit | Implementierung | Zweck |
|---|---|---|
| Python REPL | Persistente Umgebung | Daten speichern, transformieren, abrufen |
| Sub-LLMs | Erzeugbare Instanzen via llm_batch() |
Analyseaufgaben delegieren |
| Answer-Variable | answer["content"] + answer["ready"] |
Iterative Antwortverfeinerung |
Das Hauptmodell verarbeitet niemals direkt massive Eingaben. Stattdessen schreibt es Python-Code, um den Informationsfluss zu verwalten.
Das Control-Plane-Design
Die Python-REPL dient als das, was Prime Intellect "eine Control Plane für langen Kontext" nennt.[^16] Die Umgebung bietet:
Persistenter Zustand: Variablen überleben über Modelldurchläufe hinweg und ermöglichen komplexe mehrstufige Workflows.[^17]
Parallelverarbeitung: Die llm_batch()-Funktion erzeugt mehrere Sub-LLM-Aufrufe gleichzeitig und beschleunigt parallelisierbare Aufgaben dramatisch.[^18]
Tool-Isolation: Nur Sub-LLMs erhalten Tool-Zugriff (Websuche, Dateilesen usw.), was Token-Aufblähung im Kontext des Hauptmodells verhindert.[^19]
Vorinstallierte Pakete: Rechenintensive Aufgaben erhalten numpy, scipy, sympy automatisch verfügbar.[^20]
Das Answer-Variable-Muster
Endgültige Antworten entstehen iterativ statt in einer einzigen Generierung:[^21]
# Modell schreibt in Answer-Variable
answer["content"] = "Teillösung..."
answer["ready"] = False # Weiter verarbeiten
# Spätere Iterationen verfeinern
answer["content"] = "Vollständige Lösung..."
answer["ready"] = True # Abschluss signalisieren
Dieses Muster ermöglicht es dem Modell, Antworten durch mehrere REPL-Interaktionen zu überarbeiten und zu verbessern.[^22]
Wie Context Folding funktioniert
Die Forscher beschreiben den RLM-Ansatz als "gelerntes Context Folding" statt Zusammenfassung:[^23]
Keine Zusammenfassung
Traditionelle Ansätze komprimieren Kontext durch Zusammenfassung, wobei unweigerlich Informationen verloren gehen.[^24] Der RLM-Ansatz bewahrt alle Informationen durch:
- Rohdaten speichern in Python-Variablen
- Selektiv abfragen durch Sub-LLM-Aufrufe
- Programmatisch transformieren bei Bedarf
- Niemals zusammenfassen des ursprünglichen Inhalts
Delegation an Sub-LLMs
Wenn das Hauptmodell eine Analyse eines großen Dokumentabschnitts benötigt, erzeugt es ein Sub-LLM mit nur diesem Abschnitt:[^25]
# Hauptmodell-Code
results = llm_batch([
{"prompt": f"Analysiere Abschnitt 1: {section_1}"},
{"prompt": f"Analysiere Abschnitt 2: {section_2}"},
{"prompt": f"Analysiere Abschnitt 3: {section_3}"}
])
# Ergebnisse verarbeiten ohne jemals das vollständige Dokument zu laden
Der Kontext des Hauptmodells bleibt schlank, während Sub-LLMs token-intensive Operationen übernehmen.[^26]
Benchmark-Leistung
Tests in vier verschiedenen Umgebungen zeigen signifikante Fähigkeiten:[^27]
DeepDive (Webrecherche)
Sub-LLMs übernehmen Web-Scraping und Inhaltsextraktion. Das Hauptmodell orchestriert die Suchstrategie und synthetisiert Ergebnisse.[^28]
| Ansatz | Reward |
|---|---|
| Standard-LLM | ~45% |
| RLM (ohne Tipps) | ~55% |
| RLM (mit Strategietipps) | ~70% |
Oolong (Langkontext-Aggregation)
Komplexe reale Dokumente (D&D-Sitzungstranskripte) testeten Kontextverarbeitung bei ~1,5M Zeichen:[^29]
| Ansatz | Genauigkeit |
|---|---|
| Standard-LLM | ~35% |
| RLM | ~75% |
Bemerkenswert ist, dass RLM bei synthetischen Daten unterperformte, was darauf hindeutet, dass der Ansatz bei realistischer Komplexität statt künstlicher Benchmarks glänzt.
CodeQA (Dokument-QA)
Vielleicht das beeindruckendste Ergebnis:[^30]
| Modell | Ansatz | Genauigkeit |
|---|---|---|
| GPT-5 | Baseline | 24,0% |
| GPT-5 | Zusammenfassungsagent | 41,3% |
| GPT-5 | RLM | 62,0% |
RLM hat die Baseline-Leistung mehr als verdoppelt und die Zusammenfassung deutlich übertroffen.
Verbatim-Copy
JSON-Strukturerhaltung durch iterative Verfeinerung:[^31]
| Ansatz | Genauigkeit |
|---|---|
| Standard-LLM | ~65% |
| RLM | ~77% |
Math-Python (Einschränkung)
RLM unterperformt derzeit bei mathematischen Aufgaben um 15-25%:[^32]
| Ansatz | Genauigkeit |
|---|---|
| Standard-LLM | ~70% |
| RLM | ~50% |
Die Forscher führen dies darauf zurück, dass Modelle noch nicht darauf trainiert sind, das RLM-Scaffolding effektiv für mathematisches Reasoning zu nutzen.
Token-Effizienz
Über die Genauigkeit hinaus verbessert RLM die Token-Effizienz dramatisch:[^33]
Hauptmodell-Token: 2-3-fache Reduktion der vom Primärmodell verarbeiteten Token für gleichwertige oder bessere Ergebnisse.[^34]
Gesamt-Token: Können durch Sub-LLM-Aufrufe steigen, aber der Hauptmodellkontext bleibt unabhängig von der Eingabegröße begrenzt.[^35]
Latenz-Kompromiss: Sequentielle REPL-Operationen fügen 40-80% Latenz im Vergleich zur Single-Pass-Inferenz hinzu.[^36]
Prime Intellects Vorhersagen für 2026
Prime Intellect hat RLM-Trainingsinfrastruktur aufgebaut und macht mutige Vorhersagen:[^37]
Das Paradigma von 2026
Sie positionieren RLMs als den nächsten großen Durchbruch basierend auf drei Prämissen:[^38]
1. Trainingsvorteil: Im Gegensatz zu festen Scaffolds können RLMs End-to-End mit Reinforcement Learning trainiert werden, um das Kontextmanagement zu verbessern.[^39]
2. Komplementär zur Attention: "Sowohl effiziente Attention als auch Context Folding werden für echte Langzeit-Agenten benötigt. Bessere Attention verzögert die Kontextdegradation. Context Folding ermöglicht aktives Management."[^40]
3. Langzeit-Agenten: RLMs ermöglichen Agenten, die über Wochen oder Monate operieren und Kontext über erweiterte Aufgaben-Timelines verwalten.[^41]
RLMEnv-Infrastruktur
Prime Intellect veröffentlichte RLM-kompatible Umgebungen und Trainingsinfrastruktur:[^42]
- Mehrere Umgebungen auf ihrem Environments Hub
- Integration mit dem prime-rl Training Framework
- Offen für Community-Experimente
Ungenutztes Potenzial
Aktuelle Modelle zeigen "erhebliche ungenutztes Performance aufgrund schlechter Nutzung des Scaffoldings."[^43] Modelle, die nicht speziell für RLM trainiert wurden, unternutzen dessen Fähigkeiten. Dies deutet auf große Gewinne durch RLM-natives Training hin.
Open Source Release
Das MIT-Team veröffentlichte vollständige Ressourcen:[^44]
- Paper: arXiv:2512.24601
- Code: https://github.com/alexzhang13/rlm
- Umgebungen: Verschiedene Langkontext-Benchmarks
Implikationen für die KI-Entwicklung
Agenten-Architektur
RLMs legen ein neues Muster für den Aufbau fähiger Agenten nahe:[^45]
- Orchestrator-Modell mit begrenztem Kontext
- Worker-Sub-LLMs für spezifische Aufgaben
- Python-Umgebung für Zustandsverwaltung
- Iterative Verfeinerung statt Single-Shot
Trainingsanforderungen
Um RLMs voll auszuschöpfen, benötigen Modelle Training, das Folgendes umfasst:[^46]
- Codegenerierung für REPL-Interaktion
- Sub-LLM-Delegationsstrategien
- Multi-Turn-Antwortverfeinerung
- Langzeit-Reward-Signale
Kostenstruktur
RLMs verschieben Kosten von der Kontextlänge zur Orchestrierungskomplexität:[^47]
| Dimension | Traditionell | RLM |
|---|---|---|
| Hauptmodellkontext | Skaliert mit Eingabe | Begrenzt |
| Sub-LLM-Aufrufe | N/A | Skaliert mit Komplexität |
| Latenz | Single Pass | Multi-Turn |
| Speicher | Skaliert mit Kontext | Begrenzt |
Wichtige Erkenntnisse
Rekursive Sprachmodelle führen einen Paradigmenwechsel in der Kontextverarbeitung ein:
- Aktives Kontextmanagement: Modelle kontrollieren ihren eigenen Kontext, anstatt ihn passiv zu empfangen
- 100-fache Erweiterung: Verarbeitung von Eingaben weit über native Kontextfenster hinaus
- Erhaltene Informationen: Kein zusammenfassungsbasierter Informationsverlust
- Token-Effizienz: 2-3-fache Reduktion des Token-Verbrauchs des Hauptmodells
- Trainingspotenzial: Große Gewinne durch RLM-natives Training erwartet
- Langzeit-Agenten: Architektur geeignet für erweiterte Aufgaben-Timelines
Prime Intellects Überzeugung, dass RLMs "das Paradigma von 2026" darstellen, spiegelt die wachsende Erkenntnis wider, dass Kontextmanagement wichtiger sein könnte als Kontextlänge.