Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

MITs RLM-Architektur ermöglicht es Modellen, Kontext an Sub-LLMs und Python-Skripte zu delegieren. 100-fache Kontexterweiterung mit 2-3-facher Token-Effizienz. Prime Intellect sagt das Paradigma von 2026 voraus.

Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

Rekursive Sprachmodelle: KI beibringen, ihren eigenen Kontext zu verwalten

Kontextfenster haben sich dramatisch erweitert: 100K, 200K, sogar 1 Million Token.[^1] Dennoch bleiben fundamentale Grenzen bestehen. Lineare Speicherkosten, Aufmerksamkeitsdegradation bei extremen Längen und die Unfähigkeit, einmal konsumierte Informationen erneut zu besuchen oder neu zu organisieren, schränken ein, was Langkontext-Modelle erreichen können.[^2] Rekursive Sprachmodelle (RLMs) verfolgen einen völlig anderen Ansatz. Anstatt alles in den Kontext zu stopfen, lehren RLMs Modelle, ihren eigenen Kontext aktiv zu verwalten, indem sie Python-Skripte und Sub-LLM-Aufrufe verwenden.[^3]

Zusammenfassung

Das RLM-Paper vom MIT führt eine Architektur ein, bei der das Hauptsprachmodell Arbeit an eine persistente Python-REPL und erzeugbare Sub-LLM-Instanzen delegiert.[^4] Anstatt massive Eingaben direkt zu laden, inspiziert und transformiert das Modell Daten programmatisch.[^5] Tests zeigen, dass RLMs Eingaben bis zu 100x über die Kontextfenster des Modells hinaus verarbeiten können, während sie Basismodelle und gängige Langkontext-Scaffolds deutlich übertreffen.[^6] Bei CodeQA erreicht GPT-5 eine Baseline-Genauigkeit von 24%, während RLM 62% erreicht.[^7] Prime Intellect hat eine RLM-Trainingsinfrastruktur implementiert und prognostiziert, dass dieser Ansatz den nächsten großen Durchbruch bei KI-Agenten definieren wird.[^8]

Das Langkontext-Problem

Transformer-Attention skaliert quadratisch mit der Sequenzlänge.[^9] Während effiziente Attention-Varianten diese Kosten reduzieren, bleiben fundamentale Herausforderungen bestehen:

Kontextdegradation

Studien zeigen, dass die Modellleistung mit wachsendem Kontext abnimmt, selbst wenn das Modell die Länge technisch unterstützt.[^10] Die berühmten "Nadel im Heuhaufen"-Tests zeigen, dass Informationen in der Mitte langer Kontexte oft ignoriert oder vergessen werden.[^11]

Statischer Kontext

Traditionelle Kontextfenster funktionieren als Write-Once-Puffer. Sobald Token in den Kontext eintreten, kann das Modell sie nicht reorganisieren, zusammenfassen oder selektiv abrufen.[^12] Irrelevante Informationen bleiben neben wichtigen Details bestehen.

Speicherkosten

Jeder zusätzliche Token im Kontext erfordert proportionalen Speicher für Key-Value-Caches während der Inferenz.[^13] Kontexte mit einer Million Token erfordern erheblichen GPU-Speicher selbst für einzelne Abfragen.

Die RLM-Lösung

RLMs kehren das Paradigma von "Modell empfängt Kontext" zu "Modell verwaltet Kontext" um.[^14]

Kernarchitektur

Das RLM bietet dem Hauptmodell drei Schlüsselfähigkeiten:[^15]

Fähigkeit Implementierung Zweck
Python REPL Persistente Umgebung Daten speichern, transformieren, abrufen
Sub-LLMs Erzeugbare Instanzen via llm_batch() Analyseaufgaben delegieren
Answer-Variable answer["content"] + answer["ready"] Iterative Antwortverfeinerung

Das Hauptmodell verarbeitet niemals direkt massive Eingaben. Stattdessen schreibt es Python-Code, um den Informationsfluss zu verwalten.

Das Control-Plane-Design

Die Python-REPL dient als das, was Prime Intellect "eine Control Plane für langen Kontext" nennt.[^16] Die Umgebung bietet:

Persistenter Zustand: Variablen überleben über Modelldurchläufe hinweg und ermöglichen komplexe mehrstufige Workflows.[^17]

Parallelverarbeitung: Die llm_batch()-Funktion erzeugt mehrere Sub-LLM-Aufrufe gleichzeitig und beschleunigt parallelisierbare Aufgaben dramatisch.[^18]

Tool-Isolation: Nur Sub-LLMs erhalten Tool-Zugriff (Websuche, Dateilesen usw.), was Token-Aufblähung im Kontext des Hauptmodells verhindert.[^19]

Vorinstallierte Pakete: Rechenintensive Aufgaben erhalten numpy, scipy, sympy automatisch verfügbar.[^20]

Das Answer-Variable-Muster

Endgültige Antworten entstehen iterativ statt in einer einzigen Generierung:[^21]

# Modell schreibt in Answer-Variable
answer["content"] = "Teillösung..."
answer["ready"] = False  # Weiter verarbeiten

# Spätere Iterationen verfeinern
answer["content"] = "Vollständige Lösung..."
answer["ready"] = True  # Abschluss signalisieren

Dieses Muster ermöglicht es dem Modell, Antworten durch mehrere REPL-Interaktionen zu überarbeiten und zu verbessern.[^22]

Wie Context Folding funktioniert

Die Forscher beschreiben den RLM-Ansatz als "gelerntes Context Folding" statt Zusammenfassung:[^23]

Keine Zusammenfassung

Traditionelle Ansätze komprimieren Kontext durch Zusammenfassung, wobei unweigerlich Informationen verloren gehen.[^24] Der RLM-Ansatz bewahrt alle Informationen durch:

  1. Rohdaten speichern in Python-Variablen
  2. Selektiv abfragen durch Sub-LLM-Aufrufe
  3. Programmatisch transformieren bei Bedarf
  4. Niemals zusammenfassen des ursprünglichen Inhalts

Delegation an Sub-LLMs

Wenn das Hauptmodell eine Analyse eines großen Dokumentabschnitts benötigt, erzeugt es ein Sub-LLM mit nur diesem Abschnitt:[^25]

# Hauptmodell-Code
results = llm_batch([
    {"prompt": f"Analysiere Abschnitt 1: {section_1}"},
    {"prompt": f"Analysiere Abschnitt 2: {section_2}"},
    {"prompt": f"Analysiere Abschnitt 3: {section_3}"}
])
# Ergebnisse verarbeiten ohne jemals das vollständige Dokument zu laden

Der Kontext des Hauptmodells bleibt schlank, während Sub-LLMs token-intensive Operationen übernehmen.[^26]

Benchmark-Leistung

Tests in vier verschiedenen Umgebungen zeigen signifikante Fähigkeiten:[^27]

DeepDive (Webrecherche)

Sub-LLMs übernehmen Web-Scraping und Inhaltsextraktion. Das Hauptmodell orchestriert die Suchstrategie und synthetisiert Ergebnisse.[^28]

Ansatz Reward
Standard-LLM ~45%
RLM (ohne Tipps) ~55%
RLM (mit Strategietipps) ~70%

Oolong (Langkontext-Aggregation)

Komplexe reale Dokumente (D&D-Sitzungstranskripte) testeten Kontextverarbeitung bei ~1,5M Zeichen:[^29]

Ansatz Genauigkeit
Standard-LLM ~35%
RLM ~75%

Bemerkenswert ist, dass RLM bei synthetischen Daten unterperformte, was darauf hindeutet, dass der Ansatz bei realistischer Komplexität statt künstlicher Benchmarks glänzt.

CodeQA (Dokument-QA)

Vielleicht das beeindruckendste Ergebnis:[^30]

Modell Ansatz Genauigkeit
GPT-5 Baseline 24,0%
GPT-5 Zusammenfassungsagent 41,3%
GPT-5 RLM 62,0%

RLM hat die Baseline-Leistung mehr als verdoppelt und die Zusammenfassung deutlich übertroffen.

Verbatim-Copy

JSON-Strukturerhaltung durch iterative Verfeinerung:[^31]

Ansatz Genauigkeit
Standard-LLM ~65%
RLM ~77%

Math-Python (Einschränkung)

RLM unterperformt derzeit bei mathematischen Aufgaben um 15-25%:[^32]

Ansatz Genauigkeit
Standard-LLM ~70%
RLM ~50%

Die Forscher führen dies darauf zurück, dass Modelle noch nicht darauf trainiert sind, das RLM-Scaffolding effektiv für mathematisches Reasoning zu nutzen.

Token-Effizienz

Über die Genauigkeit hinaus verbessert RLM die Token-Effizienz dramatisch:[^33]

Hauptmodell-Token: 2-3-fache Reduktion der vom Primärmodell verarbeiteten Token für gleichwertige oder bessere Ergebnisse.[^34]

Gesamt-Token: Können durch Sub-LLM-Aufrufe steigen, aber der Hauptmodellkontext bleibt unabhängig von der Eingabegröße begrenzt.[^35]

Latenz-Kompromiss: Sequentielle REPL-Operationen fügen 40-80% Latenz im Vergleich zur Single-Pass-Inferenz hinzu.[^36]

Prime Intellects Vorhersagen für 2026

Prime Intellect hat RLM-Trainingsinfrastruktur aufgebaut und macht mutige Vorhersagen:[^37]

Das Paradigma von 2026

Sie positionieren RLMs als den nächsten großen Durchbruch basierend auf drei Prämissen:[^38]

1. Trainingsvorteil: Im Gegensatz zu festen Scaffolds können RLMs End-to-End mit Reinforcement Learning trainiert werden, um das Kontextmanagement zu verbessern.[^39]

2. Komplementär zur Attention: "Sowohl effiziente Attention als auch Context Folding werden für echte Langzeit-Agenten benötigt. Bessere Attention verzögert die Kontextdegradation. Context Folding ermöglicht aktives Management."[^40]

3. Langzeit-Agenten: RLMs ermöglichen Agenten, die über Wochen oder Monate operieren und Kontext über erweiterte Aufgaben-Timelines verwalten.[^41]

RLMEnv-Infrastruktur

Prime Intellect veröffentlichte RLM-kompatible Umgebungen und Trainingsinfrastruktur:[^42]

  • Mehrere Umgebungen auf ihrem Environments Hub
  • Integration mit dem prime-rl Training Framework
  • Offen für Community-Experimente

Ungenutztes Potenzial

Aktuelle Modelle zeigen "erhebliche ungenutztes Performance aufgrund schlechter Nutzung des Scaffoldings."[^43] Modelle, die nicht speziell für RLM trainiert wurden, unternutzen dessen Fähigkeiten. Dies deutet auf große Gewinne durch RLM-natives Training hin.

Open Source Release

Das MIT-Team veröffentlichte vollständige Ressourcen:[^44]

  • Paper: arXiv:2512.24601
  • Code: https://github.com/alexzhang13/rlm
  • Umgebungen: Verschiedene Langkontext-Benchmarks

Implikationen für die KI-Entwicklung

Agenten-Architektur

RLMs legen ein neues Muster für den Aufbau fähiger Agenten nahe:[^45]

  • Orchestrator-Modell mit begrenztem Kontext
  • Worker-Sub-LLMs für spezifische Aufgaben
  • Python-Umgebung für Zustandsverwaltung
  • Iterative Verfeinerung statt Single-Shot

Trainingsanforderungen

Um RLMs voll auszuschöpfen, benötigen Modelle Training, das Folgendes umfasst:[^46]

  • Codegenerierung für REPL-Interaktion
  • Sub-LLM-Delegationsstrategien
  • Multi-Turn-Antwortverfeinerung
  • Langzeit-Reward-Signale

Kostenstruktur

RLMs verschieben Kosten von der Kontextlänge zur Orchestrierungskomplexität:[^47]

Dimension Traditionell RLM
Hauptmodellkontext Skaliert mit Eingabe Begrenzt
Sub-LLM-Aufrufe N/A Skaliert mit Komplexität
Latenz Single Pass Multi-Turn
Speicher Skaliert mit Kontext Begrenzt

Wichtige Erkenntnisse

Rekursive Sprachmodelle führen einen Paradigmenwechsel in der Kontextverarbeitung ein:

  1. Aktives Kontextmanagement: Modelle kontrollieren ihren eigenen Kontext, anstatt ihn passiv zu empfangen
  2. 100-fache Erweiterung: Verarbeitung von Eingaben weit über native Kontextfenster hinaus
  3. Erhaltene Informationen: Kein zusammenfassungsbasierter Informationsverlust
  4. Token-Effizienz: 2-3-fache Reduktion des Token-Verbrauchs des Hauptmodells
  5. Trainingspotenzial: Große Gewinne durch RLM-natives Training erwartet
  6. Langzeit-Agenten: Architektur geeignet für erweiterte Aufgaben-Timelines

Prime Intellects Überzeugung, dass RLMs "das Paradigma von 2026" darstellen, spiegelt die wachsende Erkenntnis wider, dass Kontextmanagement wichtiger sein könnte als Kontextlänge.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING