Recursieve Taalmodellen: AI Leren Zijn Eigen Context te Beheren

MIT's RLM-architectuur laat modellen context delegeren aan sub-LLMs en Python-scripts. 100x contextuitbreiding met 2-3x token-efficiëntie. Prime Intellect voorspelt het paradigma van 2026.

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

Recursieve Taalmodellen: AI Leren Zijn Eigen Context te Beheren

Contextvensters zijn dramatisch uitgebreid: 100K, 200K, zelfs 1 miljoen tokens.[^1] Toch blijven fundamentele beperkingen bestaan. Lineaire geheugenkosten, attentiedegradatie bij extreme lengtes, en het onvermogen om informatie opnieuw te bezoeken of te reorganiseren zodra deze is geconsumeerd, beperken wat langcontextmodellen kunnen bereiken.[^2] Recursieve Taalmodellen (RLMs) nemen een geheel andere benadering. In plaats van alles in de context te proppen, leren RLMs modellen hun eigen context actief te beheren met behulp van Python-scripts en sub-LLM-aanroepen.[^3]

Samenvatting

De RLM-paper van MIT introduceert een architectuur waarbij het hoofdtaalmodel werk delegeert aan een persistente Python REPL en spawnable sub-LLM-instanties.[^4] In plaats van massale invoer direct te laden, inspecteert en transformeert het model data programmatisch.[^5] Tests tonen aan dat RLMs invoer tot 100x buiten modelcontextvensters aankunnen, terwijl ze basismodellen en gangbare langcontext-scaffolds dramatisch overtreffen.[^6] Bij CodeQA behaalt GPT-5 24% baseline-nauwkeurigheid terwijl RLM 62% bereikt.[^7] Prime Intellect heeft RLM-trainingsinfrastructuur geïmplementeerd en voorspelt dat deze benadering de volgende grote doorbraak in AI-agents zal definiëren.[^8]

Het Langcontextprobleem

Transformer-attentie schaalt kwadratisch met sequentielengte.[^9] Hoewel efficiënte attentievarianten deze kosten verminderen, blijven fundamentele uitdagingen bestaan:

Contextdegradatie

Studies tonen aan dat modelprestaties afnemen naarmate de context groeit, zelfs wanneer het model de lengte technisch ondersteunt.[^10] De beroemde "naald in een hooiberg"-tests onthullen dat informatie in het midden van lange contexten vaak wordt genegeerd of vergeten.[^11]

Statische Context

Traditionele contextvensters werken als write-once buffers. Zodra tokens de context betreden, kan het model ze niet reorganiseren, samenvatten of selectief ophalen.[^12] Irrelevante informatie blijft naast cruciale details bestaan.

Geheugenkosten

Elke extra token in de context vereist proportioneel geheugen voor key-value caches tijdens inferentie.[^13] Contexten van een miljoen tokens vereisen substantieel GPU-geheugen zelfs voor enkele queries.

De RLM-oplossing

RLMs draaien het paradigma om van "model ontvangt context" naar "model beheert context".[^14]

Kernarchitectuur

De RLM biedt drie kernmogelijkheden aan het hoofdmodel:[^15]

Mogelijkheid	Implementatie	Doel
Python REPL	Persistente omgeving	Data opslaan, transformeren, ophalen
Sub-LLMs	Spawnable instanties via `llm_batch()`	Analysetaken delegeren
Answer-variabele	`answer["content"]` + `answer["ready"]`	Iteratieve antwoordverfijning

Het hoofdmodel verwerkt nooit direct massale invoer. In plaats daarvan schrijft het Python-code om de informatiestroom te beheren.

Het Control Plane-ontwerp

De Python REPL dient als wat Prime Intellect "een control plane voor lange context" noemt.[^16] De omgeving biedt:

Persistente Staat: Variabelen overleven modelrondes, waardoor complexe meerstaps-workflows mogelijk worden.[^17]

Parallelle Verwerking: De llm_batch()-functie spawnt meerdere sub-LLM-aanroepen gelijktijdig, wat parallelliseerbare taken dramatisch versnelt.[^18]

Tool-isolatie: Alleen sub-LLMs krijgen tooltoegang (webzoeken, bestandslezen, etc.), waardoor tokenopzwelling in de context van het hoofdmodel wordt voorkomen.[^19]

Voorgeïnstalleerde Packages: Wiskundeintensieve taken krijgen numpy, scipy, sympy automatisch beschikbaar.[^20]

Het Answer-variabelepatroon

Definitieve antwoorden ontstaan iteratief in plaats van in één generatie:[^21]

# Model schrijft naar answer-variabele
answer["content"] = "Gedeeltelijke oplossing..."
answer["ready"] = False  # Doorgaan met verwerken

# Latere iteraties verfijnen
answer["content"] = "Complete oplossing..."
answer["ready"] = True  # Voltooiing signaleren

Dit patroon stelt het model in staat antwoorden te herzien en verbeteren door meerdere REPL-interacties.[^22]

Hoe Context Folding Werkt

De onderzoekers beschrijven RLM's benadering als "geleerde context folding" in plaats van samenvatting:[^23]

Geen Samenvatting

Traditionele benaderingen comprimeren context door samenvatting, waarbij onvermijdelijk informatie verloren gaat.[^24] De RLM-benadering behoudt alle informatie door:

Ruwe data opslaan in Python-variabelen
Selectief queryen via sub-LLM-aanroepen
Programmatisch transformeren wanneer nodig
Nooit samenvatten van de originele inhoud

Delegatie naar Sub-LLMs

Wanneer het hoofdmodel analyse van een groot documentsectie nodig heeft, spawnt het een sub-LLM met alleen dat gedeelte:[^25]

# Hoofdmodel code
results = llm_batch([
    {"prompt": f"Analyseer sectie 1: {section_1}"},
    {"prompt": f"Analyseer sectie 2: {section_2}"},
    {"prompt": f"Analyseer sectie 3: {section_3}"}
])
# Resultaten verwerken zonder ooit het volledige document te laden

De context van het hoofdmodel blijft slank terwijl sub-LLMs tokenintensieve operaties afhandelen.[^26]

Benchmarkprestaties

Tests in vier diverse omgevingen onthullen significante mogelijkheden:[^27]

DeepDive (Webonderzoek)

Sub-LLMs handelen webscraping en contentextractie af. Het hoofdmodel orkestreert de zoekstrategie en synthetiseert bevindingen.[^28]

Benadering	Beloning
Standaard LLM	~45%
RLM (zonder tips)	~55%
RLM (met strategietips)	~70%

Oolong (Langcontext-aggregatie)

Complexe real-world documenten (D&D-sessietranscripten) testten contextafhandeling bij ~1,5M tekens:[^29]

Benadering	Nauwkeurigheid
Standaard LLM	~35%
RLM	~75%

Opmerkelijk is dat RLM onderpresteerde op synthetische data, wat suggereert dat de benadering excelleert bij realistische complexiteit in plaats van kunstmatige benchmarks.

CodeQA (Document QA)

Misschien het meest opvallende resultaat:[^30]

Model	Benadering	Nauwkeurigheid
GPT-5	Baseline	24,0%
GPT-5	Samenvattingsagent	41,3%
GPT-5	RLM	62,0%

RLM verdubbelde ruim de baselineprestaties terwijl het samenvatting substantieel overtrof.

Token-efficiëntie

Naast nauwkeurigheid verbetert RLM de token-efficiëntie dramatisch:[^33]

Hoofdmodel Tokens: 2-3x reductie in tokens verwerkt door het primaire model voor equivalente of betere resultaten.[^34]

Totale Tokens: Kunnen toenemen door sub-LLM-aanroepen, maar de context van het hoofdmodel blijft begrensd ongeacht invoergrootte.[^35]

Prime Intellect's 2026-voorspellingen

Prime Intellect heeft RLM-trainingsinfrastructuur gebouwd en doet gedurfde voorspellingen:[^37]

Het Paradigma van 2026

Ze positioneren RLMs als de volgende grote doorbraak gebaseerd op drie premissen:[^38]

1. Trainingsvoordeel: In tegenstelling tot vaste scaffolds kunnen RLMs end-to-end worden getraind met reinforcement learning om contextbeheer te verbeteren.[^39]

2. Complementair aan Attentie: "Zowel efficiënte attentie als context folding zijn nodig voor echte langdurige agents. Betere attentie vertraagt contextdegradatie. Context folding maakt actief beheer mogelijk."[^40]

3. Langetermijnagents: RLMs maken agents mogelijk die weken of maanden opereren, context beheren over uitgebreide taaktijdlijnen.[^41]

Belangrijkste Inzichten

Recursieve Taalmodellen introduceren een paradigmaverschuiving in contextafhandeling:

Actief Contextbeheer: Modellen controleren hun eigen context in plaats van deze passief te ontvangen
100x Uitbreiding: Invoer ver buiten native contextvensters afhandelen
Behouden Informatie: Geen op samenvatting gebaseerd informatieverlies
Token-efficiëntie: 2-3x reductie in tokenconsumptie van hoofdmodel
Trainingspotentieel: Grote winsten verwacht van RLM-native training
Langetermijnagents: Architectuur geschikt voor uitgebreide taaktijdlijnen

Prime Intellect's overtuiging dat RLMs "het paradigma van 2026" vertegenwoordigen weerspiegelt groeiende erkenning dat contextbeheer belangrijker kan zijn dan contextlengte.

Recursieve Taalmodellen: AI Leren Zijn Eigen Context te Beheren

Samenvatting

Het Langcontextprobleem

Contextdegradatie

Statische Context

Geheugenkosten

De RLM-oplossing

Kernarchitectuur

Het Control Plane-ontwerp

Het Answer-variabelepatroon

Hoe Context Folding Werkt

Geen Samenvatting

Delegatie naar Sub-LLMs

Benchmarkprestaties

DeepDive (Webonderzoek)

Oolong (Langcontext-aggregatie)

CodeQA (Document QA)

Token-efficiëntie

Prime Intellect's 2026-voorspellingen

Het Paradigma van 2026

Belangrijkste Inzichten

You Might Also Like

Japan AI-infrastructuur: De grootste economie van Azië ontwa...

KV Cache Optimalisatie: Geheugenefficiëntie voor Productie L...

Singapore en Zuidoost-Azië ontwikkelen zich tot wereldwijde ...

Offerte aanvragen_

Aanvraag Ontvangen_