MiroThinker: De Derde Schalingsdimensie voor AI-Agents

MiroThinker introduceert interactieschaling—training van agents voor 600 tool-aanroepen per taak. 81,9% op GAIA-benchmark. Een nieuwe dimensie voorbij modelgrootte en context.

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

MiroThinker: De Derde Schalingsdimensie voor AI-Agents

AI-schaling heeft zich geconcentreerd op twee dimensies: modelgrootte en contextlengte.[^1] MiroThinker introduceert een derde: interactiediepte. De onderzoeksagent, uitgebracht met 8B-, 30B- en 72B-parametervarianten, traint modellen om tot 600 tool-aanroepen per taak te verwerken via reinforcement learning.[^2] Op de GAIA-benchmark bereikt de 72B-variant 81,9% nauwkeurigheid, dicht bij commerciële systemen zoals GPT-5-high, terwijl het volledig open source blijft.[^3]

TL;DR

MiroThinker verkent "interactieschaling" op modelniveau, waarbij modellen systematisch worden getraind om diepere en frequentere agent-omgevingsinteracties aan te kunnen.[^4] In tegenstelling tot geïsoleerde test-time scaling, gebruikt interactieschaling omgevingsfeedback om fouten te corrigeren en trajecten te verfijnen.[^5] Met een 256K-contextvenster voert de agent tot 600 tool-aanroepen per taak uit, waardoor aanhoudende multi-turn redenering voor complexe onderzoeksworkflows mogelijk wordt.[^6] Training gebruikt drie fasen: supervised fine-tuning, preferentieleren en reinforcement learning met groepsrelatieve beleidsoptimalisatie.[^7]

Het Agent-Schalingsprobleem

Huidige AI-agents hebben te maken met een fundamentele beperking. Naarmate redeneringsketens zich uitbreiden, stapelen fouten zich op.[^9] Een enkele fout vroeg in een traject kan de hele taak ontsporen. Traditionele benaderingen pakken dit aan door:

Grotere Modellen: Meer parameters voor betere single-step nauwkeurigheid[^10] Langere Context: Meer ruimte om redeneringsgeschiedenis vast te houden[^11] Betere Prompting: Verbeterde instructies om fouten te verminderen[^12]

Deze interventies pakken echter niet het kernprobleem aan: agents die geïsoleerd van hun omgeving werken tijdens uitgebreide redenering.

Redeneringsdrift

Lange redeneringsketens zonder omgevingsfeedback vertonen "redeneringsdrift"—geleidelijke afwijking van correcte trajecten.[^13] De agent blijft redeneren op basis van steeds meer verouderde of onjuiste aannames.

Ketenlengte	Foutpercentage	Oorzaak
Kort (1-5 stappen)	Laag	Beperkte samengestelde fout
Gemiddeld (5-20 stappen)	Matig	Opstapelende fouten
Lang (20+ stappen)	Hoog	Redeneringsdrift domineert

De Feedbackoplossing

MiroThinker's inzicht: laat de omgeving de agent continu corrigeren.[^14] In plaats van geïsoleerd te redeneren, controleert de agent zijn werk door te interageren met externe tools, waarbij fouten worden opgevangen voordat ze zich opstapelen.

Interactieschaling Gedefinieerd

Interactieschaling behandelt de diepte van agent-omgevingsinteractie als een schaalbare dimensie analoog aan modelgrootte of contextlengte.[^15]

De Drie Dimensies

Dimensie	Wat Schaalt	Hoe Het Helpt
Modelgrootte	Parameters	Betere single-step kwaliteit
Contextlengte	Token-venster	Meer informatie beschikbaar
Interactiediepte	Tool-aanroepen	Foutcorrectie, grounding

Waarom Interactie Anders Is

In tegenstelling tot modelgrootte (vastgelegd bij training) of context (passieve opslag), maakt interactiediepte actieve verificatie en koerscorrectie mogelijk.[^16]

Passieve Schaling: Grotere modellen en contexten bieden meer capaciteit Actieve Schaling: Meer interacties bieden meer kansen om te controleren, corrigeren en verfijnen

MiroThinker-Architectuur

De agent volgt het ReAct-framework met specifieke verbeteringen voor diepe interactie:[^17]

Kernloop

Gedachte → Actie (Tool-aanroep) → Observatie → Gedachte → ...

Elke observatie voedt terug in de context van de agent en informeert daaropvolgende redenering.[^18]

Tool Suite

MiroThinker bevat een uitgebreide toolkit:[^19]

Categorie	Voorbeelden
Webzoeken	Query-formulering, resultaatparsing
Webbrowsing	Paginanavigatie, contentextractie
Code-uitvoering	Python-runtime, resultaatanalyse
Bestandsoperaties	Lezen, schrijven, documenten analyseren

600 Tool-Aanroepen

Het 256K-contextvenster ondersteunt tot 600 tool-aanroepen per taak.[^20] Ter context: de meeste agent-benchmarks omvatten minder dan 20 tool-aanroepen. MiroThinker werkt op 30x de typische interactiediepte.

Trainingsmethodologie

MiroThinker-training verloopt in drie fasen:[^21]

Fase 1: Supervised Fine-Tuning

Initiële training op succesvolle agent-trajecten leert basispatronen voor tool-gebruik:[^22]

Wanneer zoeken vs. browsen
Hoe effectieve queries te formuleren
Tool-outputs interpreteren
Multi-source informatie synthetiseren

Fase 2: Preferentieleren

Het model leert succesvolle trajecten te prefereren boven mislukte:[^23]

Binaire feedback op trajectuitkomsten
Impliciet leren van foutherstel
Voorkeur voor efficiënte tool-sequenties

Fase 3: Reinforcement Learning

Groepsrelatieve beleidsoptimalisatie (GRPO) traint voor uitgebreide interactie:[^24]

Beloningen voor correcte eindantwoorden
Impliciete credittoewijzing over lange trajecten
Leren wanneer door te zetten vs. strategieën te pivoten

Basismodellen

MiroThinker bouwt op open-weight fundamenten:[^25]

Grootte	Basismodel
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Benchmarkprestaties

GAIA (General AI Assistants)

GAIA test realistische assistenttaken die webzoeken, redenering en multi-step probleemoplossing vereisen:[^26]

Model	Nauwkeurigheid
MiroThinker-72B	81,9%
GPT-5-high	~85% (geschat)
Vorige open-source SOTA	~65%

MiroThinker benadert commerciële prestaties terwijl het volledig open blijft.

HLE (Humanity's Last Exam)

Extreem uitdagende vragen over diverse domeinen:[^27]

Model	Nauwkeurigheid
MiroThinker-72B	37,7%
Menselijke expert	Variabel

BrowseComp

Complexe webbrowsing en informatiesynthese:[^28]

Model	Nauwkeurigheid
MiroThinker-72B (Engels)	47,1%
MiroThinker-72B (Chinees)	55,6%

De Chinese prestaties suggereren sterke meertalige overdracht.

Schalingsgedrag

Kritische bevinding: prestaties verbeteren voorspelbaar met interactiediepte.[^29]

Naarmate MiroThinker meer tool-aanroepen doet: - Nauwkeurigheid neemt toe (tot hardware/contextlimieten) - Foutherstel wordt effectiever - Complexe taken worden haalbaar

Dit demonstreert dat interactiediepte echt schalingsgedrag vertoont, niet louter afnemende meeropbrengsten.

Vergelijking met Andere Benaderingen

vs. Chain-of-Thought

Dimensie	Chain-of-Thought	MiroThinker
Feedback	Geen (geïsoleerde redenering)	Continu (tool-resultaten)
Foutafhandeling	Hopen op het beste	Detecteren en corrigeren
Grounding	Alleen tekstpatronen	Externe verificatie

vs. ReAct Agents

Dimensie	Standaard ReAct	MiroThinker
Interactiediepte	10-20 aanroepen typisch	Tot 600 aanroepen
Training	Prompt engineering	RL voor diepe interactie
Persistentie	Korte taken	Uitgebreide workflows

Waarom Interactieschaling Werkt

Het paper identificeert verschillende mechanismen achter de effectiviteit van interactieschaling:[^30]

Foutdetectie

Meer tool-aanroepen creëren meer kansen om fouten te ontdekken:[^31]

Tegenstrijdige zoekresultaten onthullen onjuiste aannames
Mislukte operaties leggen ongeldige toestanden bloot
Onverwachte outputs triggeren heroverweging

Informatieverwerving

Uitgebreide interactie verzamelt meer relevante informatie:[^32]

Vervolgzoekopdrachten verfijnen begrip
Meerdere bronnen maken kruisvalidatie mogelijk
Diep browsen ontdekt verborgen details

Strategieverfijning

Lange trajecten maken strategie-evolutie mogelijk:[^33]

Initiële benaderingen kunnen worden opgegeven
Nieuwe invalshoeken kunnen worden verkend
Synthese kan laat arriverende informatie incorporeren

Open Source Release

Het MiroMind-team heeft uitgebreide resources vrijgegeven:[^34]

Modellen

Variant	HuggingFace
MiroThinker-v1.0-8B	Beschikbaar
MiroThinker-v1.0-30B	Beschikbaar
MiroThinker-v1.0-72B	Beschikbaar
MiroThinker-v1.5-30B	Beschikbaar (bijgewerkt)

Code

Volledige trainingspipeline
Inferentie-implementatie
Tool-integratievoorbeelden
Evaluatiescripts

Implicaties voor Agent-Ontwikkeling

Trainingsparadigmaverschuiving

Effectieve agents vereisen mogelijk specifieke training voor diepe interactie, niet alleen betere basismodellen.[^35]

Oude Benadering	Nieuwe Benadering
LLM trainen, tools toevoegen	Trainen voor tool-gebruik in de diepte
Prompt engineering	Reinforcement learning
Enkelcijferige aanroepen	Honderden aanroepen

Belangrijkste Punten

MiroThinker vestigt interactieschaling als een derde levensvatbare dimensie voor AI-capaciteit:

Nieuwe Dimensie: Interactiediepte schaalt zoals modelgrootte en contextlengte
600 Tool-Aanroepen: Getraind voor 30x typische agent-interactiediepte
81,9% GAIA: Benadert commerciële prestaties terwijl volledig open
Drie-Fasen Training: SFT → Preferentieleren → RL pipeline
Foutcorrectie: Omgevingsfeedback voorkomt redeneringsdrift
Open Release: Modellen, code en trainingsrecepten allemaal beschikbaar

De volgende generatie AI-agents zou bekwaam kunnen blijken niet alleen door grotere modellen, maar door diepere betrokkenheid bij hun omgevingen.

MiroThinker: De Derde Schalingsdimensie voor AI-Agents

TL;DR

Het Agent-Schalingsprobleem

Redeneringsdrift

De Feedbackoplossing

Interactieschaling Gedefinieerd

De Drie Dimensies

Waarom Interactie Anders Is

MiroThinker-Architectuur

Kernloop

Tool Suite

600 Tool-Aanroepen

Trainingsmethodologie

Fase 1: Supervised Fine-Tuning

Fase 2: Preferentieleren

Fase 3: Reinforcement Learning

Basismodellen

Benchmarkprestaties

GAIA (General AI Assistants)

HLE (Humanity's Last Exam)

BrowseComp

Schalingsgedrag

Vergelijking met Andere Benaderingen

vs. Chain-of-Thought

vs. ReAct Agents

Waarom Interactieschaling Werkt

Foutdetectie

Informatieverwerving

Strategieverfijning

Open Source Release

Modellen

Code

Implicaties voor Agent-Ontwikkeling

Trainingsparadigmaverschuiving

Belangrijkste Punten

You Might Also Like

Japan AI-infrastructuur: De grootste economie van Azië ontwa...

KV Cache Optimalisatie: Geheugenefficiëntie voor Productie L...

Singapore en Zuidoost-Azië ontwikkelen zich tot wereldwijde ...

Offerte aanvragen_

Aanvraag Ontvangen_