MiroThinker: De Derde Schalingsdimensie voor AI-Agents
AI-schaling heeft zich geconcentreerd op twee dimensies: modelgrootte en contextlengte.[^1] MiroThinker introduceert een derde: interactiediepte. De onderzoeksagent, uitgebracht met 8B-, 30B- en 72B-parametervarianten, traint modellen om tot 600 tool-aanroepen per taak te verwerken via reinforcement learning.[^2] Op de GAIA-benchmark bereikt de 72B-variant 81,9% nauwkeurigheid, dicht bij commerciële systemen zoals GPT-5-high, terwijl het volledig open source blijft.[^3]
TL;DR
MiroThinker verkent "interactieschaling" op modelniveau, waarbij modellen systematisch worden getraind om diepere en frequentere agent-omgevingsinteracties aan te kunnen.[^4] In tegenstelling tot geïsoleerde test-time scaling, gebruikt interactieschaling omgevingsfeedback om fouten te corrigeren en trajecten te verfijnen.[^5] Met een 256K-contextvenster voert de agent tot 600 tool-aanroepen per taak uit, waardoor aanhoudende multi-turn redenering voor complexe onderzoeksworkflows mogelijk wordt.[^6] Training gebruikt drie fasen: supervised fine-tuning, preferentieleren en reinforcement learning met groepsrelatieve beleidsoptimalisatie.[^7]
Het Agent-Schalingsprobleem
Huidige AI-agents hebben te maken met een fundamentele beperking. Naarmate redeneringsketens zich uitbreiden, stapelen fouten zich op.[^9] Een enkele fout vroeg in een traject kan de hele taak ontsporen. Traditionele benaderingen pakken dit aan door:
Grotere Modellen: Meer parameters voor betere single-step nauwkeurigheid[^10] Langere Context: Meer ruimte om redeneringsgeschiedenis vast te houden[^11] Betere Prompting: Verbeterde instructies om fouten te verminderen[^12]
Deze interventies pakken echter niet het kernprobleem aan: agents die geïsoleerd van hun omgeving werken tijdens uitgebreide redenering.
Redeneringsdrift
Lange redeneringsketens zonder omgevingsfeedback vertonen "redeneringsdrift"—geleidelijke afwijking van correcte trajecten.[^13] De agent blijft redeneren op basis van steeds meer verouderde of onjuiste aannames.
| Ketenlengte | Foutpercentage | Oorzaak |
|---|---|---|
| Kort (1-5 stappen) | Laag | Beperkte samengestelde fout |
| Gemiddeld (5-20 stappen) | Matig | Opstapelende fouten |
| Lang (20+ stappen) | Hoog | Redeneringsdrift domineert |
De Feedbackoplossing
MiroThinker's inzicht: laat de omgeving de agent continu corrigeren.[^14] In plaats van geïsoleerd te redeneren, controleert de agent zijn werk door te interageren met externe tools, waarbij fouten worden opgevangen voordat ze zich opstapelen.
Interactieschaling Gedefinieerd
Interactieschaling behandelt de diepte van agent-omgevingsinteractie als een schaalbare dimensie analoog aan modelgrootte of contextlengte.[^15]
De Drie Dimensies
| Dimensie | Wat Schaalt | Hoe Het Helpt |
|---|---|---|
| Modelgrootte | Parameters | Betere single-step kwaliteit |
| Contextlengte | Token-venster | Meer informatie beschikbaar |
| Interactiediepte | Tool-aanroepen | Foutcorrectie, grounding |
Waarom Interactie Anders Is
In tegenstelling tot modelgrootte (vastgelegd bij training) of context (passieve opslag), maakt interactiediepte actieve verificatie en koerscorrectie mogelijk.[^16]
Passieve Schaling: Grotere modellen en contexten bieden meer capaciteit Actieve Schaling: Meer interacties bieden meer kansen om te controleren, corrigeren en verfijnen
MiroThinker-Architectuur
De agent volgt het ReAct-framework met specifieke verbeteringen voor diepe interactie:[^17]
Kernloop
Gedachte → Actie (Tool-aanroep) → Observatie → Gedachte → ...
Elke observatie voedt terug in de context van de agent en informeert daaropvolgende redenering.[^18]
Tool Suite
MiroThinker bevat een uitgebreide toolkit:[^19]
| Categorie | Voorbeelden |
|---|---|
| Webzoeken | Query-formulering, resultaatparsing |
| Webbrowsing | Paginanavigatie, contentextractie |
| Code-uitvoering | Python-runtime, resultaatanalyse |
| Bestandsoperaties | Lezen, schrijven, documenten analyseren |
600 Tool-Aanroepen
Het 256K-contextvenster ondersteunt tot 600 tool-aanroepen per taak.[^20] Ter context: de meeste agent-benchmarks omvatten minder dan 20 tool-aanroepen. MiroThinker werkt op 30x de typische interactiediepte.
Trainingsmethodologie
MiroThinker-training verloopt in drie fasen:[^21]
Fase 1: Supervised Fine-Tuning
Initiële training op succesvolle agent-trajecten leert basispatronen voor tool-gebruik:[^22]
- Wanneer zoeken vs. browsen
- Hoe effectieve queries te formuleren
- Tool-outputs interpreteren
- Multi-source informatie synthetiseren
Fase 2: Preferentieleren
Het model leert succesvolle trajecten te prefereren boven mislukte:[^23]
- Binaire feedback op trajectuitkomsten
- Impliciet leren van foutherstel
- Voorkeur voor efficiënte tool-sequenties
Fase 3: Reinforcement Learning
Groepsrelatieve beleidsoptimalisatie (GRPO) traint voor uitgebreide interactie:[^24]
- Beloningen voor correcte eindantwoorden
- Impliciete credittoewijzing over lange trajecten
- Leren wanneer door te zetten vs. strategieën te pivoten
Basismodellen
MiroThinker bouwt op open-weight fundamenten:[^25]
| Grootte | Basismodel |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Benchmarkprestaties
GAIA (General AI Assistants)
GAIA test realistische assistenttaken die webzoeken, redenering en multi-step probleemoplossing vereisen:[^26]
| Model | Nauwkeurigheid |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (geschat) |
| Vorige open-source SOTA | ~65% |
MiroThinker benadert commerciële prestaties terwijl het volledig open blijft.
HLE (Humanity's Last Exam)
Extreem uitdagende vragen over diverse domeinen:[^27]
| Model | Nauwkeurigheid |
|---|---|
| MiroThinker-72B | 37,7% |
| Menselijke expert | Variabel |
BrowseComp
Complexe webbrowsing en informatiesynthese:[^28]
| Model | Nauwkeurigheid |
|---|---|
| MiroThinker-72B (Engels) | 47,1% |
| MiroThinker-72B (Chinees) | 55,6% |
De Chinese prestaties suggereren sterke meertalige overdracht.
Schalingsgedrag
Kritische bevinding: prestaties verbeteren voorspelbaar met interactiediepte.[^29]
Naarmate MiroThinker meer tool-aanroepen doet: - Nauwkeurigheid neemt toe (tot hardware/contextlimieten) - Foutherstel wordt effectiever - Complexe taken worden haalbaar
Dit demonstreert dat interactiediepte echt schalingsgedrag vertoont, niet louter afnemende meeropbrengsten.
Vergelijking met Andere Benaderingen
vs. Chain-of-Thought
| Dimensie | Chain-of-Thought | MiroThinker |
|---|---|---|
| Feedback | Geen (geïsoleerde redenering) | Continu (tool-resultaten) |
| Foutafhandeling | Hopen op het beste | Detecteren en corrigeren |
| Grounding | Alleen tekstpatronen | Externe verificatie |
vs. ReAct Agents
| Dimensie | Standaard ReAct | MiroThinker |
|---|---|---|
| Interactiediepte | 10-20 aanroepen typisch | Tot 600 aanroepen |
| Training | Prompt engineering | RL voor diepe interactie |
| Persistentie | Korte taken | Uitgebreide workflows |
Waarom Interactieschaling Werkt
Het paper identificeert verschillende mechanismen achter de effectiviteit van interactieschaling:[^30]
Foutdetectie
Meer tool-aanroepen creëren meer kansen om fouten te ontdekken:[^31]
- Tegenstrijdige zoekresultaten onthullen onjuiste aannames
- Mislukte operaties leggen ongeldige toestanden bloot
- Onverwachte outputs triggeren heroverweging
Informatieverwerving
Uitgebreide interactie verzamelt meer relevante informatie:[^32]
- Vervolgzoekopdrachten verfijnen begrip
- Meerdere bronnen maken kruisvalidatie mogelijk
- Diep browsen ontdekt verborgen details
Strategieverfijning
Lange trajecten maken strategie-evolutie mogelijk:[^33]
- Initiële benaderingen kunnen worden opgegeven
- Nieuwe invalshoeken kunnen worden verkend
- Synthese kan laat arriverende informatie incorporeren
Open Source Release
Het MiroMind-team heeft uitgebreide resources vrijgegeven:[^34]
Modellen
| Variant | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | Beschikbaar |
| MiroThinker-v1.0-30B | Beschikbaar |
| MiroThinker-v1.0-72B | Beschikbaar |
| MiroThinker-v1.5-30B | Beschikbaar (bijgewerkt) |
Code
- Volledige trainingspipeline
- Inferentie-implementatie
- Tool-integratievoorbeelden
- Evaluatiescripts
Implicaties voor Agent-Ontwikkeling
Trainingsparadigmaverschuiving
Effectieve agents vereisen mogelijk specifieke training voor diepe interactie, niet alleen betere basismodellen.[^35]
| Oude Benadering | Nieuwe Benadering |
|---|---|
| LLM trainen, tools toevoegen | Trainen voor tool-gebruik in de diepte |
| Prompt engineering | Reinforcement learning |
| Enkelcijferige aanroepen | Honderden aanroepen |
Belangrijkste Punten
MiroThinker vestigt interactieschaling als een derde levensvatbare dimensie voor AI-capaciteit:
- Nieuwe Dimensie: Interactiediepte schaalt zoals modelgrootte en contextlengte
- 600 Tool-Aanroepen: Getraind voor 30x typische agent-interactiediepte
- 81,9% GAIA: Benadert commerciële prestaties terwijl volledig open
- Drie-Fasen Training: SFT → Preferentieleren → RL pipeline
- Foutcorrectie: Omgevingsfeedback voorkomt redeneringsdrift
- Open Release: Modellen, code en trainingsrecepten allemaal beschikbaar
De volgende generatie AI-agents zou bekwaam kunnen blijken niet alleen door grotere modellen, maar door diepere betrokkenheid bij hun omgevingen.