MiroThinker: De Derde Schalingsdimensie voor AI-Agents

MiroThinker introduceert interactieschaling—training van agents voor 600 tool-aanroepen per taak. 81,9% op GAIA-benchmark. Een nieuwe dimensie voorbij modelgrootte en context.

MiroThinker: De Derde Schalingsdimensie voor AI-Agents

MiroThinker: De Derde Schalingsdimensie voor AI-Agents

AI-schaling heeft zich geconcentreerd op twee dimensies: modelgrootte en contextlengte.[^1] MiroThinker introduceert een derde: interactiediepte. De onderzoeksagent, uitgebracht met 8B-, 30B- en 72B-parametervarianten, traint modellen om tot 600 tool-aanroepen per taak te verwerken via reinforcement learning.[^2] Op de GAIA-benchmark bereikt de 72B-variant 81,9% nauwkeurigheid, dicht bij commerciële systemen zoals GPT-5-high, terwijl het volledig open source blijft.[^3]

TL;DR

MiroThinker verkent "interactieschaling" op modelniveau, waarbij modellen systematisch worden getraind om diepere en frequentere agent-omgevingsinteracties aan te kunnen.[^4] In tegenstelling tot geïsoleerde test-time scaling, gebruikt interactieschaling omgevingsfeedback om fouten te corrigeren en trajecten te verfijnen.[^5] Met een 256K-contextvenster voert de agent tot 600 tool-aanroepen per taak uit, waardoor aanhoudende multi-turn redenering voor complexe onderzoeksworkflows mogelijk wordt.[^6] Training gebruikt drie fasen: supervised fine-tuning, preferentieleren en reinforcement learning met groepsrelatieve beleidsoptimalisatie.[^7]

Het Agent-Schalingsprobleem

Huidige AI-agents hebben te maken met een fundamentele beperking. Naarmate redeneringsketens zich uitbreiden, stapelen fouten zich op.[^9] Een enkele fout vroeg in een traject kan de hele taak ontsporen. Traditionele benaderingen pakken dit aan door:

Grotere Modellen: Meer parameters voor betere single-step nauwkeurigheid[^10] Langere Context: Meer ruimte om redeneringsgeschiedenis vast te houden[^11] Betere Prompting: Verbeterde instructies om fouten te verminderen[^12]

Deze interventies pakken echter niet het kernprobleem aan: agents die geïsoleerd van hun omgeving werken tijdens uitgebreide redenering.

Redeneringsdrift

Lange redeneringsketens zonder omgevingsfeedback vertonen "redeneringsdrift"—geleidelijke afwijking van correcte trajecten.[^13] De agent blijft redeneren op basis van steeds meer verouderde of onjuiste aannames.

Ketenlengte Foutpercentage Oorzaak
Kort (1-5 stappen) Laag Beperkte samengestelde fout
Gemiddeld (5-20 stappen) Matig Opstapelende fouten
Lang (20+ stappen) Hoog Redeneringsdrift domineert

De Feedbackoplossing

MiroThinker's inzicht: laat de omgeving de agent continu corrigeren.[^14] In plaats van geïsoleerd te redeneren, controleert de agent zijn werk door te interageren met externe tools, waarbij fouten worden opgevangen voordat ze zich opstapelen.

Interactieschaling Gedefinieerd

Interactieschaling behandelt de diepte van agent-omgevingsinteractie als een schaalbare dimensie analoog aan modelgrootte of contextlengte.[^15]

De Drie Dimensies

Dimensie Wat Schaalt Hoe Het Helpt
Modelgrootte Parameters Betere single-step kwaliteit
Contextlengte Token-venster Meer informatie beschikbaar
Interactiediepte Tool-aanroepen Foutcorrectie, grounding

Waarom Interactie Anders Is

In tegenstelling tot modelgrootte (vastgelegd bij training) of context (passieve opslag), maakt interactiediepte actieve verificatie en koerscorrectie mogelijk.[^16]

Passieve Schaling: Grotere modellen en contexten bieden meer capaciteit Actieve Schaling: Meer interacties bieden meer kansen om te controleren, corrigeren en verfijnen

MiroThinker-Architectuur

De agent volgt het ReAct-framework met specifieke verbeteringen voor diepe interactie:[^17]

Kernloop

Gedachte → Actie (Tool-aanroep) → Observatie → Gedachte → ...

Elke observatie voedt terug in de context van de agent en informeert daaropvolgende redenering.[^18]

Tool Suite

MiroThinker bevat een uitgebreide toolkit:[^19]

Categorie Voorbeelden
Webzoeken Query-formulering, resultaatparsing
Webbrowsing Paginanavigatie, contentextractie
Code-uitvoering Python-runtime, resultaatanalyse
Bestandsoperaties Lezen, schrijven, documenten analyseren

600 Tool-Aanroepen

Het 256K-contextvenster ondersteunt tot 600 tool-aanroepen per taak.[^20] Ter context: de meeste agent-benchmarks omvatten minder dan 20 tool-aanroepen. MiroThinker werkt op 30x de typische interactiediepte.

Trainingsmethodologie

MiroThinker-training verloopt in drie fasen:[^21]

Fase 1: Supervised Fine-Tuning

Initiële training op succesvolle agent-trajecten leert basispatronen voor tool-gebruik:[^22]

  • Wanneer zoeken vs. browsen
  • Hoe effectieve queries te formuleren
  • Tool-outputs interpreteren
  • Multi-source informatie synthetiseren

Fase 2: Preferentieleren

Het model leert succesvolle trajecten te prefereren boven mislukte:[^23]

  • Binaire feedback op trajectuitkomsten
  • Impliciet leren van foutherstel
  • Voorkeur voor efficiënte tool-sequenties

Fase 3: Reinforcement Learning

Groepsrelatieve beleidsoptimalisatie (GRPO) traint voor uitgebreide interactie:[^24]

  • Beloningen voor correcte eindantwoorden
  • Impliciete credittoewijzing over lange trajecten
  • Leren wanneer door te zetten vs. strategieën te pivoten

Basismodellen

MiroThinker bouwt op open-weight fundamenten:[^25]

Grootte Basismodel
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Benchmarkprestaties

GAIA (General AI Assistants)

GAIA test realistische assistenttaken die webzoeken, redenering en multi-step probleemoplossing vereisen:[^26]

Model Nauwkeurigheid
MiroThinker-72B 81,9%
GPT-5-high ~85% (geschat)
Vorige open-source SOTA ~65%

MiroThinker benadert commerciële prestaties terwijl het volledig open blijft.

HLE (Humanity's Last Exam)

Extreem uitdagende vragen over diverse domeinen:[^27]

Model Nauwkeurigheid
MiroThinker-72B 37,7%
Menselijke expert Variabel

BrowseComp

Complexe webbrowsing en informatiesynthese:[^28]

Model Nauwkeurigheid
MiroThinker-72B (Engels) 47,1%
MiroThinker-72B (Chinees) 55,6%

De Chinese prestaties suggereren sterke meertalige overdracht.

Schalingsgedrag

Kritische bevinding: prestaties verbeteren voorspelbaar met interactiediepte.[^29]

Naarmate MiroThinker meer tool-aanroepen doet: - Nauwkeurigheid neemt toe (tot hardware/contextlimieten) - Foutherstel wordt effectiever - Complexe taken worden haalbaar

Dit demonstreert dat interactiediepte echt schalingsgedrag vertoont, niet louter afnemende meeropbrengsten.

Vergelijking met Andere Benaderingen

vs. Chain-of-Thought

Dimensie Chain-of-Thought MiroThinker
Feedback Geen (geïsoleerde redenering) Continu (tool-resultaten)
Foutafhandeling Hopen op het beste Detecteren en corrigeren
Grounding Alleen tekstpatronen Externe verificatie

vs. ReAct Agents

Dimensie Standaard ReAct MiroThinker
Interactiediepte 10-20 aanroepen typisch Tot 600 aanroepen
Training Prompt engineering RL voor diepe interactie
Persistentie Korte taken Uitgebreide workflows

Waarom Interactieschaling Werkt

Het paper identificeert verschillende mechanismen achter de effectiviteit van interactieschaling:[^30]

Foutdetectie

Meer tool-aanroepen creëren meer kansen om fouten te ontdekken:[^31]

  • Tegenstrijdige zoekresultaten onthullen onjuiste aannames
  • Mislukte operaties leggen ongeldige toestanden bloot
  • Onverwachte outputs triggeren heroverweging

Informatieverwerving

Uitgebreide interactie verzamelt meer relevante informatie:[^32]

  • Vervolgzoekopdrachten verfijnen begrip
  • Meerdere bronnen maken kruisvalidatie mogelijk
  • Diep browsen ontdekt verborgen details

Strategieverfijning

Lange trajecten maken strategie-evolutie mogelijk:[^33]

  • Initiële benaderingen kunnen worden opgegeven
  • Nieuwe invalshoeken kunnen worden verkend
  • Synthese kan laat arriverende informatie incorporeren

Open Source Release

Het MiroMind-team heeft uitgebreide resources vrijgegeven:[^34]

Modellen

Variant HuggingFace
MiroThinker-v1.0-8B Beschikbaar
MiroThinker-v1.0-30B Beschikbaar
MiroThinker-v1.0-72B Beschikbaar
MiroThinker-v1.5-30B Beschikbaar (bijgewerkt)

Code

  • Volledige trainingspipeline
  • Inferentie-implementatie
  • Tool-integratievoorbeelden
  • Evaluatiescripts

Implicaties voor Agent-Ontwikkeling

Trainingsparadigmaverschuiving

Effectieve agents vereisen mogelijk specifieke training voor diepe interactie, niet alleen betere basismodellen.[^35]

Oude Benadering Nieuwe Benadering
LLM trainen, tools toevoegen Trainen voor tool-gebruik in de diepte
Prompt engineering Reinforcement learning
Enkelcijferige aanroepen Honderden aanroepen

Belangrijkste Punten

MiroThinker vestigt interactieschaling als een derde levensvatbare dimensie voor AI-capaciteit:

  1. Nieuwe Dimensie: Interactiediepte schaalt zoals modelgrootte en contextlengte
  2. 600 Tool-Aanroepen: Getraind voor 30x typische agent-interactiediepte
  3. 81,9% GAIA: Benadert commerciële prestaties terwijl volledig open
  4. Drie-Fasen Training: SFT → Preferentieleren → RL pipeline
  5. Foutcorrectie: Omgevingsfeedback voorkomt redeneringsdrift
  6. Open Release: Modellen, code en trainingsrecepten allemaal beschikbaar

De volgende generatie AI-agents zou bekwaam kunnen blijken niet alleen door grotere modellen, maar door diepere betrokkenheid bij hun omgevingen.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING