MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

MiroThinker führt Interaktionsskalierung ein—Training von Agenten für 600 Tool-Aufrufe pro Aufgabe. 81,9% auf GAIA-Benchmark. Eine neue Dimension jenseits von Modellgröße und Kontext.

Blake Crosley

Jan 07, 2026 5 min read Disclaimer

MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

KI-Skalierung hat sich auf zwei Dimensionen konzentriert: Modellgröße und Kontextlänge.[^1] MiroThinker führt eine dritte ein: Interaktionstiefe. Der Forschungsagent, veröffentlicht mit 8B-, 30B- und 72B-Parameter-Varianten, trainiert Modelle für bis zu 600 Tool-Aufrufe pro Aufgabe durch Reinforcement Learning.[^2] Auf dem GAIA-Benchmark erreicht die 72B-Variante 81,9% Genauigkeit und nähert sich kommerziellen Systemen wie GPT-5-high, während sie vollständig Open Source bleibt.[^3]

TL;DR

MiroThinker erforscht "Interaktionsskalierung" auf Modellebene und trainiert systematisch Modelle für tiefere und häufigere Agenten-Umgebungs-Interaktionen.[^4] Anders als isolierte Test-Zeit-Skalierung nutzt Interaktionsskalierung Umgebungsfeedback zur Fehlerkorrektur und Trajektorienverfeinerung.[^5] Mit einem 256K-Kontextfenster führt der Agent bis zu 600 Tool-Aufrufe pro Aufgabe aus, was nachhaltiges Multi-Turn-Reasoning für komplexe Forschungsworkflows ermöglicht.[^6] Das Training verwendet drei Phasen: Supervised Fine-Tuning, Präferenzlernen und Reinforcement Learning mit Group Relative Policy Optimization.[^7]

Das Agenten-Skalierungsproblem

Aktuelle KI-Agenten stehen vor einer fundamentalen Einschränkung. Wenn Reasoning-Ketten länger werden, verstärken sich Fehler.[^9] Ein einzelner früher Fehler in einer Trajektorie kann die gesamte Aufgabe entgleisen lassen. Traditionelle Ansätze adressieren dies durch:

Größere Modelle: Mehr Parameter für bessere Einzelschritt-Genauigkeit[^10] Längerer Kontext: Mehr Platz für Reasoning-Historie[^11] Besseres Prompting: Verbesserte Anweisungen zur Fehlerreduzierung[^12]

Diese Interventionen adressieren jedoch nicht das Kernproblem: Agenten, die während erweitertem Reasoning isoliert von ihrer Umgebung operieren.

Reasoning-Drift

Lange Reasoning-Ketten ohne Umgebungsfeedback zeigen "Reasoning-Drift"—graduelle Abweichung von korrekten Trajektorien.[^13] Der Agent reasont weiter basierend auf zunehmend veralteten oder falschen Annahmen.

Kettenlänge	Fehlerrate	Ursache
Kurz (1-5 Schritte)	Niedrig	Begrenzter Compound-Error
Mittel (5-20 Schritte)	Moderat	Akkumulierende Fehler
Lang (20+ Schritte)	Hoch	Reasoning-Drift dominiert

Die Feedback-Lösung

MiroThinkers Erkenntnis: Lass die Umgebung den Agenten kontinuierlich korrigieren.[^14] Anstatt isoliert zu reasonen, überprüft der Agent seine Arbeit durch Interaktion mit externen Tools und fängt Fehler ab, bevor sie sich verstärken.

Interaktionsskalierung Definiert

Interaktionsskalierung behandelt die Tiefe der Agenten-Umgebungs-Interaktion als skalierbare Dimension analog zu Modellgröße oder Kontextlänge.[^15]

Die Drei Dimensionen

Dimension	Was Skaliert	Wie Es Hilft
Modellgröße	Parameter	Bessere Einzelschritt-Qualität
Kontextlänge	Token-Fenster	Mehr Information verfügbar
Interaktionstiefe	Tool-Aufrufe	Fehlerkorrektur, Erdung

Warum Interaktion Anders Ist

Anders als Modellgröße (beim Training fixiert) oder Kontext (passive Speicherung), ermöglicht Interaktionstiefe aktive Verifikation und Kurskorrektur.[^16]

Passive Skalierung: Größere Modelle und Kontexte bieten mehr Kapazität Aktive Skalierung: Mehr Interaktionen bieten mehr Gelegenheiten zu prüfen, korrigieren und verfeinern

MiroThinker-Architektur

Der Agent folgt dem ReAct-Framework mit spezifischen Erweiterungen für tiefe Interaktion:[^17]

Kernschleife

Gedanke → Aktion (Tool-Aufruf) → Beobachtung → Gedanke → ...

Jede Beobachtung fließt in den Kontext des Agenten zurück und informiert nachfolgendes Reasoning.[^18]

Tool-Suite

MiroThinker enthält ein umfassendes Toolkit:[^19]

Kategorie	Beispiele
Websuche	Abfrageformulierung, Ergebnis-Parsing
Web-Browsing	Seitennavigation, Content-Extraktion
Code-Ausführung	Python-Runtime, Ergebnisanalyse
Dateioperationen	Lesen, Schreiben, Dokumente analysieren

600 Tool-Aufrufe

Das 256K-Kontextfenster unterstützt bis zu 600 Tool-Aufrufe pro Aufgabe.[^20] Zum Vergleich: Die meisten Agenten-Benchmarks beinhalten weniger als 20 Tool-Aufrufe. MiroThinker operiert mit 30-facher typischer Interaktionstiefe.

Trainingsmethodik

MiroThinker-Training verläuft in drei Phasen:[^21]

Phase 1: Supervised Fine-Tuning

Initiales Training auf erfolgreichen Agenten-Trajektorien lehrt grundlegende Tool-Nutzungsmuster:[^22]

Wann suchen vs. browsen
Wie effektive Abfragen formulieren
Tool-Outputs interpretieren
Multi-Source-Information synthetisieren

Phase 2: Präferenzlernen

Das Modell lernt, erfolgreiche Trajektorien gegenüber gescheiterten zu bevorzugen:[^23]

Binäres Feedback zu Trajektorien-Ergebnissen
Implizites Lernen von Fehlerwiederherstellung
Präferenz für effiziente Tool-Sequenzen

Phase 3: Reinforcement Learning

Group Relative Policy Optimization (GRPO) trainiert für erweiterte Interaktion:[^24]

Belohnungen für korrekte Endantworten
Implizite Credit-Zuweisung über lange Trajektorien
Lernen, wann persistieren vs. Strategien pivotieren

Basismodelle

MiroThinker baut auf Open-Weight-Fundamenten auf:[^25]

Größe	Basismodell
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Benchmark-Performance

GAIA (General AI Assistants)

GAIA testet realistische Assistenten-Aufgaben, die Websuche, Reasoning und Multi-Step-Problemlösung erfordern:[^26]

Modell	Genauigkeit
MiroThinker-72B	81,9%
GPT-5-high	~85% (geschätzt)
Vorheriges Open-Source-SOTA	~65%

MiroThinker nähert sich kommerzieller Performance, während es vollständig offen bleibt.

HLE (Humanity's Last Exam)

Extrem anspruchsvolle Fragen über diverse Domänen:[^27]

Modell	Genauigkeit
MiroThinker-72B	37,7%
Menschlicher Experte	Variabel

BrowseComp

Komplexes Web-Browsing und Informationssynthese:[^28]

Modell	Genauigkeit
MiroThinker-72B (Englisch)	47,1%
MiroThinker-72B (Chinesisch)	55,6%

Die chinesische Performance deutet auf starken multilingualen Transfer hin.

Skalierungsverhalten

Kritische Erkenntnis: Performance verbessert sich vorhersagbar mit Interaktionstiefe.[^29]

Wenn MiroThinker mehr Tool-Aufrufe durchführt: - Genauigkeit steigt (bis zu Hardware-/Kontextlimits) - Fehlerwiederherstellung wird effektiver - Komplexe Aufgaben werden handhabbar

Dies demonstriert, dass Interaktionstiefe echtes Skalierungsverhalten zeigt, nicht bloß abnehmende Erträge.

Vergleich mit Anderen Ansätzen

vs. Chain-of-Thought

Dimension	Chain-of-Thought	MiroThinker
Feedback	Keins (isoliertes Reasoning)	Kontinuierlich (Tool-Ergebnisse)
Fehlerbehandlung	Aufs Beste hoffen	Erkennen und korrigieren
Erdung	Nur Textmuster	Externe Verifikation

vs. ReAct-Agenten

Dimension	Standard-ReAct	MiroThinker
Interaktionstiefe	10-20 Aufrufe typisch	Bis zu 600 Aufrufe
Training	Prompt-Engineering	RL für tiefe Interaktion
Persistenz	Kurze Aufgaben	Erweiterte Workflows

Warum Interaktionsskalierung Funktioniert

Das Paper identifiziert mehrere Mechanismen hinter der Effektivität der Interaktionsskalierung:[^30]

Fehlererkennung

Mehr Tool-Aufrufe schaffen mehr Gelegenheiten, Fehler zu entdecken:[^31]

Widersprüchliche Suchergebnisse enthüllen falsche Annahmen
Gescheiterte Operationen exponieren ungültige Zustände
Unerwartete Outputs lösen Überdenken aus

Informationserwerb

Erweiterte Interaktion sammelt mehr relevante Informationen:[^32]

Folgesuchen verfeinern Verständnis
Mehrere Quellen ermöglichen Kreuzvalidierung
Tiefes Browsing deckt versteckte Details auf

Strategieverfeinerung

Lange Trajektorien ermöglichen Strategieevolution:[^33]

Initiale Ansätze können aufgegeben werden
Neue Winkel können erkundet werden
Synthese kann spät ankommende Information einbeziehen

Open Source Release

Das MiroMind-Team veröffentlichte umfassende Ressourcen:[^34]

Modelle

Variante	HuggingFace
MiroThinker-v1.0-8B	Verfügbar
MiroThinker-v1.0-30B	Verfügbar
MiroThinker-v1.0-72B	Verfügbar
MiroThinker-v1.5-30B	Verfügbar (aktualisiert)

Code

Vollständige Trainings-Pipeline
Inferenz-Implementierung
Tool-Integrationsbeispiele
Evaluierungsskripte

Implikationen für Agentenentwicklung

Trainingsparadigmenwechsel

Effektive Agenten könnten spezifisches Training für tiefe Interaktion erfordern, nicht nur bessere Basismodelle.[^35]

Alter Ansatz	Neuer Ansatz
LLM trainieren, Tools hinzufügen	Für Tool-Nutzung in der Tiefe trainieren
Prompt-Engineering	Reinforcement Learning
Einstellige Aufrufe	Hunderte von Aufrufen

Kernerkenntnisse

MiroThinker etabliert Interaktionsskalierung als dritte viable Dimension für KI-Fähigkeit:

Neue Dimension: Interaktionstiefe skaliert wie Modellgröße und Kontextlänge
600 Tool-Aufrufe: Trainiert für 30-fache typische Agenten-Interaktionstiefe
81,9% GAIA: Nähert sich kommerzieller Performance bei vollständiger Offenheit
Dreiphasen-Training: SFT → Präferenzlernen → RL Pipeline
Fehlerkorrektur: Umgebungsfeedback verhindert Reasoning-Drift
Offene Veröffentlichung: Modelle, Code und Trainingsrezepte verfügbar

Die nächste Generation von KI-Agenten könnte sich nicht nur durch größere Modelle als fähig erweisen, sondern durch tieferes Engagement mit ihren Umgebungen.

MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

TL;DR

Das Agenten-Skalierungsproblem

Reasoning-Drift

Die Feedback-Lösung

Interaktionsskalierung Definiert

Die Drei Dimensionen

Warum Interaktion Anders Ist

MiroThinker-Architektur

Kernschleife

Tool-Suite

600 Tool-Aufrufe

Trainingsmethodik

Phase 1: Supervised Fine-Tuning

Phase 2: Präferenzlernen

Phase 3: Reinforcement Learning

Basismodelle

Benchmark-Performance

GAIA (General AI Assistants)

HLE (Humanity's Last Exam)

BrowseComp

Skalierungsverhalten

Vergleich mit Anderen Ansätzen

vs. Chain-of-Thought

vs. ReAct-Agenten

Warum Interaktionsskalierung Funktioniert

Fehlererkennung

Informationserwerb

Strategieverfeinerung

Open Source Release

Modelle

Code

Implikationen für Agentenentwicklung

Trainingsparadigmenwechsel

Kernerkenntnisse

You Might Also Like

Japans KI-Infrastruktur: Asiens größte Volkswirtschaft erwac...

KV-Cache-Optimierung: Speichereffizienz für LLMs in der Prod...

Singapur und Südostasien entwickeln sich zu globalen Zentren...

Angebot anfordern_

Anfrage erhalten_