MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten
KI-Skalierung hat sich auf zwei Dimensionen konzentriert: Modellgröße und Kontextlänge.[^1] MiroThinker führt eine dritte ein: Interaktionstiefe. Der Forschungsagent, veröffentlicht mit 8B-, 30B- und 72B-Parameter-Varianten, trainiert Modelle für bis zu 600 Tool-Aufrufe pro Aufgabe durch Reinforcement Learning.[^2] Auf dem GAIA-Benchmark erreicht die 72B-Variante 81,9% Genauigkeit und nähert sich kommerziellen Systemen wie GPT-5-high, während sie vollständig Open Source bleibt.[^3]
TL;DR
MiroThinker erforscht "Interaktionsskalierung" auf Modellebene und trainiert systematisch Modelle für tiefere und häufigere Agenten-Umgebungs-Interaktionen.[^4] Anders als isolierte Test-Zeit-Skalierung nutzt Interaktionsskalierung Umgebungsfeedback zur Fehlerkorrektur und Trajektorienverfeinerung.[^5] Mit einem 256K-Kontextfenster führt der Agent bis zu 600 Tool-Aufrufe pro Aufgabe aus, was nachhaltiges Multi-Turn-Reasoning für komplexe Forschungsworkflows ermöglicht.[^6] Das Training verwendet drei Phasen: Supervised Fine-Tuning, Präferenzlernen und Reinforcement Learning mit Group Relative Policy Optimization.[^7]
Das Agenten-Skalierungsproblem
Aktuelle KI-Agenten stehen vor einer fundamentalen Einschränkung. Wenn Reasoning-Ketten länger werden, verstärken sich Fehler.[^9] Ein einzelner früher Fehler in einer Trajektorie kann die gesamte Aufgabe entgleisen lassen. Traditionelle Ansätze adressieren dies durch:
Größere Modelle: Mehr Parameter für bessere Einzelschritt-Genauigkeit[^10] Längerer Kontext: Mehr Platz für Reasoning-Historie[^11] Besseres Prompting: Verbesserte Anweisungen zur Fehlerreduzierung[^12]
Diese Interventionen adressieren jedoch nicht das Kernproblem: Agenten, die während erweitertem Reasoning isoliert von ihrer Umgebung operieren.
Reasoning-Drift
Lange Reasoning-Ketten ohne Umgebungsfeedback zeigen "Reasoning-Drift"—graduelle Abweichung von korrekten Trajektorien.[^13] Der Agent reasont weiter basierend auf zunehmend veralteten oder falschen Annahmen.
| Kettenlänge | Fehlerrate | Ursache |
|---|---|---|
| Kurz (1-5 Schritte) | Niedrig | Begrenzter Compound-Error |
| Mittel (5-20 Schritte) | Moderat | Akkumulierende Fehler |
| Lang (20+ Schritte) | Hoch | Reasoning-Drift dominiert |
Die Feedback-Lösung
MiroThinkers Erkenntnis: Lass die Umgebung den Agenten kontinuierlich korrigieren.[^14] Anstatt isoliert zu reasonen, überprüft der Agent seine Arbeit durch Interaktion mit externen Tools und fängt Fehler ab, bevor sie sich verstärken.
Interaktionsskalierung Definiert
Interaktionsskalierung behandelt die Tiefe der Agenten-Umgebungs-Interaktion als skalierbare Dimension analog zu Modellgröße oder Kontextlänge.[^15]
Die Drei Dimensionen
| Dimension | Was Skaliert | Wie Es Hilft |
|---|---|---|
| Modellgröße | Parameter | Bessere Einzelschritt-Qualität |
| Kontextlänge | Token-Fenster | Mehr Information verfügbar |
| Interaktionstiefe | Tool-Aufrufe | Fehlerkorrektur, Erdung |
Warum Interaktion Anders Ist
Anders als Modellgröße (beim Training fixiert) oder Kontext (passive Speicherung), ermöglicht Interaktionstiefe aktive Verifikation und Kurskorrektur.[^16]
Passive Skalierung: Größere Modelle und Kontexte bieten mehr Kapazität Aktive Skalierung: Mehr Interaktionen bieten mehr Gelegenheiten zu prüfen, korrigieren und verfeinern
MiroThinker-Architektur
Der Agent folgt dem ReAct-Framework mit spezifischen Erweiterungen für tiefe Interaktion:[^17]
Kernschleife
Gedanke → Aktion (Tool-Aufruf) → Beobachtung → Gedanke → ...
Jede Beobachtung fließt in den Kontext des Agenten zurück und informiert nachfolgendes Reasoning.[^18]
Tool-Suite
MiroThinker enthält ein umfassendes Toolkit:[^19]
| Kategorie | Beispiele |
|---|---|
| Websuche | Abfrageformulierung, Ergebnis-Parsing |
| Web-Browsing | Seitennavigation, Content-Extraktion |
| Code-Ausführung | Python-Runtime, Ergebnisanalyse |
| Dateioperationen | Lesen, Schreiben, Dokumente analysieren |
600 Tool-Aufrufe
Das 256K-Kontextfenster unterstützt bis zu 600 Tool-Aufrufe pro Aufgabe.[^20] Zum Vergleich: Die meisten Agenten-Benchmarks beinhalten weniger als 20 Tool-Aufrufe. MiroThinker operiert mit 30-facher typischer Interaktionstiefe.
Trainingsmethodik
MiroThinker-Training verläuft in drei Phasen:[^21]
Phase 1: Supervised Fine-Tuning
Initiales Training auf erfolgreichen Agenten-Trajektorien lehrt grundlegende Tool-Nutzungsmuster:[^22]
- Wann suchen vs. browsen
- Wie effektive Abfragen formulieren
- Tool-Outputs interpretieren
- Multi-Source-Information synthetisieren
Phase 2: Präferenzlernen
Das Modell lernt, erfolgreiche Trajektorien gegenüber gescheiterten zu bevorzugen:[^23]
- Binäres Feedback zu Trajektorien-Ergebnissen
- Implizites Lernen von Fehlerwiederherstellung
- Präferenz für effiziente Tool-Sequenzen
Phase 3: Reinforcement Learning
Group Relative Policy Optimization (GRPO) trainiert für erweiterte Interaktion:[^24]
- Belohnungen für korrekte Endantworten
- Implizite Credit-Zuweisung über lange Trajektorien
- Lernen, wann persistieren vs. Strategien pivotieren
Basismodelle
MiroThinker baut auf Open-Weight-Fundamenten auf:[^25]
| Größe | Basismodell |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Benchmark-Performance
GAIA (General AI Assistants)
GAIA testet realistische Assistenten-Aufgaben, die Websuche, Reasoning und Multi-Step-Problemlösung erfordern:[^26]
| Modell | Genauigkeit |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (geschätzt) |
| Vorheriges Open-Source-SOTA | ~65% |
MiroThinker nähert sich kommerzieller Performance, während es vollständig offen bleibt.
HLE (Humanity's Last Exam)
Extrem anspruchsvolle Fragen über diverse Domänen:[^27]
| Modell | Genauigkeit |
|---|---|
| MiroThinker-72B | 37,7% |
| Menschlicher Experte | Variabel |
BrowseComp
Komplexes Web-Browsing und Informationssynthese:[^28]
| Modell | Genauigkeit |
|---|---|
| MiroThinker-72B (Englisch) | 47,1% |
| MiroThinker-72B (Chinesisch) | 55,6% |
Die chinesische Performance deutet auf starken multilingualen Transfer hin.
Skalierungsverhalten
Kritische Erkenntnis: Performance verbessert sich vorhersagbar mit Interaktionstiefe.[^29]
Wenn MiroThinker mehr Tool-Aufrufe durchführt: - Genauigkeit steigt (bis zu Hardware-/Kontextlimits) - Fehlerwiederherstellung wird effektiver - Komplexe Aufgaben werden handhabbar
Dies demonstriert, dass Interaktionstiefe echtes Skalierungsverhalten zeigt, nicht bloß abnehmende Erträge.
Vergleich mit Anderen Ansätzen
vs. Chain-of-Thought
| Dimension | Chain-of-Thought | MiroThinker |
|---|---|---|
| Feedback | Keins (isoliertes Reasoning) | Kontinuierlich (Tool-Ergebnisse) |
| Fehlerbehandlung | Aufs Beste hoffen | Erkennen und korrigieren |
| Erdung | Nur Textmuster | Externe Verifikation |
vs. ReAct-Agenten
| Dimension | Standard-ReAct | MiroThinker |
|---|---|---|
| Interaktionstiefe | 10-20 Aufrufe typisch | Bis zu 600 Aufrufe |
| Training | Prompt-Engineering | RL für tiefe Interaktion |
| Persistenz | Kurze Aufgaben | Erweiterte Workflows |
Warum Interaktionsskalierung Funktioniert
Das Paper identifiziert mehrere Mechanismen hinter der Effektivität der Interaktionsskalierung:[^30]
Fehlererkennung
Mehr Tool-Aufrufe schaffen mehr Gelegenheiten, Fehler zu entdecken:[^31]
- Widersprüchliche Suchergebnisse enthüllen falsche Annahmen
- Gescheiterte Operationen exponieren ungültige Zustände
- Unerwartete Outputs lösen Überdenken aus
Informationserwerb
Erweiterte Interaktion sammelt mehr relevante Informationen:[^32]
- Folgesuchen verfeinern Verständnis
- Mehrere Quellen ermöglichen Kreuzvalidierung
- Tiefes Browsing deckt versteckte Details auf
Strategieverfeinerung
Lange Trajektorien ermöglichen Strategieevolution:[^33]
- Initiale Ansätze können aufgegeben werden
- Neue Winkel können erkundet werden
- Synthese kann spät ankommende Information einbeziehen
Open Source Release
Das MiroMind-Team veröffentlichte umfassende Ressourcen:[^34]
Modelle
| Variante | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | Verfügbar |
| MiroThinker-v1.0-30B | Verfügbar |
| MiroThinker-v1.0-72B | Verfügbar |
| MiroThinker-v1.5-30B | Verfügbar (aktualisiert) |
Code
- Vollständige Trainings-Pipeline
- Inferenz-Implementierung
- Tool-Integrationsbeispiele
- Evaluierungsskripte
Implikationen für Agentenentwicklung
Trainingsparadigmenwechsel
Effektive Agenten könnten spezifisches Training für tiefe Interaktion erfordern, nicht nur bessere Basismodelle.[^35]
| Alter Ansatz | Neuer Ansatz |
|---|---|
| LLM trainieren, Tools hinzufügen | Für Tool-Nutzung in der Tiefe trainieren |
| Prompt-Engineering | Reinforcement Learning |
| Einstellige Aufrufe | Hunderte von Aufrufen |
Kernerkenntnisse
MiroThinker etabliert Interaktionsskalierung als dritte viable Dimension für KI-Fähigkeit:
- Neue Dimension: Interaktionstiefe skaliert wie Modellgröße und Kontextlänge
- 600 Tool-Aufrufe: Trainiert für 30-fache typische Agenten-Interaktionstiefe
- 81,9% GAIA: Nähert sich kommerzieller Performance bei vollständiger Offenheit
- Dreiphasen-Training: SFT → Präferenzlernen → RL Pipeline
- Fehlerkorrektur: Umgebungsfeedback verhindert Reasoning-Drift
- Offene Veröffentlichung: Modelle, Code und Trainingsrezepte verfügbar
Die nächste Generation von KI-Agenten könnte sich nicht nur durch größere Modelle als fähig erweisen, sondern durch tieferes Engagement mit ihren Umgebungen.