MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

MiroThinker führt Interaktionsskalierung ein—Training von Agenten für 600 Tool-Aufrufe pro Aufgabe. 81,9% auf GAIA-Benchmark. Eine neue Dimension jenseits von Modellgröße und Kontext.

MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

MiroThinker: Die Dritte Skalierungsdimension für KI-Agenten

KI-Skalierung hat sich auf zwei Dimensionen konzentriert: Modellgröße und Kontextlänge.[^1] MiroThinker führt eine dritte ein: Interaktionstiefe. Der Forschungsagent, veröffentlicht mit 8B-, 30B- und 72B-Parameter-Varianten, trainiert Modelle für bis zu 600 Tool-Aufrufe pro Aufgabe durch Reinforcement Learning.[^2] Auf dem GAIA-Benchmark erreicht die 72B-Variante 81,9% Genauigkeit und nähert sich kommerziellen Systemen wie GPT-5-high, während sie vollständig Open Source bleibt.[^3]

TL;DR

MiroThinker erforscht "Interaktionsskalierung" auf Modellebene und trainiert systematisch Modelle für tiefere und häufigere Agenten-Umgebungs-Interaktionen.[^4] Anders als isolierte Test-Zeit-Skalierung nutzt Interaktionsskalierung Umgebungsfeedback zur Fehlerkorrektur und Trajektorienverfeinerung.[^5] Mit einem 256K-Kontextfenster führt der Agent bis zu 600 Tool-Aufrufe pro Aufgabe aus, was nachhaltiges Multi-Turn-Reasoning für komplexe Forschungsworkflows ermöglicht.[^6] Das Training verwendet drei Phasen: Supervised Fine-Tuning, Präferenzlernen und Reinforcement Learning mit Group Relative Policy Optimization.[^7]

Das Agenten-Skalierungsproblem

Aktuelle KI-Agenten stehen vor einer fundamentalen Einschränkung. Wenn Reasoning-Ketten länger werden, verstärken sich Fehler.[^9] Ein einzelner früher Fehler in einer Trajektorie kann die gesamte Aufgabe entgleisen lassen. Traditionelle Ansätze adressieren dies durch:

Größere Modelle: Mehr Parameter für bessere Einzelschritt-Genauigkeit[^10] Längerer Kontext: Mehr Platz für Reasoning-Historie[^11] Besseres Prompting: Verbesserte Anweisungen zur Fehlerreduzierung[^12]

Diese Interventionen adressieren jedoch nicht das Kernproblem: Agenten, die während erweitertem Reasoning isoliert von ihrer Umgebung operieren.

Reasoning-Drift

Lange Reasoning-Ketten ohne Umgebungsfeedback zeigen "Reasoning-Drift"—graduelle Abweichung von korrekten Trajektorien.[^13] Der Agent reasont weiter basierend auf zunehmend veralteten oder falschen Annahmen.

Kettenlänge Fehlerrate Ursache
Kurz (1-5 Schritte) Niedrig Begrenzter Compound-Error
Mittel (5-20 Schritte) Moderat Akkumulierende Fehler
Lang (20+ Schritte) Hoch Reasoning-Drift dominiert

Die Feedback-Lösung

MiroThinkers Erkenntnis: Lass die Umgebung den Agenten kontinuierlich korrigieren.[^14] Anstatt isoliert zu reasonen, überprüft der Agent seine Arbeit durch Interaktion mit externen Tools und fängt Fehler ab, bevor sie sich verstärken.

Interaktionsskalierung Definiert

Interaktionsskalierung behandelt die Tiefe der Agenten-Umgebungs-Interaktion als skalierbare Dimension analog zu Modellgröße oder Kontextlänge.[^15]

Die Drei Dimensionen

Dimension Was Skaliert Wie Es Hilft
Modellgröße Parameter Bessere Einzelschritt-Qualität
Kontextlänge Token-Fenster Mehr Information verfügbar
Interaktionstiefe Tool-Aufrufe Fehlerkorrektur, Erdung

Warum Interaktion Anders Ist

Anders als Modellgröße (beim Training fixiert) oder Kontext (passive Speicherung), ermöglicht Interaktionstiefe aktive Verifikation und Kurskorrektur.[^16]

Passive Skalierung: Größere Modelle und Kontexte bieten mehr Kapazität Aktive Skalierung: Mehr Interaktionen bieten mehr Gelegenheiten zu prüfen, korrigieren und verfeinern

MiroThinker-Architektur

Der Agent folgt dem ReAct-Framework mit spezifischen Erweiterungen für tiefe Interaktion:[^17]

Kernschleife

Gedanke → Aktion (Tool-Aufruf) → Beobachtung → Gedanke → ...

Jede Beobachtung fließt in den Kontext des Agenten zurück und informiert nachfolgendes Reasoning.[^18]

Tool-Suite

MiroThinker enthält ein umfassendes Toolkit:[^19]

Kategorie Beispiele
Websuche Abfrageformulierung, Ergebnis-Parsing
Web-Browsing Seitennavigation, Content-Extraktion
Code-Ausführung Python-Runtime, Ergebnisanalyse
Dateioperationen Lesen, Schreiben, Dokumente analysieren

600 Tool-Aufrufe

Das 256K-Kontextfenster unterstützt bis zu 600 Tool-Aufrufe pro Aufgabe.[^20] Zum Vergleich: Die meisten Agenten-Benchmarks beinhalten weniger als 20 Tool-Aufrufe. MiroThinker operiert mit 30-facher typischer Interaktionstiefe.

Trainingsmethodik

MiroThinker-Training verläuft in drei Phasen:[^21]

Phase 1: Supervised Fine-Tuning

Initiales Training auf erfolgreichen Agenten-Trajektorien lehrt grundlegende Tool-Nutzungsmuster:[^22]

  • Wann suchen vs. browsen
  • Wie effektive Abfragen formulieren
  • Tool-Outputs interpretieren
  • Multi-Source-Information synthetisieren

Phase 2: Präferenzlernen

Das Modell lernt, erfolgreiche Trajektorien gegenüber gescheiterten zu bevorzugen:[^23]

  • Binäres Feedback zu Trajektorien-Ergebnissen
  • Implizites Lernen von Fehlerwiederherstellung
  • Präferenz für effiziente Tool-Sequenzen

Phase 3: Reinforcement Learning

Group Relative Policy Optimization (GRPO) trainiert für erweiterte Interaktion:[^24]

  • Belohnungen für korrekte Endantworten
  • Implizite Credit-Zuweisung über lange Trajektorien
  • Lernen, wann persistieren vs. Strategien pivotieren

Basismodelle

MiroThinker baut auf Open-Weight-Fundamenten auf:[^25]

Größe Basismodell
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Benchmark-Performance

GAIA (General AI Assistants)

GAIA testet realistische Assistenten-Aufgaben, die Websuche, Reasoning und Multi-Step-Problemlösung erfordern:[^26]

Modell Genauigkeit
MiroThinker-72B 81,9%
GPT-5-high ~85% (geschätzt)
Vorheriges Open-Source-SOTA ~65%

MiroThinker nähert sich kommerzieller Performance, während es vollständig offen bleibt.

HLE (Humanity's Last Exam)

Extrem anspruchsvolle Fragen über diverse Domänen:[^27]

Modell Genauigkeit
MiroThinker-72B 37,7%
Menschlicher Experte Variabel

BrowseComp

Komplexes Web-Browsing und Informationssynthese:[^28]

Modell Genauigkeit
MiroThinker-72B (Englisch) 47,1%
MiroThinker-72B (Chinesisch) 55,6%

Die chinesische Performance deutet auf starken multilingualen Transfer hin.

Skalierungsverhalten

Kritische Erkenntnis: Performance verbessert sich vorhersagbar mit Interaktionstiefe.[^29]

Wenn MiroThinker mehr Tool-Aufrufe durchführt: - Genauigkeit steigt (bis zu Hardware-/Kontextlimits) - Fehlerwiederherstellung wird effektiver - Komplexe Aufgaben werden handhabbar

Dies demonstriert, dass Interaktionstiefe echtes Skalierungsverhalten zeigt, nicht bloß abnehmende Erträge.

Vergleich mit Anderen Ansätzen

vs. Chain-of-Thought

Dimension Chain-of-Thought MiroThinker
Feedback Keins (isoliertes Reasoning) Kontinuierlich (Tool-Ergebnisse)
Fehlerbehandlung Aufs Beste hoffen Erkennen und korrigieren
Erdung Nur Textmuster Externe Verifikation

vs. ReAct-Agenten

Dimension Standard-ReAct MiroThinker
Interaktionstiefe 10-20 Aufrufe typisch Bis zu 600 Aufrufe
Training Prompt-Engineering RL für tiefe Interaktion
Persistenz Kurze Aufgaben Erweiterte Workflows

Warum Interaktionsskalierung Funktioniert

Das Paper identifiziert mehrere Mechanismen hinter der Effektivität der Interaktionsskalierung:[^30]

Fehlererkennung

Mehr Tool-Aufrufe schaffen mehr Gelegenheiten, Fehler zu entdecken:[^31]

  • Widersprüchliche Suchergebnisse enthüllen falsche Annahmen
  • Gescheiterte Operationen exponieren ungültige Zustände
  • Unerwartete Outputs lösen Überdenken aus

Informationserwerb

Erweiterte Interaktion sammelt mehr relevante Informationen:[^32]

  • Folgesuchen verfeinern Verständnis
  • Mehrere Quellen ermöglichen Kreuzvalidierung
  • Tiefes Browsing deckt versteckte Details auf

Strategieverfeinerung

Lange Trajektorien ermöglichen Strategieevolution:[^33]

  • Initiale Ansätze können aufgegeben werden
  • Neue Winkel können erkundet werden
  • Synthese kann spät ankommende Information einbeziehen

Open Source Release

Das MiroMind-Team veröffentlichte umfassende Ressourcen:[^34]

Modelle

Variante HuggingFace
MiroThinker-v1.0-8B Verfügbar
MiroThinker-v1.0-30B Verfügbar
MiroThinker-v1.0-72B Verfügbar
MiroThinker-v1.5-30B Verfügbar (aktualisiert)

Code

  • Vollständige Trainings-Pipeline
  • Inferenz-Implementierung
  • Tool-Integrationsbeispiele
  • Evaluierungsskripte

Implikationen für Agentenentwicklung

Trainingsparadigmenwechsel

Effektive Agenten könnten spezifisches Training für tiefe Interaktion erfordern, nicht nur bessere Basismodelle.[^35]

Alter Ansatz Neuer Ansatz
LLM trainieren, Tools hinzufügen Für Tool-Nutzung in der Tiefe trainieren
Prompt-Engineering Reinforcement Learning
Einstellige Aufrufe Hunderte von Aufrufen

Kernerkenntnisse

MiroThinker etabliert Interaktionsskalierung als dritte viable Dimension für KI-Fähigkeit:

  1. Neue Dimension: Interaktionstiefe skaliert wie Modellgröße und Kontextlänge
  2. 600 Tool-Aufrufe: Trainiert für 30-fache typische Agenten-Interaktionstiefe
  3. 81,9% GAIA: Nähert sich kommerzieller Performance bei vollständiger Offenheit
  4. Dreiphasen-Training: SFT → Präferenzlernen → RL Pipeline
  5. Fehlerkorrektur: Umgebungsfeedback verhindert Reasoning-Drift
  6. Offene Veröffentlichung: Modelle, Code und Trainingsrezepte verfügbar

Die nächste Generation von KI-Agenten könnte sich nicht nur durch größere Modelle als fähig erweisen, sondern durch tieferes Engagement mit ihren Umgebungen.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING