MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

MiroThinker introduit la mise à l'échelle d'interaction—entraînant des agents pour gérer 600 appels d'outils par tâche. 81,9% sur le benchmark GAIA. Une nouvelle dimension au-delà de la taille du modèle et du contexte.

MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

La mise à l'échelle de l'IA s'est concentrée sur deux dimensions : la taille du modèle et la longueur du contexte.[^1] MiroThinker en introduit une troisième : la profondeur d'interaction. L'agent de recherche, publié avec des variantes de 8B, 30B et 72B paramètres, entraîne des modèles à gérer jusqu'à 600 appels d'outils par tâche via l'apprentissage par renforcement.[^2] Sur le benchmark GAIA, la variante 72B atteint 81,9% de précision, approchant les systèmes commerciaux comme GPT-5-high tout en restant entièrement open source.[^3]

TL;DR

MiroThinker explore la « mise à l'échelle d'interaction » au niveau du modèle, entraînant systématiquement les modèles à gérer des interactions plus profondes et plus fréquentes entre agent et environnement.[^4] Contrairement à la mise à l'échelle au moment du test isolée, la mise à l'échelle d'interaction utilise le feedback environnemental pour corriger les erreurs et affiner les trajectoires.[^5] Avec une fenêtre de contexte de 256K, l'agent effectue jusqu'à 600 appels d'outils par tâche, permettant un raisonnement multi-tours soutenu pour des flux de travail de recherche complexes.[^6] L'entraînement utilise trois phases : ajustement fin supervisé, apprentissage des préférences et apprentissage par renforcement avec optimisation de politique relative de groupe.[^7]

Le Problème de Mise à l'Échelle des Agents

Les agents IA actuels font face à une limitation fondamentale. À mesure que les chaînes de raisonnement s'allongent, les erreurs se composent.[^9] Une seule erreur précoce dans une trajectoire peut faire dérailler toute la tâche. Les approches traditionnelles adressent cela via :

Modèles Plus Grands : Plus de paramètres pour une meilleure précision par étape[^10] Contexte Plus Long : Plus d'espace pour conserver l'historique de raisonnement[^11] Meilleur Prompting : Instructions améliorées pour réduire les erreurs[^12]

Cependant, ces interventions n'adressent pas le problème central : les agents opérant isolément de leur environnement pendant un raisonnement prolongé.

Dérive du Raisonnement

Les longues chaînes de raisonnement sans feedback environnemental exhibent une « dérive du raisonnement »—divergence graduelle des trajectoires correctes.[^13] L'agent continue de raisonner basé sur des hypothèses de plus en plus obsolètes ou incorrectes.

Longueur de Chaîne Taux d'Erreur Cause
Courte (1-5 étapes) Faible Erreur composée limitée
Moyenne (5-20 étapes) Modérée Erreurs accumulées
Longue (20+ étapes) Élevée Dérive du raisonnement domine

La Solution par Feedback

L'insight de MiroThinker : laisser l'environnement corriger l'agent continuellement.[^14] Au lieu de raisonner isolément, l'agent vérifie son travail en interagissant avec des outils externes, détectant les erreurs avant qu'elles ne se composent.

Mise à l'Échelle d'Interaction Définie

La mise à l'échelle d'interaction traite la profondeur d'interaction agent-environnement comme une dimension évolutive analogue à la taille du modèle ou la longueur du contexte.[^15]

Les Trois Dimensions

Dimension Ce Qui Évolue Comment Ça Aide
Taille du Modèle Paramètres Meilleure qualité par étape
Longueur du Contexte Fenêtre de tokens Plus d'information disponible
Profondeur d'Interaction Appels d'outils Correction d'erreurs, ancrage

Pourquoi l'Interaction Diffère

Contrairement à la taille du modèle (fixée à l'entraînement) ou au contexte (stockage passif), la profondeur d'interaction permet une vérification active et une correction de cap.[^16]

Mise à l'Échelle Passive : Des modèles et contextes plus grands fournissent plus de capacité Mise à l'Échelle Active : Plus d'interactions fournissent plus d'opportunités de vérifier, corriger et affiner

Architecture MiroThinker

L'agent suit le framework ReAct avec des améliorations spécifiques pour l'interaction profonde :[^17]

Boucle Principale

Pensée → Action (Appel d'Outil) → Observation → Pensée → ...

Chaque observation alimente le contexte de l'agent, informant le raisonnement subséquent.[^18]

Suite d'Outils

MiroThinker inclut une boîte à outils complète :[^19]

Catégorie Exemples
Recherche Web Formulation de requêtes, parsing de résultats
Navigation Web Navigation de pages, extraction de contenu
Exécution de Code Runtime Python, analyse de résultats
Opérations de Fichiers Lire, écrire, analyser des documents

600 Appels d'Outils

La fenêtre de contexte de 256K supporte jusqu'à 600 appels d'outils par tâche.[^20] Pour contexte, la plupart des benchmarks d'agents impliquent moins de 20 appels d'outils. MiroThinker opère à 30 fois la profondeur d'interaction typique.

Méthodologie d'Entraînement

L'entraînement de MiroThinker procède en trois phases :[^21]

Phase 1 : Ajustement Fin Supervisé

L'entraînement initial sur des trajectoires d'agents réussies enseigne les patterns basiques d'utilisation d'outils :[^22]

  • Quand chercher vs. naviguer
  • Comment formuler des requêtes efficaces
  • Interpréter les sorties d'outils
  • Synthétiser l'information multi-sources

Phase 2 : Apprentissage des Préférences

Le modèle apprend à préférer les trajectoires réussies aux trajectoires échouées :[^23]

  • Feedback binaire sur les résultats de trajectoire
  • Apprentissage implicite de récupération d'erreurs
  • Préférence pour les séquences d'outils efficaces

Phase 3 : Apprentissage par Renforcement

L'Optimisation de Politique Relative de Groupe (GRPO) entraîne pour l'interaction étendue :[^24]

  • Récompenses pour les réponses finales correctes
  • Attribution de crédit implicite sur de longues trajectoires
  • Apprendre quand persister vs. pivoter les stratégies

Modèles de Base

MiroThinker est construit sur des fondations à poids ouverts :[^25]

Taille Modèle de Base
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Performance sur les Benchmarks

GAIA (Assistants IA Généraux)

GAIA teste des tâches d'assistant réalistes nécessitant recherche web, raisonnement et résolution de problèmes multi-étapes :[^26]

Modèle Précision
MiroThinker-72B 81,9%
GPT-5-high ~85% (estimé)
SOTA open source précédent ~65%

MiroThinker approche la performance commerciale tout en restant entièrement ouvert.

HLE (Dernier Examen de l'Humanité)

Questions extrêmement difficiles dans divers domaines :[^27]

Modèle Précision
MiroThinker-72B 37,7%
Expert humain Variable

BrowseComp

Navigation web complexe et synthèse d'information :[^28]

Modèle Précision
MiroThinker-72B (Anglais) 47,1%
MiroThinker-72B (Chinois) 55,6%

La performance en chinois suggère un fort transfert multilingue.

Comportement de Mise à l'Échelle

Découverte critique : la performance s'améliore de manière prévisible avec la profondeur d'interaction.[^29]

Quand MiroThinker s'engage dans plus d'appels d'outils : - La précision augmente (jusqu'aux limites hardware/contexte) - La récupération d'erreurs devient plus efficace - Les tâches complexes deviennent traitables

Cela démontre que la profondeur d'interaction exhibe un vrai comportement de mise à l'échelle, pas simplement des rendements décroissants.

Comparaison avec d'Autres Approches

vs. Chain-of-Thought

Dimension Chain-of-Thought MiroThinker
Feedback Aucun (raisonnement isolé) Continu (résultats d'outils)
Gestion d'erreurs Espérer le meilleur Détecter et corriger
Ancrage Patterns textuels seulement Vérification externe

vs. Agents ReAct

Dimension ReAct Standard MiroThinker
Profondeur d'interaction 10-20 appels typique Jusqu'à 600 appels
Entraînement Ingénierie de prompts RL pour interaction profonde
Persistance Tâches courtes Flux de travail étendus

Pourquoi la Mise à l'Échelle d'Interaction Fonctionne

Le papier identifie plusieurs mécanismes derrière l'efficacité de la mise à l'échelle d'interaction :[^30]

Détection d'Erreurs

Plus d'appels d'outils créent plus d'opportunités de découvrir des erreurs :[^31]

  • Les résultats de recherche contradictoires révèlent des hypothèses incorrectes
  • Les opérations échouées exposent des états invalides
  • Les sorties inattendues déclenchent une reconsidération

Acquisition d'Information

L'interaction étendue rassemble plus d'information pertinente :[^32]

  • Les recherches de suivi affinent la compréhension
  • Les sources multiples permettent la validation croisée
  • La navigation profonde découvre des détails cachés

Affinement de Stratégie

Les longues trajectoires permettent l'évolution de stratégie :[^33]

  • Les approches initiales peuvent être abandonnées
  • De nouveaux angles peuvent être explorés
  • La synthèse peut incorporer l'information arrivant tard

Publication Open Source

L'équipe MiroMind a publié des ressources complètes :[^34]

Modèles

Variante HuggingFace
MiroThinker-v1.0-8B Disponible
MiroThinker-v1.0-30B Disponible
MiroThinker-v1.0-72B Disponible
MiroThinker-v1.5-30B Disponible (mis à jour)

Code

  • Pipeline d'entraînement complet
  • Implémentation d'inférence
  • Exemples d'intégration d'outils
  • Scripts d'évaluation

Implications pour le Développement d'Agents

Changement de Paradigme d'Entraînement

Les agents efficaces peuvent nécessiter un entraînement spécifique pour l'interaction profonde, pas seulement de meilleurs modèles de base.[^35]

Ancienne Approche Nouvelle Approche
Entraîner LLM, ajouter outils Entraîner pour usage d'outils en profondeur
Ingénierie de prompts Apprentissage par renforcement
Appels à un chiffre Centaines d'appels

Points Clés

MiroThinker établit la mise à l'échelle d'interaction comme troisième dimension viable pour la capacité IA :

  1. Nouvelle Dimension : La profondeur d'interaction évolue comme la taille du modèle et la longueur du contexte
  2. 600 Appels d'Outils : Entraîné pour 30x la profondeur d'interaction typique d'agent
  3. 81,9% GAIA : Approche la performance commerciale tout en étant entièrement ouvert
  4. Entraînement Trois Phases : Pipeline SFT → Apprentissage des Préférences → RL
  5. Correction d'Erreurs : Le feedback environnemental prévient la dérive du raisonnement
  6. Publication Ouverte : Modèles, code et recettes d'entraînement disponibles

La prochaine génération d'agents IA pourrait se révéler capable non pas uniquement grâce à des modèles plus grands, mais grâce à un engagement plus profond avec leurs environnements.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING