MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

MiroThinker introduit la mise à l'échelle d'interaction—entraînant des agents pour gérer 600 appels d'outils par tâche. 81,9% sur le benchmark GAIA. Une nouvelle dimension au-delà de la taille du modèle et du contexte.

Blake Crosley

Jan 07, 2026 7 min read Disclaimer

MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

La mise à l'échelle de l'IA s'est concentrée sur deux dimensions : la taille du modèle et la longueur du contexte.[^1] MiroThinker en introduit une troisième : la profondeur d'interaction. L'agent de recherche, publié avec des variantes de 8B, 30B et 72B paramètres, entraîne des modèles à gérer jusqu'à 600 appels d'outils par tâche via l'apprentissage par renforcement.[^2] Sur le benchmark GAIA, la variante 72B atteint 81,9% de précision, approchant les systèmes commerciaux comme GPT-5-high tout en restant entièrement open source.[^3]

TL;DR

MiroThinker explore la « mise à l'échelle d'interaction » au niveau du modèle, entraînant systématiquement les modèles à gérer des interactions plus profondes et plus fréquentes entre agent et environnement.[^4] Contrairement à la mise à l'échelle au moment du test isolée, la mise à l'échelle d'interaction utilise le feedback environnemental pour corriger les erreurs et affiner les trajectoires.[^5] Avec une fenêtre de contexte de 256K, l'agent effectue jusqu'à 600 appels d'outils par tâche, permettant un raisonnement multi-tours soutenu pour des flux de travail de recherche complexes.[^6] L'entraînement utilise trois phases : ajustement fin supervisé, apprentissage des préférences et apprentissage par renforcement avec optimisation de politique relative de groupe.[^7]

Le Problème de Mise à l'Échelle des Agents

Les agents IA actuels font face à une limitation fondamentale. À mesure que les chaînes de raisonnement s'allongent, les erreurs se composent.[^9] Une seule erreur précoce dans une trajectoire peut faire dérailler toute la tâche. Les approches traditionnelles adressent cela via :

Modèles Plus Grands : Plus de paramètres pour une meilleure précision par étape[^10] Contexte Plus Long : Plus d'espace pour conserver l'historique de raisonnement[^11] Meilleur Prompting : Instructions améliorées pour réduire les erreurs[^12]

Cependant, ces interventions n'adressent pas le problème central : les agents opérant isolément de leur environnement pendant un raisonnement prolongé.

Dérive du Raisonnement

Les longues chaînes de raisonnement sans feedback environnemental exhibent une « dérive du raisonnement »—divergence graduelle des trajectoires correctes.[^13] L'agent continue de raisonner basé sur des hypothèses de plus en plus obsolètes ou incorrectes.

Longueur de Chaîne	Taux d'Erreur	Cause
Courte (1-5 étapes)	Faible	Erreur composée limitée
Moyenne (5-20 étapes)	Modérée	Erreurs accumulées
Longue (20+ étapes)	Élevée	Dérive du raisonnement domine

La Solution par Feedback

L'insight de MiroThinker : laisser l'environnement corriger l'agent continuellement.[^14] Au lieu de raisonner isolément, l'agent vérifie son travail en interagissant avec des outils externes, détectant les erreurs avant qu'elles ne se composent.

Mise à l'Échelle d'Interaction Définie

La mise à l'échelle d'interaction traite la profondeur d'interaction agent-environnement comme une dimension évolutive analogue à la taille du modèle ou la longueur du contexte.[^15]

Les Trois Dimensions

Dimension	Ce Qui Évolue	Comment Ça Aide
Taille du Modèle	Paramètres	Meilleure qualité par étape
Longueur du Contexte	Fenêtre de tokens	Plus d'information disponible
Profondeur d'Interaction	Appels d'outils	Correction d'erreurs, ancrage

Pourquoi l'Interaction Diffère

Contrairement à la taille du modèle (fixée à l'entraînement) ou au contexte (stockage passif), la profondeur d'interaction permet une vérification active et une correction de cap.[^16]

Mise à l'Échelle Passive : Des modèles et contextes plus grands fournissent plus de capacité Mise à l'Échelle Active : Plus d'interactions fournissent plus d'opportunités de vérifier, corriger et affiner

Architecture MiroThinker

L'agent suit le framework ReAct avec des améliorations spécifiques pour l'interaction profonde :[^17]

Boucle Principale

Pensée → Action (Appel d'Outil) → Observation → Pensée → ...

Chaque observation alimente le contexte de l'agent, informant le raisonnement subséquent.[^18]

Suite d'Outils

MiroThinker inclut une boîte à outils complète :[^19]

Catégorie	Exemples
Recherche Web	Formulation de requêtes, parsing de résultats
Navigation Web	Navigation de pages, extraction de contenu
Exécution de Code	Runtime Python, analyse de résultats
Opérations de Fichiers	Lire, écrire, analyser des documents

600 Appels d'Outils

La fenêtre de contexte de 256K supporte jusqu'à 600 appels d'outils par tâche.[^20] Pour contexte, la plupart des benchmarks d'agents impliquent moins de 20 appels d'outils. MiroThinker opère à 30 fois la profondeur d'interaction typique.

Méthodologie d'Entraînement

L'entraînement de MiroThinker procède en trois phases :[^21]

Phase 1 : Ajustement Fin Supervisé

L'entraînement initial sur des trajectoires d'agents réussies enseigne les patterns basiques d'utilisation d'outils :[^22]

Quand chercher vs. naviguer
Comment formuler des requêtes efficaces
Interpréter les sorties d'outils
Synthétiser l'information multi-sources

Phase 2 : Apprentissage des Préférences

Le modèle apprend à préférer les trajectoires réussies aux trajectoires échouées :[^23]

Feedback binaire sur les résultats de trajectoire
Apprentissage implicite de récupération d'erreurs
Préférence pour les séquences d'outils efficaces

Phase 3 : Apprentissage par Renforcement

L'Optimisation de Politique Relative de Groupe (GRPO) entraîne pour l'interaction étendue :[^24]

Récompenses pour les réponses finales correctes
Attribution de crédit implicite sur de longues trajectoires
Apprendre quand persister vs. pivoter les stratégies

Modèles de Base

MiroThinker est construit sur des fondations à poids ouverts :[^25]

Taille	Modèle de Base
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Performance sur les Benchmarks

GAIA (Assistants IA Généraux)

GAIA teste des tâches d'assistant réalistes nécessitant recherche web, raisonnement et résolution de problèmes multi-étapes :[^26]

Modèle	Précision
MiroThinker-72B	81,9%
GPT-5-high	~85% (estimé)
SOTA open source précédent	~65%

MiroThinker approche la performance commerciale tout en restant entièrement ouvert.

HLE (Dernier Examen de l'Humanité)

Questions extrêmement difficiles dans divers domaines :[^27]

Modèle	Précision
MiroThinker-72B	37,7%
Expert humain	Variable

BrowseComp

Navigation web complexe et synthèse d'information :[^28]

Modèle	Précision
MiroThinker-72B (Anglais)	47,1%
MiroThinker-72B (Chinois)	55,6%

La performance en chinois suggère un fort transfert multilingue.

Comportement de Mise à l'Échelle

Découverte critique : la performance s'améliore de manière prévisible avec la profondeur d'interaction.[^29]

Quand MiroThinker s'engage dans plus d'appels d'outils : - La précision augmente (jusqu'aux limites hardware/contexte) - La récupération d'erreurs devient plus efficace - Les tâches complexes deviennent traitables

Cela démontre que la profondeur d'interaction exhibe un vrai comportement de mise à l'échelle, pas simplement des rendements décroissants.

Comparaison avec d'Autres Approches

vs. Chain-of-Thought

Dimension	Chain-of-Thought	MiroThinker
Feedback	Aucun (raisonnement isolé)	Continu (résultats d'outils)
Gestion d'erreurs	Espérer le meilleur	Détecter et corriger
Ancrage	Patterns textuels seulement	Vérification externe

vs. Agents ReAct

Dimension	ReAct Standard	MiroThinker
Profondeur d'interaction	10-20 appels typique	Jusqu'à 600 appels
Entraînement	Ingénierie de prompts	RL pour interaction profonde
Persistance	Tâches courtes	Flux de travail étendus

Pourquoi la Mise à l'Échelle d'Interaction Fonctionne

Le papier identifie plusieurs mécanismes derrière l'efficacité de la mise à l'échelle d'interaction :[^30]

Détection d'Erreurs

Plus d'appels d'outils créent plus d'opportunités de découvrir des erreurs :[^31]

Les résultats de recherche contradictoires révèlent des hypothèses incorrectes
Les opérations échouées exposent des états invalides
Les sorties inattendues déclenchent une reconsidération

Acquisition d'Information

L'interaction étendue rassemble plus d'information pertinente :[^32]

Les recherches de suivi affinent la compréhension
Les sources multiples permettent la validation croisée
La navigation profonde découvre des détails cachés

Affinement de Stratégie

Les longues trajectoires permettent l'évolution de stratégie :[^33]

Les approches initiales peuvent être abandonnées
De nouveaux angles peuvent être explorés
La synthèse peut incorporer l'information arrivant tard

Publication Open Source

L'équipe MiroMind a publié des ressources complètes :[^34]

Modèles

Variante	HuggingFace
MiroThinker-v1.0-8B	Disponible
MiroThinker-v1.0-30B	Disponible
MiroThinker-v1.0-72B	Disponible
MiroThinker-v1.5-30B	Disponible (mis à jour)

Code

Pipeline d'entraînement complet
Implémentation d'inférence
Exemples d'intégration d'outils
Scripts d'évaluation

Implications pour le Développement d'Agents

Changement de Paradigme d'Entraînement

Les agents efficaces peuvent nécessiter un entraînement spécifique pour l'interaction profonde, pas seulement de meilleurs modèles de base.[^35]

Ancienne Approche	Nouvelle Approche
Entraîner LLM, ajouter outils	Entraîner pour usage d'outils en profondeur
Ingénierie de prompts	Apprentissage par renforcement
Appels à un chiffre	Centaines d'appels

Points Clés

MiroThinker établit la mise à l'échelle d'interaction comme troisième dimension viable pour la capacité IA :

Nouvelle Dimension : La profondeur d'interaction évolue comme la taille du modèle et la longueur du contexte
600 Appels d'Outils : Entraîné pour 30x la profondeur d'interaction typique d'agent
81,9% GAIA : Approche la performance commerciale tout en étant entièrement ouvert
Entraînement Trois Phases : Pipeline SFT → Apprentissage des Préférences → RL
Correction d'Erreurs : Le feedback environnemental prévient la dérive du raisonnement
Publication Ouverte : Modèles, code et recettes d'entraînement disponibles

La prochaine génération d'agents IA pourrait se révéler capable non pas uniquement grâce à des modèles plus grands, mais grâce à un engagement plus profond avec leurs environnements.

MiroThinker : La Troisième Dimension de Mise à l'Échelle pour les Agents IA

TL;DR

Le Problème de Mise à l'Échelle des Agents

Dérive du Raisonnement

La Solution par Feedback

Mise à l'Échelle d'Interaction Définie

Les Trois Dimensions

Pourquoi l'Interaction Diffère

Architecture MiroThinker

Boucle Principale

Suite d'Outils

600 Appels d'Outils

Méthodologie d'Entraînement

Phase 1 : Ajustement Fin Supervisé

Phase 2 : Apprentissage des Préférences

Phase 3 : Apprentissage par Renforcement

Modèles de Base

Performance sur les Benchmarks

GAIA (Assistants IA Généraux)

HLE (Dernier Examen de l'Humanité)

BrowseComp

Comportement de Mise à l'Échelle

Comparaison avec d'Autres Approches

vs. Chain-of-Thought

vs. Agents ReAct

Pourquoi la Mise à l'Échelle d'Interaction Fonctionne

Détection d'Erreurs

Acquisition d'Information

Affinement de Stratégie

Publication Open Source

Modèles

Code

Implications pour le Développement d'Agents

Changement de Paradigme d'Entraînement

Points Clés

You Might Also Like

Infrastructure IA au Japon : La plus grande économie d'Asie ...

Optimisation du KV Cache : Efficacité Mémoire pour les LLM e...

Singapour et l'Asie du Sud-Est émergent comme pôles mondiaux...

Demander un devis_

Demande reçue_