MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA
El escalado de IA se ha centrado en dos dimensiones: tamaño del modelo y longitud del contexto.1 MiroThinker introduce una tercera: profundidad de interacción. El agente de investigación, lanzado con variantes de 8B, 30B y 72B parámetros, entrena modelos para manejar hasta 600 llamadas de herramientas por tarea mediante aprendizaje por refuerzo.2 En el benchmark GAIA, la variante de 72B alcanza 81.9% de precisión, acercándose a sistemas comerciales como GPT-5-high mientras permanece completamente de código abierto.3
TL;DR
MiroThinker explora el "escalado de interacción" a nivel de modelo, entrenando sistemáticamente modelos para manejar interacciones más profundas y frecuentes entre agente y entorno.4 A diferencia del escalado en tiempo de prueba aislado, el escalado de interacción usa retroalimentación del entorno para corregir errores y refinar trayectorias.5 Con una ventana de contexto de 256K, el agente realiza hasta 600 llamadas de herramientas por tarea, habilitando razonamiento sostenido de múltiples turnos para flujos de trabajo de investigación complejos.6 El entrenamiento usa tres fases: ajuste fino supervisado, aprendizaje de preferencias y aprendizaje por refuerzo con optimización de política relativa grupal.7
El Problema de Escalado de Agentes
Los agentes de IA actuales enfrentan una limitación fundamental. A medida que las cadenas de razonamiento se extienden, los errores se componen.8 Un solo error temprano en una trayectoria puede descarrilar toda la tarea. Los enfoques tradicionales abordan esto mediante:
Modelos Más Grandes: Más parámetros para mejor precisión en un solo paso9 Contexto Más Largo: Más espacio para mantener historial de razonamiento10 Mejor Prompting: Instrucciones mejoradas para reducir errores11
Sin embargo, estas intervenciones no abordan el problema central: agentes operando aislados de su entorno durante razonamiento extendido.
Deriva de Razonamiento
Las cadenas de razonamiento largas sin retroalimentación ambiental exhiben "deriva de razonamiento"—divergencia gradual de trayectorias correctas.12 El agente continúa razonando basándose en suposiciones cada vez más obsoletas o incorrectas.
| Longitud de Cadena | Tasa de Error | Causa |
|---|---|---|
| Corta (1-5 pasos) | Baja | Error compuesto limitado |
| Media (5-20 pasos) | Moderada | Errores acumulados |
| Larga (20+ pasos) | Alta | Deriva de razonamiento domina |
La Solución de Retroalimentación
La perspectiva de MiroThinker: dejar que el entorno corrija al agente continuamente.13 En lugar de razonar aisladamente, el agente verifica su trabajo interactuando con herramientas externas, detectando errores antes de que se compongan.
Escalado de Interacción Definido
El escalado de interacción trata la profundidad de interacción agente-entorno como una dimensión escalable análoga al tamaño del modelo o longitud del contexto.14
Las Tres Dimensiones
| Dimensión | Qué Escala | Cómo Ayuda |
|---|---|---|
| Tamaño del Modelo | Parámetros | Mejor calidad por paso |
| Longitud del Contexto | Ventana de tokens | Más información disponible |
| Profundidad de Interacción | Llamadas de herramientas | Corrección de errores, anclaje |
Por Qué Difiere la Interacción
A diferencia del tamaño del modelo (fijo en entrenamiento) o contexto (almacenamiento pasivo), la profundidad de interacción permite verificación activa y corrección de rumbo.15
Escalado Pasivo: Modelos y contextos más grandes proporcionan más capacidad Escalado Activo: Más interacciones proporcionan más oportunidades para verificar, corregir y refinar
Arquitectura de MiroThinker
El agente sigue el framework ReAct con mejoras específicas para interacción profunda:16
Bucle Principal
Pensamiento → Acción (Llamada de Herramienta) → Observación → Pensamiento → ...
Cada observación alimenta el contexto del agente, informando el razonamiento subsiguiente.17
Suite de Herramientas
MiroThinker incluye un conjunto completo de herramientas:18
| Categoría | Ejemplos |
|---|---|
| Búsqueda Web | Formulación de consultas, parsing de resultados |
| Navegación Web | Navegación de páginas, extracción de contenido |
| Ejecución de Código | Runtime Python, análisis de resultados |
| Operaciones de Archivo | Leer, escribir, analizar documentos |
600 Llamadas de Herramientas
La ventana de contexto de 256K soporta hasta 600 llamadas de herramientas por tarea.19 Para contexto, la mayoría de benchmarks de agentes involucran menos de 20 llamadas. MiroThinker opera a 30x la profundidad de interacción típica.
Metodología de Entrenamiento
El entrenamiento de MiroThinker procede en tres fases:20
Fase 1: Ajuste Fino Supervisado
El entrenamiento inicial en trayectorias de agentes exitosas enseña patrones básicos de uso de herramientas:21
- Cuándo buscar vs. navegar
- Cómo formular consultas efectivas
- Interpretar salidas de herramientas
- Sintetizar información de múltiples fuentes
Fase 2: Aprendizaje de Preferencias
El modelo aprende a preferir trayectorias exitosas sobre las fallidas:22
- Retroalimentación binaria sobre resultados de trayectoria
- Aprendizaje implícito de recuperación de errores
- Preferencia por secuencias eficientes de herramientas
Fase 3: Aprendizaje por Refuerzo
La Optimización de Política Relativa Grupal (GRPO) entrena para interacción extendida:23
- Recompensas por respuestas finales correctas
- Asignación de crédito implícita a través de trayectorias largas
- Aprender cuándo persistir vs. pivotar estrategias
Modelos Base
MiroThinker se construye sobre fundamentos de pesos abiertos:24
| Tamaño | Modelo Base |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Rendimiento en Benchmarks
GAIA (Asistentes de IA Generales)
GAIA prueba tareas realistas de asistente que requieren búsqueda web, razonamiento y resolución de problemas multi-paso:25
| Modelo | Precisión |
|---|---|
| MiroThinker-72B | 81.9% |
| GPT-5-high | ~85% (estimado) |
| SOTA código abierto anterior | ~65% |
MiroThinker se acerca al rendimiento comercial mientras permanece completamente abierto.
HLE (Último Examen de la Humanidad)
Preguntas extremadamente desafiantes en diversos dominios:26
| Modelo | Precisión |
|---|---|
| MiroThinker-72B | 37.7% |
| Experto humano | Variable |
BrowseComp
Navegación web compleja y síntesis de información:27
| Modelo | Precisión |
|---|---|
| MiroThinker-72B (Inglés) | 47.1% |
| MiroThinker-72B (Chino) | 55.6% |
El rendimiento en chino sugiere fuerte transferencia multilingüe.
Comportamiento de Escalado
Hallazgo crítico: el rendimiento mejora predeciblemente con la profundidad de interacción.28
A medida que MiroThinker participa en más llamadas de herramientas: - La precisión aumenta (hasta límites de hardware/contexto) - La recuperación de errores se vuelve más efectiva - Las tareas complejas se vuelven tratables
Esto demuestra que la profundidad de interacción exhibe verdadero comportamiento de escalado, no meramente rendimientos decrecientes.
Comparación con Otros Enfoques
vs. Chain-of-Thought
| Dimensión | Chain-of-Thought | MiroThinker |
|---|---|---|
| Retroalimentación | Ninguna (razonamiento aislado) | Continua (resultados de herramientas) |
| Manejo de errores | Esperar lo mejor | Detectar y corregir |
| Anclaje | Solo patrones de texto | Verificación externa |
vs. Agentes ReAct
| Dimensión | ReAct Estándar | MiroThinker |
|---|---|---|
| Profundidad de interacción | 10-20 llamadas típico | Hasta 600 llamadas |
| Entrenamiento | Ingeniería de prompts | RL para interacción profunda |
| Persistencia | Tareas cortas | Flujos de trabajo extendidos |
Por Qué Funciona el Escalado de Interacción
El paper identifica varios mecanismos detrás de la efectividad del escalado de interacción:29
Detección de Errores
Más llamadas de herramientas crean más oportunidades para descubrir errores:30
- Resultados de búsqueda contradictorios revelan suposiciones incorrectas
- Operaciones fallidas exponen estados inválidos
- Salidas inesperadas provocan reconsideración
Adquisición de Información
La interacción extendida recopila más información relevante:31
- Búsquedas de seguimiento refinan la comprensión
- Múltiples fuentes permiten validación cruzada
- La navegación profunda descubre detalles ocultos
Refinamiento de Estrategia
Las trayectorias largas permiten evolución de estrategia:32
- Los enfoques iniciales pueden ser abandonados
- Nuevos ángulos pueden ser explorados
- La síntesis puede incorporar información que llega tarde
Lanzamiento de Código Abierto
El equipo MiroMind lanzó recursos completos:33
Modelos
| Variante | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | Disponible |
| MiroThinker-v1.0-30B | Disponible |
| MiroThinker-v1.0-72B | Disponible |
| MiroThinker-v1.5-30B | Disponible (actualizado) |
Código
- Pipeline de entrenamiento completo
- Implementación de inferencia
- Ejemplos de integración de herramientas
- Scripts de evaluación
Implicaciones para el Desarrollo de Agentes
Cambio de Paradigma de Entrenamiento
Los agentes efectivos pueden requerir entrenamiento específico para interacción profunda, no solo mejores modelos base.34
| Enfoque Antiguo | Enfoque Nuevo |
|---|---|
| Entrenar LLM, añadir herramientas | Entrenar para uso de herramientas en profundidad |
| Ingeniería de prompts | Aprendizaje por refuerzo |
| Llamadas de un solo dígito | Cientos de llamadas |
Evolución de Benchmarks
Los benchmarks de agentes actuales pueden resultar demasiado fáciles para agentes con escalado de interacción.35 El 81.9% de MiroThinker en GAIA sugiere la necesidad de evaluaciones más desafiantes.
Conclusiones Clave
MiroThinker establece el escalado de interacción como una tercera dimensión viable para la capacidad de IA:
- Nueva Dimensión: La profundidad de interacción escala como el tamaño del modelo y la longitud del contexto
- 600 Llamadas de Herramientas: Entrenado para 30x la profundidad de interacción típica de agentes
- 81.9% GAIA: Se acerca al rendimiento comercial mientras es completamente abierto
- Entrenamiento de Tres Fases: Pipeline SFT → Aprendizaje de Preferencias → RL
- Corrección de Errores: La retroalimentación ambiental previene la deriva de razonamiento
- Lanzamiento Abierto: Modelos, código y recetas de entrenamiento disponibles
La próxima generación de agentes de IA puede resultar capaz no solo a través de modelos más grandes, sino a través de una participación más profunda con sus entornos.
Referencias
-
Kaplan, J. et al. "Scaling Laws for Neural Language Models." arXiv:2001.08361. January 2020. ↩
-
MiroMind Team. "MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling." arXiv:2511.11793. November 2025. ↩
-
Ibid., Table 1: Benchmark Results. ↩
-
Ibid., Abstract. ↩
-
Ibid., Section 1: Introduction. ↩
-
Ibid. ↩
-
Ibid., Section 3: Training. ↩
-
Yao, S. et al. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. ↩
-
Kaplan et al., op. cit. ↩
-
Anthropic. "Claude's 200K Context Window." November 2024. ↩
-
Wei, J. et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. ↩
-
MiroThinker paper, op. cit., Section 2.1. ↩
-
Ibid., Section 2.2. ↩
-
Ibid., Section 2: Interaction Scaling. ↩
-
Ibid. ↩
-
Ibid., Section 3.1: Architecture. ↩
-
Yao et al., op. cit. ↩
-
MiroThinker paper, op. cit., Section 3.2: Tool Suite. ↩
-
Ibid., Abstract. ↩
-
Ibid., Section 3.3: Training Pipeline. ↩
-
Ibid., Section 3.3.1: SFT. ↩
-
Ibid., Section 3.3.2: Preference Learning. ↩
-
Ibid., Section 3.3.3: GRPO. ↩
-
Ibid., Section 3.4: Base Models. ↩
-
Ibid., Table 1. ↩
-
Ibid. ↩
-
Ibid. ↩
-
Ibid., Section 5: Scaling Analysis. ↩
-
Ibid., Section 6: Why Interaction Scaling Works. ↩
-
Ibid., Section 6.1. ↩
-
Ibid., Section 6.2. ↩
-
Ibid., Section 6.3. ↩
-
MiroMind. "MiroThinker." GitHub. ↩
-
MiroThinker paper, op. cit., Section 7: Implications. ↩
-
Ibid. ↩