MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

MiroThinker introduce el escalado de interacción—entrenando agentes para manejar 600 llamadas de herramientas por tarea. 81.9% en benchmark GAIA. Una nueva dimensión más allá del tamaño del modelo y el contexto.

MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

El escalado de IA se ha centrado en dos dimensiones: tamaño del modelo y longitud del contexto.1 MiroThinker introduce una tercera: profundidad de interacción. El agente de investigación, lanzado con variantes de 8B, 30B y 72B parámetros, entrena modelos para manejar hasta 600 llamadas de herramientas por tarea mediante aprendizaje por refuerzo.2 En el benchmark GAIA, la variante de 72B alcanza 81.9% de precisión, acercándose a sistemas comerciales como GPT-5-high mientras permanece completamente de código abierto.3

TL;DR

MiroThinker explora el "escalado de interacción" a nivel de modelo, entrenando sistemáticamente modelos para manejar interacciones más profundas y frecuentes entre agente y entorno.4 A diferencia del escalado en tiempo de prueba aislado, el escalado de interacción usa retroalimentación del entorno para corregir errores y refinar trayectorias.5 Con una ventana de contexto de 256K, el agente realiza hasta 600 llamadas de herramientas por tarea, habilitando razonamiento sostenido de múltiples turnos para flujos de trabajo de investigación complejos.6 El entrenamiento usa tres fases: ajuste fino supervisado, aprendizaje de preferencias y aprendizaje por refuerzo con optimización de política relativa grupal.7

El Problema de Escalado de Agentes

Los agentes de IA actuales enfrentan una limitación fundamental. A medida que las cadenas de razonamiento se extienden, los errores se componen.8 Un solo error temprano en una trayectoria puede descarrilar toda la tarea. Los enfoques tradicionales abordan esto mediante:

Modelos Más Grandes: Más parámetros para mejor precisión en un solo paso9 Contexto Más Largo: Más espacio para mantener historial de razonamiento10 Mejor Prompting: Instrucciones mejoradas para reducir errores11

Sin embargo, estas intervenciones no abordan el problema central: agentes operando aislados de su entorno durante razonamiento extendido.

Deriva de Razonamiento

Las cadenas de razonamiento largas sin retroalimentación ambiental exhiben "deriva de razonamiento"—divergencia gradual de trayectorias correctas.12 El agente continúa razonando basándose en suposiciones cada vez más obsoletas o incorrectas.

Longitud de Cadena Tasa de Error Causa
Corta (1-5 pasos) Baja Error compuesto limitado
Media (5-20 pasos) Moderada Errores acumulados
Larga (20+ pasos) Alta Deriva de razonamiento domina

La Solución de Retroalimentación

La perspectiva de MiroThinker: dejar que el entorno corrija al agente continuamente.13 En lugar de razonar aisladamente, el agente verifica su trabajo interactuando con herramientas externas, detectando errores antes de que se compongan.

Escalado de Interacción Definido

El escalado de interacción trata la profundidad de interacción agente-entorno como una dimensión escalable análoga al tamaño del modelo o longitud del contexto.14

Las Tres Dimensiones

Dimensión Qué Escala Cómo Ayuda
Tamaño del Modelo Parámetros Mejor calidad por paso
Longitud del Contexto Ventana de tokens Más información disponible
Profundidad de Interacción Llamadas de herramientas Corrección de errores, anclaje

Por Qué Difiere la Interacción

A diferencia del tamaño del modelo (fijo en entrenamiento) o contexto (almacenamiento pasivo), la profundidad de interacción permite verificación activa y corrección de rumbo.15

Escalado Pasivo: Modelos y contextos más grandes proporcionan más capacidad Escalado Activo: Más interacciones proporcionan más oportunidades para verificar, corregir y refinar

Arquitectura de MiroThinker

El agente sigue el framework ReAct con mejoras específicas para interacción profunda:16

Bucle Principal

Pensamiento → Acción (Llamada de Herramienta) → Observación → Pensamiento → ...

Cada observación alimenta el contexto del agente, informando el razonamiento subsiguiente.17

Suite de Herramientas

MiroThinker incluye un conjunto completo de herramientas:18

Categoría Ejemplos
Búsqueda Web Formulación de consultas, parsing de resultados
Navegación Web Navegación de páginas, extracción de contenido
Ejecución de Código Runtime Python, análisis de resultados
Operaciones de Archivo Leer, escribir, analizar documentos

600 Llamadas de Herramientas

La ventana de contexto de 256K soporta hasta 600 llamadas de herramientas por tarea.19 Para contexto, la mayoría de benchmarks de agentes involucran menos de 20 llamadas. MiroThinker opera a 30x la profundidad de interacción típica.

Metodología de Entrenamiento

El entrenamiento de MiroThinker procede en tres fases:20

Fase 1: Ajuste Fino Supervisado

El entrenamiento inicial en trayectorias de agentes exitosas enseña patrones básicos de uso de herramientas:21

  • Cuándo buscar vs. navegar
  • Cómo formular consultas efectivas
  • Interpretar salidas de herramientas
  • Sintetizar información de múltiples fuentes

Fase 2: Aprendizaje de Preferencias

El modelo aprende a preferir trayectorias exitosas sobre las fallidas:22

  • Retroalimentación binaria sobre resultados de trayectoria
  • Aprendizaje implícito de recuperación de errores
  • Preferencia por secuencias eficientes de herramientas

Fase 3: Aprendizaje por Refuerzo

La Optimización de Política Relativa Grupal (GRPO) entrena para interacción extendida:23

  • Recompensas por respuestas finales correctas
  • Asignación de crédito implícita a través de trayectorias largas
  • Aprender cuándo persistir vs. pivotar estrategias

Modelos Base

MiroThinker se construye sobre fundamentos de pesos abiertos:24

Tamaño Modelo Base
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Rendimiento en Benchmarks

GAIA (Asistentes de IA Generales)

GAIA prueba tareas realistas de asistente que requieren búsqueda web, razonamiento y resolución de problemas multi-paso:25

Modelo Precisión
MiroThinker-72B 81.9%
GPT-5-high ~85% (estimado)
SOTA código abierto anterior ~65%

MiroThinker se acerca al rendimiento comercial mientras permanece completamente abierto.

HLE (Último Examen de la Humanidad)

Preguntas extremadamente desafiantes en diversos dominios:26

Modelo Precisión
MiroThinker-72B 37.7%
Experto humano Variable

BrowseComp

Navegación web compleja y síntesis de información:27

Modelo Precisión
MiroThinker-72B (Inglés) 47.1%
MiroThinker-72B (Chino) 55.6%

El rendimiento en chino sugiere fuerte transferencia multilingüe.

Comportamiento de Escalado

Hallazgo crítico: el rendimiento mejora predeciblemente con la profundidad de interacción.28

A medida que MiroThinker participa en más llamadas de herramientas: - La precisión aumenta (hasta límites de hardware/contexto) - La recuperación de errores se vuelve más efectiva - Las tareas complejas se vuelven tratables

Esto demuestra que la profundidad de interacción exhibe verdadero comportamiento de escalado, no meramente rendimientos decrecientes.

Comparación con Otros Enfoques

vs. Chain-of-Thought

Dimensión Chain-of-Thought MiroThinker
Retroalimentación Ninguna (razonamiento aislado) Continua (resultados de herramientas)
Manejo de errores Esperar lo mejor Detectar y corregir
Anclaje Solo patrones de texto Verificación externa

vs. Agentes ReAct

Dimensión ReAct Estándar MiroThinker
Profundidad de interacción 10-20 llamadas típico Hasta 600 llamadas
Entrenamiento Ingeniería de prompts RL para interacción profunda
Persistencia Tareas cortas Flujos de trabajo extendidos

Por Qué Funciona el Escalado de Interacción

El paper identifica varios mecanismos detrás de la efectividad del escalado de interacción:29

Detección de Errores

Más llamadas de herramientas crean más oportunidades para descubrir errores:30

  • Resultados de búsqueda contradictorios revelan suposiciones incorrectas
  • Operaciones fallidas exponen estados inválidos
  • Salidas inesperadas provocan reconsideración

Adquisición de Información

La interacción extendida recopila más información relevante:31

  • Búsquedas de seguimiento refinan la comprensión
  • Múltiples fuentes permiten validación cruzada
  • La navegación profunda descubre detalles ocultos

Refinamiento de Estrategia

Las trayectorias largas permiten evolución de estrategia:32

  • Los enfoques iniciales pueden ser abandonados
  • Nuevos ángulos pueden ser explorados
  • La síntesis puede incorporar información que llega tarde

Lanzamiento de Código Abierto

El equipo MiroMind lanzó recursos completos:33

Modelos

Variante HuggingFace
MiroThinker-v1.0-8B Disponible
MiroThinker-v1.0-30B Disponible
MiroThinker-v1.0-72B Disponible
MiroThinker-v1.5-30B Disponible (actualizado)

Código

  • Pipeline de entrenamiento completo
  • Implementación de inferencia
  • Ejemplos de integración de herramientas
  • Scripts de evaluación

Implicaciones para el Desarrollo de Agentes

Cambio de Paradigma de Entrenamiento

Los agentes efectivos pueden requerir entrenamiento específico para interacción profunda, no solo mejores modelos base.34

Enfoque Antiguo Enfoque Nuevo
Entrenar LLM, añadir herramientas Entrenar para uso de herramientas en profundidad
Ingeniería de prompts Aprendizaje por refuerzo
Llamadas de un solo dígito Cientos de llamadas

Evolución de Benchmarks

Los benchmarks de agentes actuales pueden resultar demasiado fáciles para agentes con escalado de interacción.35 El 81.9% de MiroThinker en GAIA sugiere la necesidad de evaluaciones más desafiantes.

Conclusiones Clave

MiroThinker establece el escalado de interacción como una tercera dimensión viable para la capacidad de IA:

  1. Nueva Dimensión: La profundidad de interacción escala como el tamaño del modelo y la longitud del contexto
  2. 600 Llamadas de Herramientas: Entrenado para 30x la profundidad de interacción típica de agentes
  3. 81.9% GAIA: Se acerca al rendimiento comercial mientras es completamente abierto
  4. Entrenamiento de Tres Fases: Pipeline SFT → Aprendizaje de Preferencias → RL
  5. Corrección de Errores: La retroalimentación ambiental previene la deriva de razonamiento
  6. Lanzamiento Abierto: Modelos, código y recetas de entrenamiento disponibles

La próxima generación de agentes de IA puede resultar capaz no solo a través de modelos más grandes, sino a través de una participación más profunda con sus entornos.


Referencias


  1. Kaplan, J. et al. "Scaling Laws for Neural Language Models." arXiv:2001.08361. January 2020. 

  2. MiroMind Team. "MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling." arXiv:2511.11793. November 2025. 

  3. Ibid., Table 1: Benchmark Results. 

  4. Ibid., Abstract. 

  5. Ibid., Section 1: Introduction. 

  6. Ibid. 

  7. Ibid., Section 3: Training. 

  8. Yao, S. et al. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. 

  9. Kaplan et al., op. cit. 

  10. Anthropic. "Claude's 200K Context Window." November 2024. 

  11. Wei, J. et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. 

  12. MiroThinker paper, op. cit., Section 2.1. 

  13. Ibid., Section 2.2. 

  14. Ibid., Section 2: Interaction Scaling. 

  15. Ibid. 

  16. Ibid., Section 3.1: Architecture. 

  17. Yao et al., op. cit. 

  18. MiroThinker paper, op. cit., Section 3.2: Tool Suite. 

  19. Ibid., Abstract. 

  20. Ibid., Section 3.3: Training Pipeline. 

  21. Ibid., Section 3.3.1: SFT. 

  22. Ibid., Section 3.3.2: Preference Learning. 

  23. Ibid., Section 3.3.3: GRPO. 

  24. Ibid., Section 3.4: Base Models. 

  25. Ibid., Table 1. 

  26. Ibid. 

  27. Ibid. 

  28. Ibid., Section 5: Scaling Analysis. 

  29. Ibid., Section 6: Why Interaction Scaling Works. 

  30. Ibid., Section 6.1. 

  31. Ibid., Section 6.2. 

  32. Ibid., Section 6.3. 

  33. MiroMind. "MiroThinker." GitHub. 

  34. MiroThinker paper, op. cit., Section 7: Implications. 

  35. Ibid. 

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING