MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

MiroThinker introduce el escalado de interacción—entrenando agentes para manejar 600 llamadas de herramientas por tarea. 81.9% en benchmark GAIA. Una nueva dimensión más allá del tamaño del modelo y el contexto.

Blake Crosley

Jan 07, 2026 7 min read Disclaimer

MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

El escalado de IA se ha centrado en dos dimensiones: tamaño del modelo y longitud del contexto.¹ MiroThinker introduce una tercera: profundidad de interacción. El agente de investigación, lanzado con variantes de 8B, 30B y 72B parámetros, entrena modelos para manejar hasta 600 llamadas de herramientas por tarea mediante aprendizaje por refuerzo.² En el benchmark GAIA, la variante de 72B alcanza 81.9% de precisión, acercándose a sistemas comerciales como GPT-5-high mientras permanece completamente de código abierto.³

TL;DR

MiroThinker explora el "escalado de interacción" a nivel de modelo, entrenando sistemáticamente modelos para manejar interacciones más profundas y frecuentes entre agente y entorno.⁴ A diferencia del escalado en tiempo de prueba aislado, el escalado de interacción usa retroalimentación del entorno para corregir errores y refinar trayectorias.⁵ Con una ventana de contexto de 256K, el agente realiza hasta 600 llamadas de herramientas por tarea, habilitando razonamiento sostenido de múltiples turnos para flujos de trabajo de investigación complejos.⁶ El entrenamiento usa tres fases: ajuste fino supervisado, aprendizaje de preferencias y aprendizaje por refuerzo con optimización de política relativa grupal.⁷

El Problema de Escalado de Agentes

Los agentes de IA actuales enfrentan una limitación fundamental. A medida que las cadenas de razonamiento se extienden, los errores se componen.⁸ Un solo error temprano en una trayectoria puede descarrilar toda la tarea. Los enfoques tradicionales abordan esto mediante:

Modelos Más Grandes: Más parámetros para mejor precisión en un solo paso⁹ Contexto Más Largo: Más espacio para mantener historial de razonamiento¹⁰ Mejor Prompting: Instrucciones mejoradas para reducir errores¹¹

Sin embargo, estas intervenciones no abordan el problema central: agentes operando aislados de su entorno durante razonamiento extendido.

Deriva de Razonamiento

Las cadenas de razonamiento largas sin retroalimentación ambiental exhiben "deriva de razonamiento"—divergencia gradual de trayectorias correctas.¹² El agente continúa razonando basándose en suposiciones cada vez más obsoletas o incorrectas.

Longitud de Cadena	Tasa de Error	Causa
Corta (1-5 pasos)	Baja	Error compuesto limitado
Media (5-20 pasos)	Moderada	Errores acumulados
Larga (20+ pasos)	Alta	Deriva de razonamiento domina

La Solución de Retroalimentación

La perspectiva de MiroThinker: dejar que el entorno corrija al agente continuamente.¹³ En lugar de razonar aisladamente, el agente verifica su trabajo interactuando con herramientas externas, detectando errores antes de que se compongan.

Escalado de Interacción Definido

El escalado de interacción trata la profundidad de interacción agente-entorno como una dimensión escalable análoga al tamaño del modelo o longitud del contexto.¹⁴

Las Tres Dimensiones

Dimensión	Qué Escala	Cómo Ayuda
Tamaño del Modelo	Parámetros	Mejor calidad por paso
Longitud del Contexto	Ventana de tokens	Más información disponible
Profundidad de Interacción	Llamadas de herramientas	Corrección de errores, anclaje

Por Qué Difiere la Interacción

A diferencia del tamaño del modelo (fijo en entrenamiento) o contexto (almacenamiento pasivo), la profundidad de interacción permite verificación activa y corrección de rumbo.¹⁵

Escalado Pasivo: Modelos y contextos más grandes proporcionan más capacidad Escalado Activo: Más interacciones proporcionan más oportunidades para verificar, corregir y refinar

Arquitectura de MiroThinker

El agente sigue el framework ReAct con mejoras específicas para interacción profunda:¹⁶

Bucle Principal

Pensamiento → Acción (Llamada de Herramienta) → Observación → Pensamiento → ...

Cada observación alimenta el contexto del agente, informando el razonamiento subsiguiente.¹⁷

Suite de Herramientas

MiroThinker incluye un conjunto completo de herramientas:¹⁸

Categoría	Ejemplos
Búsqueda Web	Formulación de consultas, parsing de resultados
Navegación Web	Navegación de páginas, extracción de contenido
Ejecución de Código	Runtime Python, análisis de resultados
Operaciones de Archivo	Leer, escribir, analizar documentos

600 Llamadas de Herramientas

La ventana de contexto de 256K soporta hasta 600 llamadas de herramientas por tarea.¹⁹ Para contexto, la mayoría de benchmarks de agentes involucran menos de 20 llamadas. MiroThinker opera a 30x la profundidad de interacción típica.

Metodología de Entrenamiento

El entrenamiento de MiroThinker procede en tres fases:²⁰

Fase 1: Ajuste Fino Supervisado

El entrenamiento inicial en trayectorias de agentes exitosas enseña patrones básicos de uso de herramientas:²¹

Cuándo buscar vs. navegar
Cómo formular consultas efectivas
Interpretar salidas de herramientas
Sintetizar información de múltiples fuentes

Fase 2: Aprendizaje de Preferencias

El modelo aprende a preferir trayectorias exitosas sobre las fallidas:²²

Retroalimentación binaria sobre resultados de trayectoria
Aprendizaje implícito de recuperación de errores
Preferencia por secuencias eficientes de herramientas

Fase 3: Aprendizaje por Refuerzo

La Optimización de Política Relativa Grupal (GRPO) entrena para interacción extendida:²³

Recompensas por respuestas finales correctas
Asignación de crédito implícita a través de trayectorias largas
Aprender cuándo persistir vs. pivotar estrategias

Modelos Base

MiroThinker se construye sobre fundamentos de pesos abiertos:²⁴

Tamaño	Modelo Base
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Rendimiento en Benchmarks

GAIA (Asistentes de IA Generales)

GAIA prueba tareas realistas de asistente que requieren búsqueda web, razonamiento y resolución de problemas multi-paso:²⁵

Modelo	Precisión
MiroThinker-72B	81.9%
GPT-5-high	~85% (estimado)
SOTA código abierto anterior	~65%

MiroThinker se acerca al rendimiento comercial mientras permanece completamente abierto.

HLE (Último Examen de la Humanidad)

Preguntas extremadamente desafiantes en diversos dominios:²⁶

Modelo	Precisión
MiroThinker-72B	37.7%
Experto humano	Variable

BrowseComp

Navegación web compleja y síntesis de información:²⁷

Modelo	Precisión
MiroThinker-72B (Inglés)	47.1%
MiroThinker-72B (Chino)	55.6%

El rendimiento en chino sugiere fuerte transferencia multilingüe.

Comportamiento de Escalado

Hallazgo crítico: el rendimiento mejora predeciblemente con la profundidad de interacción.²⁸

A medida que MiroThinker participa en más llamadas de herramientas: - La precisión aumenta (hasta límites de hardware/contexto) - La recuperación de errores se vuelve más efectiva - Las tareas complejas se vuelven tratables

Esto demuestra que la profundidad de interacción exhibe verdadero comportamiento de escalado, no meramente rendimientos decrecientes.

Comparación con Otros Enfoques

vs. Chain-of-Thought

Dimensión	Chain-of-Thought	MiroThinker
Retroalimentación	Ninguna (razonamiento aislado)	Continua (resultados de herramientas)
Manejo de errores	Esperar lo mejor	Detectar y corregir
Anclaje	Solo patrones de texto	Verificación externa

vs. Agentes ReAct

Dimensión	ReAct Estándar	MiroThinker
Profundidad de interacción	10-20 llamadas típico	Hasta 600 llamadas
Entrenamiento	Ingeniería de prompts	RL para interacción profunda
Persistencia	Tareas cortas	Flujos de trabajo extendidos

Por Qué Funciona el Escalado de Interacción

El paper identifica varios mecanismos detrás de la efectividad del escalado de interacción:²⁹

Detección de Errores

Más llamadas de herramientas crean más oportunidades para descubrir errores:³⁰

Resultados de búsqueda contradictorios revelan suposiciones incorrectas
Operaciones fallidas exponen estados inválidos
Salidas inesperadas provocan reconsideración

Adquisición de Información

La interacción extendida recopila más información relevante:³¹

Búsquedas de seguimiento refinan la comprensión
Múltiples fuentes permiten validación cruzada
La navegación profunda descubre detalles ocultos

Refinamiento de Estrategia

Las trayectorias largas permiten evolución de estrategia:³²

Los enfoques iniciales pueden ser abandonados
Nuevos ángulos pueden ser explorados
La síntesis puede incorporar información que llega tarde

Lanzamiento de Código Abierto

El equipo MiroMind lanzó recursos completos:³³

Modelos

Variante	HuggingFace
MiroThinker-v1.0-8B	Disponible
MiroThinker-v1.0-30B	Disponible
MiroThinker-v1.0-72B	Disponible
MiroThinker-v1.5-30B	Disponible (actualizado)

Código

Pipeline de entrenamiento completo
Implementación de inferencia
Ejemplos de integración de herramientas
Scripts de evaluación

Implicaciones para el Desarrollo de Agentes

Cambio de Paradigma de Entrenamiento

Los agentes efectivos pueden requerir entrenamiento específico para interacción profunda, no solo mejores modelos base.³⁴

Enfoque Antiguo	Enfoque Nuevo
Entrenar LLM, añadir herramientas	Entrenar para uso de herramientas en profundidad
Ingeniería de prompts	Aprendizaje por refuerzo
Llamadas de un solo dígito	Cientos de llamadas

Evolución de Benchmarks

Los benchmarks de agentes actuales pueden resultar demasiado fáciles para agentes con escalado de interacción.³⁵ El 81.9% de MiroThinker en GAIA sugiere la necesidad de evaluaciones más desafiantes.

Conclusiones Clave

MiroThinker establece el escalado de interacción como una tercera dimensión viable para la capacidad de IA:

Nueva Dimensión: La profundidad de interacción escala como el tamaño del modelo y la longitud del contexto
600 Llamadas de Herramientas: Entrenado para 30x la profundidad de interacción típica de agentes
81.9% GAIA: Se acerca al rendimiento comercial mientras es completamente abierto
Entrenamiento de Tres Fases: Pipeline SFT → Aprendizaje de Preferencias → RL
Corrección de Errores: La retroalimentación ambiental previene la deriva de razonamiento
Lanzamiento Abierto: Modelos, código y recetas de entrenamiento disponibles

La próxima generación de agentes de IA puede resultar capaz no solo a través de modelos más grandes, sino a través de una participación más profunda con sus entornos.

Referencias

Kaplan, J. et al. "Scaling Laws for Neural Language Models." arXiv:2001.08361. January 2020. ↩
MiroMind Team. "MiroThinker: Pushing the Performance Boundaries of Open-Source Research Agents via Model, Context, and Interactive Scaling." arXiv:2511.11793. November 2025. ↩
Ibid., Table 1: Benchmark Results. ↩
Ibid., Abstract. ↩
Ibid., Section 1: Introduction. ↩
Ibid. ↩
Ibid., Section 3: Training. ↩
Yao, S. et al. "ReAct: Synergizing Reasoning and Acting in Language Models." ICLR 2023. ↩
Kaplan et al., op. cit. ↩
Anthropic. "Claude's 200K Context Window." November 2024. ↩
Wei, J. et al. "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models." NeurIPS 2022. ↩
MiroThinker paper, op. cit., Section 2.1. ↩
Ibid., Section 2.2. ↩
Ibid., Section 2: Interaction Scaling. ↩
Ibid. ↩
Ibid., Section 3.1: Architecture. ↩
Yao et al., op. cit. ↩
MiroThinker paper, op. cit., Section 3.2: Tool Suite. ↩
Ibid., Abstract. ↩
Ibid., Section 3.3: Training Pipeline. ↩
Ibid., Section 3.3.1: SFT. ↩
Ibid., Section 3.3.2: Preference Learning. ↩
Ibid., Section 3.3.3: GRPO. ↩
Ibid., Section 3.4: Base Models. ↩
Ibid., Table 1. ↩
Ibid. ↩
Ibid. ↩
Ibid., Section 5: Scaling Analysis. ↩
Ibid., Section 6: Why Interaction Scaling Works. ↩
Ibid., Section 6.1. ↩
Ibid., Section 6.2. ↩
Ibid., Section 6.3. ↩
MiroMind. "MiroThinker." GitHub. ↩
MiroThinker paper, op. cit., Section 7: Implications. ↩
Ibid. ↩

MiroThinker: La Tercera Dimensión de Escalado para Agentes de IA

TL;DR

El Problema de Escalado de Agentes

Deriva de Razonamiento

La Solución de Retroalimentación

Escalado de Interacción Definido

Las Tres Dimensiones

Por Qué Difiere la Interacción

Arquitectura de MiroThinker

Bucle Principal

Suite de Herramientas

600 Llamadas de Herramientas

Metodología de Entrenamiento

Fase 1: Ajuste Fino Supervisado

Fase 2: Aprendizaje de Preferencias

Fase 3: Aprendizaje por Refuerzo

Modelos Base

Rendimiento en Benchmarks

GAIA (Asistentes de IA Generales)

HLE (Último Examen de la Humanidad)

BrowseComp

Comportamiento de Escalado

Comparación con Otros Enfoques

vs. Chain-of-Thought

vs. Agentes ReAct

Por Qué Funciona el Escalado de Interacción

Detección de Errores

Adquisición de Información

Refinamiento de Estrategia

Lanzamiento de Código Abierto

Modelos

Código

Implicaciones para el Desarrollo de Agentes

Cambio de Paradigma de Entrenamiento

Evolución de Benchmarks

Conclusiones Clave

Referencias

You Might Also Like

Infraestructura de IA en Japón: La Mayor Economía de Asia De...

Optimización de KV Cache: Eficiencia de Memoria para LLMs en...

Singapur y el Sudeste Asiático emergen como centros globales...

Solicitar Cotización_

Solicitud Recibida_