MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

MiroThinker introduz escalonamento de interação—treinando agentes para lidar com 600 chamadas de ferramentas por tarefa. 81,9% no benchmark GAIA. Uma nova dimensão além do tamanho do modelo e contexto.

MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

O escalonamento de IA tem se concentrado em duas dimensões: tamanho do modelo e comprimento do contexto.[^1] MiroThinker introduz uma terceira: profundidade de interação. O agente de pesquisa, lançado com variantes de 8B, 30B e 72B parâmetros, treina modelos para lidar com até 600 chamadas de ferramentas por tarefa através de aprendizado por reforço.[^2] No benchmark GAIA, a variante 72B alcança 81,9% de precisão, aproximando-se de sistemas comerciais como GPT-5-high enquanto permanece totalmente open source.[^3]

TL;DR

MiroThinker explora "escalonamento de interação" no nível do modelo, treinando sistematicamente modelos para lidar com interações agente-ambiente mais profundas e frequentes.[^4] Diferentemente do escalonamento de tempo de teste isolado, o escalonamento de interação usa feedback ambiental para corrigir erros e refinar trajetórias.[^5] Com uma janela de contexto de 256K, o agente realiza até 600 chamadas de ferramentas por tarefa, permitindo raciocínio multi-turno sustentado para fluxos de trabalho de pesquisa complexos.[^6]

O Problema de Escalonamento de Agentes

Os agentes de IA atuais enfrentam uma limitação fundamental. À medida que as cadeias de raciocínio se estendem, os erros se compõem.[^9] Um único erro no início de uma trajetória pode descarrilar toda a tarefa. Abordagens tradicionais tratam isso através de:

Modelos Maiores: Mais parâmetros para melhor precisão de passo único[^10] Contexto Mais Longo: Mais espaço para manter histórico de raciocínio[^11] Melhor Prompting: Instruções aprimoradas para reduzir erros[^12]

No entanto, essas intervenções não abordam o problema central: agentes operando isolados de seu ambiente durante raciocínio estendido.

Deriva de Raciocínio

Cadeias de raciocínio longas sem feedback ambiental exibem "deriva de raciocínio"—divergência gradual de trajetórias corretas.[^13] O agente continua raciocinando com base em suposições cada vez mais desatualizadas ou incorretas.

Comprimento da Cadeia Taxa de Erro Causa
Curta (1-5 passos) Baixa Erro composto limitado
Média (5-20 passos) Moderada Erros acumulados
Longa (20+ passos) Alta Deriva de raciocínio domina

A Solução de Feedback

A percepção do MiroThinker: deixar o ambiente corrigir o agente continuamente.[^14] Em vez de raciocinar isoladamente, o agente verifica seu trabalho interagindo com ferramentas externas, capturando erros antes que se componham.

Escalonamento de Interação Definido

O escalonamento de interação trata a profundidade de interação agente-ambiente como uma dimensão escalável análoga ao tamanho do modelo ou comprimento do contexto.[^15]

As Três Dimensões

Dimensão O Que Escala Como Ajuda
Tamanho do Modelo Parâmetros Melhor qualidade por passo
Comprimento do Contexto Janela de tokens Mais informação disponível
Profundidade de Interação Chamadas de ferramentas Correção de erros, ancoragem

Por Que Interação é Diferente

Diferentemente do tamanho do modelo (fixo no treinamento) ou contexto (armazenamento passivo), a profundidade de interação permite verificação ativa e correção de curso.[^16]

Escalonamento Passivo: Modelos e contextos maiores fornecem mais capacidade Escalonamento Ativo: Mais interações fornecem mais oportunidades para verificar, corrigir e refinar

Arquitetura MiroThinker

O agente segue o framework ReAct com aprimoramentos específicos para interação profunda:[^17]

Loop Principal

Pensamento → Ação (Chamada de Ferramenta) → Observação → Pensamento → ...

Cada observação alimenta o contexto do agente, informando o raciocínio subsequente.[^18]

Suite de Ferramentas

MiroThinker inclui um toolkit abrangente:[^19]

Categoria Exemplos
Busca Web Formulação de consultas, parsing de resultados
Navegação Web Navegação de páginas, extração de conteúdo
Execução de Código Runtime Python, análise de resultados
Operações de Arquivo Ler, escrever, analisar documentos

600 Chamadas de Ferramentas

A janela de contexto de 256K suporta até 600 chamadas de ferramentas por tarefa.[^20] Para contexto, a maioria dos benchmarks de agentes envolve menos de 20 chamadas de ferramentas. MiroThinker opera a 30x a profundidade de interação típica.

Metodologia de Treinamento

O treinamento MiroThinker procede em três fases:[^21]

Fase 1: Ajuste Fino Supervisionado

Treinamento inicial em trajetórias de agentes bem-sucedidas ensina padrões básicos de uso de ferramentas:[^22]

  • Quando buscar vs navegar
  • Como formular consultas eficazes
  • Interpretar saídas de ferramentas
  • Sintetizar informação multi-fonte

Fase 2: Aprendizado de Preferências

O modelo aprende a preferir trajetórias bem-sucedidas sobre as fracassadas:[^23]

  • Feedback binário sobre resultados de trajetória
  • Aprendizado implícito de recuperação de erros
  • Preferência por sequências eficientes de ferramentas

Fase 3: Aprendizado por Reforço

A Otimização de Política Relativa de Grupo (GRPO) treina para interação estendida:[^24]

  • Recompensas por respostas finais corretas
  • Atribuição de crédito implícita através de trajetórias longas
  • Aprender quando persistir vs mudar estratégias

Modelos Base

MiroThinker é construído sobre fundamentos de pesos abertos:[^25]

Tamanho Modelo Base
8B Qwen2.5-8B
30B Qwen3-30B
72B Qwen2.5-72B

Desempenho em Benchmarks

GAIA (Assistentes de IA Gerais)

GAIA testa tarefas de assistente realistas que requerem busca web, raciocínio e resolução de problemas multi-passo:[^26]

Modelo Precisão
MiroThinker-72B 81,9%
GPT-5-high ~85% (estimado)
SOTA open source anterior ~65%

MiroThinker se aproxima do desempenho comercial enquanto permanece totalmente aberto.

HLE (Último Exame da Humanidade)

Perguntas extremamente desafiadoras em diversos domínios:[^27]

Modelo Precisão
MiroThinker-72B 37,7%
Especialista humano Variável

BrowseComp

Navegação web complexa e síntese de informação:[^28]

Modelo Precisão
MiroThinker-72B (Inglês) 47,1%
MiroThinker-72B (Chinês) 55,6%

O desempenho em chinês sugere forte transferência multilíngue.

Comportamento de Escalonamento

Descoberta crítica: o desempenho melhora previsivelmente com a profundidade de interação.[^29]

À medida que MiroThinker se envolve em mais chamadas de ferramentas: - A precisão aumenta (até limites de hardware/contexto) - A recuperação de erros se torna mais eficaz - Tarefas complexas se tornam tratáveis

Isso demonstra que a profundidade de interação exibe verdadeiro comportamento de escalonamento, não meramente retornos decrescentes.

Comparação com Outras Abordagens

vs. Chain-of-Thought

Dimensão Chain-of-Thought MiroThinker
Feedback Nenhum (raciocínio isolado) Contínuo (resultados de ferramentas)
Tratamento de erros Esperar pelo melhor Detectar e corrigir
Ancoragem Apenas padrões de texto Verificação externa

vs. Agentes ReAct

Dimensão ReAct Padrão MiroThinker
Profundidade de interação 10-20 chamadas típico Até 600 chamadas
Treinamento Engenharia de prompts RL para interação profunda
Persistência Tarefas curtas Fluxos de trabalho estendidos

Por Que Escalonamento de Interação Funciona

O paper identifica vários mecanismos por trás da eficácia do escalonamento de interação:[^30]

Detecção de Erros

Mais chamadas de ferramentas criam mais oportunidades para descobrir erros:[^31]

  • Resultados de busca contraditórios revelam suposições incorretas
  • Operações fracassadas expõem estados inválidos
  • Saídas inesperadas provocam reconsideração

Aquisição de Informação

Interação estendida coleta mais informação relevante:[^32]

  • Buscas de acompanhamento refinam entendimento
  • Múltiplas fontes permitem validação cruzada
  • Navegação profunda descobre detalhes ocultos

Refinamento de Estratégia

Trajetórias longas permitem evolução de estratégia:[^33]

  • Abordagens iniciais podem ser abandonadas
  • Novos ângulos podem ser explorados
  • Síntese pode incorporar informação que chega tarde

Lançamento Open Source

A equipe MiroMind lançou recursos abrangentes:[^34]

Modelos

Variante HuggingFace
MiroThinker-v1.0-8B Disponível
MiroThinker-v1.0-30B Disponível
MiroThinker-v1.0-72B Disponível
MiroThinker-v1.5-30B Disponível (atualizado)

Código

  • Pipeline de treinamento completo
  • Implementação de inferência
  • Exemplos de integração de ferramentas
  • Scripts de avaliação

Implicações para Desenvolvimento de Agentes

Mudança de Paradigma de Treinamento

Agentes eficazes podem requerer treinamento específico para interação profunda, não apenas melhores modelos base.[^35]

Abordagem Antiga Nova Abordagem
Treinar LLM, adicionar ferramentas Treinar para uso de ferramentas em profundidade
Engenharia de prompts Aprendizado por reforço
Chamadas de um dígito Centenas de chamadas

Pontos-Chave

MiroThinker estabelece escalonamento de interação como uma terceira dimensão viável para capacidade de IA:

  1. Nova Dimensão: Profundidade de interação escala como tamanho do modelo e comprimento do contexto
  2. 600 Chamadas de Ferramentas: Treinado para 30x a profundidade de interação típica de agentes
  3. 81,9% GAIA: Aproxima-se do desempenho comercial enquanto totalmente aberto
  4. Treinamento de Três Fases: Pipeline SFT → Aprendizado de Preferências → RL
  5. Correção de Erros: Feedback ambiental previne deriva de raciocínio
  6. Lançamento Aberto: Modelos, código e receitas de treinamento todos disponíveis

A próxima geração de agentes de IA pode se provar capaz não apenas através de modelos maiores, mas através de engajamento mais profundo com seus ambientes.

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING