MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA
O escalonamento de IA tem se concentrado em duas dimensões: tamanho do modelo e comprimento do contexto.[^1] MiroThinker introduz uma terceira: profundidade de interação. O agente de pesquisa, lançado com variantes de 8B, 30B e 72B parâmetros, treina modelos para lidar com até 600 chamadas de ferramentas por tarefa através de aprendizado por reforço.[^2] No benchmark GAIA, a variante 72B alcança 81,9% de precisão, aproximando-se de sistemas comerciais como GPT-5-high enquanto permanece totalmente open source.[^3]
TL;DR
MiroThinker explora "escalonamento de interação" no nível do modelo, treinando sistematicamente modelos para lidar com interações agente-ambiente mais profundas e frequentes.[^4] Diferentemente do escalonamento de tempo de teste isolado, o escalonamento de interação usa feedback ambiental para corrigir erros e refinar trajetórias.[^5] Com uma janela de contexto de 256K, o agente realiza até 600 chamadas de ferramentas por tarefa, permitindo raciocínio multi-turno sustentado para fluxos de trabalho de pesquisa complexos.[^6]
O Problema de Escalonamento de Agentes
Os agentes de IA atuais enfrentam uma limitação fundamental. À medida que as cadeias de raciocínio se estendem, os erros se compõem.[^9] Um único erro no início de uma trajetória pode descarrilar toda a tarefa. Abordagens tradicionais tratam isso através de:
Modelos Maiores: Mais parâmetros para melhor precisão de passo único[^10] Contexto Mais Longo: Mais espaço para manter histórico de raciocínio[^11] Melhor Prompting: Instruções aprimoradas para reduzir erros[^12]
No entanto, essas intervenções não abordam o problema central: agentes operando isolados de seu ambiente durante raciocínio estendido.
Deriva de Raciocínio
Cadeias de raciocínio longas sem feedback ambiental exibem "deriva de raciocínio"—divergência gradual de trajetórias corretas.[^13] O agente continua raciocinando com base em suposições cada vez mais desatualizadas ou incorretas.
| Comprimento da Cadeia | Taxa de Erro | Causa |
|---|---|---|
| Curta (1-5 passos) | Baixa | Erro composto limitado |
| Média (5-20 passos) | Moderada | Erros acumulados |
| Longa (20+ passos) | Alta | Deriva de raciocínio domina |
A Solução de Feedback
A percepção do MiroThinker: deixar o ambiente corrigir o agente continuamente.[^14] Em vez de raciocinar isoladamente, o agente verifica seu trabalho interagindo com ferramentas externas, capturando erros antes que se componham.
Escalonamento de Interação Definido
O escalonamento de interação trata a profundidade de interação agente-ambiente como uma dimensão escalável análoga ao tamanho do modelo ou comprimento do contexto.[^15]
As Três Dimensões
| Dimensão | O Que Escala | Como Ajuda |
|---|---|---|
| Tamanho do Modelo | Parâmetros | Melhor qualidade por passo |
| Comprimento do Contexto | Janela de tokens | Mais informação disponível |
| Profundidade de Interação | Chamadas de ferramentas | Correção de erros, ancoragem |
Por Que Interação é Diferente
Diferentemente do tamanho do modelo (fixo no treinamento) ou contexto (armazenamento passivo), a profundidade de interação permite verificação ativa e correção de curso.[^16]
Escalonamento Passivo: Modelos e contextos maiores fornecem mais capacidade Escalonamento Ativo: Mais interações fornecem mais oportunidades para verificar, corrigir e refinar
Arquitetura MiroThinker
O agente segue o framework ReAct com aprimoramentos específicos para interação profunda:[^17]
Loop Principal
Pensamento → Ação (Chamada de Ferramenta) → Observação → Pensamento → ...
Cada observação alimenta o contexto do agente, informando o raciocínio subsequente.[^18]
Suite de Ferramentas
MiroThinker inclui um toolkit abrangente:[^19]
| Categoria | Exemplos |
|---|---|
| Busca Web | Formulação de consultas, parsing de resultados |
| Navegação Web | Navegação de páginas, extração de conteúdo |
| Execução de Código | Runtime Python, análise de resultados |
| Operações de Arquivo | Ler, escrever, analisar documentos |
600 Chamadas de Ferramentas
A janela de contexto de 256K suporta até 600 chamadas de ferramentas por tarefa.[^20] Para contexto, a maioria dos benchmarks de agentes envolve menos de 20 chamadas de ferramentas. MiroThinker opera a 30x a profundidade de interação típica.
Metodologia de Treinamento
O treinamento MiroThinker procede em três fases:[^21]
Fase 1: Ajuste Fino Supervisionado
Treinamento inicial em trajetórias de agentes bem-sucedidas ensina padrões básicos de uso de ferramentas:[^22]
- Quando buscar vs navegar
- Como formular consultas eficazes
- Interpretar saídas de ferramentas
- Sintetizar informação multi-fonte
Fase 2: Aprendizado de Preferências
O modelo aprende a preferir trajetórias bem-sucedidas sobre as fracassadas:[^23]
- Feedback binário sobre resultados de trajetória
- Aprendizado implícito de recuperação de erros
- Preferência por sequências eficientes de ferramentas
Fase 3: Aprendizado por Reforço
A Otimização de Política Relativa de Grupo (GRPO) treina para interação estendida:[^24]
- Recompensas por respostas finais corretas
- Atribuição de crédito implícita através de trajetórias longas
- Aprender quando persistir vs mudar estratégias
Modelos Base
MiroThinker é construído sobre fundamentos de pesos abertos:[^25]
| Tamanho | Modelo Base |
|---|---|
| 8B | Qwen2.5-8B |
| 30B | Qwen3-30B |
| 72B | Qwen2.5-72B |
Desempenho em Benchmarks
GAIA (Assistentes de IA Gerais)
GAIA testa tarefas de assistente realistas que requerem busca web, raciocínio e resolução de problemas multi-passo:[^26]
| Modelo | Precisão |
|---|---|
| MiroThinker-72B | 81,9% |
| GPT-5-high | ~85% (estimado) |
| SOTA open source anterior | ~65% |
MiroThinker se aproxima do desempenho comercial enquanto permanece totalmente aberto.
HLE (Último Exame da Humanidade)
Perguntas extremamente desafiadoras em diversos domínios:[^27]
| Modelo | Precisão |
|---|---|
| MiroThinker-72B | 37,7% |
| Especialista humano | Variável |
BrowseComp
Navegação web complexa e síntese de informação:[^28]
| Modelo | Precisão |
|---|---|
| MiroThinker-72B (Inglês) | 47,1% |
| MiroThinker-72B (Chinês) | 55,6% |
O desempenho em chinês sugere forte transferência multilíngue.
Comportamento de Escalonamento
Descoberta crítica: o desempenho melhora previsivelmente com a profundidade de interação.[^29]
À medida que MiroThinker se envolve em mais chamadas de ferramentas: - A precisão aumenta (até limites de hardware/contexto) - A recuperação de erros se torna mais eficaz - Tarefas complexas se tornam tratáveis
Isso demonstra que a profundidade de interação exibe verdadeiro comportamento de escalonamento, não meramente retornos decrescentes.
Comparação com Outras Abordagens
vs. Chain-of-Thought
| Dimensão | Chain-of-Thought | MiroThinker |
|---|---|---|
| Feedback | Nenhum (raciocínio isolado) | Contínuo (resultados de ferramentas) |
| Tratamento de erros | Esperar pelo melhor | Detectar e corrigir |
| Ancoragem | Apenas padrões de texto | Verificação externa |
vs. Agentes ReAct
| Dimensão | ReAct Padrão | MiroThinker |
|---|---|---|
| Profundidade de interação | 10-20 chamadas típico | Até 600 chamadas |
| Treinamento | Engenharia de prompts | RL para interação profunda |
| Persistência | Tarefas curtas | Fluxos de trabalho estendidos |
Por Que Escalonamento de Interação Funciona
O paper identifica vários mecanismos por trás da eficácia do escalonamento de interação:[^30]
Detecção de Erros
Mais chamadas de ferramentas criam mais oportunidades para descobrir erros:[^31]
- Resultados de busca contraditórios revelam suposições incorretas
- Operações fracassadas expõem estados inválidos
- Saídas inesperadas provocam reconsideração
Aquisição de Informação
Interação estendida coleta mais informação relevante:[^32]
- Buscas de acompanhamento refinam entendimento
- Múltiplas fontes permitem validação cruzada
- Navegação profunda descobre detalhes ocultos
Refinamento de Estratégia
Trajetórias longas permitem evolução de estratégia:[^33]
- Abordagens iniciais podem ser abandonadas
- Novos ângulos podem ser explorados
- Síntese pode incorporar informação que chega tarde
Lançamento Open Source
A equipe MiroMind lançou recursos abrangentes:[^34]
Modelos
| Variante | HuggingFace |
|---|---|
| MiroThinker-v1.0-8B | Disponível |
| MiroThinker-v1.0-30B | Disponível |
| MiroThinker-v1.0-72B | Disponível |
| MiroThinker-v1.5-30B | Disponível (atualizado) |
Código
- Pipeline de treinamento completo
- Implementação de inferência
- Exemplos de integração de ferramentas
- Scripts de avaliação
Implicações para Desenvolvimento de Agentes
Mudança de Paradigma de Treinamento
Agentes eficazes podem requerer treinamento específico para interação profunda, não apenas melhores modelos base.[^35]
| Abordagem Antiga | Nova Abordagem |
|---|---|
| Treinar LLM, adicionar ferramentas | Treinar para uso de ferramentas em profundidade |
| Engenharia de prompts | Aprendizado por reforço |
| Chamadas de um dígito | Centenas de chamadas |
Pontos-Chave
MiroThinker estabelece escalonamento de interação como uma terceira dimensão viável para capacidade de IA:
- Nova Dimensão: Profundidade de interação escala como tamanho do modelo e comprimento do contexto
- 600 Chamadas de Ferramentas: Treinado para 30x a profundidade de interação típica de agentes
- 81,9% GAIA: Aproxima-se do desempenho comercial enquanto totalmente aberto
- Treinamento de Três Fases: Pipeline SFT → Aprendizado de Preferências → RL
- Correção de Erros: Feedback ambiental previne deriva de raciocínio
- Lançamento Aberto: Modelos, código e receitas de treinamento todos disponíveis
A próxima geração de agentes de IA pode se provar capaz não apenas através de modelos maiores, mas através de engajamento mais profundo com seus ambientes.