MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

MiroThinker introduz escalonamento de interação—treinando agentes para lidar com 600 chamadas de ferramentas por tarefa. 81,9% no benchmark GAIA. Uma nova dimensão além do tamanho do modelo e contexto.

Blake Crosley

Jan 07, 2026 6 min read Disclaimer

MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

O escalonamento de IA tem se concentrado em duas dimensões: tamanho do modelo e comprimento do contexto.[^1] MiroThinker introduz uma terceira: profundidade de interação. O agente de pesquisa, lançado com variantes de 8B, 30B e 72B parâmetros, treina modelos para lidar com até 600 chamadas de ferramentas por tarefa através de aprendizado por reforço.[^2] No benchmark GAIA, a variante 72B alcança 81,9% de precisão, aproximando-se de sistemas comerciais como GPT-5-high enquanto permanece totalmente open source.[^3]

TL;DR

MiroThinker explora "escalonamento de interação" no nível do modelo, treinando sistematicamente modelos para lidar com interações agente-ambiente mais profundas e frequentes.[^4] Diferentemente do escalonamento de tempo de teste isolado, o escalonamento de interação usa feedback ambiental para corrigir erros e refinar trajetórias.[^5] Com uma janela de contexto de 256K, o agente realiza até 600 chamadas de ferramentas por tarefa, permitindo raciocínio multi-turno sustentado para fluxos de trabalho de pesquisa complexos.[^6]

O Problema de Escalonamento de Agentes

Os agentes de IA atuais enfrentam uma limitação fundamental. À medida que as cadeias de raciocínio se estendem, os erros se compõem.[^9] Um único erro no início de uma trajetória pode descarrilar toda a tarefa. Abordagens tradicionais tratam isso através de:

Modelos Maiores: Mais parâmetros para melhor precisão de passo único[^10] Contexto Mais Longo: Mais espaço para manter histórico de raciocínio[^11] Melhor Prompting: Instruções aprimoradas para reduzir erros[^12]

No entanto, essas intervenções não abordam o problema central: agentes operando isolados de seu ambiente durante raciocínio estendido.

Deriva de Raciocínio

Cadeias de raciocínio longas sem feedback ambiental exibem "deriva de raciocínio"—divergência gradual de trajetórias corretas.[^13] O agente continua raciocinando com base em suposições cada vez mais desatualizadas ou incorretas.

Comprimento da Cadeia	Taxa de Erro	Causa
Curta (1-5 passos)	Baixa	Erro composto limitado
Média (5-20 passos)	Moderada	Erros acumulados
Longa (20+ passos)	Alta	Deriva de raciocínio domina

A Solução de Feedback

A percepção do MiroThinker: deixar o ambiente corrigir o agente continuamente.[^14] Em vez de raciocinar isoladamente, o agente verifica seu trabalho interagindo com ferramentas externas, capturando erros antes que se componham.

Escalonamento de Interação Definido

O escalonamento de interação trata a profundidade de interação agente-ambiente como uma dimensão escalável análoga ao tamanho do modelo ou comprimento do contexto.[^15]

As Três Dimensões

Dimensão	O Que Escala	Como Ajuda
Tamanho do Modelo	Parâmetros	Melhor qualidade por passo
Comprimento do Contexto	Janela de tokens	Mais informação disponível
Profundidade de Interação	Chamadas de ferramentas	Correção de erros, ancoragem

Por Que Interação é Diferente

Diferentemente do tamanho do modelo (fixo no treinamento) ou contexto (armazenamento passivo), a profundidade de interação permite verificação ativa e correção de curso.[^16]

Escalonamento Passivo: Modelos e contextos maiores fornecem mais capacidade Escalonamento Ativo: Mais interações fornecem mais oportunidades para verificar, corrigir e refinar

Arquitetura MiroThinker

O agente segue o framework ReAct com aprimoramentos específicos para interação profunda:[^17]

Loop Principal

Pensamento → Ação (Chamada de Ferramenta) → Observação → Pensamento → ...

Cada observação alimenta o contexto do agente, informando o raciocínio subsequente.[^18]

Suite de Ferramentas

MiroThinker inclui um toolkit abrangente:[^19]

Categoria	Exemplos
Busca Web	Formulação de consultas, parsing de resultados
Navegação Web	Navegação de páginas, extração de conteúdo
Execução de Código	Runtime Python, análise de resultados
Operações de Arquivo	Ler, escrever, analisar documentos

600 Chamadas de Ferramentas

A janela de contexto de 256K suporta até 600 chamadas de ferramentas por tarefa.[^20] Para contexto, a maioria dos benchmarks de agentes envolve menos de 20 chamadas de ferramentas. MiroThinker opera a 30x a profundidade de interação típica.

Metodologia de Treinamento

O treinamento MiroThinker procede em três fases:[^21]

Fase 1: Ajuste Fino Supervisionado

Treinamento inicial em trajetórias de agentes bem-sucedidas ensina padrões básicos de uso de ferramentas:[^22]

Quando buscar vs navegar
Como formular consultas eficazes
Interpretar saídas de ferramentas
Sintetizar informação multi-fonte

Fase 2: Aprendizado de Preferências

O modelo aprende a preferir trajetórias bem-sucedidas sobre as fracassadas:[^23]

Feedback binário sobre resultados de trajetória
Aprendizado implícito de recuperação de erros
Preferência por sequências eficientes de ferramentas

Fase 3: Aprendizado por Reforço

A Otimização de Política Relativa de Grupo (GRPO) treina para interação estendida:[^24]

Recompensas por respostas finais corretas
Atribuição de crédito implícita através de trajetórias longas
Aprender quando persistir vs mudar estratégias

Modelos Base

MiroThinker é construído sobre fundamentos de pesos abertos:[^25]

Tamanho	Modelo Base
8B	Qwen2.5-8B
30B	Qwen3-30B
72B	Qwen2.5-72B

Desempenho em Benchmarks

GAIA (Assistentes de IA Gerais)

GAIA testa tarefas de assistente realistas que requerem busca web, raciocínio e resolução de problemas multi-passo:[^26]

Modelo	Precisão
MiroThinker-72B	81,9%
GPT-5-high	~85% (estimado)
SOTA open source anterior	~65%

MiroThinker se aproxima do desempenho comercial enquanto permanece totalmente aberto.

HLE (Último Exame da Humanidade)

Perguntas extremamente desafiadoras em diversos domínios:[^27]

Modelo	Precisão
MiroThinker-72B	37,7%
Especialista humano	Variável

BrowseComp

Navegação web complexa e síntese de informação:[^28]

Modelo	Precisão
MiroThinker-72B (Inglês)	47,1%
MiroThinker-72B (Chinês)	55,6%

O desempenho em chinês sugere forte transferência multilíngue.

Comportamento de Escalonamento

Descoberta crítica: o desempenho melhora previsivelmente com a profundidade de interação.[^29]

À medida que MiroThinker se envolve em mais chamadas de ferramentas: - A precisão aumenta (até limites de hardware/contexto) - A recuperação de erros se torna mais eficaz - Tarefas complexas se tornam tratáveis

Isso demonstra que a profundidade de interação exibe verdadeiro comportamento de escalonamento, não meramente retornos decrescentes.

Comparação com Outras Abordagens

vs. Chain-of-Thought

Dimensão	Chain-of-Thought	MiroThinker
Feedback	Nenhum (raciocínio isolado)	Contínuo (resultados de ferramentas)
Tratamento de erros	Esperar pelo melhor	Detectar e corrigir
Ancoragem	Apenas padrões de texto	Verificação externa

vs. Agentes ReAct

Dimensão	ReAct Padrão	MiroThinker
Profundidade de interação	10-20 chamadas típico	Até 600 chamadas
Treinamento	Engenharia de prompts	RL para interação profunda
Persistência	Tarefas curtas	Fluxos de trabalho estendidos

Por Que Escalonamento de Interação Funciona

O paper identifica vários mecanismos por trás da eficácia do escalonamento de interação:[^30]

Detecção de Erros

Mais chamadas de ferramentas criam mais oportunidades para descobrir erros:[^31]

Resultados de busca contraditórios revelam suposições incorretas
Operações fracassadas expõem estados inválidos
Saídas inesperadas provocam reconsideração

Aquisição de Informação

Interação estendida coleta mais informação relevante:[^32]

Buscas de acompanhamento refinam entendimento
Múltiplas fontes permitem validação cruzada
Navegação profunda descobre detalhes ocultos

Refinamento de Estratégia

Trajetórias longas permitem evolução de estratégia:[^33]

Abordagens iniciais podem ser abandonadas
Novos ângulos podem ser explorados
Síntese pode incorporar informação que chega tarde

Lançamento Open Source

A equipe MiroMind lançou recursos abrangentes:[^34]

Modelos

Variante	HuggingFace
MiroThinker-v1.0-8B	Disponível
MiroThinker-v1.0-30B	Disponível
MiroThinker-v1.0-72B	Disponível
MiroThinker-v1.5-30B	Disponível (atualizado)

Código

Pipeline de treinamento completo
Implementação de inferência
Exemplos de integração de ferramentas
Scripts de avaliação

Implicações para Desenvolvimento de Agentes

Mudança de Paradigma de Treinamento

Agentes eficazes podem requerer treinamento específico para interação profunda, não apenas melhores modelos base.[^35]

Abordagem Antiga	Nova Abordagem
Treinar LLM, adicionar ferramentas	Treinar para uso de ferramentas em profundidade
Engenharia de prompts	Aprendizado por reforço
Chamadas de um dígito	Centenas de chamadas

Pontos-Chave

MiroThinker estabelece escalonamento de interação como uma terceira dimensão viável para capacidade de IA:

Nova Dimensão: Profundidade de interação escala como tamanho do modelo e comprimento do contexto
600 Chamadas de Ferramentas: Treinado para 30x a profundidade de interação típica de agentes
81,9% GAIA: Aproxima-se do desempenho comercial enquanto totalmente aberto
Treinamento de Três Fases: Pipeline SFT → Aprendizado de Preferências → RL
Correção de Erros: Feedback ambiental previne deriva de raciocínio
Lançamento Aberto: Modelos, código e receitas de treinamento todos disponíveis

A próxima geração de agentes de IA pode se provar capaz não apenas através de modelos maiores, mas através de engajamento mais profundo com seus ambientes.

MiroThinker: A Terceira Dimensão de Escalonamento para Agentes de IA

TL;DR

O Problema de Escalonamento de Agentes

Deriva de Raciocínio

A Solução de Feedback

Escalonamento de Interação Definido

As Três Dimensões

Por Que Interação é Diferente

Arquitetura MiroThinker

Loop Principal

Suite de Ferramentas

600 Chamadas de Ferramentas

Metodologia de Treinamento

Fase 1: Ajuste Fino Supervisionado

Fase 2: Aprendizado de Preferências

Fase 3: Aprendizado por Reforço

Modelos Base

Desempenho em Benchmarks

GAIA (Assistentes de IA Gerais)

HLE (Último Exame da Humanidade)

BrowseComp

Comportamento de Escalonamento

Comparação com Outras Abordagens

vs. Chain-of-Thought

vs. Agentes ReAct

Por Que Escalonamento de Interação Funciona

Detecção de Erros

Aquisição de Informação

Refinamento de Estratégia

Lançamento Open Source

Modelos

Código

Implicações para Desenvolvimento de Agentes

Mudança de Paradigma de Treinamento

Pontos-Chave

You Might Also Like

Infraestrutura de IA no Japão: A Maior Economia da Ásia Desp...

Otimização de Cache KV: Eficiência de Memória para LLMs em P...

Singapura e Sudeste Asiático emergem como hubs globais de in...

Solicitar Orçamento_

Solicitação Recebida_