Modelos de Linguagem Recursivos: Ensinando a IA a Gerenciar Seu Próprio Contexto
As janelas de contexto se expandiram dramaticamente: 100K, 200K, até 1 milhão de tokens.[^1] No entanto, limites fundamentais permanecem. Custos de memória lineares, degradação da atenção em comprimentos extremos e a incapacidade de revisitar ou reorganizar informações uma vez consumidas restringem o que modelos de contexto longo podem alcançar.[^2] Modelos de Linguagem Recursivos (RLMs) adotam uma abordagem totalmente diferente. Em vez de colocar tudo no contexto, RLMs ensinam os modelos a gerenciar ativamente seu próprio contexto usando scripts Python e chamadas de sub-LLM.[^3]
Resumo
O paper RLM do MIT introduz uma arquitetura onde o modelo de linguagem principal delega trabalho para um Python REPL persistente e instâncias de sub-LLM geráveis.[^4] Em vez de carregar entradas massivas diretamente, o modelo inspeciona e transforma dados programaticamente.[^5] Testes mostram que RLMs lidam com entradas até 100x além das janelas de contexto do modelo enquanto superam dramaticamente modelos base e scaffolds de contexto longo comuns.[^6]
A Solução RLM
RLMs invertem o paradigma de "modelo recebe contexto" para "modelo gerencia contexto".[^14]
Arquitetura Central
O RLM fornece três capacidades-chave ao modelo principal:[^15]
| Capacidade | Implementação | Propósito |
|---|---|---|
| Python REPL | Ambiente persistente | Armazenar, transformar, recuperar dados |
| Sub-LLMs | Instâncias geráveis via llm_batch() |
Delegar tarefas de análise |
| Variável Answer | answer["content"] + answer["ready"] |
Refinamento iterativo de resposta |
Desempenho em Benchmarks
CodeQA (QA de Documentos)
| Modelo | Abordagem | Precisão |
|---|---|---|
| GPT-5 | Baseline | 24.0% |
| GPT-5 | Agente de resumo | 41.3% |
| GPT-5 | RLM | 62.0% |
RLM mais que dobrou o desempenho baseline enquanto superou substancialmente o resumo.
Pontos Principais
Modelos de Linguagem Recursivos introduzem uma mudança de paradigma no tratamento de contexto:
- Gerenciamento Ativo de Contexto: Modelos controlam seu próprio contexto em vez de recebê-lo passivamente
- Extensão 100x: Lidar com entradas muito além das janelas de contexto nativas
- Informação Preservada: Sem perda de informação baseada em resumo
- Eficiência de Tokens: Redução de 2-3x no consumo de tokens do modelo principal