s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%
Uma equipe de pesquisadores de Stanford fez uma pergunta simples: qual é a abordagem mínima viável para test-time scaling?[^1] Sua resposta subverte suposições sobre os requisitos computacionais para construir modelos de raciocínio. O modelo s1, ajustado em apenas 1.000 exemplos cuidadosamente selecionados, supera o o1-preview da OpenAI em até 27% em benchmarks de matemática de competição.[^2]
TL;DR
O paper s1 introduz "budget forcing", uma técnica que controla quanto tempo um modelo pensa terminando o raciocínio cedo ou adicionando tokens "Wait".[^3]
A Abordagem s1: Simplicidade Radical
1. Curadoria do Dataset (s1K)
| Critério | Propósito | Implementação |
|---|---|---|
| Dificuldade | Problemas que requerem raciocínio estendido | Perguntas onde Claude 3.5 Sonnet precisou de >4.000 tokens de pensamento |
| Diversidade | Prevenir overfitting | Clustering e amostragem |
| Qualidade | Traços de raciocínio corretos | Verificação humana |
2. Fine-Tuning Padrão
Treino concluído em menos de 26 minutos em 16 GPUs H100.[^19]
3. Budget Forcing na Inferência
Terminação Forçada: Remove o token de fim-de-pensamento e adiciona token "Wait".[^21]
Continuação Forçada: Inserção repetida de tokens "Wait" estende cadeias de raciocínio.[^22]
Resultados de Benchmark
| Benchmark | s1-32B | o1-preview | Melhoria |
|---|---|---|---|
| MATH | Até +27% | Baseline | Significativa |
| AIME 2024 | 57% | ~44% | +13 pontos |
Pontos-Chave
- Quantidade vs Qualidade: 1.000 exemplos excelentes superam milhões de medíocres
- Simplicidade Vence: Budget forcing alcança resultados competitivos sem RL
- Acessibilidade: Recursos modestos comparados ao treino do zero