s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

O modelo s1 de Stanford usa 'budget forcing' para superar o1-preview em benchmarks matemáticos com apenas 1K exemplos.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

Uma equipe de pesquisadores de Stanford fez uma pergunta simples: qual é a abordagem mínima viável para test-time scaling?[^1] Sua resposta subverte suposições sobre os requisitos computacionais para construir modelos de raciocínio. O modelo s1, ajustado em apenas 1.000 exemplos cuidadosamente selecionados, supera o o1-preview da OpenAI em até 27% em benchmarks de matemática de competição.[^2]

TL;DR

O paper s1 introduz "budget forcing", uma técnica que controla quanto tempo um modelo pensa terminando o raciocínio cedo ou adicionando tokens "Wait".[^3]

A Abordagem s1: Simplicidade Radical

1. Curadoria do Dataset (s1K)

Critério	Propósito	Implementação
Dificuldade	Problemas que requerem raciocínio estendido	Perguntas onde Claude 3.5 Sonnet precisou de >4.000 tokens de pensamento
Diversidade	Prevenir overfitting	Clustering e amostragem
Qualidade	Traços de raciocínio corretos	Verificação humana

2. Fine-Tuning Padrão

Treino concluído em menos de 26 minutos em 16 GPUs H100.[^19]

3. Budget Forcing na Inferência

Terminação Forçada: Remove o token de fim-de-pensamento e adiciona token "Wait".[^21]

Continuação Forçada: Inserção repetida de tokens "Wait" estende cadeias de raciocínio.[^22]

Resultados de Benchmark

Benchmark	s1-32B	o1-preview	Melhoria
MATH	Até +27%	Baseline	Significativa
AIME 2024	57%	~44%	+13 pontos

Pontos-Chave

Quantidade vs Qualidade: 1.000 exemplos excelentes superam milhões de medíocres
Simplicidade Vence: Budget forcing alcança resultados competitivos sem RL
Acessibilidade: Recursos modestos comparados ao treino do zero

s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

TL;DR

A Abordagem s1: Simplicidade Radical

1. Curadoria do Dataset (s1K)

2. Fine-Tuning Padrão

3. Budget Forcing na Inferência

Resultados de Benchmark

Pontos-Chave

You Might Also Like

Infraestrutura de IA no Japão: A Maior Economia da Ásia Desp...

Otimização de Cache KV: Eficiência de Memória para LLMs em P...

Singapura e Sudeste Asiático emergem como hubs globais de in...

Solicitar Orçamento_

Solicitação Recebida_