s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

O modelo s1 de Stanford usa 'budget forcing' para superar o1-preview em benchmarks matemáticos com apenas 1K exemplos.

s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

s1: Como 1.000 Exemplos de Treino Superaram o o1-preview da OpenAI em 27%

Uma equipe de pesquisadores de Stanford fez uma pergunta simples: qual é a abordagem mínima viável para test-time scaling?[^1] Sua resposta subverte suposições sobre os requisitos computacionais para construir modelos de raciocínio. O modelo s1, ajustado em apenas 1.000 exemplos cuidadosamente selecionados, supera o o1-preview da OpenAI em até 27% em benchmarks de matemática de competição.[^2]

TL;DR

O paper s1 introduz "budget forcing", uma técnica que controla quanto tempo um modelo pensa terminando o raciocínio cedo ou adicionando tokens "Wait".[^3]

A Abordagem s1: Simplicidade Radical

1. Curadoria do Dataset (s1K)

Critério Propósito Implementação
Dificuldade Problemas que requerem raciocínio estendido Perguntas onde Claude 3.5 Sonnet precisou de >4.000 tokens de pensamento
Diversidade Prevenir overfitting Clustering e amostragem
Qualidade Traços de raciocínio corretos Verificação humana

2. Fine-Tuning Padrão

Treino concluído em menos de 26 minutos em 16 GPUs H100.[^19]

3. Budget Forcing na Inferência

Terminação Forçada: Remove o token de fim-de-pensamento e adiciona token "Wait".[^21]

Continuação Forçada: Inserção repetida de tokens "Wait" estende cadeias de raciocínio.[^22]

Resultados de Benchmark

Benchmark s1-32B o1-preview Melhoria
MATH Até +27% Baseline Significativa
AIME 2024 57% ~44% +13 pontos

Pontos-Chave

  1. Quantidade vs Qualidade: 1.000 exemplos excelentes superam milhões de medíocres
  2. Simplicidade Vence: Budget forcing alcança resultados competitivos sem RL
  3. Acessibilidade: Recursos modestos comparados ao treino do zero

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING