s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

El modelo s1 de Stanford usa 'budget forcing' para superar o1-preview en benchmarks matemáticos con solo 1K ejemplos. El avance del escalado en tiempo de prueba explicado.

s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

Un equipo de investigadores de Stanford y otras instituciones planteó una pregunta simple: ¿cuál es el enfoque mínimo viable para el escalado en tiempo de prueba?[^1] Su respuesta trastorna las suposiciones sobre los requisitos computacionales para construir modelos de razonamiento. El modelo s1, ajustado con solo 1.000 ejemplos cuidadosamente seleccionados, supera a o1-preview de OpenAI hasta en un 27% en benchmarks de matemáticas de competición.[^2]

TL;DR

El artículo s1 introduce "budget forcing", una técnica que controla cuánto tiempo piensa un modelo terminando el razonamiento temprano o añadiendo tokens "Wait" para extender la deliberación.[^3] Los investigadores curaron s1K, un conjunto de datos de 1.000 preguntas seleccionadas por dificultad, diversidad y calidad de 59.000 candidatas.[^4] El ajuste fino de Qwen2.5-32B-Instruct en s1K produjo un modelo que escala predeciblemente con el cómputo de inferencia.[^5] En AIME 2024, s1-32B logra 57% de precisión con pensamiento extendido versus aproximadamente 44% de o1-preview.[^6]

El Paradigma del Escalado en Tiempo de Prueba

El escalado tradicional de IA invierte cómputo durante el entrenamiento. El escalado en tiempo de prueba invierte la ecuación invirtiendo cómputo durante la inferencia.[^8] En lugar de construir modelos más grandes, los investigadores permiten que modelos más pequeños "piensen más tiempo" en problemas difíciles.

El Enfoque s1: Simplicidad Radical

El equipo s1 persiguió la implementación más simple posible que aún logra rendimiento competitivo.[^11] Su método involucra tres componentes:

1. Curación del Dataset (s1K)

Comenzando desde aproximadamente 59.000 preguntas, los investigadores aplicaron tres criterios de filtrado:[^12]

Criterio Propósito Implementación
Dificultad Seleccionar problemas que requieren razonamiento extendido Preguntas donde Claude 3.5 Sonnet necesitó >4.000 tokens de pensamiento
Diversidad Prevenir sobreajuste a tipos de problemas estrechos Agrupación y muestreo entre clusters
Calidad Asegurar trazas de razonamiento correctas Verificación humana de precisión

2. Ajuste Fino Estándar

El equipo ajustó Qwen2.5-32B-Instruct usando aprendizaje supervisado estándar en s1K.[^17] Sin aprendizaje por refuerzo. Sin modelos de recompensa de proceso. El entrenamiento se completó en menos de 26 minutos en 16 H100 GPUs.[^19]

3. Budget Forcing en Inferencia

Budget forcing controla el cómputo en tiempo de inferencia a través de dos mecanismos:[^20]

Terminación Forzada: Cuando el modelo genera un token de fin-de-pensamiento antes de alcanzar una longitud objetivo, el sistema elimina ese token y añade un token especial "Wait".[^21]

Continuación Forzada: Insertando repetidamente tokens "Wait", los investigadores extienden las cadenas de razonamiento arbitrariamente.[^22]

Resultados de Benchmark

Benchmark s1-32B o1-preview Mejora
MATH Hasta +27% Base Significativa
AIME 2024 57% ~44% +13 puntos

Conclusiones Clave

  1. Cantidad vs. Calidad: 1.000 ejemplos excelentes superan millones de mediocres
  2. La Simplicidad Gana: Budget forcing logra resultados competitivos sin RL
  3. Accesibilidad: El enfoque requiere recursos modestos comparado con entrenar modelos de razonamiento desde cero

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING