s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

El modelo s1 de Stanford usa 'budget forcing' para superar o1-preview en benchmarks matemáticos con solo 1K ejemplos. El avance del escalado en tiempo de prueba explicado.

Blake Crosley

Jan 07, 2026 2 min read Disclaimer

s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

Un equipo de investigadores de Stanford y otras instituciones planteó una pregunta simple: ¿cuál es el enfoque mínimo viable para el escalado en tiempo de prueba?[^1] Su respuesta trastorna las suposiciones sobre los requisitos computacionales para construir modelos de razonamiento. El modelo s1, ajustado con solo 1.000 ejemplos cuidadosamente seleccionados, supera a o1-preview de OpenAI hasta en un 27% en benchmarks de matemáticas de competición.[^2]

TL;DR

El artículo s1 introduce "budget forcing", una técnica que controla cuánto tiempo piensa un modelo terminando el razonamiento temprano o añadiendo tokens "Wait" para extender la deliberación.[^3] Los investigadores curaron s1K, un conjunto de datos de 1.000 preguntas seleccionadas por dificultad, diversidad y calidad de 59.000 candidatas.[^4] El ajuste fino de Qwen2.5-32B-Instruct en s1K produjo un modelo que escala predeciblemente con el cómputo de inferencia.[^5] En AIME 2024, s1-32B logra 57% de precisión con pensamiento extendido versus aproximadamente 44% de o1-preview.[^6]

El Paradigma del Escalado en Tiempo de Prueba

El escalado tradicional de IA invierte cómputo durante el entrenamiento. El escalado en tiempo de prueba invierte la ecuación invirtiendo cómputo durante la inferencia.[^8] En lugar de construir modelos más grandes, los investigadores permiten que modelos más pequeños "piensen más tiempo" en problemas difíciles.

El Enfoque s1: Simplicidad Radical

El equipo s1 persiguió la implementación más simple posible que aún logra rendimiento competitivo.[^11] Su método involucra tres componentes:

1. Curación del Dataset (s1K)

Comenzando desde aproximadamente 59.000 preguntas, los investigadores aplicaron tres criterios de filtrado:[^12]

Criterio	Propósito	Implementación
Dificultad	Seleccionar problemas que requieren razonamiento extendido	Preguntas donde Claude 3.5 Sonnet necesitó >4.000 tokens de pensamiento
Diversidad	Prevenir sobreajuste a tipos de problemas estrechos	Agrupación y muestreo entre clusters
Calidad	Asegurar trazas de razonamiento correctas	Verificación humana de precisión

2. Ajuste Fino Estándar

El equipo ajustó Qwen2.5-32B-Instruct usando aprendizaje supervisado estándar en s1K.[^17] Sin aprendizaje por refuerzo. Sin modelos de recompensa de proceso. El entrenamiento se completó en menos de 26 minutos en 16 H100 GPUs.[^19]

3. Budget Forcing en Inferencia

Budget forcing controla el cómputo en tiempo de inferencia a través de dos mecanismos:[^20]

Terminación Forzada: Cuando el modelo genera un token de fin-de-pensamiento antes de alcanzar una longitud objetivo, el sistema elimina ese token y añade un token especial "Wait".[^21]

Continuación Forzada: Insertando repetidamente tokens "Wait", los investigadores extienden las cadenas de razonamiento arbitrariamente.[^22]

Resultados de Benchmark

Benchmark	s1-32B	o1-preview	Mejora
MATH	Hasta +27%	Base	Significativa
AIME 2024	57%	~44%	+13 puntos

Conclusiones Clave

Cantidad vs. Calidad: 1.000 ejemplos excelentes superan millones de mediocres
La Simplicidad Gana: Budget forcing logra resultados competitivos sin RL
Accesibilidad: El enfoque requiere recursos modestos comparado con entrenar modelos de razonamiento desde cero

s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%

TL;DR

El Paradigma del Escalado en Tiempo de Prueba

El Enfoque s1: Simplicidad Radical

1. Curación del Dataset (s1K)

2. Ajuste Fino Estándar

3. Budget Forcing en Inferencia

Resultados de Benchmark

Conclusiones Clave

You Might Also Like

Infraestructura de IA en Japón: La Mayor Economía de Asia De...

Optimización de KV Cache: Eficiencia de Memoria para LLMs en...

Singapur y el Sudeste Asiático emergen como centros globales...

Solicitar Cotización_

Solicitud Recibida_