s1: Cómo 1.000 Ejemplos de Entrenamiento Superaron a o1-preview de OpenAI en un 27%
El modelo s1 de Stanford usa 'budget forcing' para superar o1-preview en benchmarks matemáticos con solo 1K ejemplos. El avance del escalado en tiempo de prueba explicado.