s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%
Le modèle s1 de Stanford utilise le 'budget forcing' pour dépasser o1-preview sur les benchmarks mathématiques avec seulement 1K exemples. La percée du test-time scaling expliquée.