s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

Le modèle s1 de Stanford utilise le 'budget forcing' pour dépasser o1-preview sur les benchmarks mathématiques avec seulement 1K exemples. La percée du test-time scaling expliquée.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

Une équipe de chercheurs de Stanford a posé une question simple : quelle constitue l'approche minimale viable pour le test-time scaling ?[^1] Leur réponse bouleverse les hypothèses sur les exigences computationnelles pour construire des modèles de raisonnement. Le modèle s1, affiné sur seulement 1 000 exemples soigneusement sélectionnés, dépasse o1-preview d'OpenAI jusqu'à 27% sur les benchmarks de mathématiques de compétition.[^2]

TL;DR

Le papier s1 introduit le "budget forcing", une technique qui contrôle combien de temps un modèle pense en terminant le raisonnement tôt ou en ajoutant des tokens "Wait".[^3] Les chercheurs ont curé s1K, un dataset de 1 000 questions sélectionnées pour la difficulté, la diversité et la qualité parmi 59 000 candidates.[^4]

L'Approche s1 : Simplicité Radicale

1. Curation du Dataset (s1K)

Critère	But	Implémentation
Difficulté	Problèmes nécessitant raisonnement étendu	Questions où Claude 3.5 Sonnet avait besoin de >4 000 tokens
Diversité	Éviter le surapprentissage	Clustering et échantillonnage
Qualité	Traces de raisonnement correctes	Vérification humaine

2. Fine-Tuning Standard

Entraînement complété en moins de 26 minutes sur 16 H100 GPUs.[^19]

3. Budget Forcing à l'Inférence

Terminaison Forcée : Supprime le token de fin-de-pensée et ajoute un token "Wait".[^21]

Continuation Forcée : L'insertion répétée de tokens "Wait" étend les chaînes de raisonnement.[^22]

Résultats des Benchmarks

Benchmark	s1-32B	o1-preview	Amélioration
MATH	Jusqu'à +27%	Base	Significative
AIME 2024	57%	~44%	+13 points

Points Clés

Quantité vs. Qualité : 1 000 exemples excellents surpassent des millions de médiocres
La Simplicité Gagne : Budget forcing atteint des résultats compétitifs sans RL
Accessibilité : Ressources modestes comparées à l'entraînement depuis zéro

s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

TL;DR

L'Approche s1 : Simplicité Radicale

1. Curation du Dataset (s1K)

2. Fine-Tuning Standard

3. Budget Forcing à l'Inférence

Résultats des Benchmarks

Points Clés

You Might Also Like

Infrastructure IA au Japon : La plus grande économie d'Asie ...

Optimisation du KV Cache : Efficacité Mémoire pour les LLM e...

Singapour et l'Asie du Sud-Est émergent comme pôles mondiaux...

Demander un devis_

Demande reçue_