s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%
Une équipe de chercheurs de Stanford a posé une question simple : quelle constitue l'approche minimale viable pour le test-time scaling ?[^1] Leur réponse bouleverse les hypothèses sur les exigences computationnelles pour construire des modèles de raisonnement. Le modèle s1, affiné sur seulement 1 000 exemples soigneusement sélectionnés, dépasse o1-preview d'OpenAI jusqu'à 27% sur les benchmarks de mathématiques de compétition.[^2]
TL;DR
Le papier s1 introduit le "budget forcing", une technique qui contrôle combien de temps un modèle pense en terminant le raisonnement tôt ou en ajoutant des tokens "Wait".[^3] Les chercheurs ont curé s1K, un dataset de 1 000 questions sélectionnées pour la difficulté, la diversité et la qualité parmi 59 000 candidates.[^4]
L'Approche s1 : Simplicité Radicale
1. Curation du Dataset (s1K)
| Critère | But | Implémentation |
|---|---|---|
| Difficulté | Problèmes nécessitant raisonnement étendu | Questions où Claude 3.5 Sonnet avait besoin de >4 000 tokens |
| Diversité | Éviter le surapprentissage | Clustering et échantillonnage |
| Qualité | Traces de raisonnement correctes | Vérification humaine |
2. Fine-Tuning Standard
Entraînement complété en moins de 26 minutes sur 16 H100 GPUs.[^19]
3. Budget Forcing à l'Inférence
Terminaison Forcée : Supprime le token de fin-de-pensée et ajoute un token "Wait".[^21]
Continuation Forcée : L'insertion répétée de tokens "Wait" étend les chaînes de raisonnement.[^22]
Résultats des Benchmarks
| Benchmark | s1-32B | o1-preview | Amélioration |
|---|---|---|---|
| MATH | Jusqu'à +27% | Base | Significative |
| AIME 2024 | 57% | ~44% | +13 points |
Points Clés
- Quantité vs. Qualité : 1 000 exemples excellents surpassent des millions de médiocres
- La Simplicité Gagne : Budget forcing atteint des résultats compétitifs sans RL
- Accessibilité : Ressources modestes comparées à l'entraînement depuis zéro