s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

Le modèle s1 de Stanford utilise le 'budget forcing' pour dépasser o1-preview sur les benchmarks mathématiques avec seulement 1K exemples. La percée du test-time scaling expliquée.

s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

s1 : Comment 1 000 Exemples d'Entraînement Ont Battu o1-preview d'OpenAI de 27%

Une équipe de chercheurs de Stanford a posé une question simple : quelle constitue l'approche minimale viable pour le test-time scaling ?[^1] Leur réponse bouleverse les hypothèses sur les exigences computationnelles pour construire des modèles de raisonnement. Le modèle s1, affiné sur seulement 1 000 exemples soigneusement sélectionnés, dépasse o1-preview d'OpenAI jusqu'à 27% sur les benchmarks de mathématiques de compétition.[^2]

TL;DR

Le papier s1 introduit le "budget forcing", une technique qui contrôle combien de temps un modèle pense en terminant le raisonnement tôt ou en ajoutant des tokens "Wait".[^3] Les chercheurs ont curé s1K, un dataset de 1 000 questions sélectionnées pour la difficulté, la diversité et la qualité parmi 59 000 candidates.[^4]

L'Approche s1 : Simplicité Radicale

1. Curation du Dataset (s1K)

Critère But Implémentation
Difficulté Problèmes nécessitant raisonnement étendu Questions où Claude 3.5 Sonnet avait besoin de >4 000 tokens
Diversité Éviter le surapprentissage Clustering et échantillonnage
Qualité Traces de raisonnement correctes Vérification humaine

2. Fine-Tuning Standard

Entraînement complété en moins de 26 minutes sur 16 H100 GPUs.[^19]

3. Budget Forcing à l'Inférence

Terminaison Forcée : Supprime le token de fin-de-pensée et ajoute un token "Wait".[^21]

Continuation Forcée : L'insertion répétée de tokens "Wait" étend les chaînes de raisonnement.[^22]

Résultats des Benchmarks

Benchmark s1-32B o1-preview Amélioration
MATH Jusqu'à +27% Base Significative
AIME 2024 57% ~44% +13 points

Points Clés

  1. Quantité vs. Qualité : 1 000 exemples excellents surpassent des millions de médiocres
  2. La Simplicité Gagne : Budget forcing atteint des résultats compétitifs sans RL
  3. Accessibilité : Ressources modestes comparées à l'entraînement depuis zéro

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING