s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen
Een team van onderzoekers van Stanford stelde een simpele vraag: wat is de minimaal haalbare aanpak voor test-time scaling?[^1] Hun antwoord ondermijnt aannames over de computationele vereisten voor het bouwen van reasoning-modellen. Het s1-model, gefinetuned op slechts 1.000 zorgvuldig geselecteerde voorbeelden, overtreft OpenAI's o1-preview met tot 27% op wedstrijdwiskunde-benchmarks.[^2]
TL;DR
Het s1-paper introduceert "budget forcing", een techniek die controleert hoe lang een model nadenkt door reasoning vroeg te beëindigen of "Wait"-tokens toe te voegen.[^3]
De s1-Aanpak: Radicale Eenvoud
1. Dataset Curatie (s1K)
| Criterium | Doel | Implementatie |
|---|---|---|
| Moeilijkheid | Problemen die uitgebreid reasoning vereisen | Vragen waar Claude 3.5 Sonnet >4.000 denktokens nodig had |
| Diversiteit | Overfitting voorkomen | Clustering en sampling |
| Kwaliteit | Correcte reasoning-traces | Menselijke verificatie |
2. Standaard Fine-Tuning
Training voltooid in minder dan 26 minuten op 16 H100 GPU's.[^19]
3. Budget Forcing bij Inferentie
Gedwongen Beëindiging: Verwijdert end-of-thinking-token en voegt "Wait"-token toe.[^21]
Gedwongen Voortzetting: Herhaald invoegen van "Wait"-tokens verlengt reasoning-ketens.[^22]
Benchmark-Resultaten
| Benchmark | s1-32B | o1-preview | Verbetering |
|---|---|---|---|
| MATH | Tot +27% | Baseline | Significant |
| AIME 2024 | 57% | ~44% | +13 punten |
Kernpunten
- Kwantiteit vs. Kwaliteit: 1.000 excellente voorbeelden overtreffen miljoenen middelmatige
- Eenvoud Wint: Budget forcing bereikt concurrerende resultaten zonder RL
- Toegankelijkheid: Bescheiden resources vergeleken met training vanaf nul