s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen
Ein Forscherteam von Stanford stellte eine einfache Frage: Was ist der minimal tragfähige Ansatz für Test-Time-Scaling?[^1] Ihre Antwort stellt Annahmen über die Rechenanforderungen für Reasoning-Modelle auf den Kopf. Das s1-Modell, feinabgestimmt auf nur 1.000 sorgfältig ausgewählten Beispielen, übertrifft OpenAIs o1-preview um bis zu 27% bei Mathematik-Wettbewerbs-Benchmarks.[^2]
TL;DR
Das s1-Paper führt "Budget Forcing" ein, eine Technik die kontrolliert, wie lange ein Modell denkt, indem Reasoning früh beendet oder "Wait"-Tokens angehängt werden.[^3] Forscher kuratierten s1K, einen Datensatz von 1.000 nach Schwierigkeit, Diversität und Qualität ausgewählten Fragen aus 59.000 Kandidaten.[^4] Das Feintuning von Qwen2.5-32B-Instruct auf s1K produzierte ein Modell, das vorhersagbar mit Inferenz-Compute skaliert.[^5]
Das Test-Time-Scaling-Paradigma
Traditionelles AI-Scaling investiert Compute während des Trainings. Test-Time-Scaling kehrt die Gleichung um, indem Compute während der Inferenz investiert wird.[^8]
Der s1-Ansatz: Radikale Einfachheit
1. Dataset-Kuratierung (s1K)
| Kriterium | Zweck | Implementierung |
|---|---|---|
| Schwierigkeit | Probleme mit erweitertem Reasoning | Fragen wo Claude 3.5 Sonnet >4.000 Denk-Tokens brauchte |
| Diversität | Overfitting verhindern | Clustering und Sampling |
| Qualität | Korrekte Reasoning-Traces | Menschliche Verifikation |
2. Standard-Finetuning
Training abgeschlossen in unter 26 Minuten auf 16 H100 GPUs.[^19]
3. Budget Forcing bei Inferenz
Budget Forcing kontrolliert Inferenz-Compute durch zwei Mechanismen:[^20]
Erzwungene Beendigung: Entfernt End-of-Thinking-Token und fügt "Wait"-Token hinzu.[^21]
Erzwungene Fortsetzung: Wiederholtes Einfügen von "Wait"-Tokens verlängert Reasoning-Ketten.[^22]
Benchmark-Ergebnisse
| Benchmark | s1-32B | o1-preview | Verbesserung |
|---|---|---|---|
| MATH | Bis +27% | Baseline | Signifikant |
| AIME 2024 | 57% | ~44% | +13 Punkte |
Kernerkenntnisse
- Quantität vs. Qualität: 1.000 exzellente Beispiele übertreffen Millionen mittelmäßiger
- Einfachheit gewinnt: Budget Forcing erreicht konkurrenzfähige Ergebnisse ohne RL
- Zugänglichkeit: Bescheidene Ressourcen im Vergleich zum Training von Grund auf