s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

Stanfords s1-Modell nutzt 'Budget Forcing' um o1-preview bei Mathe-Benchmarks mit nur 1K Beispielen zu übertreffen. Der Test-Time-Scaling-Durchbruch erklärt.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

Ein Forscherteam von Stanford stellte eine einfache Frage: Was ist der minimal tragfähige Ansatz für Test-Time-Scaling?[^1] Ihre Antwort stellt Annahmen über die Rechenanforderungen für Reasoning-Modelle auf den Kopf. Das s1-Modell, feinabgestimmt auf nur 1.000 sorgfältig ausgewählten Beispielen, übertrifft OpenAIs o1-preview um bis zu 27% bei Mathematik-Wettbewerbs-Benchmarks.[^2]

TL;DR

Das s1-Paper führt "Budget Forcing" ein, eine Technik die kontrolliert, wie lange ein Modell denkt, indem Reasoning früh beendet oder "Wait"-Tokens angehängt werden.[^3] Forscher kuratierten s1K, einen Datensatz von 1.000 nach Schwierigkeit, Diversität und Qualität ausgewählten Fragen aus 59.000 Kandidaten.[^4] Das Feintuning von Qwen2.5-32B-Instruct auf s1K produzierte ein Modell, das vorhersagbar mit Inferenz-Compute skaliert.[^5]

Das Test-Time-Scaling-Paradigma

Traditionelles AI-Scaling investiert Compute während des Trainings. Test-Time-Scaling kehrt die Gleichung um, indem Compute während der Inferenz investiert wird.[^8]

Der s1-Ansatz: Radikale Einfachheit

1. Dataset-Kuratierung (s1K)

Kriterium	Zweck	Implementierung
Schwierigkeit	Probleme mit erweitertem Reasoning	Fragen wo Claude 3.5 Sonnet >4.000 Denk-Tokens brauchte
Diversität	Overfitting verhindern	Clustering und Sampling
Qualität	Korrekte Reasoning-Traces	Menschliche Verifikation

2. Standard-Finetuning

Training abgeschlossen in unter 26 Minuten auf 16 H100 GPUs.[^19]

3. Budget Forcing bei Inferenz

Budget Forcing kontrolliert Inferenz-Compute durch zwei Mechanismen:[^20]

Erzwungene Beendigung: Entfernt End-of-Thinking-Token und fügt "Wait"-Token hinzu.[^21]

Erzwungene Fortsetzung: Wiederholtes Einfügen von "Wait"-Tokens verlängert Reasoning-Ketten.[^22]

Benchmark-Ergebnisse

Benchmark	s1-32B	o1-preview	Verbesserung
MATH	Bis +27%	Baseline	Signifikant
AIME 2024	57%	~44%	+13 Punkte

Kernerkenntnisse

Quantität vs. Qualität: 1.000 exzellente Beispiele übertreffen Millionen mittelmäßiger
Einfachheit gewinnt: Budget Forcing erreicht konkurrenzfähige Ergebnisse ohne RL
Zugänglichkeit: Bescheidene Ressourcen im Vergleich zum Training von Grund auf

s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

TL;DR

Das Test-Time-Scaling-Paradigma

Der s1-Ansatz: Radikale Einfachheit

1. Dataset-Kuratierung (s1K)

2. Standard-Finetuning

3. Budget Forcing bei Inferenz

Benchmark-Ergebnisse

Kernerkenntnisse

You Might Also Like

Japans KI-Infrastruktur: Asiens größte Volkswirtschaft erwac...

KV-Cache-Optimierung: Speichereffizienz für LLMs in der Prod...

Singapur und Südostasien entwickeln sich zu globalen Zentren...

Angebot anfordern_

Anfrage erhalten_