s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

Stanfords s1-Modell nutzt 'Budget Forcing' um o1-preview bei Mathe-Benchmarks mit nur 1K Beispielen zu übertreffen. Der Test-Time-Scaling-Durchbruch erklärt.

s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

s1: Wie 1.000 Trainingsbeispiele OpenAIs o1-preview um 27% übertrafen

Ein Forscherteam von Stanford stellte eine einfache Frage: Was ist der minimal tragfähige Ansatz für Test-Time-Scaling?[^1] Ihre Antwort stellt Annahmen über die Rechenanforderungen für Reasoning-Modelle auf den Kopf. Das s1-Modell, feinabgestimmt auf nur 1.000 sorgfältig ausgewählten Beispielen, übertrifft OpenAIs o1-preview um bis zu 27% bei Mathematik-Wettbewerbs-Benchmarks.[^2]

TL;DR

Das s1-Paper führt "Budget Forcing" ein, eine Technik die kontrolliert, wie lange ein Modell denkt, indem Reasoning früh beendet oder "Wait"-Tokens angehängt werden.[^3] Forscher kuratierten s1K, einen Datensatz von 1.000 nach Schwierigkeit, Diversität und Qualität ausgewählten Fragen aus 59.000 Kandidaten.[^4] Das Feintuning von Qwen2.5-32B-Instruct auf s1K produzierte ein Modell, das vorhersagbar mit Inferenz-Compute skaliert.[^5]

Das Test-Time-Scaling-Paradigma

Traditionelles AI-Scaling investiert Compute während des Trainings. Test-Time-Scaling kehrt die Gleichung um, indem Compute während der Inferenz investiert wird.[^8]

Der s1-Ansatz: Radikale Einfachheit

1. Dataset-Kuratierung (s1K)

Kriterium Zweck Implementierung
Schwierigkeit Probleme mit erweitertem Reasoning Fragen wo Claude 3.5 Sonnet >4.000 Denk-Tokens brauchte
Diversität Overfitting verhindern Clustering und Sampling
Qualität Korrekte Reasoning-Traces Menschliche Verifikation

2. Standard-Finetuning

Training abgeschlossen in unter 26 Minuten auf 16 H100 GPUs.[^19]

3. Budget Forcing bei Inferenz

Budget Forcing kontrolliert Inferenz-Compute durch zwei Mechanismen:[^20]

Erzwungene Beendigung: Entfernt End-of-Thinking-Token und fügt "Wait"-Token hinzu.[^21]

Erzwungene Fortsetzung: Wiederholtes Einfügen von "Wait"-Tokens verlängert Reasoning-Ketten.[^22]

Benchmark-Ergebnisse

Benchmark s1-32B o1-preview Verbesserung
MATH Bis +27% Baseline Signifikant
AIME 2024 57% ~44% +13 Punkte

Kernerkenntnisse

  1. Quantität vs. Qualität: 1.000 exzellente Beispiele übertreffen Millionen mittelmäßiger
  2. Einfachheit gewinnt: Budget Forcing erreicht konkurrenzfähige Ergebnisse ohne RL
  3. Zugänglichkeit: Bescheidene Ressourcen im Vergleich zum Training von Grund auf

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING