s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

Stanford's s1-model gebruikt 'budget forcing' om o1-preview te overtreffen op wiskunde-benchmarks met slechts 1K voorbeelden.

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

Een team van onderzoekers van Stanford stelde een simpele vraag: wat is de minimaal haalbare aanpak voor test-time scaling?[^1] Hun antwoord ondermijnt aannames over de computationele vereisten voor het bouwen van reasoning-modellen. Het s1-model, gefinetuned op slechts 1.000 zorgvuldig geselecteerde voorbeelden, overtreft OpenAI's o1-preview met tot 27% op wedstrijdwiskunde-benchmarks.[^2]

TL;DR

Het s1-paper introduceert "budget forcing", een techniek die controleert hoe lang een model nadenkt door reasoning vroeg te beëindigen of "Wait"-tokens toe te voegen.[^3]

De s1-Aanpak: Radicale Eenvoud

1. Dataset Curatie (s1K)

Criterium	Doel	Implementatie
Moeilijkheid	Problemen die uitgebreid reasoning vereisen	Vragen waar Claude 3.5 Sonnet >4.000 denktokens nodig had
Diversiteit	Overfitting voorkomen	Clustering en sampling
Kwaliteit	Correcte reasoning-traces	Menselijke verificatie

2. Standaard Fine-Tuning

Training voltooid in minder dan 26 minuten op 16 H100 GPU's.[^19]

3. Budget Forcing bij Inferentie

Gedwongen Beëindiging: Verwijdert end-of-thinking-token en voegt "Wait"-token toe.[^21]

Gedwongen Voortzetting: Herhaald invoegen van "Wait"-tokens verlengt reasoning-ketens.[^22]

Benchmark-Resultaten

Benchmark	s1-32B	o1-preview	Verbetering
MATH	Tot +27%	Baseline	Significant
AIME 2024	57%	~44%	+13 punten

Kernpunten

Kwantiteit vs. Kwaliteit: 1.000 excellente voorbeelden overtreffen miljoenen middelmatige
Eenvoud Wint: Budget forcing bereikt concurrerende resultaten zonder RL
Toegankelijkheid: Bescheiden resources vergeleken met training vanaf nul

s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

TL;DR

De s1-Aanpak: Radicale Eenvoud

1. Dataset Curatie (s1K)

2. Standaard Fine-Tuning

3. Budget Forcing bij Inferentie

Benchmark-Resultaten

Kernpunten

You Might Also Like

Japan AI-infrastructuur: De grootste economie van Azië ontwa...

KV Cache Optimalisatie: Geheugenefficiëntie voor Productie L...

Singapore en Zuidoost-Azië ontwikkelen zich tot wereldwijde ...

Offerte aanvragen_

Aanvraag Ontvangen_