s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

Stanford's s1-model gebruikt 'budget forcing' om o1-preview te overtreffen op wiskunde-benchmarks met slechts 1K voorbeelden.

s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

s1: Hoe 1.000 Trainingsvoorbeelden OpenAI's o1-preview met 27% Versloegen

Een team van onderzoekers van Stanford stelde een simpele vraag: wat is de minimaal haalbare aanpak voor test-time scaling?[^1] Hun antwoord ondermijnt aannames over de computationele vereisten voor het bouwen van reasoning-modellen. Het s1-model, gefinetuned op slechts 1.000 zorgvuldig geselecteerde voorbeelden, overtreft OpenAI's o1-preview met tot 27% op wedstrijdwiskunde-benchmarks.[^2]

TL;DR

Het s1-paper introduceert "budget forcing", een techniek die controleert hoe lang een model nadenkt door reasoning vroeg te beëindigen of "Wait"-tokens toe te voegen.[^3]

De s1-Aanpak: Radicale Eenvoud

1. Dataset Curatie (s1K)

Criterium Doel Implementatie
Moeilijkheid Problemen die uitgebreid reasoning vereisen Vragen waar Claude 3.5 Sonnet >4.000 denktokens nodig had
Diversiteit Overfitting voorkomen Clustering en sampling
Kwaliteit Correcte reasoning-traces Menselijke verificatie

2. Standaard Fine-Tuning

Training voltooid in minder dan 26 minuten op 16 H100 GPU's.[^19]

3. Budget Forcing bij Inferentie

Gedwongen Beëindiging: Verwijdert end-of-thinking-token en voegt "Wait"-token toe.[^21]

Gedwongen Voortzetting: Herhaald invoegen van "Wait"-tokens verlengt reasoning-ketens.[^22]

Benchmark-Resultaten

Benchmark s1-32B o1-preview Verbetering
MATH Tot +27% Baseline Significant
AIME 2024 57% ~44% +13 punten

Kernpunten

  1. Kwantiteit vs. Kwaliteit: 1.000 excellente voorbeelden overtreffen miljoenen middelmatige
  2. Eenvoud Wint: Budget forcing bereikt concurrerende resultaten zonder RL
  3. Toegankelijkheid: Bescheiden resources vergeleken met training vanaf nul

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING