s1: Bagaimana 1.000 Contoh Pelatihan Mengalahkan o1-preview OpenAI sebesar 27%

Model s1 Stanford menggunakan 'budget forcing' untuk melampaui o1-preview pada benchmark matematika dengan hanya 1K contoh.

s1: Bagaimana 1.000 Contoh Pelatihan Mengalahkan o1-preview OpenAI sebesar 27%

s1: Bagaimana 1.000 Contoh Pelatihan Mengalahkan o1-preview OpenAI sebesar 27%

Tim peneliti dari Stanford mengajukan pertanyaan sederhana: apa pendekatan minimum yang layak untuk test-time scaling?[^1] Jawaban mereka menumbangkan asumsi tentang persyaratan komputasi untuk membangun model penalaran. Model s1, yang di-fine-tune hanya pada 1.000 contoh yang dipilih dengan cermat, melampaui o1-preview OpenAI hingga 27% pada benchmark matematika kompetisi.[^2]

TL;DR

Paper s1 memperkenalkan "budget forcing", teknik yang mengontrol berapa lama model berpikir dengan mengakhiri penalaran lebih awal atau menambahkan token "Wait".[^3]

Pendekatan s1: Kesederhanaan Radikal

1. Kurasi Dataset (s1K)

Kriteria Tujuan Implementasi
Kesulitan Masalah yang memerlukan penalaran diperpanjang Pertanyaan di mana Claude 3.5 Sonnet membutuhkan >4.000 token berpikir
Keragaman Mencegah overfitting Clustering dan sampling
Kualitas Jejak penalaran yang benar Verifikasi manusia

2. Fine-Tuning Standar

Pelatihan selesai dalam waktu kurang dari 26 menit pada 16 GPU H100.[^19]

3. Budget Forcing pada Inferensi

Penghentian Paksa: Menghapus token akhir-pemikiran dan menambahkan token "Wait".[^21]

Kelanjutan Paksa: Penyisipan berulang token "Wait" memperpanjang rantai penalaran.[^22]

Hasil Benchmark

Benchmark s1-32B o1-preview Peningkatan
MATH Hingga +27% Baseline Signifikan
AIME 2024 57% ~44% +13 poin

Poin Kunci

  1. Kuantitas vs Kualitas: 1.000 contoh luar biasa mengalahkan jutaan yang biasa-biasa saja
  2. Kesederhanaan Menang: Budget forcing mencapai hasil kompetitif tanpa RL
  3. Aksesibilitas: Sumber daya sederhana dibandingkan pelatihan dari awal

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING