s1: Bagaimana 1.000 Contoh Pelatihan Mengalahkan o1-preview OpenAI sebesar 27%
Tim peneliti dari Stanford mengajukan pertanyaan sederhana: apa pendekatan minimum yang layak untuk test-time scaling?[^1] Jawaban mereka menumbangkan asumsi tentang persyaratan komputasi untuk membangun model penalaran. Model s1, yang di-fine-tune hanya pada 1.000 contoh yang dipilih dengan cermat, melampaui o1-preview OpenAI hingga 27% pada benchmark matematika kompetisi.[^2]
TL;DR
Paper s1 memperkenalkan "budget forcing", teknik yang mengontrol berapa lama model berpikir dengan mengakhiri penalaran lebih awal atau menambahkan token "Wait".[^3]
Pendekatan s1: Kesederhanaan Radikal
1. Kurasi Dataset (s1K)
| Kriteria | Tujuan | Implementasi |
|---|---|---|
| Kesulitan | Masalah yang memerlukan penalaran diperpanjang | Pertanyaan di mana Claude 3.5 Sonnet membutuhkan >4.000 token berpikir |
| Keragaman | Mencegah overfitting | Clustering dan sampling |
| Kualitas | Jejak penalaran yang benar | Verifikasi manusia |
2. Fine-Tuning Standar
Pelatihan selesai dalam waktu kurang dari 26 menit pada 16 GPU H100.[^19]
3. Budget Forcing pada Inferensi
Penghentian Paksa: Menghapus token akhir-pemikiran dan menambahkan token "Wait".[^21]
Kelanjutan Paksa: Penyisipan berulang token "Wait" memperpanjang rantai penalaran.[^22]
Hasil Benchmark
| Benchmark | s1-32B | o1-preview | Peningkatan |
|---|---|---|---|
| MATH | Hingga +27% | Baseline | Signifikan |
| AIME 2024 | 57% | ~44% | +13 poin |
Poin Kunci
- Kuantitas vs Kualitas: 1.000 contoh luar biasa mengalahkan jutaan yang biasa-biasa saja
- Kesederhanaan Menang: Budget forcing mencapai hasil kompetitif tanpa RL
- Aksesibilitas: Sumber daya sederhana dibandingkan pelatihan dari awal