s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร
ทีมนักวิจัยจากสแตนฟอร์ดถามคำถามง่ายๆ: แนวทางขั้นต่ำที่ใช้การได้สำหรับ test-time scaling คืออะไร?[^1] คำตอบของพวกเขาพลิกสมมติฐานเกี่ยวกับข้อกำหนดการคำนวณสำหรับการสร้างโมเดลการใช้เหตุผล โมเดล s1 ที่ fine-tune บนเพียง 1,000 ตัวอย่างที่เลือกอย่างระมัดระวัง เอาชนะ o1-preview ของ OpenAI ได้ถึง 27% บน benchmark คณิตศาสตร์การแข่งขัน[^2]
TL;DR
บทความ s1 แนะนำ "budget forcing" เทคนิคที่ควบคุมว่าโมเดลคิดนานแค่ไหนโดยยุติการใช้เหตุผลเร็วหรือเพิ่ม token "Wait"[^3]
แนวทาง s1: ความเรียบง่ายสุดขั้ว
1. การคัดสรร Dataset (s1K)
| เกณฑ์ | วัตถุประสงค์ | การดำเนินการ |
|---|---|---|
| ความยาก | ปัญหาที่ต้องการการใช้เหตุผลขยาย | คำถามที่ Claude 3.5 Sonnet ต้องการ >4,000 token คิด |
| ความหลากหลาย | ป้องกัน overfitting | การจัดกลุ่มและการสุ่มตัวอย่าง |
| คุณภาพ | ร่องรอยการใช้เหตุผลที่ถูกต้อง | การตรวจสอบโดยมนุษย์ |
2. Fine-Tuning มาตรฐาน
การฝึกเสร็จสิ้นภายใน 26 นาทีบน 16 H100 GPUs[^19]
3. Budget Forcing ที่การอนุมาน
การยุติบังคับ: ลบ token สิ้นสุดการคิดและเพิ่ม token "Wait"[^21]
การดำเนินต่อบังคับ: การแทรก token "Wait" ซ้ำๆ ขยายห่วงโซ่การใช้เหตุผล[^22]
ผลลัพธ์ Benchmark
| Benchmark | s1-32B | o1-preview | การปรับปรุง |
|---|---|---|---|
| MATH | ถึง +27% | Baseline | สำคัญ |
| AIME 2024 | 57% | ~44% | +13 คะแนน |
ประเด็นสำคัญ
- ปริมาณ vs คุณภาพ: 1,000 ตัวอย่างที่ยอดเยี่ยมเอาชนะล้านๆ ที่ธรรมดา
- ความเรียบง่ายชนะ: Budget forcing บรรลุผลลัพธ์การแข่งขันโดยไม่ต้องใช้ RL
- การเข้าถึงได้: ทรัพยากรที่พอประมาณเมื่อเทียบกับการฝึกจากศูนย์