s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

โมเดล s1 ของสแตนฟอร์ดใช้ 'budget forcing' เพื่อเอาชนะ o1-preview บน benchmark คณิตศาสตร์ด้วยเพียง 1K ตัวอย่าง

s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

ทีมนักวิจัยจากสแตนฟอร์ดถามคำถามง่ายๆ: แนวทางขั้นต่ำที่ใช้การได้สำหรับ test-time scaling คืออะไร?[^1] คำตอบของพวกเขาพลิกสมมติฐานเกี่ยวกับข้อกำหนดการคำนวณสำหรับการสร้างโมเดลการใช้เหตุผล โมเดล s1 ที่ fine-tune บนเพียง 1,000 ตัวอย่างที่เลือกอย่างระมัดระวัง เอาชนะ o1-preview ของ OpenAI ได้ถึง 27% บน benchmark คณิตศาสตร์การแข่งขัน[^2]

TL;DR

บทความ s1 แนะนำ "budget forcing" เทคนิคที่ควบคุมว่าโมเดลคิดนานแค่ไหนโดยยุติการใช้เหตุผลเร็วหรือเพิ่ม token "Wait"[^3]

แนวทาง s1: ความเรียบง่ายสุดขั้ว

1. การคัดสรร Dataset (s1K)

เกณฑ์ วัตถุประสงค์ การดำเนินการ
ความยาก ปัญหาที่ต้องการการใช้เหตุผลขยาย คำถามที่ Claude 3.5 Sonnet ต้องการ >4,000 token คิด
ความหลากหลาย ป้องกัน overfitting การจัดกลุ่มและการสุ่มตัวอย่าง
คุณภาพ ร่องรอยการใช้เหตุผลที่ถูกต้อง การตรวจสอบโดยมนุษย์

2. Fine-Tuning มาตรฐาน

การฝึกเสร็จสิ้นภายใน 26 นาทีบน 16 H100 GPUs[^19]

3. Budget Forcing ที่การอนุมาน

การยุติบังคับ: ลบ token สิ้นสุดการคิดและเพิ่ม token "Wait"[^21]

การดำเนินต่อบังคับ: การแทรก token "Wait" ซ้ำๆ ขยายห่วงโซ่การใช้เหตุผล[^22]

ผลลัพธ์ Benchmark

Benchmark s1-32B o1-preview การปรับปรุง
MATH ถึง +27% Baseline สำคัญ
AIME 2024 57% ~44% +13 คะแนน

ประเด็นสำคัญ

  1. ปริมาณ vs คุณภาพ: 1,000 ตัวอย่างที่ยอดเยี่ยมเอาชนะล้านๆ ที่ธรรมดา
  2. ความเรียบง่ายชนะ: Budget forcing บรรลุผลลัพธ์การแข่งขันโดยไม่ต้องใช้ RL
  3. การเข้าถึงได้: ทรัพยากรที่พอประมาณเมื่อเทียบกับการฝึกจากศูนย์

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING