s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

โมเดล s1 ของสแตนฟอร์ดใช้ 'budget forcing' เพื่อเอาชนะ o1-preview บน benchmark คณิตศาสตร์ด้วยเพียง 1K ตัวอย่าง

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

ทีมนักวิจัยจากสแตนฟอร์ดถามคำถามง่ายๆ: แนวทางขั้นต่ำที่ใช้การได้สำหรับ test-time scaling คืออะไร?[^1] คำตอบของพวกเขาพลิกสมมติฐานเกี่ยวกับข้อกำหนดการคำนวณสำหรับการสร้างโมเดลการใช้เหตุผล โมเดล s1 ที่ fine-tune บนเพียง 1,000 ตัวอย่างที่เลือกอย่างระมัดระวัง เอาชนะ o1-preview ของ OpenAI ได้ถึง 27% บน benchmark คณิตศาสตร์การแข่งขัน[^2]

TL;DR

บทความ s1 แนะนำ "budget forcing" เทคนิคที่ควบคุมว่าโมเดลคิดนานแค่ไหนโดยยุติการใช้เหตุผลเร็วหรือเพิ่ม token "Wait"[^3]

แนวทาง s1: ความเรียบง่ายสุดขั้ว

1. การคัดสรร Dataset (s1K)

เกณฑ์	วัตถุประสงค์	การดำเนินการ
ความยาก	ปัญหาที่ต้องการการใช้เหตุผลขยาย	คำถามที่ Claude 3.5 Sonnet ต้องการ >4,000 token คิด
ความหลากหลาย	ป้องกัน overfitting	การจัดกลุ่มและการสุ่มตัวอย่าง
คุณภาพ	ร่องรอยการใช้เหตุผลที่ถูกต้อง	การตรวจสอบโดยมนุษย์

2. Fine-Tuning มาตรฐาน

การฝึกเสร็จสิ้นภายใน 26 นาทีบน 16 H100 GPUs[^19]

3. Budget Forcing ที่การอนุมาน

การยุติบังคับ: ลบ token สิ้นสุดการคิดและเพิ่ม token "Wait"[^21]

การดำเนินต่อบังคับ: การแทรก token "Wait" ซ้ำๆ ขยายห่วงโซ่การใช้เหตุผล[^22]

ผลลัพธ์ Benchmark

Benchmark	s1-32B	o1-preview	การปรับปรุง
MATH	ถึง +27%	Baseline	สำคัญ
AIME 2024	57%	~44%	+13 คะแนน

ประเด็นสำคัญ

ปริมาณ vs คุณภาพ: 1,000 ตัวอย่างที่ยอดเยี่ยมเอาชนะล้านๆ ที่ธรรมดา
ความเรียบง่ายชนะ: Budget forcing บรรลุผลลัพธ์การแข่งขันโดยไม่ต้องใช้ RL
การเข้าถึงได้: ทรัพยากรที่พอประมาณเมื่อเทียบกับการฝึกจากศูนย์

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

s1: 1,000 ตัวอย่างการฝึกเอาชนะ o1-preview ของ OpenAI ได้ 27% ได้อย่างไร

TL;DR

แนวทาง s1: ความเรียบง่ายสุดขั้ว

1. การคัดสรร Dataset (s1K)

2. Fine-Tuning มาตรฐาน

3. Budget Forcing ที่การอนุมาน

ผลลัพธ์ Benchmark

ประเด็นสำคัญ

You Might Also Like

โครงสร้างพื้นฐาน AI ของญี่ปุ่น: มหาอำนาจเศรษฐกิจแห่งเอเชียตื...

การเพิ่มประสิทธิภาพ KV Cache: ประสิทธิภาพหน่วยความจำสำหรับ L...

สิงคโปร์และเอเชียตะวันออกเฉียงใต้ก้าวขึ้นเป็นศูนย์กลางโครงสร...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_