s1: كيف تفوقت 1,000 عينة تدريب على o1-preview من OpenAI بنسبة 27%
طرح فريق من الباحثين من ستانفورد سؤالاً بسيطاً: ما هو الحد الأدنى للنهج القابل للتطبيق للتوسع في وقت الاختبار؟[^1] إجابتهم تقلب الافتراضات حول المتطلبات الحسابية لبناء نماذج الاستدلال. نموذج s1، المضبوط على 1,000 مثال منتقى بعناية فقط، يتفوق على o1-preview من OpenAI بنسبة تصل إلى 27% في معايير رياضيات المسابقات.[^2]
ملخص
تقدم ورقة s1 "فرض الميزانية"، تقنية تتحكم في مدة تفكير النموذج إما بإنهاء الاستدلال مبكراً أو إضافة رموز "Wait" لتمديد التفكير.[^3]
نهج s1: البساطة الراديكالية
1. تنظيم مجموعة البيانات (s1K)
| المعيار | الغرض | التنفيذ |
|---|---|---|
| الصعوبة | مشاكل تتطلب استدلال ممتد | أسئلة احتاج Claude 3.5 Sonnet فيها >4,000 رمز تفكير |
| التنوع | منع الإفراط في التعلم | التجميع والعينات |
| الجودة | آثار استدلال صحيحة | التحقق البشري |
2. الضبط الدقيق القياسي
اكتمل التدريب في أقل من 26 دقيقة على 16 GPU من H100.[^19]
3. فرض الميزانية عند الاستدلال
الإنهاء القسري: يزيل رمز نهاية التفكير ويضيف رمز "Wait".[^21]
الاستمرار القسري: الإدراج المتكرر لرموز "Wait" يمدد سلاسل الاستدلال.[^22]
نتائج المعايير
| المعيار | s1-32B | o1-preview | التحسن |
|---|---|---|---|
| MATH | حتى +27% | خط الأساس | كبير |
| AIME 2024 | 57% | ~44% | +13 نقطة |
النقاط الرئيسية
- الكم مقابل الجودة: 1,000 مثال ممتاز تتفوق على الملايين من المتوسطة
- البساطة تفوز: فرض الميزانية يحقق نتائج تنافسية بدون RL
- إمكانية الوصول: موارد متواضعة مقارنة بالتدريب من الصفر