s1: كيف تفوقت 1,000 عينة تدريب على o1-preview من OpenAI بنسبة 27%

نموذج s1 من ستانفورد يستخدم 'فرض الميزانية' لتجاوز o1-preview في معايير الرياضيات بـ 1K عينة فقط. شرح اختراق التوسع في وقت الاختبار.

s1: كيف تفوقت 1,000 عينة تدريب على o1-preview من OpenAI بنسبة 27%

s1: كيف تفوقت 1,000 عينة تدريب على o1-preview من OpenAI بنسبة 27%

طرح فريق من الباحثين من ستانفورد سؤالاً بسيطاً: ما هو الحد الأدنى للنهج القابل للتطبيق للتوسع في وقت الاختبار؟[^1] إجابتهم تقلب الافتراضات حول المتطلبات الحسابية لبناء نماذج الاستدلال. نموذج s1، المضبوط على 1,000 مثال منتقى بعناية فقط، يتفوق على o1-preview من OpenAI بنسبة تصل إلى 27% في معايير رياضيات المسابقات.[^2]

ملخص

تقدم ورقة s1 "فرض الميزانية"، تقنية تتحكم في مدة تفكير النموذج إما بإنهاء الاستدلال مبكراً أو إضافة رموز "Wait" لتمديد التفكير.[^3]

نهج s1: البساطة الراديكالية

1. تنظيم مجموعة البيانات (s1K)

المعيار الغرض التنفيذ
الصعوبة مشاكل تتطلب استدلال ممتد أسئلة احتاج Claude 3.5 Sonnet فيها >4,000 رمز تفكير
التنوع منع الإفراط في التعلم التجميع والعينات
الجودة آثار استدلال صحيحة التحقق البشري

2. الضبط الدقيق القياسي

اكتمل التدريب في أقل من 26 دقيقة على 16 GPU من H100.[^19]

3. فرض الميزانية عند الاستدلال

الإنهاء القسري: يزيل رمز نهاية التفكير ويضيف رمز "Wait".[^21]

الاستمرار القسري: الإدراج المتكرر لرموز "Wait" يمدد سلاسل الاستدلال.[^22]

نتائج المعايير

المعيار s1-32B o1-preview التحسن
MATH حتى +27% خط الأساس كبير
AIME 2024 57% ~44% +13 نقطة

النقاط الرئيسية

  1. الكم مقابل الجودة: 1,000 مثال ممتاز تتفوق على الملايين من المتوسطة
  2. البساطة تفوز: فرض الميزانية يحقق نتائج تنافسية بدون RL
  3. إمكانية الوصول: موارد متواضعة مقارنة بالتدريب من الصفر

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING