s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया
स्टैनफोर्ड के शोधकर्ताओं की एक टीम ने एक सरल प्रश्न पूछा: टेस्ट-टाइम स्केलिंग के लिए न्यूनतम व्यवहार्य दृष्टिकोण क्या है?[^1] उनका उत्तर रीज़निंग मॉडल बनाने के लिए कम्प्यूटेशनल आवश्यकताओं के बारे में धारणाओं को उलट देता है। s1 मॉडल, केवल 1,000 सावधानीपूर्वक चयनित उदाहरणों पर फाइन-ट्यून किया गया, प्रतियोगिता गणित बेंचमार्क पर OpenAI के o1-preview को 27% तक पछाड़ता है।[^2]
TL;DR
s1 पेपर "बजट फोर्सिंग" पेश करता है, एक तकनीक जो रीज़निंग को जल्दी समाप्त करके या "Wait" टोकन जोड़कर मॉडल कितनी देर सोचता है इसे नियंत्रित करती है।[^3]
s1 दृष्टिकोण: कट्टर सरलता
1. डेटासेट क्यूरेशन (s1K)
| मानदंड | उद्देश्य | कार्यान्वयन |
|---|---|---|
| कठिनाई | विस्तारित रीज़निंग की आवश्यकता वाली समस्याएं | जहां Claude 3.5 Sonnet को >4,000 सोच टोकन चाहिए थे |
| विविधता | ओवरफिटिंग रोकना | क्लस्टरिंग और सैंपलिंग |
| गुणवत्ता | सही रीज़निंग ट्रेस | मानव सत्यापन |
2. मानक फाइन-ट्यूनिंग
16 H100 GPUs पर 26 मिनट से कम में प्रशिक्षण पूरा।[^19]
3. इन्फरेंस पर बजट फोर्सिंग
जबरन समाप्ति: सोच-समाप्ति टोकन हटाता है और "Wait" टोकन जोड़ता है।[^21]
जबरन जारी: "Wait" टोकन का बार-बार सम्मिलन रीज़निंग चेन बढ़ाता है।[^22]
बेंचमार्क परिणाम
| बेंचमार्क | s1-32B | o1-preview | सुधार |
|---|---|---|---|
| MATH | +27% तक | बेसलाइन | महत्वपूर्ण |
| AIME 2024 | 57% | ~44% | +13 अंक |
मुख्य बिंदु
- मात्रा बनाम गुणवत्ता: 1,000 उत्कृष्ट उदाहरण लाखों औसत को पछाड़ते हैं
- सरलता जीतती है: बजट फोर्सिंग RL के बिना प्रतिस्पर्धी परिणाम प्राप्त करता है
- पहुंच: शुरू से प्रशिक्षण की तुलना में मामूली संसाधन