s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

स्टैनफोर्ड का s1 मॉडल केवल 1K उदाहरणों के साथ गणित बेंचमार्क पर o1-preview को पछाड़ने के लिए 'बजट फोर्सिंग' का उपयोग करता है।

s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

स्टैनफोर्ड के शोधकर्ताओं की एक टीम ने एक सरल प्रश्न पूछा: टेस्ट-टाइम स्केलिंग के लिए न्यूनतम व्यवहार्य दृष्टिकोण क्या है?[^1] उनका उत्तर रीज़निंग मॉडल बनाने के लिए कम्प्यूटेशनल आवश्यकताओं के बारे में धारणाओं को उलट देता है। s1 मॉडल, केवल 1,000 सावधानीपूर्वक चयनित उदाहरणों पर फाइन-ट्यून किया गया, प्रतियोगिता गणित बेंचमार्क पर OpenAI के o1-preview को 27% तक पछाड़ता है।[^2]

TL;DR

s1 पेपर "बजट फोर्सिंग" पेश करता है, एक तकनीक जो रीज़निंग को जल्दी समाप्त करके या "Wait" टोकन जोड़कर मॉडल कितनी देर सोचता है इसे नियंत्रित करती है।[^3]

s1 दृष्टिकोण: कट्टर सरलता

1. डेटासेट क्यूरेशन (s1K)

मानदंड उद्देश्य कार्यान्वयन
कठिनाई विस्तारित रीज़निंग की आवश्यकता वाली समस्याएं जहां Claude 3.5 Sonnet को >4,000 सोच टोकन चाहिए थे
विविधता ओवरफिटिंग रोकना क्लस्टरिंग और सैंपलिंग
गुणवत्ता सही रीज़निंग ट्रेस मानव सत्यापन

2. मानक फाइन-ट्यूनिंग

16 H100 GPUs पर 26 मिनट से कम में प्रशिक्षण पूरा।[^19]

3. इन्फरेंस पर बजट फोर्सिंग

जबरन समाप्ति: सोच-समाप्ति टोकन हटाता है और "Wait" टोकन जोड़ता है।[^21]

जबरन जारी: "Wait" टोकन का बार-बार सम्मिलन रीज़निंग चेन बढ़ाता है।[^22]

बेंचमार्क परिणाम

बेंचमार्क s1-32B o1-preview सुधार
MATH +27% तक बेसलाइन महत्वपूर्ण
AIME 2024 57% ~44% +13 अंक

मुख्य बिंदु

  1. मात्रा बनाम गुणवत्ता: 1,000 उत्कृष्ट उदाहरण लाखों औसत को पछाड़ते हैं
  2. सरलता जीतती है: बजट फोर्सिंग RL के बिना प्रतिस्पर्धी परिणाम प्राप्त करता है
  3. पहुंच: शुरू से प्रशिक्षण की तुलना में मामूली संसाधन

Request a Quote_

Tell us about your project and we'll respond within 72 hours.

> TRANSMISSION_COMPLETE

Request Received_

Thank you for your inquiry. Our team will review your request and respond within 72 hours.

QUEUED FOR PROCESSING