s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

स्टैनफोर्ड का s1 मॉडल केवल 1K उदाहरणों के साथ गणित बेंचमार्क पर o1-preview को पछाड़ने के लिए 'बजट फोर्सिंग' का उपयोग करता है।

Blake Crosley

Jan 07, 2026 1 min read Disclaimer

s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

स्टैनफोर्ड के शोधकर्ताओं की एक टीम ने एक सरल प्रश्न पूछा: टेस्ट-टाइम स्केलिंग के लिए न्यूनतम व्यवहार्य दृष्टिकोण क्या है?[^1] उनका उत्तर रीज़निंग मॉडल बनाने के लिए कम्प्यूटेशनल आवश्यकताओं के बारे में धारणाओं को उलट देता है। s1 मॉडल, केवल 1,000 सावधानीपूर्वक चयनित उदाहरणों पर फाइन-ट्यून किया गया, प्रतियोगिता गणित बेंचमार्क पर OpenAI के o1-preview को 27% तक पछाड़ता है।[^2]

TL;DR

s1 पेपर "बजट फोर्सिंग" पेश करता है, एक तकनीक जो रीज़निंग को जल्दी समाप्त करके या "Wait" टोकन जोड़कर मॉडल कितनी देर सोचता है इसे नियंत्रित करती है।[^3]

s1 दृष्टिकोण: कट्टर सरलता

1. डेटासेट क्यूरेशन (s1K)

मानदंड	उद्देश्य	कार्यान्वयन
कठिनाई	विस्तारित रीज़निंग की आवश्यकता वाली समस्याएं	जहां Claude 3.5 Sonnet को >4,000 सोच टोकन चाहिए थे
विविधता	ओवरफिटिंग रोकना	क्लस्टरिंग और सैंपलिंग
गुणवत्ता	सही रीज़निंग ट्रेस	मानव सत्यापन

2. मानक फाइन-ट्यूनिंग

16 H100 GPUs पर 26 मिनट से कम में प्रशिक्षण पूरा।[^19]

3. इन्फरेंस पर बजट फोर्सिंग

जबरन समाप्ति: सोच-समाप्ति टोकन हटाता है और "Wait" टोकन जोड़ता है।[^21]

जबरन जारी: "Wait" टोकन का बार-बार सम्मिलन रीज़निंग चेन बढ़ाता है।[^22]

बेंचमार्क परिणाम

बेंचमार्क	s1-32B	o1-preview	सुधार
MATH	+27% तक	बेसलाइन	महत्वपूर्ण
AIME 2024	57%	~44%	+13 अंक

मुख्य बिंदु

मात्रा बनाम गुणवत्ता: 1,000 उत्कृष्ट उदाहरण लाखों औसत को पछाड़ते हैं
सरलता जीतती है: बजट फोर्सिंग RL के बिना प्रतिस्पर्धी परिणाम प्राप्त करता है
पहुंच: शुरू से प्रशिक्षण की तुलना में मामूली संसाधन

s1: 1,000 प्रशिक्षण उदाहरणों ने OpenAI के o1-preview को 27% से कैसे हराया

TL;DR

s1 दृष्टिकोण: कट्टर सरलता

1. डेटासेट क्यूरेशन (s1K)

2. मानक फाइन-ट्यूनिंग

3. इन्फरेंस पर बजट फोर्सिंग

बेंचमार्क परिणाम

मुख्य बिंदु

You Might Also Like

जापान AI इंफ्रास्ट्रक्चर: एशिया की सबसे बड़ी अर्थव्यवस्था जा...

KV कैश ऑप्टिमाइज़ेशन: प्रोडक्शन LLMs के लिए मेमोरी दक्षता

सिंगापुर और दक्षिण-पूर्व एशिया वैश्विक AI इंफ्रास्ट्रक्चर हब...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_