इन्फरेंस-टाइम स्केलिंग: AI रीज़निंग के लिए नई ट्रेनिंग सीमा
12 दिसंबर, 2025
दिसंबर 2025 अपडेट: इन्फरेंस-टाइम स्केलिंग AI रीज़निंग में प्रमुख रिसर्च फ्रंटियर के रूप में उभरा है। ThreadWeaver ने एक्यूरेसी बनाए रखते हुए 1.5x लेटेंसी में कमी हासिल की। P1 पहला ओपन-सोर्स मॉडल बना जिसने RL और टेस्ट-टाइम एजेंट्स के माध्यम से फिजिक्स ओलंपियाड में गोल्ड जीता। DeepSeek-R1 ने 70% कम लागत पर OpenAI o1 की बराबरी की। विश्लेषकों का अनुमान है कि 2030 तक इन्फरेंस कुल AI कंप्यूट का 75% हिस्सा लेगा।
TL;DR
AI स्केलिंग पैराडाइम बदल गया है। बड़े मॉडल ट्रेन करने की बजाय, शोधकर्ता अब इन्फरेंस टाइम पर अधिक कंप्यूट खर्च करके स्टेट-ऑफ-द-आर्ट रीज़निंग हासिल कर रहे हैं। मूल अंतर्दृष्टि: एक्सटेंडेड chain-of-thought के माध्यम से मॉडल को "लंबा सोचने" देने से रीज़निंग क्षमताएं उत्पन्न होती हैं जो केवल ट्रेनिंग से नहीं मिल सकतीं। DeepSeek-R1 ने इसे स्केल पर साबित किया, प्रति क्वेरी 10-100x अधिक टोकन जेनरेट करके o1 की बराबरी की। ThreadWeaver इस रीज़निंग को पैरेललाइज करता है ताकि लेटेंसी कम हो। P1 ने फिजिक्स ओलंपियाड में गोल्ड हासिल करने के लिए RL ट्रेनिंग को टेस्ट-टाइम एजेंट्स के साथ जोड़ा। इन्फ्रास्ट्रक्चर के लिए, 2026 तक इन्फरेंस डिमांड ट्रेनिंग डिमांड से 118x अधिक हो जाएगी, जो GPU प्रोक्योरमेंट को इन्फरेंस-ऑप्टिमाइज्ड हार्डवेयर की ओर मोड़ रही है।
क्या हुआ
तीन रिसर्च ब्रेकथ्रू इन्फरेंस-टाइम स्केलिंग की परिपक्वता दर्शाते हैं:
DeepSeek-R1 (जनवरी 2025): DeepSeek ने R1 रिलीज किया, यह साबित करते हुए कि प्योर रीइनफोर्समेंट लर्निंग OpenAI o1 की बराबरी की रीज़निंग क्षमताएं उत्पन्न कर सकती है। मॉडल ने एक्सटेंडेड chain-of-thought रीज़निंग के माध्यम से AIME बेंचमार्क एक्यूरेसी 15.6% से 71% तक सुधारी, मेजॉरिटी वोटिंग के साथ 86.7% तक पहुंची।1
P1 फिजिक्स मॉडल (नवंबर 2025): शोधकर्ताओं ने P1 रिलीज किया, पहला ओपन-सोर्स मॉडल फैमिली जिसने इंटरनेशनल फिजिक्स ओलंपियाड (IPhO 2025) में गोल्ड-मेडल परफॉर्मेंस हासिल की। P1-235B-A22B ने 21.2/30 अंक प्राप्त किए, केवल Gemini-2.5-Pro और GPT-5 के बाद तीसरे स्थान पर रहा।2
ThreadWeaver (2025): ThreadWeaver ने पैरेलल रीज़निंग पेश की, सीक्वेंशियल रीज़निंग एक्यूरेसी की बराबरी करते हुए टोकन लेटेंसी में 1.53x औसत स्पीडअप हासिल किया। यह दृष्टिकोण सीक्वेंशियल chain-of-thought के बजाय रीज़निंग पाथ्स की समवर्ती खोज को सक्षम बनाता है।3
इन्फ्रास्ट्रक्चर के लिए यह क्यों महत्वपूर्ण है
मेंटल मॉडल: पारंपरिक स्केलिंग ट्रेनिंग टाइम पर कंप्यूट निवेश करती थी (बड़े मॉडल, अधिक डेटा)। इन्फरेंस-टाइम स्केलिंग क्वेरी टाइम पर कंप्यूट निवेश करती है (लंबी रीज़निंग चेन, मल्टीपल अटेम्प्ट्स, सेल्फ-वेरिफिकेशन)। 100x इन्फरेंस कंप्यूट वाला 7B पैरामीटर मॉडल स्टैंडर्ड इन्फरेंस वाले 70B मॉडल की बराबरी कर सकता है। इन्फ्रास्ट्रक्चर पर प्रभाव गहरे हैं: इन्फरेंस क्लस्टर्स ट्रेनिंग क्लस्टर्स से अधिक महत्वपूर्ण हो जाते हैं।
इन्फरेंस बॉटलनेक बन गया है: विश्लेषकों का अनुमान है कि 2026 तक इन्फरेंस ट्रेनिंग कंप्यूट डिमांड से 118x अधिक हो जाएगा। 2030 तक, इन्फरेंस कुल AI कंप्यूट का 75% हिस्सा ले सकता है, जो इन्फ्रास्ट्रक्चर निवेश में $7 ट्रिलियन को प्रेरित करेगा।4
रीज़निंग मॉडल्स अधिक टोकन खपत करते हैं: DeepSeek-R1, o1, और o3-mini नॉन-रीज़निंग मॉडल्स की तुलना में "कई गुना अधिक टोकन" जेनरेट करते हैं। OpenAI का 2024 इन्फरेंस खर्च $2.3 बिलियन था: GPT-4 की ट्रेनिंग लागत से 15 गुना।5
GPU इन्फ्रास्ट्रक्चर डिमांड बढ़ रही है: Jensen Huang ने कहा कि अगली पीढ़ी के रीज़निंग मॉडल्स को "100 गुना तक अधिक कम्प्यूटेशनल रिसोर्सेज" की आवश्यकता है।6 AI इन्फरेंस मार्केट $106B (2025) से $255B (2030) तक 19.2% CAGR पर बढ़ रहा है।
लेटेंसी फिर से महत्वपूर्ण है: ThreadWeaver की पैरेलल रीज़निंग एक क्रिटिकल कंस्ट्रेंट को संबोधित करती है। सीक्वेंशियल रीज़निंग लेटेंसी चेन लेंथ के अनुपात में बढ़ती है। रियल-टाइम एप्लीकेशंस के लिए, इन्फरेंस स्पीड प्रतिस्पर्धी लाभ बन जाती है।
तकनीकी विवरण
DeepSeek-R1 दृष्टिकोण
DeepSeek-R1-Zero ने Group Relative Policy Optimization (GRPO) का उपयोग करके प्योर RL के माध्यम से रीज़निंग ट्रेन की:7
| कॉम्पोनेंट | विवरण |
|---|---|
| ट्रेनिंग मेथड | प्योर RL, कोई सुपरवाइज्ड फाइन-ट्यूनिंग नहीं |
| एल्गोरिदम | GRPO (वैल्यू फंक्शन के बिना PPO का अडैप्टेशन) |
| मुख्य अंतर्दृष्टि | इन्फरेंस पर एक्सटेंडेड CoT रीज़निंग उत्पन्न करता है |
| AIME परफॉर्मेंस | 15.6% → 71% (मेजॉरिटी वोटिंग के साथ 86.7%) |
| कॉस्ट एडवांटेज | तुलनीय मॉडल्स से 70% कम इन्फरेंस कॉस्ट |
विशेष रूप से, DeepSeek ने स्पष्ट रूप से Process Reward Models और Monte Carlo Tree Search जैसी विधियों को "असफल प्रयासों" के रूप में वर्गीकृत किया। निष्कर्ष सुझाव देता है कि लंबे रिस्पॉन्स के साथ प्योर RL इम्प्लिसिट इन्फरेंस-टाइम स्केलिंग के रूप में काम करता है।8
ThreadWeaver पैरेलल रीज़निंग
ThreadWeaver सीक्वेंशियल chain-of-thought के बजाय समवर्ती रीज़निंग पाथ्स को सक्षम बनाता है:9
| इनोवेशन | विवरण |
|---|---|
| Parallel Trajectory Generator | पैरेलल एनोटेशन के साथ CoT डेटा उत्पन्न करता है |
| Trie-Based Co-Design | पोजीशन एम्बेडिंग को मॉडिफाई किए बिना पैरेलल रीज़निंग सक्षम करता है |
| P-GRPO Algorithm | एक्यूरेसी और लेटेंसी रिडक्शन को संयुक्त रूप से ऑप्टिमाइज करता है |
Qwen3-8B बेस पर परफॉर्मेंस:
| बेंचमार्क | ThreadWeaver | Sequential | स्पीडअप |
|---|---|---|---|
| AIME24 | 79.9% | 78.3% | 1.14x |
| AMC23 | — | — | 1.16x |
| MATH500 | — | — | 1.23x |
| OlympiadBench | — | — | 1.21x |
| Minerva Math | — | — | 1.53x |
P1 फिजिक्स मॉडल
P1 ट्रेन-टाइम और टेस्ट-टाइम स्केलिंग को जोड़ता है:10
ट्रेन-टाइम (RL पोस्ट-ट्रेनिंग): - बेस लैंग्वेज मॉडल्स पर मल्टी-स्टेज RL फ्रेमवर्क - प्रोग्रेसिव रीज़निंग एन्हांसमेंट - रिवार्ड स्पार्सिटी और एंट्रॉपी कोलैप्स को एड्रेस करता है
टेस्ट-टाइम (PhysicsMinions एजेंट): - Visual Studio: विजुअल एनालिसिस - Logic Studio: लॉजिकल रीज़निंग - Review Studio: सॉल्यूशन वेरिफिकेशन - मल्टी-टर्न रिफ्लेक्शन और सेल्फ-करेक्शन
IPhO 2025 पर रिजल्ट्स:
| मॉडल | स्कोर | रैंकिंग |
|---|---|---|
| Gemini-2.5-Pro | 37.7 | — |
| GPT-5 | 37.4 | — |
| P1-235B + PhysicsMinions | 38.4 | 1st |
| P1-235B-A22B (स्टैंडअलोन) | 21.2/30 | गोल्ड |
इन्फरेंस कंप्यूट प्रोजेक्शन्स
| मेट्रिक | वैल्यू | सोर्स |
|---|---|---|
| 2025 इन्फरेंस मार्केट | $106B | MarketsandMarkets |
| 2030 इन्फरेंस मार्केट | $255B | MarketsandMarkets |
| 2027 इन्फरेंस चिप मार्केट | $102B | Reuters |
| AI कंप्यूट में इन्फरेंस शेयर (2030) | 75% | इंडस्ट्री एनालिसिस |
| ट्रेनिंग vs इन्फरेंस डिमांड (2026) | 1:118 | एनालिस्ट एस्टिमेट्स |
| ग्लोबल AI कंप्यूट ग्रोथ (2025-2027) | 10x | AI 2027 फोरकास्ट |
पॉलिसी और रेगुलेटरी प्रभाव
मौजूदा रेगुलेशन ट्रेनिंग कंप्यूट थ्रेशोल्ड्स का उपयोग करते हैं (जैसे, EU AI Act का 10^25 FLOPs)। हालांकि, इन्फरेंस-टाइम स्केलिंग कैलकुलेशन बदल देती है:11
- मॉडल केवल ट्रेनिंग से नहीं, बल्कि इन्फरेंस कंप्यूट के माध्यम से उच्च क्षमताएं हासिल कर सकते हैं
- एक्सटेंसिव टेस्ट-टाइम रीज़निंग वाला छोटा ट्रेन्ड मॉडल थ्रेशोल्ड मॉडल क्षमताओं से अधिक हो सकता है
- पॉलिसीमेकर्स केवल ट्रेनिंग कंप्यूट पर फोकस करके "मॉडल के वास्तविक प्रभाव को कम आंकने" का जोखिम उठाते हैं
आगे क्या
2026: इन्फरेंस डिमांड ट्रेनिंग से 118x अधिक होने का अनुमान। डेटा सेंटर प्लानिंग इन्फरेंस-ऑप्टिमाइज्ड आर्किटेक्चर की ओर शिफ्ट हो रही है।
2027: ग्लोबल AI-रेलेवेंट कंप्यूट 100M H100-इक्विवेलेंट्स तक पहुंचने का अनुमान (मार्च 2025 से 10x ग्रोथ)।12
जारी: पैरेलल रीज़निंग (ThreadWeaver), मल्टी-एजेंट सिस्टम्स (PhysicsMinions), और RL-बेस्ड रीज़निंग (DeepSeek, P1) पर रिसर्च जारी है।
इन्फ्रास्ट्रक्चर शिफ्ट: पर्पस-बिल्ट इन्फरेंस इन्फ्रास्ट्रक्चर (NVIDIA Blackwell, TPU v5e, Groq LPUs) डॉमिनेंट कंप्यूट कैटेगरी बन रहा है।
मुख्य निष्कर्ष
इन्फ्रास्ट्रक्चर प्लानर्स के लिए: - 2030 तक इन्फरेंस AI कंप्यूट का 75% क्लेम करने का अनुमान - रीज़निंग मॉडल्स स्टैंडर्ड मॉडल्स से 10-100x अधिक टोकन खपत करते हैं - लेटेंसी ऑप्टिमाइजेशन (ThreadWeaver-स्टाइल पैरेललिज्म) हार्डवेयर रिक्वायरमेंट्स बनाता है - कैपेसिटी मॉडलिंग में इन्फरेंस-हेवी वर्कलोड्स के लिए प्लान करें
ऑपरेशंस टीम्स के लिए: - NVIDIA Blackwell स्केल पर इन्फरेंस के लिए ऑप्टिमाइज्ड (1.4 exaFLOPS प्रति रैक) - इन्फरेंस कॉस्ट्स मॉनिटर करें, जो ट्रेनिंग कॉस्ट्स से 15x अधिक हो सकती हैं (OpenAI 2024 के अनुसार) - टेस्ट-टाइम कंप्यूट ट्यूनिंग लेटेंसी और कॉस्ट ट्रेडऑफ्स को प्रभावित करती है - एजेंट फ्रेमवर्क्स (PhysicsMinions) मल्टी-टर्न इन्फरेंस ओवरहेड जोड़ते हैं
स्ट्रैटेजिक प्लानिंग के लिए: - ट्रेनिंग vs इन्फरेंस कंप्यूट रेश्यो नाटकीय रूप से बदल रहा है - छोटे मॉडल + हेवी इन्फरेंस बड़े ट्रेन्ड मॉडल्स की बराबरी कर सकते हैं - DeepSeek-R1 एफिशिएंसी के माध्यम से 70% कॉस्ट एडवांटेज प्रदर्शित करता है - पॉलिसी फ्रेमवर्क्स ट्रेनिंग कंप्यूट थ्रेशोल्ड्स से आगे विस्तार कर सकते हैं
संदर्भ
इन्फरेंस-इंटेंसिव AI वर्कलोड्स को सपोर्ट करने वाले GPU इन्फ्रास्ट्रक्चर के लिए, Introl से संपर्क करें।
-
HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
-
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
-
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
-
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
-
NVIDIA. "AI Inference Solutions." 2025. ↩
-
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
-
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
-
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
-
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
-
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
-
AI 2027. "Compute Forecast." 2025. ↩
-
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
-
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
-
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
-
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩