इन्फरेंस-टाइम स्केलिंग: AI रीज़निंग के लिए नई ट्रेनिंग सीमा

टेस्ट-टाइम कंप्यूट AI स्केलिंग की अगली सीमा के रूप में उभरा है। ThreadWeaver ने 1.5x स्पीडअप हासिल किया। P1 ने फिजिक्स ओलंपियाड में गोल्ड जीता। DeepSeek-R1 ने 70% कम लागत पर o1 की बराबरी की। इन्फ्रास्ट्रक्चर पर प्रभाव।

Blake Crosley

Dec 12, 2025 7 min read Disclaimer

इन्फरेंस-टाइम स्केलिंग: AI रीज़निंग के लिए नई ट्रेनिंग सीमा

12 दिसंबर, 2025

दिसंबर 2025 अपडेट: इन्फरेंस-टाइम स्केलिंग AI रीज़निंग में प्रमुख रिसर्च फ्रंटियर के रूप में उभरा है। ThreadWeaver ने एक्यूरेसी बनाए रखते हुए 1.5x लेटेंसी में कमी हासिल की। P1 पहला ओपन-सोर्स मॉडल बना जिसने RL और टेस्ट-टाइम एजेंट्स के माध्यम से फिजिक्स ओलंपियाड में गोल्ड जीता। DeepSeek-R1 ने 70% कम लागत पर OpenAI o1 की बराबरी की। विश्लेषकों का अनुमान है कि 2030 तक इन्फरेंस कुल AI कंप्यूट का 75% हिस्सा लेगा।

TL;DR

AI स्केलिंग पैराडाइम बदल गया है। बड़े मॉडल ट्रेन करने की बजाय, शोधकर्ता अब इन्फरेंस टाइम पर अधिक कंप्यूट खर्च करके स्टेट-ऑफ-द-आर्ट रीज़निंग हासिल कर रहे हैं। मूल अंतर्दृष्टि: एक्सटेंडेड chain-of-thought के माध्यम से मॉडल को "लंबा सोचने" देने से रीज़निंग क्षमताएं उत्पन्न होती हैं जो केवल ट्रेनिंग से नहीं मिल सकतीं। DeepSeek-R1 ने इसे स्केल पर साबित किया, प्रति क्वेरी 10-100x अधिक टोकन जेनरेट करके o1 की बराबरी की। ThreadWeaver इस रीज़निंग को पैरेललाइज करता है ताकि लेटेंसी कम हो। P1 ने फिजिक्स ओलंपियाड में गोल्ड हासिल करने के लिए RL ट्रेनिंग को टेस्ट-टाइम एजेंट्स के साथ जोड़ा। इन्फ्रास्ट्रक्चर के लिए, 2026 तक इन्फरेंस डिमांड ट्रेनिंग डिमांड से 118x अधिक हो जाएगी, जो GPU प्रोक्योरमेंट को इन्फरेंस-ऑप्टिमाइज्ड हार्डवेयर की ओर मोड़ रही है।

क्या हुआ

तीन रिसर्च ब्रेकथ्रू इन्फरेंस-टाइम स्केलिंग की परिपक्वता दर्शाते हैं:

DeepSeek-R1 (जनवरी 2025): DeepSeek ने R1 रिलीज किया, यह साबित करते हुए कि प्योर रीइनफोर्समेंट लर्निंग OpenAI o1 की बराबरी की रीज़निंग क्षमताएं उत्पन्न कर सकती है। मॉडल ने एक्सटेंडेड chain-of-thought रीज़निंग के माध्यम से AIME बेंचमार्क एक्यूरेसी 15.6% से 71% तक सुधारी, मेजॉरिटी वोटिंग के साथ 86.7% तक पहुंची।¹

P1 फिजिक्स मॉडल (नवंबर 2025): शोधकर्ताओं ने P1 रिलीज किया, पहला ओपन-सोर्स मॉडल फैमिली जिसने इंटरनेशनल फिजिक्स ओलंपियाड (IPhO 2025) में गोल्ड-मेडल परफॉर्मेंस हासिल की। P1-235B-A22B ने 21.2/30 अंक प्राप्त किए, केवल Gemini-2.5-Pro और GPT-5 के बाद तीसरे स्थान पर रहा।²

ThreadWeaver (2025): ThreadWeaver ने पैरेलल रीज़निंग पेश की, सीक्वेंशियल रीज़निंग एक्यूरेसी की बराबरी करते हुए टोकन लेटेंसी में 1.53x औसत स्पीडअप हासिल किया। यह दृष्टिकोण सीक्वेंशियल chain-of-thought के बजाय रीज़निंग पाथ्स की समवर्ती खोज को सक्षम बनाता है।³

इन्फ्रास्ट्रक्चर के लिए यह क्यों महत्वपूर्ण है

मेंटल मॉडल: पारंपरिक स्केलिंग ट्रेनिंग टाइम पर कंप्यूट निवेश करती थी (बड़े मॉडल, अधिक डेटा)। इन्फरेंस-टाइम स्केलिंग क्वेरी टाइम पर कंप्यूट निवेश करती है (लंबी रीज़निंग चेन, मल्टीपल अटेम्प्ट्स, सेल्फ-वेरिफिकेशन)। 100x इन्फरेंस कंप्यूट वाला 7B पैरामीटर मॉडल स्टैंडर्ड इन्फरेंस वाले 70B मॉडल की बराबरी कर सकता है। इन्फ्रास्ट्रक्चर पर प्रभाव गहरे हैं: इन्फरेंस क्लस्टर्स ट्रेनिंग क्लस्टर्स से अधिक महत्वपूर्ण हो जाते हैं।

इन्फरेंस बॉटलनेक बन गया है: विश्लेषकों का अनुमान है कि 2026 तक इन्फरेंस ट्रेनिंग कंप्यूट डिमांड से 118x अधिक हो जाएगा। 2030 तक, इन्फरेंस कुल AI कंप्यूट का 75% हिस्सा ले सकता है, जो इन्फ्रास्ट्रक्चर निवेश में $7 ट्रिलियन को प्रेरित करेगा।⁴

रीज़निंग मॉडल्स अधिक टोकन खपत करते हैं: DeepSeek-R1, o1, और o3-mini नॉन-रीज़निंग मॉडल्स की तुलना में "कई गुना अधिक टोकन" जेनरेट करते हैं। OpenAI का 2024 इन्फरेंस खर्च $2.3 बिलियन था: GPT-4 की ट्रेनिंग लागत से 15 गुना।⁵

GPU इन्फ्रास्ट्रक्चर डिमांड बढ़ रही है: Jensen Huang ने कहा कि अगली पीढ़ी के रीज़निंग मॉडल्स को "100 गुना तक अधिक कम्प्यूटेशनल रिसोर्सेज" की आवश्यकता है।⁶ AI इन्फरेंस मार्केट $106B (2025) से $255B (2030) तक 19.2% CAGR पर बढ़ रहा है।

लेटेंसी फिर से महत्वपूर्ण है: ThreadWeaver की पैरेलल रीज़निंग एक क्रिटिकल कंस्ट्रेंट को संबोधित करती है। सीक्वेंशियल रीज़निंग लेटेंसी चेन लेंथ के अनुपात में बढ़ती है। रियल-टाइम एप्लीकेशंस के लिए, इन्फरेंस स्पीड प्रतिस्पर्धी लाभ बन जाती है।

तकनीकी विवरण

DeepSeek-R1 दृष्टिकोण

DeepSeek-R1-Zero ने Group Relative Policy Optimization (GRPO) का उपयोग करके प्योर RL के माध्यम से रीज़निंग ट्रेन की:⁷

कॉम्पोनेंट	विवरण
ट्रेनिंग मेथड	प्योर RL, कोई सुपरवाइज्ड फाइन-ट्यूनिंग नहीं
एल्गोरिदम	GRPO (वैल्यू फंक्शन के बिना PPO का अडैप्टेशन)
मुख्य अंतर्दृष्टि	इन्फरेंस पर एक्सटेंडेड CoT रीज़निंग उत्पन्न करता है
AIME परफॉर्मेंस	15.6% → 71% (मेजॉरिटी वोटिंग के साथ 86.7%)
कॉस्ट एडवांटेज	तुलनीय मॉडल्स से 70% कम इन्फरेंस कॉस्ट

विशेष रूप से, DeepSeek ने स्पष्ट रूप से Process Reward Models और Monte Carlo Tree Search जैसी विधियों को "असफल प्रयासों" के रूप में वर्गीकृत किया। निष्कर्ष सुझाव देता है कि लंबे रिस्पॉन्स के साथ प्योर RL इम्प्लिसिट इन्फरेंस-टाइम स्केलिंग के रूप में काम करता है।⁸

ThreadWeaver पैरेलल रीज़निंग

ThreadWeaver सीक्वेंशियल chain-of-thought के बजाय समवर्ती रीज़निंग पाथ्स को सक्षम बनाता है:⁹

इनोवेशन	विवरण
Parallel Trajectory Generator	पैरेलल एनोटेशन के साथ CoT डेटा उत्पन्न करता है
Trie-Based Co-Design	पोजीशन एम्बेडिंग को मॉडिफाई किए बिना पैरेलल रीज़निंग सक्षम करता है
P-GRPO Algorithm	एक्यूरेसी और लेटेंसी रिडक्शन को संयुक्त रूप से ऑप्टिमाइज करता है

Qwen3-8B बेस पर परफॉर्मेंस:

बेंचमार्क	ThreadWeaver	Sequential	स्पीडअप
AIME24	79.9%	78.3%	1.14x
AMC23	—	—	1.16x
MATH500	—	—	1.23x
OlympiadBench	—	—	1.21x
Minerva Math	—	—	1.53x

P1 फिजिक्स मॉडल

P1 ट्रेन-टाइम और टेस्ट-टाइम स्केलिंग को जोड़ता है:¹⁰

ट्रेन-टाइम (RL पोस्ट-ट्रेनिंग): - बेस लैंग्वेज मॉडल्स पर मल्टी-स्टेज RL फ्रेमवर्क - प्रोग्रेसिव रीज़निंग एन्हांसमेंट - रिवार्ड स्पार्सिटी और एंट्रॉपी कोलैप्स को एड्रेस करता है

टेस्ट-टाइम (PhysicsMinions एजेंट): - Visual Studio: विजुअल एनालिसिस - Logic Studio: लॉजिकल रीज़निंग - Review Studio: सॉल्यूशन वेरिफिकेशन - मल्टी-टर्न रिफ्लेक्शन और सेल्फ-करेक्शन

IPhO 2025 पर रिजल्ट्स:

मॉडल	स्कोर	रैंकिंग
Gemini-2.5-Pro	37.7	—
GPT-5	37.4	—
P1-235B + PhysicsMinions	38.4	1st
P1-235B-A22B (स्टैंडअलोन)	21.2/30	गोल्ड

इन्फरेंस कंप्यूट प्रोजेक्शन्स

मेट्रिक	वैल्यू	सोर्स
2025 इन्फरेंस मार्केट	$106B	MarketsandMarkets
2030 इन्फरेंस मार्केट	$255B	MarketsandMarkets
2027 इन्फरेंस चिप मार्केट	$102B	Reuters
AI कंप्यूट में इन्फरेंस शेयर (2030)	75%	इंडस्ट्री एनालिसिस
ट्रेनिंग vs इन्फरेंस डिमांड (2026)	1:118	एनालिस्ट एस्टिमेट्स
ग्लोबल AI कंप्यूट ग्रोथ (2025-2027)	10x	AI 2027 फोरकास्ट

पॉलिसी और रेगुलेटरी प्रभाव

मौजूदा रेगुलेशन ट्रेनिंग कंप्यूट थ्रेशोल्ड्स का उपयोग करते हैं (जैसे, EU AI Act का 10^25 FLOPs)। हालांकि, इन्फरेंस-टाइम स्केलिंग कैलकुलेशन बदल देती है:¹¹

मॉडल केवल ट्रेनिंग से नहीं, बल्कि इन्फरेंस कंप्यूट के माध्यम से उच्च क्षमताएं हासिल कर सकते हैं
एक्सटेंसिव टेस्ट-टाइम रीज़निंग वाला छोटा ट्रेन्ड मॉडल थ्रेशोल्ड मॉडल क्षमताओं से अधिक हो सकता है
पॉलिसीमेकर्स केवल ट्रेनिंग कंप्यूट पर फोकस करके "मॉडल के वास्तविक प्रभाव को कम आंकने" का जोखिम उठाते हैं

आगे क्या

2026: इन्फरेंस डिमांड ट्रेनिंग से 118x अधिक होने का अनुमान। डेटा सेंटर प्लानिंग इन्फरेंस-ऑप्टिमाइज्ड आर्किटेक्चर की ओर शिफ्ट हो रही है।

2027: ग्लोबल AI-रेलेवेंट कंप्यूट 100M H100-इक्विवेलेंट्स तक पहुंचने का अनुमान (मार्च 2025 से 10x ग्रोथ)।¹²

जारी: पैरेलल रीज़निंग (ThreadWeaver), मल्टी-एजेंट सिस्टम्स (PhysicsMinions), और RL-बेस्ड रीज़निंग (DeepSeek, P1) पर रिसर्च जारी है।

इन्फ्रास्ट्रक्चर शिफ्ट: पर्पस-बिल्ट इन्फरेंस इन्फ्रास्ट्रक्चर (NVIDIA Blackwell, TPU v5e, Groq LPUs) डॉमिनेंट कंप्यूट कैटेगरी बन रहा है।

मुख्य निष्कर्ष

इन्फ्रास्ट्रक्चर प्लानर्स के लिए: - 2030 तक इन्फरेंस AI कंप्यूट का 75% क्लेम करने का अनुमान - रीज़निंग मॉडल्स स्टैंडर्ड मॉडल्स से 10-100x अधिक टोकन खपत करते हैं - लेटेंसी ऑप्टिमाइजेशन (ThreadWeaver-स्टाइल पैरेललिज्म) हार्डवेयर रिक्वायरमेंट्स बनाता है - कैपेसिटी मॉडलिंग में इन्फरेंस-हेवी वर्कलोड्स के लिए प्लान करें

ऑपरेशंस टीम्स के लिए: - NVIDIA Blackwell स्केल पर इन्फरेंस के लिए ऑप्टिमाइज्ड (1.4 exaFLOPS प्रति रैक) - इन्फरेंस कॉस्ट्स मॉनिटर करें, जो ट्रेनिंग कॉस्ट्स से 15x अधिक हो सकती हैं (OpenAI 2024 के अनुसार) - टेस्ट-टाइम कंप्यूट ट्यूनिंग लेटेंसी और कॉस्ट ट्रेडऑफ्स को प्रभावित करती है - एजेंट फ्रेमवर्क्स (PhysicsMinions) मल्टी-टर्न इन्फरेंस ओवरहेड जोड़ते हैं

स्ट्रैटेजिक प्लानिंग के लिए: - ट्रेनिंग vs इन्फरेंस कंप्यूट रेश्यो नाटकीय रूप से बदल रहा है - छोटे मॉडल + हेवी इन्फरेंस बड़े ट्रेन्ड मॉडल्स की बराबरी कर सकते हैं - DeepSeek-R1 एफिशिएंसी के माध्यम से 70% कॉस्ट एडवांटेज प्रदर्शित करता है - पॉलिसी फ्रेमवर्क्स ट्रेनिंग कंप्यूट थ्रेशोल्ड्स से आगे विस्तार कर सकते हैं

संदर्भ

इन्फरेंस-इंटेंसिव AI वर्कलोड्स को सपोर्ट करने वाले GPU इन्फ्रास्ट्रक्चर के लिए, Introl से संपर्क करें।

HuggingFace Blog. "What is test-time compute and how to scale it?" 2025. ↩
arXiv. "P1: Mastering Physics Olympiads with Reinforcement Learning." November 2025. ↩
ThreadWeaver. "Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
WhiteFiber. "How Inference Will Reshape AI Infrastructure and Compute Demand." 2025. ↩
Sebastian Raschka. "Inference-Time Compute Scaling Methods to Improve Reasoning Models." 2025. ↩
NVIDIA. "AI Inference Solutions." 2025. ↩
Medium. "Understanding Reasoning Models & Test-Time Compute: Insights from DeepSeek-R1." 2025. ↩
DeepSeek. "DeepSeek-R1 Technical Report." January 2025. ↩
ThreadWeaver Paper. "ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning." 2025. ↩
GitHub. "PRIME-RL/P1: Mastering Physics Olympiads with Reinforcement Learning." 2025. ↩
Austin Ellis-Mohr. "Inference-Time Compute Scaling Policy Considerations." 2025. ↩
AI 2027. "Compute Forecast." 2025. ↩
MarketsandMarkets. "AI Inference Market Size, Share & Growth, 2025 To 2030." 2025. ↩
NVIDIA Developer Blog. "Automating GPU Kernel Generation with DeepSeek-R1 and Inference Time Scaling." 2025. ↩
arXiv. "Evaluating Test-Time Scaling LLMs for Legal Reasoning." 2025. ↩
Neurohive. "P1: First Open-Source Model to Win Gold at the International Physics Olympiad." 2025. ↩

इन्फरेंस-टाइम स्केलिंग: AI रीज़निंग के लिए नई ट्रेनिंग सीमा

TL;DR

क्या हुआ

इन्फ्रास्ट्रक्चर के लिए यह क्यों महत्वपूर्ण है

तकनीकी विवरण

DeepSeek-R1 दृष्टिकोण

ThreadWeaver पैरेलल रीज़निंग

P1 फिजिक्स मॉडल

इन्फरेंस कंप्यूट प्रोजेक्शन्स

पॉलिसी और रेगुलेटरी प्रभाव

आगे क्या

मुख्य निष्कर्ष

संदर्भ

You Might Also Like

डेटा सेंटरों के लिए AIOps: AI इन्फ्रास्ट्रक्चर प्रबंधन के लि...

AI इन्फरेंस के लिए लोड बैलेंसिंग: 1000+ GPUs में रिक्वेस्ट्स...

AI के लिए डिसएग्रीगेटेड कंप्यूटिंग: कंपोज़ेबल इंफ्रास्ट्रक्च...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_