GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

OpenAI का GPT-5.2 93.2% GPQA Diamond, 100% AIME, 70.9% GDPval हासिल करता है। 400K टोकन कॉन्टेक्स्ट विंडो नई इन्फरेंस इन्फ्रास्ट्रक्चर आवश्यकताओं को प्रेरित करती है।

Blake Crosley

Jan 02, 2026 4 min read Disclaimer

GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

1 जनवरी 2026

जनवरी 2026 अपडेट: OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, बेंचमार्क स्कोर हासिल करते हुए जो पेशेवर ज्ञान कार्य में संभव की परिभाषा को बदलते हैं। मॉडल 70.9% GDPval कार्यों पर मानव विशेषज्ञों को 11x गति और <1% लागत पर हराता है।

सारांश

GPT-5.2 महत्वपूर्ण क्षमता सीमाओं को पार करता है: ARC-AGI-1 पर 90% से ऊपर पहला मॉडल, AIME 2025 पर परफेक्ट 100%, और FrontierMath पर 40.3% (5.1 से 10% सुधार)। 400K टोकन कॉन्टेक्स्ट विंडो और 128K आउटपुट टोकन नई इन्फ्रास्ट्रक्चर मांगें पैदा करते हैं। इन्फरेंस प्रदाताओं के लिए, 1.4x मूल्य वृद्धि OpenAI के आत्मविश्वास—और इन क्षमताओं को सेवा देने के लिए आवश्यक कंप्यूट तीव्रता का संकेत देती है।

क्या हुआ

OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, Google Gemini 3 के बेंचमार्क प्रभुत्व के जवाब में "कोड रेड" घोषित करने के कथित रूप से सिर्फ 11 दिन बाद।¹

लॉन्च में दो वेरिएंट शामिल हैं:

वेरिएंट	उपयोग का मामला	मूल्य (प्रति 1M टोकन)
GPT-5.2	सामान्य उपयोग	$1.75 इनपुट / $14 आउटपुट
GPT-5.2 Pro	विस्तारित तर्क	उच्च (xhigh reasoning tier)

मुख्य विनिर्देश:²

कॉन्टेक्स्ट विंडो: 400,000 टोकन
अधिकतम आउटपुट: 128,000 टोकन
ज्ञान कटऑफ: 31 अगस्त 2025 (सितंबर 2024 से अपडेट)
मूल्य: GPT-5.1 लागत का 1.4x

GPT-5.2 NVIDIA H100, H200, और GB200-NVL72 GPU का उपयोग करके Azure इन्फ्रास्ट्रक्चर पर बनाया गया है।³

बेंचमार्क प्रदर्शन

GPT-5.2 पेशेवर, वैज्ञानिक और गणितीय बेंचमार्क पर नए रिकॉर्ड स्थापित करता है:⁴

बेंचमार्क	GPT-5.2 स्कोर	पिछला सर्वश्रेष्ठ	सुधार
GPQA Diamond (PhD विज्ञान)	93.2%	91.9% (Gemini 3)	+1.3%
ARC-AGI-1 सत्यापित	>90%	~85%	90% से ऊपर पहला
AIME 2025 (गणित)	100%	96.7% (Gemini 3)	परफेक्ट स्कोर
FrontierMath T1-3	40.3%	30% (GPT-5.1)	+10%
GDPval (ज्ञान कार्य)	70.9%	—	विशेषज्ञों को हराता है
SWE-Bench Pro (कोडिंग)	55.6%	51% (GPT-5.1)	+4.6%
Tau2 Telecom (टूल उपयोग)	98.7%	~95%	लगभग परफेक्ट

GDPval परिणाम ध्यान देने योग्य है: GPT-5.2 Thinking ने 44 व्यवसायों में मानव विशेषज्ञ पेशेवरों की तुलना में >11x गति और <1% लागत पर परिणाम उत्पन्न किए।⁵

यह क्यों महत्वपूर्ण है

इन्फरेंस मांग में उछाल

400K टोकन कॉन्टेक्स्ट विंडो प्रति अनुरोध पर्याप्त मेमोरी की आवश्यकता होती है। पूर्ण संदर्भ के साथ एकल इन्फरेंस पिछले 128K मॉडल की तुलना में काफी अधिक GPU मेमोरी खपत करता है। प्रदाताओं को इसके लिए योजना बनानी होगी:⁶

मेमोरी स्केलिंग: 128K संदर्भ बनाम प्रति अनुरोध 3x+ मेमोरी
बैच साइज कमी: प्रति GPU कम समवर्ती अनुरोध
KV कैश वृद्धि: संदर्भ लंबाई × बैच साइज = बड़े पैमाने पर KV कैश आवश्यकताएं

लागत संरचना परिवर्तन

GPT-5.1 से 1.4x मूल्य वृद्धि वास्तविक कंप्यूट तीव्रता को दर्शाती है:⁷

मॉडल	इनपुट लागत	आउटपुट लागत	5.1 से अनुपात
GPT-5.1	$1.25/M	$10/M	1.0x
GPT-5.2	$1.75/M	$14/M	1.4x

उच्च-मात्रा इन्फरेंस संचालन के लिए, इसका मतलब समकक्ष कार्यभार के लिए TCO में 40% वृद्धि है।

पेशेवर कार्य स्वचालन

GPT-5.2 का GDPval प्रदर्शन—<1% लागत पर 70.9% कार्यों पर विशेषज्ञों को हराना—एंटरप्राइज़ डिप्लॉयमेंट के लिए तत्काल मांग पैदा करता है। इन क्षमताओं की तलाश करने वाले संगठनों को इन्फरेंस इन्फ्रास्ट्रक्चर की आवश्यकता है जो संभाल सके:⁸

विस्तारित तर्क श्रृंखलाएं (Pro वेरिएंट)
लंबे संदर्भ दस्तावेज़ प्रसंस्करण
विश्वसनीय टूल कॉल (98.7% Tau2)

तकनीकी विवरण

आर्किटेक्चर

OpenAI ने विशिष्ट आर्किटेक्चर परिवर्तनों का खुलासा नहीं किया है, लेकिन बेंचमार्क पैटर्न सुझाते हैं:⁹

उन्नत तर्क क्षमताएं (FrontierMath +10%)
सुधारित लंबे संदर्भ सटीकता (256K टोकन पुनर्प्राप्ति)
बेहतर टूल उपयोग विश्वसनीयता (Tau2 98.7%)

इन्फरेंस आवश्यकताएं

GPT-5.2 को स्केल पर सेवा देने के लिए विचार करना होगा:¹⁰

कारक	GPT-5.1	GPT-5.2	प्रभाव
कॉन्टेक्स्ट विंडो	200K	400K	प्रति अनुरोध 2x मेमोरी
अधिकतम आउटपुट	64K	128K	2x जनरेशन समय
तर्क गहराई	मानक	विस्तारित (Pro)	परिवर्तनीय विलंबता
टूल कॉल	95%	98.7%	अधिक जटिल ऑर्केस्ट्रेशन

प्रतिस्पर्धी संदर्भ

GPT-5.2 Gemini 3 से कुछ बेंचमार्क वापस लेता है लेकिन सभी नहीं:¹¹

बेंचमार्क	नेता	स्कोर
GPQA Diamond	Gemini 3 Deep Think	93.8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76.2%
Humanity's Last Exam	Gemini 3	आगे
GDPval	GPT-5.2 Thinking	70.9%

तेज़ रिलीज़ ताल—Gemini 3 के सिर्फ 11 दिन बाद GPT-5.2—दोनों कंपनियों द्वारा सामना किए जा रहे इन्फरेंस इन्फ्रास्ट्रक्चर दबाव को प्रदर्शित करता है।

आगे क्या

अल्पकालिक (Q1 2026)

GPT-5.2 Mini जल्द आने की संभावना (लॉन्च पर कोई Mini वेरिएंट नहीं)
एंटरप्राइज़ API रोलआउट का विस्तार
थर्ड-पार्टी इन्फरेंस प्रदाता समर्थन जोड़ रहे हैं

इन्फ्रास्ट्रक्चर प्रभाव

GPT-5.2 डिप्लॉयमेंट की योजना बनाने वाले संगठनों को:¹²

मेमोरी क्षमता का आकलन करें: 400K संदर्भ के लिए 128K मॉडल बनाम 3x+ मेमोरी चाहिए
KV कैश की योजना बनाएं: CXL मेमोरी विस्तार तेजी से प्रासंगिक हो रहा है
कंप्यूट का बजट बनाएं: 1.4x लागत वृद्धि वास्तविक है
हाइब्रिड दृष्टिकोण पर विचार करें: सरल कार्यों को सस्ते मॉडल पर रूट करें

फ्रंटियर मॉडल का समर्थन करने वाले इन्फरेंस इन्फ्रास्ट्रक्चर डिप्लॉयमेंट के लिए, Introl से संपर्क करें।

संदर्भ

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." दिसंबर 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." दिसंबर 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." दिसंबर 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." दिसंबर 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." दिसंबर 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 दिसंबर 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." दिसंबर 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." दिसंबर 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." दिसंबर 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." दिसंबर 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

सारांश

क्या हुआ

बेंचमार्क प्रदर्शन

यह क्यों महत्वपूर्ण है

इन्फरेंस मांग में उछाल

लागत संरचना परिवर्तन

पेशेवर कार्य स्वचालन

तकनीकी विवरण

आर्किटेक्चर

इन्फरेंस आवश्यकताएं

प्रतिस्पर्धी संदर्भ

आगे क्या

अल्पकालिक (Q1 2026)

इन्फ्रास्ट्रक्चर प्रभाव

संदर्भ

You Might Also Like

Hyperscaler CapEx 2026 में $600B तक पहुंचा: AI Infrastructur...

माइक्रोसॉफ्ट का $60 बिलियन नियोक्लाउड दांव: AI क्षमता संकट म...

DeepSeek V3.2 ने उच्च स्तरीय बेंचमार्क पर GPT-5 को पछाड़ा: च...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_