GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है
1 जनवरी 2026
जनवरी 2026 अपडेट: OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, बेंचमार्क स्कोर हासिल करते हुए जो पेशेवर ज्ञान कार्य में संभव की परिभाषा को बदलते हैं। मॉडल 70.9% GDPval कार्यों पर मानव विशेषज्ञों को 11x गति और <1% लागत पर हराता है।
सारांश
GPT-5.2 महत्वपूर्ण क्षमता सीमाओं को पार करता है: ARC-AGI-1 पर 90% से ऊपर पहला मॉडल, AIME 2025 पर परफेक्ट 100%, और FrontierMath पर 40.3% (5.1 से 10% सुधार)। 400K टोकन कॉन्टेक्स्ट विंडो और 128K आउटपुट टोकन नई इन्फ्रास्ट्रक्चर मांगें पैदा करते हैं। इन्फरेंस प्रदाताओं के लिए, 1.4x मूल्य वृद्धि OpenAI के आत्मविश्वास—और इन क्षमताओं को सेवा देने के लिए आवश्यक कंप्यूट तीव्रता का संकेत देती है।
क्या हुआ
OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, Google Gemini 3 के बेंचमार्क प्रभुत्व के जवाब में "कोड रेड" घोषित करने के कथित रूप से सिर्फ 11 दिन बाद।1
लॉन्च में दो वेरिएंट शामिल हैं:
| वेरिएंट | उपयोग का मामला | मूल्य (प्रति 1M टोकन) |
|---|---|---|
| GPT-5.2 | सामान्य उपयोग | $1.75 इनपुट / $14 आउटपुट |
| GPT-5.2 Pro | विस्तारित तर्क | उच्च (xhigh reasoning tier) |
मुख्य विनिर्देश:2
- कॉन्टेक्स्ट विंडो: 400,000 टोकन
- अधिकतम आउटपुट: 128,000 टोकन
- ज्ञान कटऑफ: 31 अगस्त 2025 (सितंबर 2024 से अपडेट)
- मूल्य: GPT-5.1 लागत का 1.4x
GPT-5.2 NVIDIA H100, H200, और GB200-NVL72 GPU का उपयोग करके Azure इन्फ्रास्ट्रक्चर पर बनाया गया है।3
बेंचमार्क प्रदर्शन
GPT-5.2 पेशेवर, वैज्ञानिक और गणितीय बेंचमार्क पर नए रिकॉर्ड स्थापित करता है:4
| बेंचमार्क | GPT-5.2 स्कोर | पिछला सर्वश्रेष्ठ | सुधार |
|---|---|---|---|
| GPQA Diamond (PhD विज्ञान) | 93.2% | 91.9% (Gemini 3) | +1.3% |
| ARC-AGI-1 सत्यापित | >90% | ~85% | 90% से ऊपर पहला |
| AIME 2025 (गणित) | 100% | 96.7% (Gemini 3) | परफेक्ट स्कोर |
| FrontierMath T1-3 | 40.3% | 30% (GPT-5.1) | +10% |
| GDPval (ज्ञान कार्य) | 70.9% | — | विशेषज्ञों को हराता है |
| SWE-Bench Pro (कोडिंग) | 55.6% | 51% (GPT-5.1) | +4.6% |
| Tau2 Telecom (टूल उपयोग) | 98.7% | ~95% | लगभग परफेक्ट |
GDPval परिणाम ध्यान देने योग्य है: GPT-5.2 Thinking ने 44 व्यवसायों में मानव विशेषज्ञ पेशेवरों की तुलना में >11x गति और <1% लागत पर परिणाम उत्पन्न किए।5
यह क्यों महत्वपूर्ण है
इन्फरेंस मांग में उछाल
400K टोकन कॉन्टेक्स्ट विंडो प्रति अनुरोध पर्याप्त मेमोरी की आवश्यकता होती है। पूर्ण संदर्भ के साथ एकल इन्फरेंस पिछले 128K मॉडल की तुलना में काफी अधिक GPU मेमोरी खपत करता है। प्रदाताओं को इसके लिए योजना बनानी होगी:6
- मेमोरी स्केलिंग: 128K संदर्भ बनाम प्रति अनुरोध 3x+ मेमोरी
- बैच साइज कमी: प्रति GPU कम समवर्ती अनुरोध
- KV कैश वृद्धि: संदर्भ लंबाई × बैच साइज = बड़े पैमाने पर KV कैश आवश्यकताएं
लागत संरचना परिवर्तन
GPT-5.1 से 1.4x मूल्य वृद्धि वास्तविक कंप्यूट तीव्रता को दर्शाती है:7
| मॉडल | इनपुट लागत | आउटपुट लागत | 5.1 से अनुपात |
|---|---|---|---|
| GPT-5.1 | $1.25/M | $10/M | 1.0x |
| GPT-5.2 | $1.75/M | $14/M | 1.4x |
उच्च-मात्रा इन्फरेंस संचालन के लिए, इसका मतलब समकक्ष कार्यभार के लिए TCO में 40% वृद्धि है।
पेशेवर कार्य स्वचालन
GPT-5.2 का GDPval प्रदर्शन—<1% लागत पर 70.9% कार्यों पर विशेषज्ञों को हराना—एंटरप्राइज़ डिप्लॉयमेंट के लिए तत्काल मांग पैदा करता है। इन क्षमताओं की तलाश करने वाले संगठनों को इन्फरेंस इन्फ्रास्ट्रक्चर की आवश्यकता है जो संभाल सके:8
- विस्तारित तर्क श्रृंखलाएं (Pro वेरिएंट)
- लंबे संदर्भ दस्तावेज़ प्रसंस्करण
- विश्वसनीय टूल कॉल (98.7% Tau2)
तकनीकी विवरण
आर्किटेक्चर
OpenAI ने विशिष्ट आर्किटेक्चर परिवर्तनों का खुलासा नहीं किया है, लेकिन बेंचमार्क पैटर्न सुझाते हैं:9
- उन्नत तर्क क्षमताएं (FrontierMath +10%)
- सुधारित लंबे संदर्भ सटीकता (256K टोकन पुनर्प्राप्ति)
- बेहतर टूल उपयोग विश्वसनीयता (Tau2 98.7%)
इन्फरेंस आवश्यकताएं
GPT-5.2 को स्केल पर सेवा देने के लिए विचार करना होगा:10
| कारक | GPT-5.1 | GPT-5.2 | प्रभाव |
|---|---|---|---|
| कॉन्टेक्स्ट विंडो | 200K | 400K | प्रति अनुरोध 2x मेमोरी |
| अधिकतम आउटपुट | 64K | 128K | 2x जनरेशन समय |
| तर्क गहराई | मानक | विस्तारित (Pro) | परिवर्तनीय विलंबता |
| टूल कॉल | 95% | 98.7% | अधिक जटिल ऑर्केस्ट्रेशन |
प्रतिस्पर्धी संदर्भ
GPT-5.2 Gemini 3 से कुछ बेंचमार्क वापस लेता है लेकिन सभी नहीं:11
| बेंचमार्क | नेता | स्कोर |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | आगे |
| GDPval | GPT-5.2 Thinking | 70.9% |
तेज़ रिलीज़ ताल—Gemini 3 के सिर्फ 11 दिन बाद GPT-5.2—दोनों कंपनियों द्वारा सामना किए जा रहे इन्फरेंस इन्फ्रास्ट्रक्चर दबाव को प्रदर्शित करता है।
आगे क्या
अल्पकालिक (Q1 2026)
- GPT-5.2 Mini जल्द आने की संभावना (लॉन्च पर कोई Mini वेरिएंट नहीं)
- एंटरप्राइज़ API रोलआउट का विस्तार
- थर्ड-पार्टी इन्फरेंस प्रदाता समर्थन जोड़ रहे हैं
इन्फ्रास्ट्रक्चर प्रभाव
GPT-5.2 डिप्लॉयमेंट की योजना बनाने वाले संगठनों को:12
- मेमोरी क्षमता का आकलन करें: 400K संदर्भ के लिए 128K मॉडल बनाम 3x+ मेमोरी चाहिए
- KV कैश की योजना बनाएं: CXL मेमोरी विस्तार तेजी से प्रासंगिक हो रहा है
- कंप्यूट का बजट बनाएं: 1.4x लागत वृद्धि वास्तविक है
- हाइब्रिड दृष्टिकोण पर विचार करें: सरल कार्यों को सस्ते मॉडल पर रूट करें
फ्रंटियर मॉडल का समर्थन करने वाले इन्फरेंस इन्फ्रास्ट्रक्चर डिप्लॉयमेंट के लिए, Introl से संपर्क करें।
संदर्भ
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." दिसंबर 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." दिसंबर 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." दिसंबर 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." दिसंबर 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." दिसंबर 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 दिसंबर 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." दिसंबर 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." दिसंबर 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." दिसंबर 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." दिसंबर 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩