GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

OpenAI का GPT-5.2 93.2% GPQA Diamond, 100% AIME, 70.9% GDPval हासिल करता है। 400K टोकन कॉन्टेक्स्ट विंडो नई इन्फरेंस इन्फ्रास्ट्रक्चर आवश्यकताओं को प्रेरित करती है।

GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

GPT-5.2: ARC-AGI पर 90% से ऊपर पहला मॉडल इन्फरेंस गणित को बदलता है

1 जनवरी 2026

जनवरी 2026 अपडेट: OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, बेंचमार्क स्कोर हासिल करते हुए जो पेशेवर ज्ञान कार्य में संभव की परिभाषा को बदलते हैं। मॉडल 70.9% GDPval कार्यों पर मानव विशेषज्ञों को 11x गति और <1% लागत पर हराता है।


सारांश

GPT-5.2 महत्वपूर्ण क्षमता सीमाओं को पार करता है: ARC-AGI-1 पर 90% से ऊपर पहला मॉडल, AIME 2025 पर परफेक्ट 100%, और FrontierMath पर 40.3% (5.1 से 10% सुधार)। 400K टोकन कॉन्टेक्स्ट विंडो और 128K आउटपुट टोकन नई इन्फ्रास्ट्रक्चर मांगें पैदा करते हैं। इन्फरेंस प्रदाताओं के लिए, 1.4x मूल्य वृद्धि OpenAI के आत्मविश्वास—और इन क्षमताओं को सेवा देने के लिए आवश्यक कंप्यूट तीव्रता का संकेत देती है।


क्या हुआ

OpenAI ने 11 दिसंबर 2025 को GPT-5.2 लॉन्च किया, Google Gemini 3 के बेंचमार्क प्रभुत्व के जवाब में "कोड रेड" घोषित करने के कथित रूप से सिर्फ 11 दिन बाद।1

लॉन्च में दो वेरिएंट शामिल हैं:

वेरिएंट उपयोग का मामला मूल्य (प्रति 1M टोकन)
GPT-5.2 सामान्य उपयोग $1.75 इनपुट / $14 आउटपुट
GPT-5.2 Pro विस्तारित तर्क उच्च (xhigh reasoning tier)

मुख्य विनिर्देश:2

  • कॉन्टेक्स्ट विंडो: 400,000 टोकन
  • अधिकतम आउटपुट: 128,000 टोकन
  • ज्ञान कटऑफ: 31 अगस्त 2025 (सितंबर 2024 से अपडेट)
  • मूल्य: GPT-5.1 लागत का 1.4x

GPT-5.2 NVIDIA H100, H200, और GB200-NVL72 GPU का उपयोग करके Azure इन्फ्रास्ट्रक्चर पर बनाया गया है।3


बेंचमार्क प्रदर्शन

GPT-5.2 पेशेवर, वैज्ञानिक और गणितीय बेंचमार्क पर नए रिकॉर्ड स्थापित करता है:4

बेंचमार्क GPT-5.2 स्कोर पिछला सर्वश्रेष्ठ सुधार
GPQA Diamond (PhD विज्ञान) 93.2% 91.9% (Gemini 3) +1.3%
ARC-AGI-1 सत्यापित >90% ~85% 90% से ऊपर पहला
AIME 2025 (गणित) 100% 96.7% (Gemini 3) परफेक्ट स्कोर
FrontierMath T1-3 40.3% 30% (GPT-5.1) +10%
GDPval (ज्ञान कार्य) 70.9% विशेषज्ञों को हराता है
SWE-Bench Pro (कोडिंग) 55.6% 51% (GPT-5.1) +4.6%
Tau2 Telecom (टूल उपयोग) 98.7% ~95% लगभग परफेक्ट

GDPval परिणाम ध्यान देने योग्य है: GPT-5.2 Thinking ने 44 व्यवसायों में मानव विशेषज्ञ पेशेवरों की तुलना में >11x गति और <1% लागत पर परिणाम उत्पन्न किए।5


यह क्यों महत्वपूर्ण है

इन्फरेंस मांग में उछाल

400K टोकन कॉन्टेक्स्ट विंडो प्रति अनुरोध पर्याप्त मेमोरी की आवश्यकता होती है। पूर्ण संदर्भ के साथ एकल इन्फरेंस पिछले 128K मॉडल की तुलना में काफी अधिक GPU मेमोरी खपत करता है। प्रदाताओं को इसके लिए योजना बनानी होगी:6

  • मेमोरी स्केलिंग: 128K संदर्भ बनाम प्रति अनुरोध 3x+ मेमोरी
  • बैच साइज कमी: प्रति GPU कम समवर्ती अनुरोध
  • KV कैश वृद्धि: संदर्भ लंबाई × बैच साइज = बड़े पैमाने पर KV कैश आवश्यकताएं

लागत संरचना परिवर्तन

GPT-5.1 से 1.4x मूल्य वृद्धि वास्तविक कंप्यूट तीव्रता को दर्शाती है:7

मॉडल इनपुट लागत आउटपुट लागत 5.1 से अनुपात
GPT-5.1 $1.25/M $10/M 1.0x
GPT-5.2 $1.75/M $14/M 1.4x

उच्च-मात्रा इन्फरेंस संचालन के लिए, इसका मतलब समकक्ष कार्यभार के लिए TCO में 40% वृद्धि है।

पेशेवर कार्य स्वचालन

GPT-5.2 का GDPval प्रदर्शन—<1% लागत पर 70.9% कार्यों पर विशेषज्ञों को हराना—एंटरप्राइज़ डिप्लॉयमेंट के लिए तत्काल मांग पैदा करता है। इन क्षमताओं की तलाश करने वाले संगठनों को इन्फरेंस इन्फ्रास्ट्रक्चर की आवश्यकता है जो संभाल सके:8

  • विस्तारित तर्क श्रृंखलाएं (Pro वेरिएंट)
  • लंबे संदर्भ दस्तावेज़ प्रसंस्करण
  • विश्वसनीय टूल कॉल (98.7% Tau2)

तकनीकी विवरण

आर्किटेक्चर

OpenAI ने विशिष्ट आर्किटेक्चर परिवर्तनों का खुलासा नहीं किया है, लेकिन बेंचमार्क पैटर्न सुझाते हैं:9

  • उन्नत तर्क क्षमताएं (FrontierMath +10%)
  • सुधारित लंबे संदर्भ सटीकता (256K टोकन पुनर्प्राप्ति)
  • बेहतर टूल उपयोग विश्वसनीयता (Tau2 98.7%)

इन्फरेंस आवश्यकताएं

GPT-5.2 को स्केल पर सेवा देने के लिए विचार करना होगा:10

कारक GPT-5.1 GPT-5.2 प्रभाव
कॉन्टेक्स्ट विंडो 200K 400K प्रति अनुरोध 2x मेमोरी
अधिकतम आउटपुट 64K 128K 2x जनरेशन समय
तर्क गहराई मानक विस्तारित (Pro) परिवर्तनीय विलंबता
टूल कॉल 95% 98.7% अधिक जटिल ऑर्केस्ट्रेशन

प्रतिस्पर्धी संदर्भ

GPT-5.2 Gemini 3 से कुछ बेंचमार्क वापस लेता है लेकिन सभी नहीं:11

बेंचमार्क नेता स्कोर
GPQA Diamond Gemini 3 Deep Think 93.8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76.2%
Humanity's Last Exam Gemini 3 आगे
GDPval GPT-5.2 Thinking 70.9%

तेज़ रिलीज़ ताल—Gemini 3 के सिर्फ 11 दिन बाद GPT-5.2—दोनों कंपनियों द्वारा सामना किए जा रहे इन्फरेंस इन्फ्रास्ट्रक्चर दबाव को प्रदर्शित करता है।


आगे क्या

अल्पकालिक (Q1 2026)

  • GPT-5.2 Mini जल्द आने की संभावना (लॉन्च पर कोई Mini वेरिएंट नहीं)
  • एंटरप्राइज़ API रोलआउट का विस्तार
  • थर्ड-पार्टी इन्फरेंस प्रदाता समर्थन जोड़ रहे हैं

इन्फ्रास्ट्रक्चर प्रभाव

GPT-5.2 डिप्लॉयमेंट की योजना बनाने वाले संगठनों को:12

  1. मेमोरी क्षमता का आकलन करें: 400K संदर्भ के लिए 128K मॉडल बनाम 3x+ मेमोरी चाहिए
  2. KV कैश की योजना बनाएं: CXL मेमोरी विस्तार तेजी से प्रासंगिक हो रहा है
  3. कंप्यूट का बजट बनाएं: 1.4x लागत वृद्धि वास्तविक है
  4. हाइब्रिड दृष्टिकोण पर विचार करें: सरल कार्यों को सस्ते मॉडल पर रूट करें

फ्रंटियर मॉडल का समर्थन करने वाले इन्फरेंस इन्फ्रास्ट्रक्चर डिप्लॉयमेंट के लिए, Introl से संपर्क करें।


संदर्भ


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." दिसंबर 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." दिसंबर 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." दिसंबर 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." दिसंबर 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." दिसंबर 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 दिसंबर 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." दिसंबर 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." दिसंबर 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." दिसंबर 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." दिसंबर 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." दिसंबर 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING