GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال
1 يناير 2026
تحديث يناير 2026: أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، محققة درجات معيارية تعيد تعريف ما هو ممكن في العمل المعرفي المهني. يتفوق النموذج على الخبراء البشريين في 70.9% من مهام GDPval بسرعة 11 ضعفاً وبأقل من 1% من التكلفة.
ملخص
يتجاوز GPT-5.2 عتبات القدرة الحرجة: أول نموذج فوق 90% على ARC-AGI-1، و100% مثالي على AIME 2025، و40.3% على FrontierMath (تحسن بنسبة 10% عن 5.1). نافذة السياق بـ 400 ألف رمز و128 ألف رمز للمخرجات تخلق طلبات جديدة على البنية التحتية. بالنسبة لمزودي الاستدلال، يشير ارتفاع السعر بمقدار 1.4 ضعف إلى ثقة OpenAI—وكثافة الحوسبة المطلوبة لخدمة هذه القدرات.
ماذا حدث
أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، بعد 11 يوماً فقط من إعلانها المزعوم لـ"الكود الأحمر" رداً على هيمنة Google Gemini 3 على المعايير.1
يتضمن الإطلاق نسختين:
| النسخة | حالة الاستخدام | السعر (لكل مليون رمز) |
|---|---|---|
| GPT-5.2 | الاستخدام العام | 1.75$ إدخال / 14$ إخراج |
| GPT-5.2 Pro | الاستدلال الموسع | أعلى (مستوى xhigh) |
المواصفات الرئيسية:2
- نافذة السياق: 400,000 رمز
- أقصى إخراج: 128,000 رمز
- تاريخ قطع المعرفة: 31 أغسطس 2025 (محدث من سبتمبر 2024)
- السعر: 1.4 ضعف تكلفة GPT-5.1
بُني GPT-5.2 على بنية Azure التحتية باستخدام وحدات GPU من NVIDIA H100 وH200 وGB200-NVL72.3
أداء المعايير
يسجل GPT-5.2 أرقاماً قياسية جديدة على المعايير المهنية والعلمية والرياضية:4
| المعيار | درجة GPT-5.2 | أفضل سابق | التحسن |
|---|---|---|---|
| GPQA Diamond (علوم الدكتوراه) | 93.2% | 91.9% (Gemini 3) | +1.3% |
| ARC-AGI-1 المتحقق منه | >90% | ~85% | أول من يتجاوز 90% |
| AIME 2025 (رياضيات) | 100% | 96.7% (Gemini 3) | درجة كاملة |
| FrontierMath T1-3 | 40.3% | 30% (GPT-5.1) | +10% |
| GDPval (العمل المعرفي) | 70.9% | — | يتفوق على الخبراء |
| SWE-Bench Pro (البرمجة) | 55.6% | 51% (GPT-5.1) | +4.6% |
| Tau2 Telecom (استخدام الأدوات) | 98.7% | ~95% | شبه مثالي |
تستحق نتيجة GDPval الانتباه: أنتج GPT-5.2 Thinking نتائج بأكثر من 11 ضعف السرعة وأقل من 1% من التكلفة مقارنة بالمحترفين البشريين الخبراء في 44 مهنة.5
لماذا هذا مهم
ارتفاع الطلب على الاستدلال
تتطلب نافذة السياق بـ 400 ألف رمز ذاكرة كبيرة لكل طلب. استدلال واحد بالسياق الكامل يستهلك ذاكرة GPU أكثر بكثير من نماذج 128 ألف السابقة. يجب على المزودين التخطيط لـ:6
- توسيع الذاكرة: 3 أضعاف+ الذاكرة لكل طلب مقابل سياق 128 ألف
- تقليل حجم الدفعة: طلبات متزامنة أقل لكل GPU
- نمو ذاكرة KV: طول السياق × حجم الدفعة = متطلبات ضخمة لذاكرة KV
تحول هيكل التكلفة
يعكس ارتفاع السعر بمقدار 1.4 ضعف عن GPT-5.1 كثافة الحوسبة الفعلية:7
| النموذج | تكلفة الإدخال | تكلفة الإخراج | النسبة إلى 5.1 |
|---|---|---|---|
| GPT-5.1 | 1.25$/مليون | 10$/مليون | 1.0x |
| GPT-5.2 | 1.75$/مليون | 14$/مليون | 1.4x |
بالنسبة لعمليات الاستدلال عالية الحجم، يمثل هذا زيادة بنسبة 40% في التكلفة الإجمالية للملكية لأعباء العمل المكافئة.
أتمتة العمل المهني
أداء GPT-5.2 في GDPval—التغلب على الخبراء في 70.9% من المهام بأقل من 1% من التكلفة—يخلق طلباً فورياً للنشر المؤسسي. تحتاج المنظمات التي تسعى لهذه القدرات إلى بنية تحتية للاستدلال قادرة على التعامل مع:8
- سلاسل الاستدلال الموسعة (نسخة Pro)
- معالجة المستندات ذات السياق الطويل
- استدعاءات الأدوات الموثوقة (98.7% Tau2)
التفاصيل التقنية
الهندسة المعمارية
لم تكشف OpenAI عن تغييرات معمارية محددة، لكن أنماط المعايير تشير إلى:9
- قدرات استدلال معززة (FrontierMath +10%)
- دقة محسنة للسياق الطويل (استرجاع 256 ألف رمز)
- موثوقية أفضل في استخدام الأدوات (Tau2 98.7%)
متطلبات الاستدلال
تقديم GPT-5.2 على نطاق واسع يتطلب مراعاة:10
| العامل | GPT-5.1 | GPT-5.2 | التأثير |
|---|---|---|---|
| نافذة السياق | 200 ألف | 400 ألف | ضعف الذاكرة لكل طلب |
| أقصى إخراج | 64 ألف | 128 ألف | ضعف وقت التوليد |
| عمق الاستدلال | قياسي | موسع (Pro) | زمن استجابة متغير |
| استدعاءات الأدوات | 95% | 98.7% | تنسيق أكثر تعقيداً |
السياق التنافسي
يستعيد GPT-5.2 بعض المعايير من Gemini 3 لكن ليس جميعها:11
| المعيار | الرائد | الدرجة |
|---|---|---|
| GPQA Diamond | Gemini 3 Deep Think | 93.8% |
| AIME 2025 | GPT-5.2 Thinking | 100% |
| SWE-bench Verified | Gemini 3 Pro | 76.2% |
| Humanity's Last Exam | Gemini 3 | في الصدارة |
| GDPval | GPT-5.2 Thinking | 70.9% |
يوضح الإيقاع السريع للإطلاق—GPT-5.2 بعد 11 يوماً فقط من Gemini 3—ضغط البنية التحتية للاستدلال الذي تواجهه كلتا الشركتين.
ما التالي
المدى القريب (الربع الأول 2026)
- GPT-5.2 Mini قادم على الأرجح (لا توجد نسخة Mini عند الإطلاق)
- توسيع طرح API للمؤسسات
- مزودو الاستدلال من الأطراف الثالثة يضيفون الدعم
تأثيرات البنية التحتية
يجب على المنظمات التي تخطط لنشر GPT-5.2:12
- تقييم سعة الذاكرة: سياق 400 ألف يتطلب 3 أضعاف+ الذاكرة مقابل نماذج 128 ألف
- التخطيط لذاكرة KV: توسيع ذاكرة CXL يصبح أكثر أهمية
- وضع ميزانية للحوسبة: زيادة التكلفة بمقدار 1.4 ضعف حقيقية
- النظر في النهج الهجينة: توجيه المهام الأبسط إلى نماذج أرخص
للحصول على نشر البنية التحتية للاستدلال التي تدعم النماذج الحدودية، تواصل مع Introl.
المراجع
-
FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." ديسمبر 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
-
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." ديسمبر 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
-
OpenAI. "Introducing GPT-5.2." 11 ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
-
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." ديسمبر 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
-
Vellum. "GPT-5.2 Benchmarks (Explained)." ديسمبر 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
-
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." ديسمبر 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
-
Simon Willison. "GPT-5.2." 11 ديسمبر 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
-
OpenAI. "GPT-5.2 System Card." ديسمبر 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
-
OpenAI. "Introducing GPT-5.2-Codex." ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
-
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." ديسمبر 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
-
LM Council. "AI Model Benchmarks Dec 2025." ديسمبر 2025. https://lmcouncil.ai/benchmarks ↩
-
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." ديسمبر 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩