GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

حقق GPT-5.2 من OpenAI 93.2% في GPQA Diamond و100% في AIME و70.9% في GDPval. نافذة السياق بـ 400 ألف رمز تدفع متطلبات جديدة للبنية التحتية للاستدلال.

Blake Crosley

Jan 02, 2026 4 min read Disclaimer

GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

1 يناير 2026

تحديث يناير 2026: أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، محققة درجات معيارية تعيد تعريف ما هو ممكن في العمل المعرفي المهني. يتفوق النموذج على الخبراء البشريين في 70.9% من مهام GDPval بسرعة 11 ضعفاً وبأقل من 1% من التكلفة.

ملخص

يتجاوز GPT-5.2 عتبات القدرة الحرجة: أول نموذج فوق 90% على ARC-AGI-1، و100% مثالي على AIME 2025، و40.3% على FrontierMath (تحسن بنسبة 10% عن 5.1). نافذة السياق بـ 400 ألف رمز و128 ألف رمز للمخرجات تخلق طلبات جديدة على البنية التحتية. بالنسبة لمزودي الاستدلال، يشير ارتفاع السعر بمقدار 1.4 ضعف إلى ثقة OpenAI—وكثافة الحوسبة المطلوبة لخدمة هذه القدرات.

ماذا حدث

أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، بعد 11 يوماً فقط من إعلانها المزعوم لـ"الكود الأحمر" رداً على هيمنة Google Gemini 3 على المعايير.¹

يتضمن الإطلاق نسختين:

النسخة	حالة الاستخدام	السعر (لكل مليون رمز)
GPT-5.2	الاستخدام العام	1.75$ إدخال / 14$ إخراج
GPT-5.2 Pro	الاستدلال الموسع	أعلى (مستوى xhigh)

المواصفات الرئيسية:²

نافذة السياق: 400,000 رمز
أقصى إخراج: 128,000 رمز
تاريخ قطع المعرفة: 31 أغسطس 2025 (محدث من سبتمبر 2024)
السعر: 1.4 ضعف تكلفة GPT-5.1

بُني GPT-5.2 على بنية Azure التحتية باستخدام وحدات GPU من NVIDIA H100 وH200 وGB200-NVL72.³

أداء المعايير

يسجل GPT-5.2 أرقاماً قياسية جديدة على المعايير المهنية والعلمية والرياضية:⁴

المعيار	درجة GPT-5.2	أفضل سابق	التحسن
GPQA Diamond (علوم الدكتوراه)	93.2%	91.9% (Gemini 3)	+1.3%
ARC-AGI-1 المتحقق منه	>90%	~85%	أول من يتجاوز 90%
AIME 2025 (رياضيات)	100%	96.7% (Gemini 3)	درجة كاملة
FrontierMath T1-3	40.3%	30% (GPT-5.1)	+10%
GDPval (العمل المعرفي)	70.9%	—	يتفوق على الخبراء
SWE-Bench Pro (البرمجة)	55.6%	51% (GPT-5.1)	+4.6%
Tau2 Telecom (استخدام الأدوات)	98.7%	~95%	شبه مثالي

تستحق نتيجة GDPval الانتباه: أنتج GPT-5.2 Thinking نتائج بأكثر من 11 ضعف السرعة وأقل من 1% من التكلفة مقارنة بالمحترفين البشريين الخبراء في 44 مهنة.⁵

لماذا هذا مهم

ارتفاع الطلب على الاستدلال

تتطلب نافذة السياق بـ 400 ألف رمز ذاكرة كبيرة لكل طلب. استدلال واحد بالسياق الكامل يستهلك ذاكرة GPU أكثر بكثير من نماذج 128 ألف السابقة. يجب على المزودين التخطيط لـ:⁶

توسيع الذاكرة: 3 أضعاف+ الذاكرة لكل طلب مقابل سياق 128 ألف
تقليل حجم الدفعة: طلبات متزامنة أقل لكل GPU
نمو ذاكرة KV: طول السياق × حجم الدفعة = متطلبات ضخمة لذاكرة KV

تحول هيكل التكلفة

يعكس ارتفاع السعر بمقدار 1.4 ضعف عن GPT-5.1 كثافة الحوسبة الفعلية:⁷

النموذج	تكلفة الإدخال	تكلفة الإخراج	النسبة إلى 5.1
GPT-5.1	1.25$/مليون	10$/مليون	1.0x
GPT-5.2	1.75$/مليون	14$/مليون	1.4x

بالنسبة لعمليات الاستدلال عالية الحجم، يمثل هذا زيادة بنسبة 40% في التكلفة الإجمالية للملكية لأعباء العمل المكافئة.

أتمتة العمل المهني

أداء GPT-5.2 في GDPval—التغلب على الخبراء في 70.9% من المهام بأقل من 1% من التكلفة—يخلق طلباً فورياً للنشر المؤسسي. تحتاج المنظمات التي تسعى لهذه القدرات إلى بنية تحتية للاستدلال قادرة على التعامل مع:⁸

سلاسل الاستدلال الموسعة (نسخة Pro)
معالجة المستندات ذات السياق الطويل
استدعاءات الأدوات الموثوقة (98.7% Tau2)

التفاصيل التقنية

الهندسة المعمارية

لم تكشف OpenAI عن تغييرات معمارية محددة، لكن أنماط المعايير تشير إلى:⁹

قدرات استدلال معززة (FrontierMath +10%)
دقة محسنة للسياق الطويل (استرجاع 256 ألف رمز)
موثوقية أفضل في استخدام الأدوات (Tau2 98.7%)

متطلبات الاستدلال

تقديم GPT-5.2 على نطاق واسع يتطلب مراعاة:¹⁰

العامل	GPT-5.1	GPT-5.2	التأثير
نافذة السياق	200 ألف	400 ألف	ضعف الذاكرة لكل طلب
أقصى إخراج	64 ألف	128 ألف	ضعف وقت التوليد
عمق الاستدلال	قياسي	موسع (Pro)	زمن استجابة متغير
استدعاءات الأدوات	95%	98.7%	تنسيق أكثر تعقيداً

السياق التنافسي

يستعيد GPT-5.2 بعض المعايير من Gemini 3 لكن ليس جميعها:¹¹

المعيار	الرائد	الدرجة
GPQA Diamond	Gemini 3 Deep Think	93.8%
AIME 2025	GPT-5.2 Thinking	100%
SWE-bench Verified	Gemini 3 Pro	76.2%
Humanity's Last Exam	Gemini 3	في الصدارة
GDPval	GPT-5.2 Thinking	70.9%

يوضح الإيقاع السريع للإطلاق—GPT-5.2 بعد 11 يوماً فقط من Gemini 3—ضغط البنية التحتية للاستدلال الذي تواجهه كلتا الشركتين.

ما التالي

المدى القريب (الربع الأول 2026)

GPT-5.2 Mini قادم على الأرجح (لا توجد نسخة Mini عند الإطلاق)
توسيع طرح API للمؤسسات
مزودو الاستدلال من الأطراف الثالثة يضيفون الدعم

تأثيرات البنية التحتية

يجب على المنظمات التي تخطط لنشر GPT-5.2:¹²

تقييم سعة الذاكرة: سياق 400 ألف يتطلب 3 أضعاف+ الذاكرة مقابل نماذج 128 ألف
التخطيط لذاكرة KV: توسيع ذاكرة CXL يصبح أكثر أهمية
وضع ميزانية للحوسبة: زيادة التكلفة بمقدار 1.4 ضعف حقيقية
النظر في النهج الهجينة: توجيه المهام الأبسط إلى نماذج أرخص

للحصول على نشر البنية التحتية للاستدلال التي تدعم النماذج الحدودية، تواصل مع Introl.

المراجع

FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." ديسمبر 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ ↩
LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." ديسمبر 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 ↩
OpenAI. "Introducing GPT-5.2." 11 ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2/ ↩
DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." ديسمبر 2025. https://www.datacamp.com/blog/gpt-5-2 ↩
Vellum. "GPT-5.2 Benchmarks (Explained)." ديسمبر 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks ↩
Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." ديسمبر 2025. https://blog.galaxy.ai/model/gpt-5-2 ↩
Simon Willison. "GPT-5.2." 11 ديسمبر 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ ↩
OpenAI. "GPT-5.2 System Card." ديسمبر 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf ↩
OpenAI. "Introducing GPT-5.2-Codex." ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2-codex/ ↩
IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." ديسمبر 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 ↩
LM Council. "AI Model Benchmarks Dec 2025." ديسمبر 2025. https://lmcouncil.ai/benchmarks ↩
Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." ديسمبر 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ ↩

GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

ملخص

ماذا حدث

أداء المعايير

لماذا هذا مهم

ارتفاع الطلب على الاستدلال

تحول هيكل التكلفة

أتمتة العمل المهني

التفاصيل التقنية

الهندسة المعمارية

متطلبات الاستدلال

السياق التنافسي

ما التالي

المدى القريب (الربع الأول 2026)

تأثيرات البنية التحتية

المراجع

You Might Also Like

إنفاق Hyperscaler الرأسمالي يصل إلى 600 مليار دولار في 2026:...

رهان مايكروسوفت بقيمة 60 مليار دولار على السحابات الجديدة: ك...

DeepSeek V3.2 يتفوق على GPT-5 في معايير النخبة: ماذا يعني صع...

طلب عرض سعر_

تم استلام الطلب_