GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

حقق GPT-5.2 من OpenAI 93.2% في GPQA Diamond و100% في AIME و70.9% في GDPval. نافذة السياق بـ 400 ألف رمز تدفع متطلبات جديدة للبنية التحتية للاستدلال.

GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

GPT-5.2: أول نموذج يتجاوز 90% في ARC-AGI يغير حسابات الاستدلال

1 يناير 2026

تحديث يناير 2026: أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، محققة درجات معيارية تعيد تعريف ما هو ممكن في العمل المعرفي المهني. يتفوق النموذج على الخبراء البشريين في 70.9% من مهام GDPval بسرعة 11 ضعفاً وبأقل من 1% من التكلفة.


ملخص

يتجاوز GPT-5.2 عتبات القدرة الحرجة: أول نموذج فوق 90% على ARC-AGI-1، و100% مثالي على AIME 2025، و40.3% على FrontierMath (تحسن بنسبة 10% عن 5.1). نافذة السياق بـ 400 ألف رمز و128 ألف رمز للمخرجات تخلق طلبات جديدة على البنية التحتية. بالنسبة لمزودي الاستدلال، يشير ارتفاع السعر بمقدار 1.4 ضعف إلى ثقة OpenAI—وكثافة الحوسبة المطلوبة لخدمة هذه القدرات.


ماذا حدث

أطلقت OpenAI نموذج GPT-5.2 في 11 ديسمبر 2025، بعد 11 يوماً فقط من إعلانها المزعوم لـ"الكود الأحمر" رداً على هيمنة Google Gemini 3 على المعايير.1

يتضمن الإطلاق نسختين:

النسخة حالة الاستخدام السعر (لكل مليون رمز)
GPT-5.2 الاستخدام العام 1.75$ إدخال / 14$ إخراج
GPT-5.2 Pro الاستدلال الموسع أعلى (مستوى xhigh)

المواصفات الرئيسية:2

  • نافذة السياق: 400,000 رمز
  • أقصى إخراج: 128,000 رمز
  • تاريخ قطع المعرفة: 31 أغسطس 2025 (محدث من سبتمبر 2024)
  • السعر: 1.4 ضعف تكلفة GPT-5.1

بُني GPT-5.2 على بنية Azure التحتية باستخدام وحدات GPU من NVIDIA H100 وH200 وGB200-NVL72.3


أداء المعايير

يسجل GPT-5.2 أرقاماً قياسية جديدة على المعايير المهنية والعلمية والرياضية:4

المعيار درجة GPT-5.2 أفضل سابق التحسن
GPQA Diamond (علوم الدكتوراه) 93.2% 91.9% (Gemini 3) +1.3%
ARC-AGI-1 المتحقق منه >90% ~85% أول من يتجاوز 90%
AIME 2025 (رياضيات) 100% 96.7% (Gemini 3) درجة كاملة
FrontierMath T1-3 40.3% 30% (GPT-5.1) +10%
GDPval (العمل المعرفي) 70.9% يتفوق على الخبراء
SWE-Bench Pro (البرمجة) 55.6% 51% (GPT-5.1) +4.6%
Tau2 Telecom (استخدام الأدوات) 98.7% ~95% شبه مثالي

تستحق نتيجة GDPval الانتباه: أنتج GPT-5.2 Thinking نتائج بأكثر من 11 ضعف السرعة وأقل من 1% من التكلفة مقارنة بالمحترفين البشريين الخبراء في 44 مهنة.5


لماذا هذا مهم

ارتفاع الطلب على الاستدلال

تتطلب نافذة السياق بـ 400 ألف رمز ذاكرة كبيرة لكل طلب. استدلال واحد بالسياق الكامل يستهلك ذاكرة GPU أكثر بكثير من نماذج 128 ألف السابقة. يجب على المزودين التخطيط لـ:6

  • توسيع الذاكرة: 3 أضعاف+ الذاكرة لكل طلب مقابل سياق 128 ألف
  • تقليل حجم الدفعة: طلبات متزامنة أقل لكل GPU
  • نمو ذاكرة KV: طول السياق × حجم الدفعة = متطلبات ضخمة لذاكرة KV

تحول هيكل التكلفة

يعكس ارتفاع السعر بمقدار 1.4 ضعف عن GPT-5.1 كثافة الحوسبة الفعلية:7

النموذج تكلفة الإدخال تكلفة الإخراج النسبة إلى 5.1
GPT-5.1 1.25$/مليون 10$/مليون 1.0x
GPT-5.2 1.75$/مليون 14$/مليون 1.4x

بالنسبة لعمليات الاستدلال عالية الحجم، يمثل هذا زيادة بنسبة 40% في التكلفة الإجمالية للملكية لأعباء العمل المكافئة.

أتمتة العمل المهني

أداء GPT-5.2 في GDPval—التغلب على الخبراء في 70.9% من المهام بأقل من 1% من التكلفة—يخلق طلباً فورياً للنشر المؤسسي. تحتاج المنظمات التي تسعى لهذه القدرات إلى بنية تحتية للاستدلال قادرة على التعامل مع:8

  • سلاسل الاستدلال الموسعة (نسخة Pro)
  • معالجة المستندات ذات السياق الطويل
  • استدعاءات الأدوات الموثوقة (98.7% Tau2)

التفاصيل التقنية

الهندسة المعمارية

لم تكشف OpenAI عن تغييرات معمارية محددة، لكن أنماط المعايير تشير إلى:9

  • قدرات استدلال معززة (FrontierMath +10%)
  • دقة محسنة للسياق الطويل (استرجاع 256 ألف رمز)
  • موثوقية أفضل في استخدام الأدوات (Tau2 98.7%)

متطلبات الاستدلال

تقديم GPT-5.2 على نطاق واسع يتطلب مراعاة:10

العامل GPT-5.1 GPT-5.2 التأثير
نافذة السياق 200 ألف 400 ألف ضعف الذاكرة لكل طلب
أقصى إخراج 64 ألف 128 ألف ضعف وقت التوليد
عمق الاستدلال قياسي موسع (Pro) زمن استجابة متغير
استدعاءات الأدوات 95% 98.7% تنسيق أكثر تعقيداً

السياق التنافسي

يستعيد GPT-5.2 بعض المعايير من Gemini 3 لكن ليس جميعها:11

المعيار الرائد الدرجة
GPQA Diamond Gemini 3 Deep Think 93.8%
AIME 2025 GPT-5.2 Thinking 100%
SWE-bench Verified Gemini 3 Pro 76.2%
Humanity's Last Exam Gemini 3 في الصدارة
GDPval GPT-5.2 Thinking 70.9%

يوضح الإيقاع السريع للإطلاق—GPT-5.2 بعد 11 يوماً فقط من Gemini 3—ضغط البنية التحتية للاستدلال الذي تواجهه كلتا الشركتين.


ما التالي

المدى القريب (الربع الأول 2026)

  • GPT-5.2 Mini قادم على الأرجح (لا توجد نسخة Mini عند الإطلاق)
  • توسيع طرح API للمؤسسات
  • مزودو الاستدلال من الأطراف الثالثة يضيفون الدعم

تأثيرات البنية التحتية

يجب على المنظمات التي تخطط لنشر GPT-5.2:12

  1. تقييم سعة الذاكرة: سياق 400 ألف يتطلب 3 أضعاف+ الذاكرة مقابل نماذج 128 ألف
  2. التخطيط لذاكرة KV: توسيع ذاكرة CXL يصبح أكثر أهمية
  3. وضع ميزانية للحوسبة: زيادة التكلفة بمقدار 1.4 ضعف حقيقية
  4. النظر في النهج الهجينة: توجيه المهام الأبسط إلى نماذج أرخص

للحصول على نشر البنية التحتية للاستدلال التي تدعم النماذج الحدودية، تواصل مع Introl.


المراجع


  1. FlowHunt. "GPT 5.2 Launch and the AI Model Revolution." ديسمبر 2025. https://www.flowhunt.io/blog/gpt-5-2-launch-ai-breakthroughs/ 

  2. LLM Stats. "GPT-5.2: Pricing, Context Window, Benchmarks." ديسمبر 2025. https://llm-stats.com/models/gpt-5.2-2025-12-11 

  3. OpenAI. "Introducing GPT-5.2." 11 ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2/ 

  4. DataCamp. "GPT 5.2: Benchmarks, Model Breakdown, and Real-World Performance." ديسمبر 2025. https://www.datacamp.com/blog/gpt-5-2 

  5. Vellum. "GPT-5.2 Benchmarks (Explained)." ديسمبر 2025. https://www.vellum.ai/blog/gpt-5-2-benchmarks 

  6. Galaxy.ai. "GPT 5.2 Model Specs, Costs & Benchmarks." ديسمبر 2025. https://blog.galaxy.ai/model/gpt-5-2 

  7. Simon Willison. "GPT-5.2." 11 ديسمبر 2025. https://simonwillison.net/2025/Dec/11/gpt-52/ 

  8. OpenAI. "GPT-5.2 System Card." ديسمبر 2025. https://cdn.openai.com/pdf/3a4153c8-c748-4b71-8e31-aecbde944f8d/oai_5_2_system-card.pdf 

  9. OpenAI. "Introducing GPT-5.2-Codex." ديسمبر 2025. https://openai.com/index/introducing-gpt-5-2-codex/ 

  10. IntuitionLabs. "Latest AI Research (Dec 2025): GPT-5, Agents & Trends." ديسمبر 2025. https://intuitionlabs.ai/articles/latest-ai-research-trends-2025 

  11. LM Council. "AI Model Benchmarks Dec 2025." ديسمبر 2025. https://lmcouncil.ai/benchmarks 

  12. Vertu. "AI Model Releases Nov/Dec 2025: Benchmarks & Comparison." ديسمبر 2025. https://vertu.com/lifestyle/the-ai-model-race-reaches-singularity-speed/ 

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING