DeepSeek V3.2 يتفوق على GPT-5 في المعايير النخبوية: ماذا يعني صعود الذكاء الاصطناعي الصيني للبنية التحتية
10 ديسمبر 2025 بقلم بليك كروسلي
كشفت شركة DeepSeek الصينية عن نموذجين جديدين للذكاء الاصطناعي في الأول من ديسمبر 2025، حيث حقق نموذج DeepSeek-V3.2-Speciale نتائج نخبوية في المسابقات: مستوى الميدالية الذهبية في الأولمبياد الدولي للرياضيات 2025 (35/42 نقطة)، والمركز العاشر في الأولمبياد الدولي للمعلوماتية (492/600 نقطة)، والمركز الثاني في نهائيات ICPC العالمية.[^1] على صعيد الأداء المعياري، حقق إصدار Speciale معدل نجاح 96.0% في اختبار AIME مقارنة بـ 94.6% لـ GPT-5-High و95.0% لـ Gemini-3.0-Pro.[^2] أُطلق كلا النموذجين مجاناً ومفتوحي المصدر بموجب رخصة Apache 2.0، متحديةً الافتراضات حول متطلبات الحوسبة لقدرات الذكاء الاصطناعي الرائدة.
يمثل هذا الإطلاق لحظة فارقة في الجغرافيا السياسية للذكاء الاصطناعي. فقد أنتج مختبر صيني يعمل تحت قيود التصدير الأمريكية للرقائق نماذج تضاهي أو تتفوق على الأنظمة الأمريكية الرائدة في مهام الاستدلال النخبوية. يثير هذا الإنجاز تساؤلات حول العلاقة بين الاستثمار في البنية التحتية وقدرات الذكاء الاصطناعي، مع تداعيات على المؤسسات التي تخطط لشراء وحدات GPU والبنية التحتية للتدريب.
تحليل الأداء المعياري
أظهر DeepSeek-V3.2-Speciale أداءً استثنائياً عبر معايير الرياضيات والبرمجة، مما وضعه ضمن أفضل ثلاثة نماذج رائدة عالمياً.
في بطولة هارفارد-MIT للرياضيات، سجّل إصدار Speciale نسبة 99.2%، متفوقاً على Gemini بنسبة 97.5%.[^3] يُعد اختبار AIME—وهو امتحان مدته 75 دقيقة يتضمن 15 مسألة لقياس البصيرة الرياضية بدلاً من الحساب—أحد أصعب معايير الاستدلال للذكاء الاصطناعي. تضع نسبة 96% النموذج في مستوى أفضل 50 متسابقاً في الأولمبياد الرياضي عالمياً.[^4]
تفسر البنية الأساسية السبب. يعتمد DeepSeek V3.2 على إطار عمل Mixture-of-Experts (MoE) بـ 685 مليار معامل مع تفعيل 37 مليار معامل لكل رمز.[^5] يعني تصميم MoE أن النموذج يمتلك سعة معرفية لنموذج 685 مليار لكن بتكلفة استدلال نموذج 37 مليار—ميزة كفاءة حاسمة تمكّن من التدريب والنشر على أجهزة محدودة.
يستهدف إصدار DeepSeek-V3.2 القياسي حالات استخدام مساعد الاستدلال اليومي مع توازن بين القدرة والكفاءة. أما إصدار Speciale—وهو تكوين عالي الحوسبة مع سلاسل استدلال ممتدة—فيمثل إصدار القدرة القصوى المُحسَّن للأداء المعياري النخبوي بدلاً من كفاءة التكلفة.[^6] أشارت DeepSeek إلى أن نقطة نهاية API لـ Speciale تنتهي في 15 ديسمبر 2025، مما يعكس التكلفة الحوسبية الهائلة لتشغيل النموذج على نطاق واسع.
يضيف كلا النموذجين قدرات للجمع بين الاستدلال وتنفيذ إجراءات معينة بشكل مستقل، مما يشير إلى قدرات وكيلة إلى جانب الأداء المعياري الخام.[^7] يضع هذا المزيج نماذج DeepSeek للتطبيقات العملية بما يتجاوز المعايير الأكاديمية.
تداعيات كفاءة البنية التحتية
يتحدى إنجاز DeepSeek الافتراضات حول متطلبات الحوسبة للذكاء الاصطناعي الرائد—ويوفر دروساً ملموسة لتخطيط البنية التحتية.
اختراق كفاءة التدريب
درّبت DeepSeek نموذج V3 على 2,048 وحدة NVIDIA H800 GPU—الإصدار المقيد للتصدير من H100 مع سرعات interconnect منخفضة—في 2.788 مليون ساعة GPU فقط بتكلفة حوسبة تقارب 5.6 مليون دولار.[^8] للمقارنة، تطلب Llama 3 405B نحو 30.8 مليون ساعة GPU للتدريب—11 ضعف الحوسبة لنموذج أصغر.[^9]
تأتي الكفاءة من ثلاثة ابتكارات رئيسية:
تدريب FP8 بدقة مختلطة. قادت DeepSeek تدريب FP8 (8-bit) على نطاق واسع، مما قلل متطلبات الذاكرة مع الحفاظ على الدقة. كان V3 أول نموذج LLM مفتوح يُدرَّب باستخدام FP8، مما يثبت صحة التقنية للنماذج الكبيرة جداً.[^10]
كفاءة الحوسبة لكل رمز. درّبت DeepSeek نموذج V3 بـ 250 GFLOPs لكل رمز، مقارنة بـ 394 GFLOPs لكل رمز لـ Qwen 2.5 72B و2,448 GFLOPs لكل رمز لـ Llama 3.1 405B.[^11] تُظهر فجوة الكفاءة 10 أضعاف مقابل Llama أن الابتكار الخوارزمي يمكن أن يحل محل الحوسبة الخام.
Multi-head Latent Attention (MLA). تقلل هذه البنية متطلبات عرض نطاق الذاكرة أثناء الاستدلال، مما يمكّن من النشر على أجهزة قد تكون غير كافية بخلاف ذلك.
ماذا يعني هذا لقرارات الشراء
تحمل فجوة الكفاءة تداعيات مباشرة على شراء GPU:
شكّك في افتراضات المجموعات الكبيرة. إذا حققت DeepSeek أداءً رائداً بـ 2,048 وحدة H800، فيجب على المؤسسات التي تخطط لمجموعات تتجاوز 10,000 وحدة GPU التحقق من افتراضات كفاءتها. قد تقدم المجموعات الأصغر المُحسَّنة جيداً قدرة مكافئة.
استثمر في خبرة البنية التحتية للتدريب. تشير الفجوة بين كفاءة DeepSeek ونهج المختبرات الغربية إلى أن منهجية التدريب مهمة بقدر أهمية الأجهزة. يجب على المؤسسات تخصيص ميزانية لمواهب هندسة ML إلى جانب شراء GPU.
خطط للتحسينات السريعة في الكفاءة. تخاطر دورات الشراء من 12-18 شهراً بالتقادم مع تحسن كفاءة التدريب. ضع في اعتبارك التزامات أقصر أو ترتيبات سحابية مرنة بدلاً من عمليات شراء رأسمالية كبيرة مرتبطة بالافتراضات الحالية.
سياق قيود التصدير
تحد قيود تصدير الرقائق الأمريكية من وصول الصين إلى أكثر وحدات GPU تقدماً من NVIDIA بما في ذلك بنيات H100 وBlackwell. طورت DeepSeek نموذج V3.2 باستخدام H800—التي تحتفظ بقدرة حوسبة كاملة لكن مع سرعات NVLink interconnect منخفضة—محققةً أداءً رائداً دون الوصول إلى أجهزة رائدة.
يُظهر هذا الإنجاز أن قيود عرض نطاق interconnect يمكن التغلب عليها جزئياً من خلال الابتكار الخوارزمي. لا يمكن للمؤسسات افتراض أن المزيد من وحدات GPU ينتج تلقائياً نماذج أفضل. كفاءة التدريب والابتكار المعماري والتحسين مهمة إلى جانب الحوسبة الخام.
اقتصاديات النماذج المفتوحة: مقارنات تكلفة ملموسة
أُطلق كلا نموذجي DeepSeek-V3.2 مجاناً ومفتوحين، مما يخلق مزايا تكلفة صارخة للمؤسسات التي تمتلك بنية تحتية GPU.
مقارنة أسعار API: - GPT-5 Standard: 1.25 دولار/مليون رمز إدخال، 10 دولار/مليون رمز إخراج[^12] - Claude Opus 4.1: 15 دولار/مليون رمز إدخال، 75 دولار/مليون رمز إخراج[^13] - DeepSeek V3.2-Exp: 0.028 دولار/مليون رمز إدخال[^14]
تعني فجوة التسعير 45-500 ضعف أن المؤسسات التي تشغل أحمال استدلال عالية الحجم يمكنها تحقيق تخفيضات هائلة في التكلفة من خلال الاستضافة الذاتية لـ DeepSeek بدلاً من استخدام واجهات API الاحتكارية.
متطلبات الاستضافة الذاتية: يتطلب تشغيل النموذج الكامل 685 مليار حوالي 700GB VRAM بدقة FP8، وهو قابل للتحقيق مع 8-10 وحدات NVIDIA H100 (80GB) GPU.[^15] تقلل الإصدارات المُكمَّمة 4-bit هذا إلى ~386GB، مما يمكّن من النشر على 5-6 وحدات H100 أو تكوينات مكافئة.[^16]
للمؤسسات التي تشغل بالفعل مجموعات GPU لأحمال عمل AI أخرى، يمثل إضافة استدلال DeepSeek تكلفة هامشية مقابل رسوم الرمز الكبيرة للبدائل الاحتكارية.
تحول المشهد التنافسي
شهد نوفمبر 2025 إطلاقات مركزة لنماذج رائدة من المختبرات الكبرى، مع إضافة DeepSeek للمنافسة الصينية إلى المشهد المتمحور حول الولايات المتحدة.
إطلاقات النماذج الأمريكية الرائدة
كان نوفمبر 2025 مزدحماً للغاية بالإطلاقات، حيث أُطلقت GPT-5.1 وGrok 4.1 وGemini 3 Pro وClaude Opus 4.5 جميعها في غضون ستة أيام من بعضها البعض.[^17] يتفوق Claude Opus 4.5، النموذج الأكثر ذكاءً من Anthropic، في البرمجة والمهام الوكيلة.[^18] يهيمن Gemini 3 Pro على معايير الاستدلال بدرجة 86.4 في GPQA، بينما يتصدر Claude Opus 4.5 معايير البرمجة بنسبة 72.5% في SWE-bench.[^19]
يُظهر إطلاق DeepSeek في ديسمبر أن المختبرات الصينية يمكنها مجاراة هذه الوتيرة من التطوير الرائد رغم قيود الأجهزة. يشمل سباق الذكاء الاصطناعي العالمي الآن منافسة حقيقية من الصين على القدرة، وليس فقط نطاق النشر.
التداعيات الجيوسياسية
تؤثر قدرات الذكاء الاصطناعي الصينية الرائدة على نقاشات السياسة الأمريكية حول قيود التصدير والسيادة الحوسبية والريادة في الذكاء الاصطناعي. افترض صانعو السياسات أن قيود الأجهزة ستبطئ تطوير الذكاء الاصطناعي الصيني؛ يشير إنجاز DeepSeek إلى حدود هذه الاستراتيجية.
يجب على المؤسسات توقع استمرار تطور السياسات مع استجابة الحكومات للديناميكيات التنافسية المتغيرة. قد تتشدد قيود التصدير أو تتوسع لفئات جديدة أو تواجه إعادة نظر مع التشكيك في فعاليتها. يجب أن يراعي تخطيط الشراء عدم اليقين السياسي.
إطار القرار: البناء أم الشراء أم الانتظار؟
يعيد إطلاق DeepSeek تشكيل حسابات البناء مقابل الشراء لقدرات الذكاء الاصطناعي. إليك كيفية التفكير في القرار:
| السيناريو | التوصية | المبرر |
|---|---|---|
| إنفاق API أقل من 10 آلاف دولار/شهر | استمر مع APIs | تكاليف الاستضافة الذاتية تتجاوز الوفورات |
| 10-50 ألف دولار/شهر، حمل متغير | نهج هجين | استخدم APIs للذروات، والمملوك للأساس |
| أكثر من 50 ألف دولار/شهر، حمل ثابت | قيّم الاستضافة الذاتية | عائد استثمار قابل للتحقيق في 6-12 شهراً |
| تدريب نماذج مخصصة | امتلك البنية التحتية | التحكم في تحسين الكفاءة |
يفترض الإطار أسعار GPU للجيل الحالي. مع تحسن توفر H100 ودخول H200/B200 إلى السوق، ستتحول اقتصاديات الاستضافة الذاتية أكثر لصالح البنية التحتية المملوكة.
ماذا يعني هذا لتخطيط البنية التحتية
يحمل إنجاز DeepSeek عدة تداعيات قابلة للتنفيذ للمؤسسات التي تخطط للبنية التحتية للذكاء الاصطناعي.
الكفاءة فوق الحجم
يهم عدد GPU الخام أقل من كفاءة التدريب لتحقيق قدرات الذكاء الاصطناعي. يجب على المؤسسات الاستثمار في تحسين البنية التحتية للتدريب إلى جانب شراء الأجهزة. يتفوق الجمع بين الأجهزة الجيدة ونهج التدريب الجيدة على الأجهزة الممتازة مع التدريب الساذج.
خطوة عملية: قبل الالتزام بطلبات GPU كبيرة، استعن بمستشاري هندسة ML لتدقيق كفاءة التدريب. قد يقلل تحسين الكفاءة 2-3 أضعاف حجم المجموعة المطلوبة بشكل متناسب.
قد تحقق الشراكات البحثية واستثمارات المواهب الهندسية قدرة أكبر لكل دولار مقارنة بشراء GPU إضافي. يجب على المؤسسات موازنة استثمارات الأجهزة ورأس المال البشري بناءً على استراتيجية تطوير الذكاء الاصطناعي الخاصة بها.
البنية التحتية لنشر النماذج المفتوحة
تغير النماذج الرائدة المجانية والمفتوحة متطلبات البنية التحتية. بدلاً من التحسين لزمن استجابة API وإدارة تكاليف كل رمز، يجب على المؤسسات النظر في البنية التحتية للاستدلال للنشر المستضاف ذاتياً. تتحول اقتصاديات البنية التحتية من نفقات تشغيلية إلى استثمار رأسمالي.
خطوة عملية: احسب إنفاقك الحالي على API. إذا تجاوز 50,000 دولار/شهر على الاستدلال، قيّم اقتصاديات الاستضافة الذاتية. تكلف مجموعة 8-GPU H100 حوالي 250,000-300,000 دولار لكنها تلغي رسوم كل رمز إلى أجل غير مسمى.
تصبح مجموعات GPU المُحجَّمة للاستدلال بدلاً من التدريب أكثر قيمة مع تحسن النماذج المفتوحة. قد تحقق المؤسسات اقتصاديات أفضل بتشغيل الاستدلال على البنية التحتية المملوكة بدلاً من دفع هوامش API لمزودي النماذج.
اعتبارات التنويع
يخلق الاعتماد على مزودي نماذج فرديين مخاطر مع تطور الديناميكيات التنافسية. يجب على المؤسسات تصميم أنظمة تقبل نماذج من مزودين متعددين، مما يمكّن من التبني السريع للقدرات الناشئة. يُظهر إطلاق DeepSeek أن ريادة القدرات تتحول بشكل غير متوقع.
خطوة عملية: طبّق طبقات تجريد النماذج (LiteLLM أو OpenRouter أو التوجيه المخصص) التي تمكّن من التبديل بين المزودين دون تغييرات في التطبيق.
يدعم 550 مهندساً ميدانياً من Introl المؤسسات في تنفيذ بنية تحتية مرنة للذكاء الاصطناعي تتكيف مع الديناميكيات التنافسية.[^20] احتلت الشركة المرتبة 14 في قائمة Inc. 5000 لعام 2025 بنمو 9,594% على مدى ثلاث سنوات.[^21]
تتطلب البنية التحتية عبر 257 موقعاً عالمياً قابلية للتكيف مع تطور مشهد الذكاء الاصطناعي.[^22] يضمن الدعم المهني أن تظل استثمارات البنية التحتية قيّمة مع تغير قدرات النماذج واقتصادياتها.
النقاط الرئيسية
لمخططي البنية التحتية: - حققت DeepSeek أداءً بمستوى GPT-5 بحوسبة أقل 11 مرة من Llama 3 405B - تتطلب الاستضافة الذاتية للنماذج الرائدة الآن 8-10 وحدات H100 (~250-300 ألف دولار) مقابل رسوم API تتجاوز 50 ألف دولار/شهر - كفاءة التدريب مهمة بقدر عدد GPU—خصص ميزانية