DeepSeek mHC: الإصلاح المعماري الذي قد يُطلق العنان لنماذج الذكاء الاصطناعي بتريليون معامل
أدى تضخيم الإشارة بمقدار 3000 ضعف إلى تدمير نموذج يحتوي على 27 مليار معامل أثناء التدريب.[^1] راقب باحثو DeepSeek كيف تسببت الاتصالات الفائقة غير المقيدة (Hyper-Connections) في تباعد كارثي، حيث خرجت التدرجات عن السيطرة بشكل لا يمكن استعادته. قد يُعيد الحل الذي طوروه تشكيل الطريقة التي تبني بها الصناعة النماذج الأساسية.
ملخص سريع
نشرت DeepSeek ورقة بحثية تقنية في 31 ديسمبر 2025، تقدم فيها إطار عمل Manifold-Constrained Hyper-Connections (mHC)، وهو إطار يُسقط مصفوفات اتصال الشبكات العصبية على متشعب رياضي (manifold) باستخدام خوارزمية Sinkhorn-Knopp.[^2] يحل هذا النهج مشكلة عدم استقرار التدريب التي ابتليت بها بنى Hyper-Connection السابقة، حيث يتحكم في تضخيم الإشارة عند 1.6 ضعف مقارنة بـ 3000 ضعف مع الطرق غير المقيدة.[^3] أظهر الاختبار على نماذج بحجم 3 مليار و9 مليار و27 مليار معامل تحسناً بنسبة 2.1% في معايير الاستدلال BIG-Bench Hard مع تكلفة تدريب إضافية تبلغ 6.7% فقط.[^4] شارك الرئيس التنفيذي Liang Wenfeng في تأليف الورقة، مما يشير إلى أن mHC سيظهر على الأرجح في النموذج الرائد القادم لـ DeepSeek.
مشكلة الاتصالات المتبقية
تعتمد كل نماذج اللغة الكبرى اليوم على الاتصالات المتبقية (residual connections)، وهي تقنية قُدمت في عام 2015 مع ResNet وغيّرت التعلم العميق بشكل جذري.[^5] يبدو المفهوم بسيطاً: السماح للمعلومات بتجاوز الطبقات عن طريق إضافة المدخلات مباشرة إلى المخرجات، مما يخلق "اتصالات تخطي" تتيح للتدرجات التدفق بسهولة أكبر أثناء التدريب.[^6]
أظهرت ورقة ResNet الأصلية لـ Kaiming He أن الاتصالات المتبقية حلت "مشكلة التدهور" التي أعاقت الشبكات العميقة.[^7] بدون اتصالات التخطي، كانت إضافة المزيد من الطبقات إلى الشبكة تزيد بشكل متناقض من خطأ التدريب. أداء VGGNet بـ 19 طبقة كان أسوأ من AlexNet بـ 8 طبقات في مهام معينة، على الرغم من امتلاكه قدرة أكبر.[^8]
مكّنت الاتصالات المتبقية من تدريب شبكات بمئات الطبقات. أثبتت التقنية أنها أساسية لدرجة أن جميع بنى المحولات (transformer) تتضمن اتصالات متبقية.[^9] يعتمد GPT وBERT وClaude وكل نموذج لغوي كبير آخر على اتصالات التخطي للعمل.[^10]
القيد
يضيف الاتصال المتبقي القياسي المدخلات مباشرة إلى المخرجات بوزن ثابت قدره 1.0. يضمن هذا القيد تدريباً مستقراً لكنه يحد من القدرة التعبيرية. لا تستطيع الشبكة تعلم أن بعض الطبقات يجب أن تساهم أكثر من غيرها أو أن الاتصالات بين الطبقات غير المتجاورة قد تحسن الأداء.[^11]
| البنية | السنة | نوع المتبقي | وزن الاتصال |
|---|---|---|---|
| ResNet | 2015 | تخطي ثابت | 1.0 (ثابت)[^12] |
| Highway Network | 2015 | تخطي مُبوَّب | بوابة مُتعلَّمة (0-1)[^13] |
| DenseNet | 2016 | الكل-إلى-الكل | مساهمة متساوية[^14] |
| Transformer | 2017 | تخطي ثابت | 1.0 (ثابت)[^15] |
| Hyper-Connections | 2024 | عرض متغير | مصفوفات مُتعلَّمة[^16] |
حاول الباحثون إجراء تعديلات مختلفة. أضافت شبكات Highway بوابات قابلة للتعلم للتحكم في تدفق المعلومات.[^17] ربطت DenseNet كل طبقة بكل طبقة لاحقة.[^18] حسّنت هذه الأساليب الأداء لكنها أضافت تكلفة حسابية أو تحديات في التدريب على نطاق واسع.[^19]
Hyper-Connections: الثورة الفاشلة
مثّلت Hyper-Connections (HC)، المقدمة في عام 2024، محاولة طموحة لجعل الاتصالات المتبقية قابلة للتعلم بالكامل.[^20] بدلاً من اتصالات التخطي الثابتة بوزن 1.0، سمحت HC للشبكات العصبية بتعلم قوى اتصال عشوائية بين الطبقات من خلال مصفوفات الأوزان.[^21]
كانت النظرية واعدة. إذا استطاعت الشبكات تعلم أنماط الاتصال المثلى، فقد تكتشف بنى لن يصممها البشر يدوياً أبداً.[^22] أظهرت التجارب المبكرة مكاسب أداء كبيرة على النماذج الأصغر.[^23]
ظهرت المشكلة على نطاق واسع.
عدم الاستقرار الكارثي
عندما حاول باحثو DeepSeek تدريب نموذج بـ 27 مليار معامل مع Hyper-Connections غير مقيدة، تجاوز تضخيم الإشارة 3000 ضعف.[^24] انفجرت التمثيلات الداخلية للشبكة من حيث الحجم، مما تسبب في أن تصبح التدرجات لانهائية وينهار التدريب تماماً.[^25]
يتمحور التفسير الرياضي حول القيم الذاتية (eigenvalues). عندما تتضاعف المصفوفات العشوائية معاً عبر مئات الطبقات، فإن أي قيمة ذاتية أكبر من 1.0 تسبب نمواً أسياً.[^26] في نموذج بـ 27 مليار معامل مع مصفوفات اتصال غير مقيدة، تقترب احتمالية بقاء جميع القيم الذاتية أقل من 1.0 من الصفر.[^27]
| حجم النموذج | كسب إشارة HC | نتيجة التدريب |
|---|---|---|
| 3 مليار معامل | ~50 ضعف | اكتمل مع تدهور في الأداء[^28] |
| 9 مليار معامل | ~300 ضعف | اكتمل مع عدم استقرار كبير[^29] |
| 27 مليار معامل | ~3000 ضعف | تباعد كارثي[^30] |
تم تدمير خاصية تعيين الهوية التي جعلت الاتصالات المتبقية تعمل.[^31] تحافظ الاتصالات المتبقية القياسية على حجم الإشارة عن طريق إضافة المدخلات إلى المخرجات. كسرت المصفوفات العشوائية لـ Hyper-Connections هذا الضمان، وضخّمت النماذج الأكبر المشكلة بشكل أسي.[^32]
حل mHC
يعالج إطار عمل Manifold-Constrained Hyper-Connections من DeepSeek عدم الاستقرار عن طريق تقييد مصفوفات الاتصال ببنية رياضية محددة.[^33] بدلاً من السماح بمصفوفات متعلمة عشوائية، يُسقط mHC الاتصالات على Birkhoff Polytope، فضاء المصفوفات المزدوجة العشوائية (doubly stochastic matrices).[^34]
المصفوفة المزدوجة العشوائية لها صفوف وأعمدة يساوي مجموع كل منها 1.0.[^35] يضمن هذا القيد أن حجم الإشارة لا يمكن أن ينمو أو يتقلص مع مرور المعلومات عبر الشبكة.[^36] تعود خاصية تعيين الهوية، لكن مع مرونة متعلمة حول كيفية توجيه المعلومات بين الطبقات.[^37]
خوارزمية Sinkhorn-Knopp
يتطلب تحويل المصفوفات العشوائية إلى شكل مزدوج عشوائي خوارزمية Sinkhorn-Knopp، وهي إجراء تكراري طُوِّر في عام 1967 لتطبيع المصفوفات.[^38] تتناوب الخوارزمية بين تطبيع الصفوف وتطبيع الأعمدة حتى التقارب.[^39]
المدخل: مصفوفة A غير سالبة
كرر:
1. طبّع كل صف ليكون مجموعه 1
2. طبّع كل عمود ليكون مجموعه 1
حتى التقارب
المخرج: مصفوفة مزدوجة عشوائية
يستخدم تنفيذ DeepSeek 20 تكراراً من تطبيع Sinkhorn-Knopp، والذي أظهرت النتائج التجريبية أنه يوفر دقة كافية دون حسابات مفرطة.[^40] تتكامل الخوارزمية في حلقة التدريب، مُسقطةً أوزان الاتصال المتعلمة على Birkhoff Polytope في كل خطوة.[^41]
تحسين البنية التحتية
سيضيف تطبيع Sinkhorn-Knopp الخام تكلفة غير مقبولة للتدريب. طوّر مهندسو DeepSeek عدة تحسينات لجعل mHC عملياً على نطاق واسع.[^42]
دمج النواة (Kernel Fusion): تندمج عمليات التطبيع المتعددة في استدعاءات نواة GPU واحدة، مما يلغي تكلفة نقل الذاكرة بين العمليات.[^43]
الدقة المختلطة (Mixed Precision): تتيح نوى TileLang حساب FP8 فعال لعمليات المصفوفات مع الحفاظ على دقة FP32 لخطوات التطبيع الحساسة رقمياً.[^44]
إعادة الحساب الانتقائية (Selective Recomputation): بدلاً من تخزين جميع القيم الوسيطة، يعيد النظام حساب موترات معينة أثناء التمرير الخلفي، مستبدلاً الحساب بالذاكرة.[^45]
تداخل اتصالات DualPipe: يتداخل تدريب GPU المتعدد حساب Sinkhorn-Knopp مع الاتصال بين الأجهزة، مخفياً زمن انتقال التطبيع.[^46]
| التحسين | تخفيض التكلفة |
|---|---|
| دمج النواة | ~40% تخفيض في زمن الانتقال[^47] |
| الدقة المختلطة | ~30% تخفيض في الذاكرة[^48] |
| إعادة الحساب الانتقائية | ~25% تخفيض في الذاكرة[^49] |
| تداخل الاتصالات | ~50% زمن انتقال مخفي[^50] |
تخفض التحسينات المجمعة تكلفة تدريب mHC إلى 6.7% فوق خط الأساس، مما يجعل التقنية قابلة للتطبيق للتدريب على نطاق الإنتاج.[^51]
النتائج التجريبية
اختبرت DeepSeek mHC مقابل بنى خط الأساس وHyper-Connections غير المقيدة عبر ثلاثة أحجام نماذج: 3 مليار و9 مليار و27 مليار معامل.[^52] استخدمت جميع النماذج بنية DeepSeek-V3 كأساس، مع دمج مكونات Multi-Head Latent Attention (MLA) وMixture-of-Experts (MoE).[^53]
استقرار التدريب
ظهر التحسن الأكثر دراماتيكية في مقاييس استقرار التدريب. تتتبع قياسات كسب الإشارة مقدار نمو التمثيلات الداخلية مع مرور المعلومات عبر الشبكة.[^54]
| النموذج | خط الأساس | HC | mHC |
|---|---|---|---|
| كسب إشارة 3B | 1.2 ضعف | 48 ضعف | 1.5 ضعف[^55] |
| كسب إشارة 9B | 1.3 ضعف | 287 ضعف | 1.6 ضعف[^56] |
| كسب إشارة 27B | 1.4 ضعف | 3012 ضعف | 1.6 ضعف[^57] |
حافظت النماذج المدربة بـ mHC على مكاسب إشارة قريبة من المثالي النظري 1.0 ضعف بغض النظر عن حجم النموذج.[^58] أظهرت Hyper-Connections غير المقيدة عدم استقرار متزايد أسياً مع الحجم، بينما أظهر mHC سلوكاً متسقاً من 3 مليار إلى 27 مليار معامل.[^59]
أداء المعايير
ظهرت تحسينات الأداء عبر معايير التركيز على الاستدلال حيث تُظهر التطورات المعمارية عادةً أكبر المكاسب.[^60]
| المعيار | خط الأساس | mHC | التحسن |
|---|---|---|---|
| BIG-Bench Hard (27B) | 43.8% | 51.0% | +7.2 نقطة[^61] |
| DROP | 78.2% | 81.4% | +3.2 نقطة[^62] |
| GSM8K | 82.1% | 84.9% | +2.8 نقطة[^63] |
| MMLU | 79.4% | 80.8% | +1.4 نقطة[^64] |
ظهرت أكبر التحسينات في BIG-Bench Hard، وهو معيار مصمم خصيصاً لاختبار الاستدلال المعقد متعدد الخطوات.[^65] أظهر DROP، الذي يتطلب استدلالاً رقمياً على فقرات طويلة، ثاني أكبر مكسب.[^66] أظهر الاستدلال الرياضي GSM8K والمعرفة العامة MMLU تحسينات أصغر ولكن متسقة.[^67]
كفاءة التدريب
على الرغم من حسابات Sinkhorn-Knopp الإضافية، أضاف mHC 6.7% فقط تكلفة إضافية لإجمالي وقت التدريب.[^68] ظلت التكلفة الإضافية ثابتة عبر أحجام النماذج، مما يشير إلى أن التقنية تتوسع بكفاءة حتى لنماذج أكبر.[^69]
| حجم النموذج | وقت التدريب (خط الأساس) | وقت التدريب (mHC) | التكلفة الإضافية |
|---|---|---|---|
| 3B | 100 ساعة | 106.5 ساعة | 6.5%[^70] |
| 9B | 280 ساعة | 298.8 ساعة | 6.7%[^71] |
| 27B | 840 ساعة | 896.3 ساعة | 6.7%[^72] |
أظهرت منحنيات الخسارة أن mHC حقق خسارة نهائية أقل من كل من نهج خط الأساس وHC.[^73] حقق نموذج mHC 27B خسارة نهائية أقل بـ 0.021 من خط الأساس، وهو ما يُترجم مباشرة إلى تحسينات المعايير الملاحظة.[^74]
الآثار على تطوير النماذج الأساسية
شارك الرئيس التنفيذي لـ DeepSeek Liang Wenfeng في تأليف ورقة mHC، إشارة إلى أن التقنية ستظهر على الأرجح في النموذج الرائد القادم للشركة.[^75] يتوقع المحللون أن يتضمن إما DeepSeek R2 أو V4 بنية mHC، مع احتمال إطلاقه خلال السنة الصينية الجديدة في فبراير 2026.[^76]
تمتد الآثار الأوسع إلى ما هو أبعد من DeepSeek. يعالج mHC قيداً أساسياً حدّ من الابتكار المعماري في نماذج اللغة الكبيرة. على مدى العقد الماضي، تجنب الباحثون إلى حد كبير تعديل الاتصالات المتبقية لأن أي تغيير يكسر تعيين الهوية تسبب في عدم استقرار التدريب على نطاق واسع.[^77]
إطلاق العنان للابتكار المعماري
يُثبت mHC أن أنماط الاتصال القابلة للتعلم يمكن أن تعمل على نطاق واسع عند تقييدها بشكل صحيح.[^78] يحافظ إسقاط Birkhoff Polytope على الخصائص الرياضية التي تجعل التدريب مستقراً مع السماح للشبكات باكتشاف أنماط توجيه المعلومات المثلى.[^79]
تشمل اتجاهات البحث المستقبلية التي فتحها mHC:
قوى اتصال خاصة بالطبقة: يمكن للنماذج أن تتعلم أن الطبقات المبكرة تستفيد من اتصالات تخطي أقوى بينما تحتاج الطبقات الأعمق إلى أنماط توجيه مختلفة.[^80]
اتصالات ديناميكية: يمكن أن تتغير أنماط الاتصال بناءً على محتوى المدخلات، لتوجيه أنواع مختلفة من المعلومات عبر مسارات مختلفة.[^81]
تعديلات الانتباه المتقاطع: يمكن أن يمتد إطار عمل mHC إلى آليات الانتباه، مما قد يحسن كيفية دمج النماذج للمعلومات عبر مواضع التسلسل.[^82]
آثار تكلفة التدريب
أثبتت DeepSeek سجلاً حافلاً في تدريب
[تم اقتطاع المحتوى للترجمة]