تصميم طوبولوجيا الشبكات لمجموعات GPU: معماريات Fat-Tree وDragonfly والمحسّنة للقضبان

مواصفات DGX SuperPOD تحدد بنية fat-tree ثلاثية المستويات مع Quantum-2 InfiniBand (400 جيجابت/ثانية). دراسة Meta تكشف أن أخطاء تكوين الشبكة تتسبب في 10.7% من حالات فشل مهام GPU الكبيرة. عرض النطاق الترددي الكامل للتقسيم...

تصميم طوبولوجيا الشبكات لمجموعات GPU: معماريات Fat-Tree وDragonfly والمحسّنة للقضبان

تصميم طوبولوجيا الشبكات لمجموعات GPU: معماريات Fat-Tree وDragonfly والمحسّنة للقضبان

آخر تحديث: 11 ديسمبر 2025

تحديث ديسمبر 2025: مواصفات DGX SuperPOD تحدد بنية fat-tree ثلاثية المستويات مع مفاتيح Quantum-2 InfiniBand بسرعة 400 جيجابت/ثانية لكل منفذ. دراسة Meta تكشف أن أخطاء تكوين الشبكة تتسبب في 10.7% من حالات فشل مهام GPU الكبيرة. عرض النطاق الترددي الكامل للتقسيم ضروري للتدريب الموزع حيث تتغير أنماط الاتصال ديناميكياً. وحدات Google TPU تستخدم طوبولوجيا torus ثلاثية الأبعاد؛ AWS Trainium تستخدم طوبولوجيات محسّنة لأحمال العمل.

تحدد معمارية NVIDIA DGX SuperPOD المرجعية طوبولوجيا شبكة fat-tree ثلاثية المستويات تربط حتى 32 نظام DGX باستخدام مفاتيح Quantum-2 InfiniBand بسرعة 400 جيجابت/ثانية لكل منفذ.[^1] توفر المعمارية عرض نطاق ترددي كامل للتقسيم، مما يعني أن عرض النطاق الترددي الإجمالي بين أي نصفين من المجموعة يساوي إجمالي عرض النطاق الترددي الداخل إلى أي من النصفين. تهيمن طوبولوجيات fat-tree على نشر مجموعات GPU لأنها توفر أداءً متوقعاً بغض النظر عن أزواج GPU المتصلة، وهي خاصية حاسمة للتدريب الموزع حيث تتغير أنماط الاتصال ديناميكياً.

تؤثر خيارات طوبولوجيا الشبكة مباشرة على أداء التدريب والتكلفة والتعقيد التشغيلي. وجدت دراسة Meta أن أخطاء تكوين الشبكة تسببت في 10.7% من حالات فشل المهام الكبيرة في مجموعات GPU الخاصة بهم، مع مساهمة الازدحام المعتمد على الطوبولوجيا في تقلب الأداء.[^2] تستخدم وحدات Google TPU طوبولوجيات torus ثلاثية الأبعاد تتيح اتصالات مباشرة بين المسرّعات المتجاورة، بينما تستخدم مجموعات AWS Trainium طوبولوجيات مختلفة محسّنة لأنماط أحمال العمل الخاصة بها.[^3] يمكّن فهم مقايضات الطوبولوجيا المؤسسات من اختيار المعماريات المناسبة لمتطلبات أحمال العمل المحددة وقيود الميزانية.

أساسيات طوبولوجيا Fat-tree

نشأت طوبولوجيا fat-tree من عمل Charles Leiserson عام 1985 الذي أظهر أن هياكل الشجرة يمكن أن تحقق عرض نطاق ترددي كامل للتقسيم إذا زادت سعة الرابط نحو الجذر.[^4] تستخدم التطبيقات الحديثة روابط متساوية السعة في جميع أنحاء الشبكة، محققة عرض النطاق الترددي الكامل من خلال مسارات متوازية متعددة بدلاً من روابط أكثر سمكاً.

معمارية fat-tree ثلاثية المستويات

تتكون fat-tree ثلاثية المستويات من مفاتيح الأوراق المتصلة بالخوادم، ومفاتيح العمود الفقري التي تجمع حركة مرور الأوراق، ومفاتيح النواة التي توفر اتصالاً كاملاً بين الأعمدة الفقرية.[^5] يتصل كل مفتاح ورقة بكل مفتاح عمود فقري، ويتصل كل عمود فقري بكل مفتاح نواة. تنشئ شبكة الاتصالات مسارات متعددة متساوية التكلفة بين أي خادمين.

توصي NVIDIA بطوبولوجيا fat-tree لمجموعات DGX بسبب خصائص زمن الوصول وعرض النطاق الترددي المتوقعة.[^6] تضمن الطوبولوجيا أن العمليات الجماعية مثل all-reduce تحقق أداءً متسقاً بغض النظر عن موضع GPU. لا تحتاج مهام التدريب إلى مراعاة طوبولوجيا الشبكة عند الجدولة، مما يبسط إدارة المجموعة.

نسب الاشتراك الزائد

يتطلب عرض النطاق الترددي الكامل للتقسيم سعة مفاتيح مكلفة في المستويات العليا. تقبل العديد من عمليات النشر الاشتراك الزائد، حيث يتجاوز إجمالي عرض النطاق الترددي للرابط الصاعد من المستويات الدنيا السعة المتاحة في المستويات العليا.[^7] نسبة اشتراك زائد 2:1 تعني أن نصف حركة المرور فقط يمكن أن تعبر المستويات العليا في وقت واحد.

يناسب الاشتراك الزائد أحمال العمل ذات الموقعية، حيث يحدث معظم الاتصال داخل الحوامل أو الوحدات. ومع ذلك، فإن التدريب الموزع بأنماط اتصال all-to-all يشبع الروابط ذات الاشتراك الزائد، مما يسبب ازدحاماً وتدهوراً في الأداء. تتطلب مجموعات تدريب الذكاء الاصطناعي عادةً تصميمات بدون اشتراك زائد رغم التكلفة الأعلى.[^8]

نصف القطر والتوسع

يحدد نصف قطر المفتاح عدد المنافذ التي يوفرها كل مفتاح، مما يؤثر على كل من الحجم والتكلفة. مفتاح ذو 64 منفذاً يبني fat-tree ثلاثية المستويات مع 32 رابطاً هابطاً و32 رابطاً صاعداً يتوسع إلى 32,768 نقطة نهاية.[^9] تقلل المفاتيح ذات نصف القطر الأعلى عدد المفاتيح المطلوبة لكنها تزيد تكلفة كل مفتاح.

توفر مفاتيح NVIDIA Quantum-2 64 منفذاً بسرعة 400 جيجابت/ثانية، مما يتيح نشر fat-tree واسع النطاق بأعداد مفاتيح معقولة.[^10] يزيد جيل Quantum-X800 القادم سرعات المنافذ إلى 800 جيجابت/ثانية، مضاعفاً عرض النطاق الترددي الإجمالي دون تغيير هيكل الطوبولوجيا.

طوبولوجيا محسّنة للقضبان

ظهرت الطوبولوجيا المحسّنة للقضبان من إدراك أن خوادم GPU تحتوي على وحدات GPU متعددة تتشارك في توصيلات داخلية عالية السرعة. بدلاً من معاملة كل GPU بشكل مستقل، تحاذي التصميمات المحسّنة للقضبان اتصالات الشبكة مع موضع GPU داخل الخوادم.[^11]

فهم قضبان GPU

يحتوي نظام DGX H100 على ثماني وحدات GPU متصلة عبر NVLink، مع اتصال كل GPU أيضاً ببطاقة واجهة شبكة (NIC).[^12] تتوافق البطاقات الثمانية مع ثمانية "قضبان" تمتد عبر المجموعة. القضيب 0 يربط GPU 0 من كل خادم، القضيب 1 يربط GPU 1، وهكذا. يعبر الاتصال داخل القضيب قفزات مفاتيح أقل من الاتصال عبر القضبان.

يربط NVIDIA NVLink Switch وحدات GPU داخل وعبر الخوادم بعرض نطاق ترددي إجمالي 900 جيجابايت/ثانية لكل GPU.[^13] يتعامل نطاق NVLink مع معظم اتصالات GPU إلى GPU، بينما تتعامل شبكة InfiniBand مع الاتصال بين نطاقات NVLink. تحاذي الطوبولوجيا المحسّنة للقضبان مسارات InfiniBand مع نطاقات NVLink لتقليل حركة مرور InfiniBand.

اعتبارات التنفيذ

تتطلب عمليات النشر المحسّنة للقضبان تمديد كابلات دقيق للحفاظ على محاذاة القضبان عبر الحوامل والوحدات.[^14] تكسر الاتصالات الخاطئة موقعية القضيب، مما يجبر حركة المرور على المرور عبر قفزات مفاتيح إضافية. يثبت انضباط إدارة الكابلات أنه ضروري لتحقيق فوائد تحسين القضبان.

تقلل الطوبولوجيا متطلبات المفاتيح مقارنة بـ fat-tree الكاملة بنفس الحجم. تأتي الوفورات من إزالة سعة التبديل عبر القضبان التي نادراً ما تستخدمها أحمال العمل المحسّنة للقضبان.[^15] يجب على المؤسسات التحقق من أن أنماط أحمال العمل الخاصة بها تُظهر فعلاً موقعية القضيب قبل الالتزام بتصميمات محسّنة للقضبان.

طوبولوجيا Dragonfly

تنظم طوبولوجيا Dragonfly المفاتيح في مجموعات مع اتصال كثيف داخل المجموعة وروابط متفرقة بين المجموعات.[^16] يقلل التصميم عدد المفاتيح مقارنة بـ fat-tree مع الحفاظ على أطوال مسارات معقولة بين أي نقطتي نهاية.

هيكل Dragonfly

تتكون dragonfly من مجموعات، تحتوي كل منها على مفاتيح متعددة متصلة بالكامل داخل المجموعة. تربط الروابط العالمية كل مفتاح بمفاتيح في مجموعات أخرى.[^17] أي نقطتي نهاية تتصلان من خلال ثلاث قفزات كحد أقصى: المفتاح المحلي إلى مفتاح المجموعة إلى مفتاح المجموعة البعيدة إلى الوجهة.

يقلل عدد القفزات المنخفض زمن الوصول لعمليات النشر واسعة النطاق. تقلل المفاتيح الأقل تكلفة رأس المال واستهلاك الطاقة. ومع ذلك، توفر dragonfly عرض نطاق ترددي للتقسيم أقل من fat-tree، مما يجعلها أكثر عرضة للازدحام تحت أنماط حركة مرور معينة.[^18]

متطلبات التوجيه التكيفي

يعتمد أداء Dragonfly بشكل كبير على التوجيه التكيفي الذي يوزع حركة المرور عبر المسارات المتاحة.[^19] يركز التوجيه الثابت حركة المرور على روابط محددة، مسبباً ازدحاماً بينما تبقى مسارات أخرى غير مستغلة. يجب على المفاتيح مراقبة استخدام الروابط ونقل حركة المرور ديناميكياً إلى مسارات أقل تحميلاً.

يدعم NVIDIA InfiniBand التوجيه التكيفي المناسب لنشر dragonfly.[^20] تتطلب القدرة تكويناً واختباراً لضمان استجابة خوارزميات التوجيه بشكل مناسب لأنماط حركة مرور أحمال العمل. يمكن للتوجيه التكيفي المكوّن بشكل خاطئ أن يعمل أسوأ من التوجيه الثابت.

حساسية حمل العمل

تناسب Dragonfly أحمال العمل ذات أنماط الاتصال المحلية التي تحافظ على معظم حركة المرور داخل المجموعات.[^21] أحمال العمل التي تولد حركة مرور عشوائية موحدة عبر جميع نقاط النهاية تضغط على الروابط بين المجموعات بما يتجاوز سعتها. تعمل الطوبولوجيا بشكل جيد لخدمة الاستدلال مع تقارب الطلبات ولكنها قد تواجه صعوبات مع التدريب واسع النطاق باستخدام العمليات الجماعية العالمية.

يجب على المؤسسات التي تقيّم dragonfly تحديد أنماط اتصال أحمال العمل المتوقعة قبل النشر. يمكن لأدوات المحاكاة نمذجة الأداء المتوقع تحت حركة مرور واقعية، وتحديد نقاط الازدحام المحتملة التي تتطلب تعديل الطوبولوجيا.[^22]

طوبولوجيات Torus والشبكة

تربط طوبولوجيات Torus العقد في أنماط شبكة منتظمة مع اتصالات التفاف عند الحدود. تستخدم وحدات Google TPU طوبولوجيات torus ثلاثية الأبعاد توفر اتصالات مباشرة بين الجيران دون تبديل.[^23]

الشبكات المباشرة مقابل الشبكات المُبدَّلة

تربط شبكات Torus كل عقدة مباشرة بالجيران، مما يلغي المفاتيح من مسار الاتصال.[^24] يقلل الاتصال المباشر زمن الوصول للاتصال بين الجيران الشائع في العديد من الخوارزميات المتوازية. ومع ذلك، يعبر الاتصال بين العقد البعيدة عقداً وسيطة متعددة، مما يزيد زمن الوصول ويستهلك عرض النطاق الترددي في كل قفزة.

توفر الشبكات المُبدَّلة مثل fat-tree زمن وصول متساوٍ بين أي نقطتي نهاية بغض النظر عن الموضع المادي. يبسط التوحيد البرمجة وموازنة الحمل. تتطلب شبكات Torus وضعاً مدركاً للطوبولوجيا لتقليل مسافات الاتصال.[^25]

اختيار البعد

تقلل طوبولوجيات torus ذات الأبعاد الأعلى القطر (أقصى عدد للقفزات) على حساب زيادة عدد الاتصالات لكل عقدة.[^26] torus ثلاثية الأبعاد مع N عقدة لكل بُعد لها قطر 3N/2، بينما torus ثنائية الأبعاد لها قطر N. يوازن اختيار Google لـ torus ثلاثية الأبعاد بين عدد الاتصالات والقطر.

تؤثر القيود المادية على اختيار البُعد. تُرسم torus ثنائية الأبعاد بشكل طبيعي على صفوف وأعمدة في غرفة الآلات. تتطلب torus ثلاثية الأبعاد إما حوامل مكدسة أو اتصالات تمتد لمسافات كبيرة. يمكن أن تصبح أطوال الكابلات في torus عالية الأبعاد مشكلة على نطاق واسع.[^27]

إطار اختيار الطوبولوجيا

يتطلب اختيار طوبولوجيا الشبكة تقييم خصائص حمل العمل ومتطلبات الحجم وقيود الميزانية والقدرات التشغيلية.

تحليل حمل العمل

تضغط أحمال العمل المختلفة على الشبكات بشكل مختلف. يولد تدريب نماذج اللغة الكبيرة أنماط اتصال all-to-all تتطلب عرض نطاق ترددي عالٍ للتقسيم.[^28] تُظهر خدمة الاستدلال مع التجميع اتصالاً أكثر موقعية داخل مجموعات GPU التي تخدم الطلبات. قد تولد المعالجة المسبقة للبيانات أنماط تبديل مع اتصال عشوائي.

يجب على المؤسسات تحليل أحمال العمل المتوقعة لفهم أنماط الاتصال. تكشف مراقبة مجموعة الإنتاج عن أنماط حركة المرور الفعلية لأحمال العمل الحالية. قد تتطلب أنواع أحمال العمل الجديدة تقديراً بناءً على تحليل الخوارزمية أو إرشادات البائع.

اعتبارات الحجم

قد لا تتطلب المجموعات الصغيرة من عشرات وحدات GPU تحسيناً متطوراً للطوبولوجيا. يوفر مفتاح واحد عالي نصف القطر يربط جميع وحدات GPU اتصالاً كاملاً دون تعقيد متعدد المستويات.[^29] يهم اختيار الطوبولوجيا أكثر للمجموعات التي تمتد لمئات إلى آلاف وحدات GPU حيث تصبح تكاليف التبديل ومسارات الكابلات كبيرة.

يؤثر النمو المستقبلي على اختيار الطوبولوجيا. تتوسع fat-tree بإضافة مفاتيح أوراق وخوادم مع الحفاظ على عرض النطاق الترددي الكامل للتقسيم. تتوسع dragonfly بإضافة مجموعات لكنها قد تتطلب إعادة موازنة الروابط العالمية. يتجنب التخطيط للنمو تغييرات الطوبولوجيا التي تعطل العمليات.[^30]

العوامل الاقتصادية

تختلف تكاليف المفاتيح والكابلات بشكل كبير بين الطوبولوجيات. تتطلب fat-tree مفاتيح أكثر من dragonfly بنفس الحجم. تقلل التصميمات المحسّنة للقضبان تبديل InfiniBand لكنها تتطلب أنظمة NVLink Switch.[^31] يجب أن يشمل تحليل التكلفة الإجمالية المفاتيح والكابلات والبصريات والطاقة والتبريد ومساحة الحامل.

تختلف التكاليف التشغيلية أيضاً. تتطلب الطوبولوجيات المعقدة قدرات مراقبة واستكشاف أخطاء أكثر تطوراً. يضيف تدريب فريق العمليات على الاعتبارات الخاصة بالطوبولوجيا تكلفة. قد تبرر الطوبولوجيات الأبسط مقايضات أداء متواضعة من خلال تقليل العبء التشغيلي.

التنفيذ والنشر

يتطلب تنفيذ طوبولوجيا الشبكة تخطيطاً دقيقاً يشمل البنية التحتية المادية وتكوين التبديل واختبار التحقق.

تخطيط البنية التحتية المادية

تتطلب عمليات نشر الشبكات عالية السرعة تمديد كابلات منظم يدعم آلاف الاتصالات بسرعة 400 جيجابت/ثانية أو أعلى.[^32] يجب أن يقلل توجيه الكابلات من انتهاكات نصف قطر الانحناء وتدهور الإشارة. يجب أن تستوعب ترتيبات الممرات الساخنة/الباردة مسارات الكابلات دون عرقلة

[تم اقتطاع المحتوى للترجمة]

طلب عرض سعر_

أخبرنا عن مشروعك وسنرد خلال 72 ساعة.

> TRANSMISSION_COMPLETE

تم استلام الطلب_

شكراً لاستفسارك. سيقوم فريقنا بمراجعة طلبك والرد خلال 72 ساعة.

QUEUED FOR PROCESSING