NVLink وشبكات التوسع الرأسي: عندما لا يكفي Ethernet بسرعة 800G
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: NVLink 5 يوفر 1.8 تيرابايت/ثانية لكل وحدة GPU (18 رابطاً × 100 جيجابايت/ثانية)—أي 14 ضعف عرض نطاق PCIe Gen5. نظام GB200 NVL72 يربط 72 وحدة GPU بإجمالي 130 تيرابايت/ثانية. NVSwitch يتيح توصيل 576 وحدة GPU في شبكة حوسبة غير محجوبة بإجمالي عرض نطاق يتجاوز 1 بيتابايت/ثانية. الجيل الخامس من NVLink يحقق 12 ضعف عرض نطاق الجيل الأول (2014). شبكات التوسع الرأسي تخلق قدرات لا تستطيع شبكات التوسع الأفقي مضاهاتها.
تدعم وحدة GPU واحدة من NVIDIA Blackwell ما يصل إلى 18 اتصال NVLink بسرعة 100 جيجابايت في الثانية لكل منها، مما يوفر إجمالي عرض نطاق يبلغ 1.8 تيرابايت في الثانية—أي 14 ضعف عرض نطاق PCIe Gen5.¹ يربط نظام GB200 NVL72 عدد 72 وحدة GPU في نطاق NVLink واحد بإجمالي عرض نطاق يبلغ 130 تيرابايت في الثانية.² يتيح NVLink Switch من NVIDIA توصيل 576 وحدة GPU في شبكة حوسبة غير محجوبة بإجمالي عرض نطاق يتجاوز 1 بيتابايت في الثانية.³ تخلق شبكات التوسع الرأسي قدرات بنية تحتية لا تستطيع شبكات Ethernet وInfiniBand للتوسع الأفقي مضاهاتها.
يحدد التمييز بين شبكات التوسع الرأسي والتوسع الأفقي بنية البنية التحتية الحديثة للذكاء الاصطناعي. يتولى NVLink وNVSwitch الاتصال داخل العقد والخزانات، موفرين عرض النطاق وزمن الاستجابة المطلوبين للتوازي التنسوري عبر النماذج الكبيرة. يتولى InfiniBand وEthernet الاتصال بين الخزانات، موفرين النطاق المطلوب للتوازي في البيانات عبر آلاف وحدات GPU. فهم متى تُطبق كل تقنية يحدد ما إذا كانت استثمارات البنية التحتية ستحقق الأداء المتوقع.
مواصفات الجيل الخامس من NVLink
يضاعف الجيل الخامس من NVLink عرض النطاق مقارنة بالجيل السابق.⁴ يعمل كل رابط بسرعة 100 جيجابايت في الثانية ثنائي الاتجاه، مع 18 رابطاً لكل وحدة GPU من Blackwell مما يوفر إجمالي عرض نطاق يبلغ 1.8 تيرابايت في الثانية.⁵ يتجاوز التحسن عرض نطاق PCIe Gen5 بأكثر من 14 ضعفاً.⁶
يوضح التطور عبر الأجيال المسار:
| الجيل | المعمارية | الروابط | عرض النطاق لكل GPU |
|---|---|---|---|
| الأول (2018) | Volta V100 | 6 | 300 جيجابايت/ثانية |
| الثاني (2020) | Ampere A100 | 12 | 600 جيجابايت/ثانية |
| الثالث (2022) | Hopper H100 | 18 | 900 جيجابايت/ثانية |
| الرابع (2024) | Blackwell B200 | 18 | 1.8 تيرابايت/ثانية |
يحقق الجيل الخامس من NVLink 12 ضعف عرض نطاق الجيل الأول الذي قُدم في 2014.⁷ يعكس التضاعف من Hopper إلى Blackwell متطلبات عرض النطاق المتزايدة للنماذج ذات التريليون معامل.
تتيح الزيادة في عرض نطاق الرابط الواحد من 50 جيجابايت في الثانية في NVLink 4 إلى 100 جيجابايت في الثانية في NVLink 5 لنفس تكوين الـ 18 رابطاً مضاعفة الإنتاجية الإجمالية.⁸ تحافظ المعمارية على عدد الروابط مع تحسين معدلات الإشارة.
تطور معمارية NVSwitch
قدمت NVIDIA تقنية NVSwitch مع نظام DGX-2 في 2018 لتمكين الاتصال الكامل بين وحدات GPU داخل نظام واحد.⁹ يعمل NVSwitch كمبدّل متقاطع عالي السرعة وغير محجوب لحركة NVLink، مما يسمح لكل وحدة GPU في النظام بالاتصال مع كل وحدة أخرى بأقصى سرعة.¹⁰
تضمن DGX-2 عدد 16 وحدة V100 GPU متصلة عبر الجيل الأول من NVSwitch.¹¹ وفرت كل شريحة NVSwitch عدد 18 منفذ NVLink بسعة تبديل إجمالية تبلغ 900 جيجابايت في الثانية.¹² احتوت الشريحة ذات القدرة 100 واط المصنعة بتقنية TSMC 12nm على 2 مليار ترانزستور.¹³
وصل الجيل الثاني من NVSwitch مع DGX A100 في 2020، داعماً NVLink 3.0 بسرعة 600 جيجابايت في الثانية لكل GPU.¹⁴ أنشأت ست شرائح NVSwitch طوبولوجيا شبكة متصلة بالكامل لثماني وحدات A100 GPU.¹⁵
زاد الجيل الثالث من NVSwitch لمعمارية Hopper إلى 25.6 تيرابت في الثانية كإجمالي عرض نطاق ثنائي الاتجاه لكل شريحة.¹⁶ توفر أربع شرائح NVSwitch في كل نظام HGX H100 وHGX H200 عرض نطاق شبكة ثنائي الاتجاه يبلغ 3.6 تيرابايت في الثانية عبر ثماني وحدات GPU.¹⁷ قدم الجيل الثالث من NVSwitch وظيفة SHARP للحوسبة داخل الشبكة، حيث يجمع ويحدّث النتائج عبر وحدات GPU متعددة دون الحاجة إلى رحلات ذهاب وإياب لوحدات GPU الفردية.¹⁸
يتميز الجيل الرابع من NVSwitch لمعمارية Blackwell بـ 72 منفذ NVLink 5.0 لكل شريحة.¹⁹ يوفر NVLink 5 Switch عدد 144 منفذ NVLink بسعة تبديل غير محجوبة تبلغ 14.4 تيرابايت في الثانية.²⁰ قدم هذا الجيل التبديل على مستوى الخزانة، ناقلاً NVSwitch من الخوادم إلى صواني تبديل مخصصة.
معمارية التوسع الرأسي لنظام GB200 NVL72
يربط GB200 NVL72 عدد 36 وحدة CPU من Grace و72 وحدة GPU من Blackwell في تصميم مبرد بالسائل على مستوى الخزانة.²¹ يعمل نطاق NVLink المكون من 72 وحدة GPU كوحدة GPU ضخمة واحدة ويوفر استدلالاً للنماذج اللغوية الكبيرة ذات التريليون معامل في الوقت الفعلي أسرع بـ 30 مرة مقارنة بالأجيال السابقة.²²
توزع المعمارية الفيزيائية المكونات عبر صواني الحوسبة وصواني التبديل.²³ تحتوي كل صينية حوسبة على شريحتين GB200 Superchip، حيث تتكون كل Superchip من وحدتي GPU من طراز B200 ووحدة CPU واحدة من Grace.²⁴ يحتوي النظام على 18 صينية حوسبة بإجمالي 72 وحدة GPU.
توفر تسع صواني تبديل NVLink اتصالاً شبكياً كاملاً.²⁵ تحتوي كل صينية تبديل على شريحتي NVLink Switch بإجمالي 144 منفذ NVLink.²⁶ تربط المبدّلات التسعة بشكل كامل كلاً من منافذ NVLink الـ 18 على كل وحدة GPU من Blackwell.²⁷
لا يوجد اتصال مباشر بين وحدات GPU داخل خادم واحد أو صينية حوسبة واحدة.²⁸ يتم توجيه جميع الاتصالات عبر شبكة NVSwitch الخارجية.²⁹ تجعل هذه المعمارية جميع وحدات GPU الـ 72 متكافئة من منظور الاتصال—يمكن لأي وحدة GPU الاتصال بأي وحدة أخرى بنفس عرض النطاق وزمن الاستجابة.³⁰
يتيح إجمالي عرض نطاق NVLink البالغ 130 تيرابايت في الثانية التوازي التنسوري عبر جميع وحدات GPU الـ 72.³¹ يمكن للنماذج الكبيرة التي تتجاوز سعة ذاكرة وحدة GPU واحدة توزيع التنسورات عبر النطاق بأكمله مع حد أدنى من حمل الاتصال. تلغي المعمارية الحدود التقليدية بين شبكات الخادم والخزانة لأحمال العمل ذات التوسع الرأسي.
شبكات التوسع الرأسي مقابل التوسع الأفقي
تخدم شبكات التوسع الرأسي (NVLink) وشبكات التوسع الأفقي (InfiniBand وEthernet) أغراضاً مختلفة جوهرياً في البنية التحتية للذكاء الاصطناعي.³²
يتفوق NVLink في الاتصال السريع بين وحدات GPU ضمن نطاق واحد—أسرع بكثير من InfiniBand، بعرض نطاق يصل إلى تيرابايتات في الثانية للاتصالات المحلية.³³ يدعم زمن الاستجابة المنخفض وعرض النطاق العالي التوازي التنسوري، حيث تُوزع أوزان النموذج عبر وحدات GPU ويجب مزامنتها في كل طبقة. يتيح عرض نطاق NVLink البالغ 1.8 تيرابايت في الثانية لكل GPU هذه المزامنة دون أن تصبح عنق زجاجة.
لا يساعد NVLink بمجرد أن يتجاوز الاتصال حدود العقدة.³⁴ تتطلب الشبكات بين العقد InfiniBand أو Ethernet بغض النظر عن إمكانية NVLink داخل العقدة. تعمل التقنيات على مستويات مختلفة من التسلسل الهرمي.
يوفر InfiniBand المعيار الصناعي لربط آلاف عقد الخوادم.³⁵ يسمح الوصول المباشر للذاكرة عن بُعد (RDMA) للخوادم بتبادل البيانات مباشرة بين مساحات الذاكرة، متجاوزاً حمل المعالج ونظام التشغيل.³⁶ تثبت هذه الميزة أهميتها للتدريب الموزع واسع النطاق باستخدام التوازي في البيانات، حيث تعالج كل عقدة دفعات مختلفة وتزامن التدرجات.
يظل InfiniBand المعيار الذهبي لتدريب الذكاء الاصطناعي على نطاق واسع، حيث يربط أكثر من 270 من أفضل الحواسيب العملاقة في العالم.³⁷ صُممت التوجيه التكيفي والتحكم في الازدحام وقدرات RDMA خصيصاً للحوسبة المتزامنة عالية الأداء.
يتفوق Ethernet على InfiniBand في عمليات نشر التوسع الأفقي.³⁸ يجلب Spectrum-X من NVIDIA ابتكارات InfiniBand إلى Ethernet، بما في ذلك التحكم في الازدحام المعتمد على القياس عن بُعد، وموازنة الحمل التكيفية، ووضع البيانات المباشر.³⁹ حققت الأنظمة واسعة النطاق مع Spectrum-X إنتاجية بيانات بنسبة 95% مع صفر تدهور في زمن استجابة التطبيق، مقارنة بـ 60% فقط من إنتاجية شبكات Ethernet القياسية.⁴⁰
يجمع النموذج الهرمي هذه التقنيات بشكل مناسب. يتولى NVLink التوسع الرأسي داخل الخزانة، موفراً ما يقارب 18 ضعف عرض نطاق شبكات التوسع الأفقي.⁴¹ يتولى InfiniBand أو Ethernet التوسع الأفقي بين الخزانات، موفراً نطاقاً عبر آلاف العقد. تتضمن كل صينية GPU في أنظمة GB200 NVL72 بطاقات شبكة RDMA بسرعة 800 جيجابت في الثانية للاتصال بين الخزانات.⁴²
نطاقات 576 وحدة GPU ومعمارية SuperPOD
يتيح NVLink Switch توصيل 576 وحدة GPU متصلة بالكامل في شبكة حوسبة غير محجوبة.⁴³ تشكل ثماني خزانات GB200 NVL72 وحدة SuperPOD، مما يخلق عقدة فائقة من 576 وحدة GPU بإجمالي عرض نطاق يتجاوز 1 بيتابايت في الثانية و240 تيرابايت من الذاكرة السريعة.⁴⁴
يُبنى DGX SuperPOD على وحدات قابلة للتوسع (SU)، تحتوي كل منها على ثمانية أنظمة DGX GB200.⁴⁵ يتيح التصميم المعياري النشر السريع لوحدات SuperPOD بأي حجم. تتضمن المعمارية المرجعية مواصفات لـ InfiniBand وشبكة NVLink وطوبولوجيات شبكة Ethernet وأنظمة التخزين وتخطيطات الخزانات والتوصيلات.⁴⁶
يحافظ نطاق 576 وحدة GPU على طوبولوجيا NVLink المتصلة بالكامل عبر جميع الخزانات في SuperPOD.⁴⁷ يمكن لأي وحدة GPU الاتصال بأي وحدة أخرى بسرعة 1.8 تيرابايت في الثانية دون المرور عبر شبكات التوسع الأفقي.⁴⁸ يتطابق حجم النطاق مع متطلبات أكبر نماذج الأساس قيد التدريب حالياً.
يتطلب نشر SuperPOD التثبيت في الموقع.⁴⁹ يملك العملاء ويديرون الأجهزة داخل مراكز بياناتهم أو المرافق التجارية المستضافة. تعكس المعمارية أنظمة البحث والتطوير الداخلية لـ NVIDIA، مما يعني أن برامج البنية التحتية والتطبيقات والدعم تُختبر على تكوينات مطابقة.⁵⁰
التزم مزودو الخدمات السحابية Microsoft Azure وOracle Cloud وCoreWeave بدعم معمارية X800 عند توفرها في 2025.⁵¹ توسع عمليات النشر السحابية قدرات SuperPOD للمؤسسات التي لا يمكنها تبرير بنية تحتية مخصصة في الموقع.
نشر Kubernetes للمؤسسات
تتطلب أنظمة Multi-Node NVLink (MNNVL) تكويناً متخصصاً لـ Kubernetes.⁵² لا يتعرف Kubernetes أصلاً على معمارية MNNVL من NVIDIA، مما يجعل إدارة أحمال العمل والجدولة أكثر تعقيداً من عمليات نشر GPU القياسية.⁵³
تتضمن متطلبات النشر Kubernetes 1.32 أو أحدث وNVIDIA GPU Operator الإصدار 25.3 أو أعلى.⁵⁴ يجب أن يتضمن إصدار GPU Operator برنامج تشغيل Dynamic Resource Allocation (DRA)، الذي يوفر دعماً لموارد الشبكات المسرّعة GB200 وميزة ComputeDomain.⁵⁵ يتولى NVIDIA Network Operator تكوين الشبكة.
تدعم خدمة IMEX تصدير واستيراد ذاكرة GPU عبر نطاقات نظام التشغيل في عمليات نشر NVLink متعددة العقد.⁵⁶ تتيح الخدمة اتصال NVLink نظير إلى نظير وعمليات الذاكرة المشتركة عبر النطاق.
عندما تستهدف أحمال العمل الموزعة مجموعات عقد MNNVL، تنشئ المنصة تعريف مورد مخصص (CRD) لـ ComputeDomain لإدارة تعيينات نطاق NVLink.⁵⁷ يُرفق مرجع إلى ComputeDomain تلقائياً بمواصفات حمل العمل كمطالبة موارد، مما يسمح للمجدول بربط أحمال العمل بنطاقات NVLink محددة.⁵⁸
تستخدم قواعد تقارب Pod مفتاح تسمية MNNVL (nvidia.com/gpu.clique) كمفتاح الطوبولوجيا.⁵⁹ يضمن التكوين أن تنزل Pods ضمن أحمال العمل الموزعة على عقد ذات ترابطات NVLink، مع الحفاظ على الطوبولوجيا المطلوبة للأداء.⁶⁰
اعتبارات تخطيط البنية التحتية
يجب على المؤسسات التي تقيّم بنية NVLink التحتية أن تأخذ في الاعتبار خصائص حمل العمل أولاً. يستفيد التوازي التنسوري عبر النماذج الكبيرة مباشرة من عرض نطاق NVLink. قد لا يتطلب التوازي في البيانات عبر العديد من النماذج الأصغر قدرات NVLink ويمكنه تحقيق أداء كافٍ مع شبكات التوسع الأفقي وحدها.
يمثل GB200 NVL72 التزاماً كبيراً بالبنية التحتية. تتجاوز متطلبات التبريد بالسائل والتكامل على مستوى الخزانة والشبكات المتخصصة تعقيد المعماريات المبردة بالهواء والمتمحورة حول الخادم. يجب على المؤسسات التحقق من أن أحمال العمل تتطلب هذه القدرات قبل الالتزام.
يجب أن تستوعب البنية التحتية للطاقة والتبريد التبريد بالسائل من النشر الأولي. لا يمكن لـ GB200 NVL72 العمل بالتبريد الهوائي. إعادة تجهيز المرافق للتبريد بالسائل بعد النشر مكلفة ومعطلة.
يجب أن يعالج تخطيط الشبكة متطلبات التوسع الرأسي والأفقي معاً. تتولى شبكة NVLink الاتصال داخل الخزانة، لكن الاتصال بين
[تم اقتطاع المحتوى للترجمة]