نشر GB200 NVL72: إدارة 72 وحدة معالجة رسومات في تكوينات التبريد السائل
آخر تحديث: 8 ديسمبر 2025
أصبح تشغيل اثنتين وسبعين وحدة معالجة رسومات كوحدة حوسبية واحدة واقعاً إنتاجياً الآن. يستهلك نظام GB200 NVL72 ما يعادل 120 كيلوواط ويقدم 1.4 إكسافلوبس من قدرة الحوسبة للذكاء الاصطناعي في حامل واحد.¹ تُلغي هذه البنية الحدود التقليدية بين العقد، مُنشئةً نسيجاً حوسبياً متماسكاً يُعالج النماذج ذات التريليون معامل دون عقوبات الحوسبة الموزعة التي تُعيق المجموعات التقليدية. تواجه المؤسسات التي تنشر هذه الأنظمة تحديات هندسية تُعيد تعريف ما تعتبره فرق البنية التحتية ممكناً.
تحديث ديسمبر 2025: بدأت شحنات أنظمة GB200 NVL72 إلى كبار مزودي الخدمات السحابية اعتباراً من ديسمبر 2024، ووصل الإنتاج الضخم إلى طاقته الكاملة في الربعين الثاني والثالث من عام 2025. راجع المحللون توقعات شحنات عام 2025 لتصل إلى 25,000-35,000 خزانة (انخفاضاً من التوقعات الأولية البالغة 50,000-80,000) بسبب متطلبات تحسين سلسلة التوريد. كشفت NVIDIA بالفعل عن الجيل التالي GB300 NVL72 في مؤتمر GTC 2025، الذي يتميز بوحدات معالجة Blackwell Ultra بذاكرة HBM3e سعة 288 جيجابايت، واستهلاك طاقة 1.4 كيلوواط لكل وحدة، وأداء أعلى بنسبة 50% (1,100 بيتافلوبس للاستدلال بدقة FP4). دخلت أنظمة GB300 مرحلة الإنتاج في الربع الثالث من عام 2025 مع بدء شركة Quanta شحن الوحدات اعتباراً من سبتمبر. ينبغي للمؤسسات التي تخطط لعمليات نشر جديدة تقييم توفر GB300 مقابل احتياجاتها الفورية من GB200.
الأرقام وحدها تُذهل مهندسي مراكز البيانات ذوي الخبرة: 13.5 تيرابايت من ذاكرة HBM3e يمكن الوصول إليها بسرعة 576 تيرابايت في الثانية، متصلة عبر الجيل الخامس من NVLink الذي يوفر 130 تيرابايت في الثانية من عرض النطاق الترددي بين وحدات المعالجة.² يزن كل حامل 3,000 كيلوجرام ويتطلب 2.4 ميجاواط من قدرة التبريد المُقدمة عبر أنظمة التبريد السائل الإلزامية.³ تصبح دفاتر النشر التقليدية غير ذات صلة عندما يكلف نظام واحد 3 ملايين دولار ويمكنه تدريب نماذج من فئة GPT-4 في أسابيع بدلاً من أشهر.
طلبت CoreWeave أنظمة GB200 NVL72 بقيمة 2.3 مليار دولار للتسليم في عام 2025، راهنةً استراتيجية بنيتها التحتية بالكامل على قدرة المنصة على الهيمنة على أسواق تدريب واستدلال النماذج اللغوية الكبيرة.⁴ اشترت Lambda Labs مسبقاً 200 وحدة رغم اضطرارها لإعادة بناء منشآتها بالكامل لدعم متطلبات الطاقة والتبريد.⁵ تكشف حمى الذهب على هذه الأنظمة حقيقة جوهرية: المؤسسات التي لا تستطيع نشر بنية GB200 NVL72 التحتية تخاطر بفقدان أهميتها في تطوير النماذج التأسيسية.
البنية تُعيد تعريف حدود الحوسبة
يربط GB200 NVL72 ستاً وثلاثين شريحة Grace-Blackwell الفائقة من خلال نظام مفاتيح NVLink ثنائي المستوى يُنشئ تماسكاً حوسبياً غير مسبوق. تجمع كل شريحة فائقة بين وحدة معالجة مركزية Grace المبنية على معمارية Arm ووحدتي معالجة رسومات Blackwell، متصلتين عبر NVLink-C2C بعرض نطاق ترددي ثنائي الاتجاه يبلغ 900 جيجابايت في الثانية.⁶ تتشارك وحدات المعالجة الـ72 الذاكرة وتتواصل كما لو كانت معالجاً ضخماً واحداً، مما يُلغي عبء التزامن الذي يُقيد التدريب الموزع التقليدي.
تُشكل صواني مفاتيح NVLink العمود الفقري للنظام، حيث تدعم تسع صواني كل منها أربع شرائح مفاتيح NVLink. توفر هذه المفاتيح اتصالاً شاملاً بين جميع وحدات المعالجة بسرعة 1.8 تيرابايت في الثانية لكل وحدة، مما يُمكّن أي وحدة من الوصول إلى أي موقع ذاكرة في النظام خلال 300 نانوثانية.⁷ يعني انتظام زمن الاستجابة أن المطورين يمكنهم التعامل مع النظام بأكمله كوحدة معالجة رسومات واحدة بـ72 ضعف الموارد، مما يُبسط تطوير البرمجيات بشكل كبير.
بنية الذاكرة تكسر كل سابقة في تاريخ الحوسبة. يوفر النظام 13.5 تيرابايت من ذاكرة HBM3e بعرض نطاق ترددي إجمالي يبلغ 576 تيرابايت في الثانية، بالإضافة إلى 2.25 تيرابايت إضافية من ذاكرة LPDDR5X يمكن لوحدات Grace المركزية الوصول إليها.⁸ يمتد تماسك الذاكرة عبر جميع المعالجات، مما يسمح للوحدات المركزية ووحدات الرسومات بمشاركة هياكل البيانات دون نسخ صريح. النماذج اللغوية الكبيرة التي كانت تتطلب سابقاً توازياً معقداً للنموذج عبر عقد متعددة تتسع الآن بالكامل داخل مساحة ذاكرة NVL72 واحدة.
يصبح التبريد جزءاً لا يتجزأ من البنية وليس فكرة لاحقة. تفرض NVIDIA التبريد السائل بمواصفات صارمة: درجة حرارة المدخل بين 20-25 درجة مئوية، ومعدل تدفق 80 لتراً في الدقيقة، وانخفاض ضغط لا يتجاوز 1.5 بار.⁹ يحافظ نظام التبريد على درجات حرارة الوصلات تحت 75 درجة مئوية رغم توليد حرارة مستمر بقدرة 120 كيلوواط. يُفعّل الانحراف عن المواصفات خنقاً تلقائياً يمكن أن يُقلل الأداء بنسبة 60%، مما يجعل التبريد بنفس أهمية موارد الحوسبة.
يتطلب توصيل الطاقة إعادة تصميم كاملة للبنية التحتية. يسحب النظام 120 كيلوواط باستمرار عبر أربعة أرفف طاقة بقدرة 30 كيلوواط لكل منها، يتطلب كل منها مدخل تيار متردد ثلاثي الأطوار بجهد 480 فولت.¹⁰ يحدث تحويل الطاقة على مرحلتين: من التيار المتردد إلى تيار مستمر 54 فولت في أرفف الطاقة، ثم من 54 فولت إلى جهود نقطة الحمل على لوحات الحوسبة. تحقق البنية كفاءة تحويل 97%، لكنها لا تزال تُولد 3.6 كيلوواط من الحرارة المهدرة من تحويل الطاقة فقط.
تتضاعف تحديات النشر المادي
يتطلب تركيب GB200 NVL72 دقة عسكرية ومعدات متخصصة. يصل النظام في أربعة مكونات منفصلة: حامل الحوسبة بوزن 1,500 كجم، وحامل مفاتيح NVLink بوزن 800 كجم، ووحدة توزيع التبريد بوزن 400 كجم، ووحدة توزيع الطاقة بوزن 300 كجم.¹¹ لا تستطيع أبواب مراكز البيانات القياسية استيعاب العرض، مما يتطلب إزالة إطارات الأبواب وأحياناً الجدران. تستخدم فرق النشر في Introl رافعات هيدروليكية متخصصة مصنفة لـ2,000 كجم لتحديد موقع المكونات دون إتلاف أسطح الأرضيات.
يُثير تحميل الأرضية مخاوف هيكلية فورية. يُركز حامل الحوسبة 1,500 كجم في 0.8 متر مربع فقط، مُنشئاً أحمالاً نقطية تبلغ 1,875 كجم/م².¹² تتطلب الأرضيات المرتفعة القياسية المصنفة لـ1,000 كجم/م² ألواح تعزيز فولاذية لتوزيع الوزن. تختار العديد من المنشآت التركيب على مستوى البلاطة مع قواعد خرسانية مسلحة تُصب خصيصاً لعمليات نشر NVL72. تتطلب المناطق الزلزالية تثبيتاً إضافياً لمنع الحركة أثناء الزلازل.
تصبح إدارة الكابلات لغزاً ثلاثي الأبعاد مع أكثر من 5,000 توصيلة فردية. يستخدم النظام 144 كابل NVLink نحاسي للربط بين وحدات المعالجة، و288 كابلاً بصرياً للاتصال بالشبكة، و72 أنبوب تبريد سائل، ومئات كابلات الطاقة.¹³ توفر NVIDIA أطوال الكابلات ومخططات التوجيه الدقيقة، حيث تُسبب الانحرافات مشاكل في سلامة الإشارة عند سرعات 1.8 تيرابايت في الثانية. تقضي فرق التركيب 60-80 ساعة في إدارة الكابلات فقط، باستخدام سماعات الواقع المعزز للتحقق من تطابق كل توصيلة مع المواصفات.
تتطلب بنية التبريد السائل نظافة بمستوى صناعة الأدوية. تحتوي دائرة التبريد على 200 لتر من سائل تبريد مُركب خصيصاً يجب أن يحافظ على مستويات محددة من التوصيل ودرجة الحموضة والجسيمات.¹⁴ يمكن لجسيم ملوث واحد أن يسد ألواح التبريد ذات القنوات الدقيقة التي تُبرد الشرائح الفردية. تغسل فرق التركيب النظام بأكمله ثلاث مرات بالماء منزوع الأيونات قبل إدخال سائل التبريد. تستغرق العملية 12-16 ساعة وتتطلب معدات ضخ متخصصة.
يتطلب التكامل مع الشبكة توفير عرض نطاق ترددي غير مسبوق. يحتاج كل NVL72 إلى ثمانية اتصالات 400GbE للاتصال الخارجي، بإجمالي 3.2 تيرابت في الثانية لكل نظام.¹⁵ يتجاوز متطلب عرض النطاق الترددي الاتصال الخارجي الكامل للعديد من المنشآت. تنشر المؤسسات عادةً خطوط ألياف بصرية مخصصة من أنظمة NVL72 إلى أجهزة التوجيه الأساسية، متجاوزةً بنيات التبديل التقليدية في أعلى الحامل. يجب أن يأخذ تصميم الشبكة في الاعتبار أنماط حركة المرور الأفقية حيث تتبادل أنظمة NVL72 نقاط التحقق والتدرجات أثناء التدريب الموزع.
تنسيق البرمجيات على نطاق واسع للغاية
تتطلب إدارة 72 وحدة معالجة رسومات كنظام متماسك تغييرات جوهرية في بنية البرمجيات. يُنشئ برنامج NVIDIA NVLink Switch System مساحة ذاكرة واحدة عبر جميع وحدات المعالجة، لكن يجب تصميم التطبيقات لاستغلال هذه القدرة. تصبح أُطر التدريب الموزع التقليدية مثل Horovod وPyTorch Distributed عبئاً غير ضروري. يستخدم المطورون مكتبات Transformer Engine من NVIDIA التي تُقسم النماذج تلقائياً عبر وحدات المعالجة الـ72 دون تدخل يدوي.¹⁶
تواجه منصات تنسيق الحاويات صعوبة مع نموذج موارد NVL72. يرى Kubernetes النظام كـ72 وحدة معالجة رسومات منفصلة افتراضياً، مما يؤدي إلى تعارضات في الجدولة وتجزئة الموارد. توفر NVIDIA إضافات أجهزة مخصصة تُقدم NVL72 كوحدة قابلة للجدولة واحدة، لكن هذا يكسر التوافق مع منصات تعلم الآلة القياسية.¹⁷ غالباً ما تُخصص المؤسسات أنظمة NVL72 بأكملها لأحمال عمل فردية بدلاً من محاولة الإيجار المتعدد.
تتطلب إدارة الذاكرة دراسة متأنية لتأثيرات NUMA رغم مساحة الذاكرة الموحدة. تمتلك كل وحدة Grace مركزية ذاكرة LPDDR5X محلية بعرض نطاق ترددي 500 جيجابايت في الثانية إلى وحدات المعالجة المحلية ولكن 100 جيجابايت في الثانية فقط إلى وحدات المعالجة البعيدة.¹⁸ يتطلب الأداء الأمثل خوارزميات وضع البيانات التي تُقلل الوصول إلى الذاكرة عبر المقابس. تتعامل مكتبات Magnum IO من NVIDIA مع بعض التحسين تلقائياً، لكن التطبيقات المخصصة تحتاج إلى وعي صريح بـNUMA.
تصبح معالجة الأعطال معقدة عندما تعمل 72 وحدة معالجة كواحدة. كان فشل وحدة معالجة واحدة يعني تقليدياً خسارة ثُمن قدرة حوسبة العقدة. في NVL72، يمكن لوحدة معالجة فاشلة واحدة زعزعة استقرار النظام بأكمله بسبب تبعيات طوبولوجيا NVLink. تُنفذ NVIDIA عزل الأعطال على مستوى الأجهزة الذي يُعيد تكوين توجيه NVLink ديناميكياً حول المكونات الفاشلة، لكن الأداء يتدهور بنسبة 15-20% لكل وحدة معالجة فاشلة.¹⁹ تحتفظ معظم عمليات النشر بأنظمة NVL72 احتياطية بدلاً من محاولة إصلاح الوحدات الإنتاجية.
يُولد مراقبة الأداء أحجاماً هائلة من القياس عن بُعد. تُنتج كل وحدة معالجة أكثر من 10,000 مقياس في الثانية تغطي درجة الحرارة والطاقة وعرض النطاق الترددي للذاكرة واستخدام الحوسبة.²⁰ مضروبةً في 72 وحدة معالجة بالإضافة إلى الوحدات المركزية والمفاتيح، يُولد NVL72 واحد مليون مقياس في الثانية. لا تستطيع أنظمة المراقبة التقليدية التعامل مع هذا الحجم. تنشر المؤسسات قواعد بيانات سلاسل زمنية مخصصة وتستخدم تحليلات مدفوعة بالذكاء الاصطناعي لتحديد الشذوذ في تدفق القياس عن بُعد.
النماذج الاقتصادية تتحدى التفكير التقليدي
يبدو سعر GB200 NVL72 البالغ 3 ملايين دولار فلكياً حتى تتم مقارنته بالبدائل. بناء قدرة حوسبة مكافئة من أنظمة DGX H100 المنفصلة سيتطلب تسع عقد بتكلفة 2.7 مليون دولار، لكن مع استهلاك طاقة أعلى بخمس مرات ومساحة حامل أكبر بعشر مرات.²¹ تُلغي بنية NVL72 المتماسكة عبء الاتصال بين العقد، مما يوفر إنتاجية فعلية أفضل بنسبة 30% لتدريب النماذج الكبيرة. تُسدد العلاوة نفسها من خلال تقليل وقت التدريب وانخفاض التكاليف التشغيلية.
تُفضل اقتصاديات الطاقة NVL72 رغم سحبه 120 كيلوواط. ستستهلك الأنظمة الموزعة التقليدية التي تحقق قدرة حوسبة مماثلة 400-500 كيلوواط شاملةً عبء الشبكات.²² بأسعار صناعية تبلغ 0.10 دولار لكل كيلوواط ساعة، تُعادل وفورات الطاقة 300,000 دولار سنوياً. يوفر انخفاض حمل التبريد 100,000 دولار إضافية سنوياً. على مدى فترة إهلاك نموذجية مدتها ثلاث سنوات، تُعوض وفورات الطاقة ما يقرب من نصف العلاوة الأولية.
تتحول تخفيضات وقت التدريب مباشرةً إلى ميزة تنافسية. تُقدر OpenAI أن تدريب GPT-4 على أنظمة NVL72 سيكتمل في 45 يوماً مقابل 90 يوماً على البنية التحتية السابقة.²³ للمؤسسات التي تُنفق مليون دولار يومياً على موارد الحوسبة، تُبرر وفورات الوقت أي علاوة معقولة على الأجهزة. تجعل مزايا الريادة في أسواق الذكاء الاصطناعي السرعة لا تُقدر بثمن بما يتجاوز الحسابات المالية البحتة.
تتحسن معدلات الاستخدام بشكل كبير مع البنية الموحدة. تحقق المجموعات التقليدية استخداماً لوحدات المعالجة بنسبة 50-60% بسبب عبء الاتصال والتزامن.²⁴ تحافظ أنظمة NVL72 على استخدام 85-90% من خلال إزالة الاختناقات بين العقد. يعني الاستخدام المحسن أن كل NVL72 يُقدم قدرة الحوسبة الفعلية لـ120-130 وحدة معالجة رسومات تقليدية، مما يُغير اقتصاديات بنية الذكاء الاصطناعي واسعة النطاق.
تُفاجئ التكاليف التشغيلية العديد من المحللين الماليين. يتطلب تعقيد النظام فرقاً هندسية مخصصة برواتب تتجاوز 200,000 دولار. سائل التبريد وحده يُكلف 10,000 دولار سنوياً مع اختبارات ربع سنوية بتكلفة 2,000 دولار. يُقيد مخزون قطع الغيار لـNVL72 واحد 500,000 دولار من رأس المال. ومع ذلك تتضاءل هذه التكاليف مقارنةً بتكلفة الفرصة البديلة لعدم امتلاك قدرة حوسبة كافية لتطوير النماذج.
عمليات النشر الحقيقية تكشف الواقع التشغيلي
بنية تدريب Claude 3 من Anthropic
[تم اقتطاع المحتوى للترجمة]