NVIDIA Blackwell Ultra و B300: ما يتطلبه الجيل القادم من وحدات معالجة الرسومات
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: B300 يقدم 15 PFLOPS FP4، و288GB HBM3e (مكدسات من 12 طبقة)، وعرض نطاق ترددي 8TB/s، واستهلاك طاقة 1,400W TDP. خزانة GB300 NVL72 تحقق 1.1 EXAFLOPS—حوسبة بمقياس الإكسا في عقدة واحدة. DGX B200 يقدم 3 أضعاف أداء التدريب، و15 ضعف أداء الاستدلال مقارنة بـ Hopper. الأنظمة ستُشحن في النصف الثاني من 2025. يتطلب تبريدًا سائلًا، وشبكات 800Gbps، وكثافات طاقة تتجاوز معظم المرافق الحالية.
تقدم وحدة معالجة الرسومات NVIDIA Blackwell Ultra قدرة حوسبة 15 بيتافلوبس من FP4 الكثيف، وذاكرة أكبر بنسبة 50% من B200، وأداء أسرع بمعدل 1.5 مرة.¹ تحقق خزانة GB300 NVL72 واحدة 1.1 إكسافلوبس من حوسبة FP4، لتعمل كحاسوب فائق بمقياس الإكسا في عقدة واحدة.² مجهزة بثماني وحدات معالجة رسومات NVIDIA Blackwell، تقدم DGX B200 أداء تدريب أعلى بـ 3 أضعاف وأداء استدلال أعلى بـ 15 ضعفًا مقارنة بأنظمة Hopper من الجيل السابق.³ تختلف متطلبات البنية التحتية لـ Blackwell اختلافًا جوهريًا عن أي شيء نشرته المؤسسات سابقًا، حيث تتطلب تبريدًا سائلًا، وشبكات بسرعة 800 جيجابت، وكثافات طاقة لا تستطيع معظم المرافق الحالية دعمها.
أعلنت NVIDIA عن B300 في GTC 2025، مع شحن الأنظمة في النصف الثاني من 2025.⁴ يخلق التوقيت ضرورة ملحة للتخطيط لدى المؤسسات التي تحتاج إلى تجهيز المرافق، وتأمين الطاقة، وبناء القدرات التشغيلية قبل وصول الأجهزة. فهم متطلبات البنية التحتية لـ Blackwell الآن يحدد ما إذا كانت المؤسسات ستتمكن من النشر بفعالية عندما تصبح الأنظمة متاحة.
مواصفات Blackwell Ultra
تتميز وحدة معالجة الرسومات Blackwell Ultra بتصميم ثنائي الشبكية يحتوي على 208 مليار ترانزستور و160 معالجًا متعدد البث عبر شريحتين متصلتين باستخدام واجهة عرض النطاق الترددي العالي من NVIDIA.⁵ احتوى B200 على 208 مليار ترانزستور مقارنة بـ 80 مليار في H100.⁶ يعكس عدد الترانزستورات التعقيد المعماري المطلوب لأحمال عمل الذكاء الاصطناعي على نطاق الحدود.
يقدم B300 ذاكرة HBM3e بسعة 288 جيجابايت لكل وحدة معالجة رسومات، يتم تحقيقها من خلال مكدسات ذاكرة من 12 طبقة بدلاً من تكوين B200 المكون من 8 طبقات.⁷ يصل عرض النطاق الترددي للذاكرة إلى 8 تيرابايت في الثانية.⁸ تتيح سعة الذاكرة معالجة النماذج التي كانت تتطلب سابقًا تكوينات متعددة وحدات معالجة الرسومات على وحدة واحدة.
تزداد متطلبات الطاقة بشكل ملحوظ. تستهلك كل شريحة B300 مقدار 1,400 واط في قلب GB300.⁹ استهلك B200 مقدار 1,000 واط، ارتفاعًا من 700 واط لـ H100.¹⁰ يوضح التقدم من 700 إلى 1,000 إلى 1,400 واط لكل وحدة معالجة رسومات عبر ثلاثة أجيال مسار الطاقة الذي يجب على المؤسسات التخطيط له.
يصل أداء FP4 الكثيف إلى 14 بيتافلوبس على B300 مقارنة بـ 9 بيتافلوبس على B200، وهو ما يمثل تحسنًا بنسبة 55.6%.¹¹ تقلل قدرة حوسبة FP4 من حجم الذاكرة بنحو 1.8 مرة مقارنة بـ FP8 مع الحفاظ على دقة متكافئة تقريبًا.¹² تعالج قدرة الدقة المنخفضة أحمال عمل الاستدلال حيث تحسن الدقة المخفضة الإنتاجية دون التضحية بالجودة.
الأداء مقارنة بـ Hopper
تُظهر بيانات الأداء الموثقة إنتاجية أعلى بمعدل 11 إلى 15 مرة للنماذج اللغوية الكبيرة لكل وحدة معالجة رسومات مقارنة بجيل Hopper.¹³ يقدم HGX B200 تحسينات في الاستدلال بمعدل 15 ضعفًا وفي التدريب بمعدل 3 أضعاف مقابل HGX H100، مع تخفيض في الطاقة والتكلفة بمعدل 12 ضعفًا.¹⁴ تقدم مجموعة GB200 NVL72 تدريبًا أسرع بـ 4 أضعاف واستدلالًا في الوقت الفعلي أسرع بـ 30 ضعفًا مقابل مجموعات H100.¹⁵
يقدم B200 أداء ذكاء اصطناعي بقدرة 20 بيتافلوبس من وحدة معالجة رسومات واحدة. كانت الحد الأقصى لـ H100 واحدة 4 بيتافلوبس في حسابات الذكاء الاصطناعي.¹⁶ يغير التحسن بمعدل 5 أضعاف لكل وحدة معالجة رسومات اقتصاديات عمليات النشر واسعة النطاق. يمكن للمؤسسات تحقيق قدرة معادلة بوحدات معالجة رسومات أقل أو قدرة أعلى بشكل ملحوظ بأعداد وحدات معالجة رسومات معادلة.
تكمل تحسينات الذاكرة مكاسب الحوسبة. يتميز B200 بذاكرة HBM3e سعة 192 جيجابايت مقارنة بذاكرة HBM3 سعة 80 جيجابايت لـ H100.¹⁷ يصل عرض النطاق الترددي للذاكرة إلى 8 تيرابايت في الثانية، أي أسرع بـ 2.4 مرة من 3.35 تيرابايت في الثانية لـ H100.¹⁸ تتيح سعة الذاكرة معالجة النماذج على وحدة معالجة رسومات واحدة والتي كانت تتطلب سابقًا تكوينات معقدة متعددة وحدات معالجة الرسومات.
لأحمال عمل الاستدلال، يقدم Blackwell طاقة أقل بـ 25 مرة لكل عملية استدلال مقارنة بـ H100.¹⁹ يحل B200 واحد محل 5 عقد H100 لاستدلال Llama 3، مما يخفض التكاليف والبصمة الكربونية.²⁰ تتضاعف مكاسب الكفاءة عبر عمليات النشر الكبيرة حيث يهيمن الاستدلال على الطلب على الحوسبة.
الاختلافات المعمارية عن Hopper
يستهدف Hopper مزيجًا واسعًا من الحوسبة عالية الأداء وأحمال عمل الذكاء الاصطناعي مع التركيز على الدقة التقليدية في FP64 وFP32.²¹ يُحسّن Blackwell بشكل صريح لمهام الذكاء الاصطناعي التوليدي واسعة النطاق.²² يعكس التركيز المعماري تقييم NVIDIA بأن أحمال عمل الذكاء الاصطناعي، وخاصة الاستدلال، ستهيمن على الطلب على وحدات معالجة الرسومات.
يقدم Blackwell نوى tensor من الجيل الخامس مع أوضاع دقة منخفضة للغاية تدعم العمليات بـ 4 بت و6 بت.²³ تسرع قدرات الدقة المنخفضة أحمال عمل الاستدلال حيث تحافظ النماذج المُكمّمة على جودة مقبولة. تستفيد أحمال عمل التدريب التي تتطلب دقة أعلى بشكل أقل من التغييرات المعمارية.
يزداد اتصال NVLink بشكل كبير. تحتوي كل وحدة معالجة رسومات Blackwell على 18 اتصال NVLink من الجيل الخامس، أي 18 ضعف ما كان متاحًا على H100.²⁴ يوفر كل اتصال 50 جيجابايت في الثانية من عرض النطاق الترددي ثنائي الاتجاه.²⁵ يتيح الاتصال الموسع بنية GB300 NVL72 حيث تعمل 72 وحدة معالجة رسومات كنسيج حوسبة موحد.
لمهام الحوسبة عالية الأداء الرقمية البحتة بما في ذلك الجبر المصفوفي، وديناميكا الموائع، والديناميكا الجزيئية بدقة مزدوجة، تحافظ نقاط قوة Hopper في FP64 لكل واط، والذاكرة المشتركة الكبيرة، وذاكرات التخزين المؤقت المجهزة جيدًا لـ FP32 على الميزة.²⁶ لا ينبغي للمؤسسات ذات أحمال عمل الحوسبة عالية الأداء التقليدية افتراض أن Blackwell يحسن جميع حالات الاستخدام بالتساوي.
بنية خزانة GB300 NVL72
تدمج خزانة GB300 NVL72 المبردة بالسائل 36 شريحة Grace Blackwell الفائقة، مترابطة عبر NVLink 5 وNVLink Switching.²⁷ تحتوي الخزانة على 72 وحدة معالجة رسومات B300، كل منها بذاكرة HBM3e سعة 288 جيجابايت.²⁸ مع ربط كل وحدة معالجة رسومات عبر عرض نطاق ترددي NVLink يبلغ 1.8 تيرابايت في الثانية، يعمل النظام كعقدة واحدة بمقياس الإكسا.²⁹
يتيح GB300 NVL72 إنتاج مصنع ذكاء اصطناعي أعلى بـ 50 ضعفًا، يجمع بين زمن استجابة أفضل بـ 10 أضعاف وإنتاجية أعلى بـ 5 أضعاف لكل ميجاواط نسبة إلى منصات Hopper.³⁰ توضح مكاسب الكفاءة لماذا تمثل متطلبات التبريد السائل استثمارًا وليس نفقات عامة.
يوفر نظام DGX B300 ذاكرة HBM3e بسعة 2.3 تيرابايت مع ثماني بطاقات ConnectX-8 SuperNICs لشبكات 800 جيجابت.³¹ تتطابق متطلبات الشبكات مع قدرة الحوسبة. تخلق أنسجة الشبكة ذات الحجم الأقل اختناقات تهدر سعة وحدات معالجة الرسومات.
ضع ثماني خزانات NV72L معًا لتشكيل DGX SuperPOD كامل الحجم من Blackwell Ultra: 288 وحدة معالجة مركزية Grace، و576 وحدة معالجة رسومات Blackwell Ultra، و300 تيرابايت من ذاكرة HBM3e، و11.5 إكسافلوبس من حوسبة FP4.³² يمثل هذا النطاق ما تنشره مختبرات الذكاء الاصطناعي الرائدة لتدريب أكبر النماذج.
متطلبات البنية التحتية
تتجاوز متطلبات الطاقة والتبريد ما توفره معظم المرافق الحالية. يستخدم نظام HGX B300 بحجم 4U تقنية DLC-2 من Supermicro لالتقاط ما يصل إلى 98% من الحرارة عبر التبريد السائل.³³ لا يمكن للتبريد الهوائي تبديد الناتج الحراري. يجب على المؤسسات التي تخطط لنشر Blackwell تنفيذ بنية تحتية للتبريد السائل.
يتيح نظام HGX B300 المبرد بالسائل بحجم 2-OU OCP ما يصل إلى 144 وحدة معالجة رسومات لكل خزانة لمزودي الخدمات السحابية وفائقة النطاق.³⁴ تدعم خزانة ORV3 واحدة ما يصل إلى 18 عقدة بإجمالي 144 وحدة معالجة رسومات، مع توسيع باستخدام محولات Quantum-X800 InfiniBand ووحدات توزيع سائل التبريد داخل الصف بقدرة 1.8 ميجاواط.³⁵ تشكل ثماني خزانات حوسبة HGX B300، وثلاث خزانات شبكات Quantum-X800 InfiniBand، ووحدتا CDU داخل الصف وحدة SuperCluster قابلة للتوسيع تضم 1,152 وحدة معالجة رسومات.³⁶
تتطلب الشبكات اتصالاً بسرعة 800 جيجابت. تضاعف منصتا 2-OU OCP و4U إنتاجية شبكة نسيج الحوسبة إلى 800 جيجابت في الثانية عبر بطاقات ConnectX-8 SuperNICs المدمجة.³⁷ تستضيف وحدة الإدخال/الإخراج لـ ConnectX-8 SuperNIC جهازي ConnectX-8 لاتصال شبكة بسرعة 800 جيجابت في الثانية لكل وحدة معالجة رسومات.³⁸ تواجه المؤسسات ذات البنية التحتية بسرعة 400 جيجابت متطلبات ترقية.
توفر الخدمات السحابية والمؤسسات
أصبحت Google Cloud أول مزود سحابي فائق النطاق يعلن عن توفر معاينة للعروض المبنية على B200.³⁹ تعد AWS وGoogle Cloud وMicrosoft Azure وOracle Cloud Infrastructure من بين أوائل مزودي الخدمات السحابية الذين يقدمون مثيلات مدعومة بـ Blackwell.⁴⁰ يوفر توفر الخدمات السحابية الفائقة النطاق وصولاً سحابيًا للمؤسسات غير المستعدة لنشر البنية التحتية المحلية.
شحنت HPE أول حل من عائلة NVIDIA Blackwell، وهو GB200 NVL72، في فبراير 2025.⁴¹ يقدم مصنعو الأنظمة العالميون Cisco وDell وHPE وLenovo وSupermicro خوادم NVIDIA-Certified RTX PRO مع Blackwell.⁴² نضجت منظومة الموردين بسرعة من الإعلان إلى توفر الإنتاج.
نجحت Pegatron و5C في نشر خزانات مبردة بالسائل مبنية على HGX B200 مع تكامل CDU داخل الصف في مركز بيانات في ماريلاند جنبًا إلى جنب مع أنظمة مبردة بالهواء.⁴³ يوضح النشر البنية التحتية الجاهزة للإنتاج للمؤسسات التي تبني مصانع الذكاء الاصطناعي الخاصة بها.
تؤثر قيود العرض على التوفر. يفوق الطلب من مزودي الخدمات السحابية الفائقة النطاق ومختبرات الذكاء الاصطناعي طاقة الإنتاج.⁴⁴ تطلب الشركات السحابية الكبرى وشركات الذكاء الاصطناعي عددًا كبيرًا من العقد بينما لا تستطيع المؤسسات الأصغر تحمل سوى كميات محدودة.⁴⁵ تواجه NVIDIA تراكمًا في طلبات شرائح Blackwell، ويعود ذلك جزئيًا إلى مشكلات في التصميم في الإنتاج المبكر.⁴⁶ يستغرق تشغيل المجموعات الكبيرة عادةً ثلاثة أشهر إضافية بعد التسليم الأولي.⁴⁷
توصيات النشر
يجب على المؤسسات تحديد ما إذا كانت قدرات Blackwell تبرر استثمارات البنية التحتية. لأحمال العمل التي يهيمن عليها الاستدلال، تثبت مكاسب كفاءة Blackwell جاذبيتها. لأحمال عمل التدريب التي تتطلب دقة FP64، قد يظل Hopper مناسبًا.
يمكن للمؤسسات الاستمرار في تدريب النماذج الكبيرة على وحدات معالجة الرسومات H100 أو H200 مع استخدام B200 أو B300 لمهام الاستدلال والنشر حيث يوفر Blackwell أكبر مكاسب في الإنتاجية وزمن الاستجابة.⁴⁸ يُحسّن النهج الهجين استثمار البنية التحتية عبر أنواع أحمال العمل.
يعكس التسعير تحسينات القدرة. تشير القوائم المبكرة إلى B200 192GB SXM بسعر 45,000 إلى 50,000 دولار لكل وحدة معالجة رسومات.⁴⁹ يمكن أن تتجاوز أنظمة الخوادم الكاملة 8x B200 مبلغ 500,000 دولار.⁵⁰ تفضل متطلبات رأس المال المؤسسات ذات نماذج إيرادات الذكاء الاصطناعي الواضحة أو التفويضات الاستراتيجية.
يناسب B200 استدلال النماذج على نطاق واسع، والحوسبة العلمية، وأحمال عمل FP64، وأنظمة وحدات معالجة الرسومات المتعددة مع 4 إلى 8 وحدات.⁵¹ يثبت B300 أنه الأفضل لتدريب النماذج اللغوية الكبيرة مع إنتاجية أعلى ونسيج NVLink، واستدلال النماذج على نطاق واسع، والحواسيب الفائقة.⁵² يساعد التمييز المؤسسات على اختيار التكوينات المناسبة.
يجب أن تأخذ قرارات استثمار البنية التحتية في الاعتبار متطلبات التبريد السائل لـ Blackwell، والشبكات بسرعة 800 جيجابت، ومتطلبات الطاقة. تواجه المؤسسات ذات المرافق المبردة بالهواء الحالية تكاليف إعادة التأهيل أو البناء الجديد. تحتاج تلك التي لا تملك بنية تحتية لشبكات 800 جيجابت إلى ترقيات النسيج. لا يمكن للمرافق التي لا تتمتع بكثافة طاقة كافية استضافة أنظمة Blackwell بغض النظر عن الاستعدادات الأخرى.
تتجاوز فجوة البنية التحتية بين متطلبات Hopper وBlackwell أي انتقال سابق بين أجيال NVIDIA. المؤسسات التي تبدأ التخطيط الآن تضع نفسها للنشر عندما تصبح الأنظمة متاحة. تلك التي تتأخر ستجد أن قيود المرافق تحد من قدراتها في الذكاء الاصطناعي بغض النظر عن ميزانية وحدات معالجة الرسومات.
النقاط الرئيسية
لمهندسي البنية التحتية: - B300: 15 PFLOPS FP4، 288GB HBM3e (مكدسات من 12 طبقة)، عرض نطاق ترددي للذاكرة 8TB/s، استهلاك طاقة 1,400W TDP لكل وحدة معالجة رسومات - GB300 NVL72: 72 وحدة معالجة رسومات، 1.1 إكسافلوبس FP4، عرض نطاق ترددي NVLink بسرعة 1.8TB/s لكل وحدة معالجة رسومات؛ DGX SuperPOD: 576 وحدة معالجة رسومات، 11.5 إكسافلوبس - تقدم الطاقة: H100 (700W) ← B200 (1,000W) ← B300 (1,400W)؛ فجوة البنية التحتية تتجاوز أي انتقال سابق بين الأجيال
لفرق المشتريات: - B200 192GB SXM: 45,000-50,000 دولار لكل وحدة معالجة رسومات؛ أنظمة الخوادم الكاملة 8x B200 تتجاوز 500,000 دولار - قيود العرض مستمرة؛ الطلب من مزودي الخدمات السحابية الفائقة النطاق يفوق طاقة الإنتاج مع تأخر نشر يتجاوز 3 أشهر بعد التسليم - شحنت HPE أول GB200
[تم اقتطاع المحتوى للترجمة]