NVIDIA Blackwell Ultra और B300: अगली पीढ़ी के GPU की आवश्यकताएं
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: B300 15 PFLOPS FP4, 288GB HBM3e (12-हाई स्टैक्स), 8TB/s बैंडविड्थ, 1,400W TDP प्रदान कर रहा है। GB300 NVL72 रैक 1.1 EXAFLOPS हासिल कर रहा है—सिंगल नोड में एक्सास्केल। DGX B200 Hopper की तुलना में 3x ट्रेनिंग, 15x इंफरेंस प्रदान कर रहा है। सिस्टम H2 2025 में शिप हो रहे हैं। लिक्विड कूलिंग, 800Gbps नेटवर्किंग, और पावर डेंसिटी की आवश्यकता है जो अधिकांश मौजूदा सुविधाओं की क्षमता से परे है।
NVIDIA Blackwell Ultra GPU 15 पेटाफ्लॉप्स डेंस FP4 कंप्यूट, B200 से 50% अधिक मेमोरी, और 1.5 गुना तेज प्रदर्शन प्रदान करता है।¹ एक सिंगल GB300 NVL72 रैक 1.1 एक्साफ्लॉप्स FP4 कंप्यूट हासिल करता है, जो सिंगल नोड में एक्सास्केल सुपरकंप्यूटर के रूप में काम करता है।² आठ NVIDIA Blackwell GPUs से लैस DGX B200 पिछली पीढ़ी के Hopper सिस्टम की तुलना में 3x ट्रेनिंग प्रदर्शन और 15x इंफरेंस प्रदर्शन प्रदान करता है।³ Blackwell के लिए इंफ्रास्ट्रक्चर आवश्यकताएं संगठनों द्वारा पहले तैनात की गई किसी भी चीज़ से काफी अलग हैं, जिसमें लिक्विड कूलिंग, 800-गीगाबिट नेटवर्किंग, और पावर डेंसिटी की मांग है जो अधिकांश मौजूदा सुविधाएं सपोर्ट नहीं कर सकतीं।
NVIDIA ने GTC 2025 में B300 की घोषणा की, जिसके सिस्टम 2025 की दूसरी छमाही में शिप होंगे।⁴ यह समय उन संगठनों के लिए योजना की तात्कालिकता पैदा करता है जिन्हें हार्डवेयर आने से पहले सुविधाएं तैयार करनी हैं, पावर सुरक्षित करनी है, और संचालन क्षमताएं बनानी हैं। Blackwell की इंफ्रास्ट्रक्चर आवश्यकताओं को अभी समझना यह निर्धारित करता है कि क्या संगठन सिस्टम उपलब्ध होने पर प्रभावी रूप से तैनाती कर सकते हैं।
Blackwell Ultra विनिर्देश
Blackwell Ultra GPU एक ड्यूअल-रेटिकल डिज़ाइन की विशेषता रखता है जिसमें 208 बिलियन ट्रांजिस्टर और NVIDIA के High-Bandwidth Interface का उपयोग करके जुड़े दो डाईज़ में 160 स्ट्रीमिंग मल्टीप्रोसेसर हैं।⁵ B200 में H100 के 80 बिलियन की तुलना में 208 बिलियन ट्रांजिस्टर थे।⁶ ट्रांजिस्टर गिनती फ्रंटियर स्केल पर AI वर्कलोड के लिए आवश्यक आर्किटेक्चरल जटिलता को दर्शाती है।
B300 प्रति GPU 288 गीगाबाइट्स HBM3e मेमोरी प्रदान करता है, जो B200 के 8-हाई कॉन्फ़िगरेशन के बजाय 12-हाई मेमोरी स्टैक्स के माध्यम से प्राप्त होता है।⁷ मेमोरी बैंडविड्थ 8 टेराबाइट्स प्रति सेकंड तक पहुंचती है।⁸ मेमोरी क्षमता उन मॉडल्स की प्रोसेसिंग को सक्षम बनाती है जिन्हें पहले मल्टी-GPU कॉन्फ़िगरेशन की आवश्यकता होती थी, अब सिंगल GPU पर।
पावर आवश्यकताएं काफी बढ़ जाती हैं। प्रत्येक B300 चिप GB300 के केंद्र में 1,400 वाट खींचती है।⁹ B200 1,000 वाट खपत करता था, जो H100 के 700 वाट से ऊपर था।¹⁰ तीन पीढ़ियों में प्रति GPU 700 से 1,000 से 1,400 वाट की प्रगति पावर ट्रैजेक्टरी को दर्शाती है जिसके लिए संगठनों को योजना बनानी चाहिए।
डेंस FP4 प्रदर्शन B200 पर 9 पेटाफ्लॉप्स की तुलना में B300 पर 14 पेटाफ्लॉप्स तक पहुंचता है, जो 55.6% सुधार दर्शाता है।¹¹ FP4 कंप्यूट क्षमता लगभग समान सटीकता बनाए रखते हुए FP8 की तुलना में मेमोरी फुटप्रिंट को लगभग 1.8 गुना कम करती है।¹² कम-प्रिसीजन क्षमता उन इंफरेंस वर्कलोड को संबोधित करती है जहां कम प्रिसीजन गुणवत्ता का त्याग किए बिना थ्रूपुट में सुधार करता है।
Hopper की तुलना में प्रदर्शन
सत्यापित प्रदर्शन डेटा Hopper पीढ़ी की तुलना में प्रति GPU 11 से 15 गुना तेज LLM थ्रूपुट दिखाता है।¹³ HGX B200 HGX H100 की तुलना में 15x इंफरेंस और 3x ट्रेनिंग सुधार प्रदान करता है, साथ ही 12x ऊर्जा और लागत में कमी।¹⁴ GB200 NVL72 क्लस्टर H100 क्लस्टर की तुलना में 4x तेज ट्रेनिंग और 30x तेज रियल-टाइम इंफरेंस प्रदान करता है।¹⁵
B200 सिंगल GPU से 20 पेटाफ्लॉप्स AI प्रदर्शन प्रदान करता है। एक सिंगल H100 में AI कैलकुलेशन में अधिकतम 4 पेटाफ्लॉप्स थे।¹⁶ प्रति GPU 5x सुधार बड़े पैमाने पर तैनाती के अर्थशास्त्र को बदलता है। संगठन कम GPUs के साथ समान क्षमता या समान GPU काउंट के साथ काफी अधिक क्षमता प्राप्त कर सकते हैं।
मेमोरी सुधार कंप्यूट लाभ को पूरक करते हैं। B200 में H100 के 80 गीगाबाइट्स HBM3 की तुलना में 192 गीगाबाइट्स HBM3e है।¹⁷ मेमोरी बैंडविड्थ 8 टेराबाइट्स प्रति सेकंड तक पहुंचती है, जो H100 के 3.35 टेराबाइट्स प्रति सेकंड से 2.4x तेज है।¹⁸ मेमोरी क्षमता उन मॉडल्स की सिंगल-GPU प्रोसेसिंग को सक्षम बनाती है जिन्हें पहले जटिल मल्टी-GPU कॉन्फ़िगरेशन की आवश्यकता होती थी।
इंफरेंस वर्कलोड के लिए, Blackwell H100 की तुलना में प्रति इंफरेंस 25x कम ऊर्जा प्रदान करता है।¹⁹ एक सिंगल B200 Llama 3 इंफरेंस के लिए 5x H100 नोड्स को रिप्लेस करता है, लागत और कार्बन फुटप्रिंट को कम करता है।²⁰ दक्षता लाभ बड़ी तैनाती में संयोजित होते हैं जहां इंफरेंस कंप्यूट डिमांड पर हावी है।
Hopper से आर्किटेक्चरल अंतर
Hopper FP64 और FP32 में पारंपरिक प्रिसीजन पर फोकस के साथ हाई-परफॉर्मेंस कंप्यूटिंग और AI वर्कलोड के व्यापक मिश्रण को लक्षित करता है।²¹ Blackwell स्पष्ट रूप से बड़े पैमाने पर जेनरेटिव AI कार्यों के लिए अनुकूलित करता है।²² आर्किटेक्चरल फोकस NVIDIA के इस आकलन को दर्शाता है कि AI वर्कलोड, विशेष रूप से इंफरेंस, GPU डिमांड पर हावी होंगे।
Blackwell पांचवीं पीढ़ी के टेंसर कोर पेश करता है जिसमें 4-बिट और 6-बिट ऑपरेशंस को सपोर्ट करने वाले अल्ट्रा-लो-प्रिसीजन मोड हैं।²³ कम-प्रिसीजन क्षमताएं उन इंफरेंस वर्कलोड को तेज करती हैं जहां क्वांटाइज़्ड मॉडल स्वीकार्य गुणवत्ता बनाए रखते हैं। उच्च प्रिसीजन की आवश्यकता वाले ट्रेनिंग वर्कलोड को आर्किटेक्चरल परिवर्तनों से कम लाभ होता है।
NVLink कनेक्टिविटी नाटकीय रूप से बढ़ती है। प्रत्येक Blackwell GPU में 18 पांचवीं पीढ़ी के NVLink कनेक्शन हैं, जो H100 पर उपलब्ध से 18 गुना अधिक है।²⁴ प्रत्येक कनेक्शन 50 गीगाबाइट्स प्रति सेकंड की बाइडायरेक्शनल बैंडविड्थ प्रदान करता है।²⁵ विस्तारित इंटरकनेक्ट GB300 NVL72 के आर्किटेक्चर को सक्षम बनाता है जहां 72 GPUs एकीकृत कंप्यूट फैब्रिक के रूप में काम करते हैं।
डबल प्रिसीजन के साथ शुद्ध HPC न्यूमेरिक कार्यों के लिए जिसमें मैट्रिक्स अल्जेब्रा, फ्लूइड डायनेमिक्स, और मॉलिक्यूलर डायनेमिक्स शामिल हैं, Hopper की FP64 प्रति-वाट, बड़ी शेयर्ड मेमोरी, और FP32 के लिए अच्छी तरह से प्रावधान किए गए कैश में ताकत बनी रहती है।²⁶ पारंपरिक HPC वर्कलोड वाले संगठनों को यह नहीं मानना चाहिए कि Blackwell सभी उपयोग मामलों में समान रूप से सुधार करता है।
GB300 NVL72 रैक आर्किटेक्चर
लिक्विड-कूल्ड GB300 NVL72 रैक 36 Grace Blackwell Superchips को एकीकृत करता है, जो NVLink 5 और NVLink Switching के माध्यम से आपस में जुड़े हुए हैं।²⁷ रैक में 72 B300 GPUs हैं, प्रत्येक में 288 गीगाबाइट्स HBM3e मेमोरी है।²⁸ प्रत्येक GPU 1.8 टेराबाइट्स प्रति सेकंड NVLink बैंडविड्थ के माध्यम से आपस में जुड़े होने के साथ, सिस्टम सिंगल एक्सास्केल नोड के रूप में काम करता है।²⁹
GB300 NVL72 Hopper प्लेटफॉर्म की तुलना में 10x बेहतर लेटेंसी और 5x उच्च थ्रूपुट प्रति मेगावाट को मिलाकर 50x उच्च AI फैक्टरी आउटपुट को सक्षम बनाता है।³⁰ दक्षता लाभ यह दर्शाते हैं कि लिक्विड कूलिंग आवश्यकताएं ओवरहेड के बजाय निवेश का प्रतिनिधित्व करती हैं।
DGX B300 सिस्टम 800-गीगाबिट नेटवर्किंग के लिए आठ ConnectX-8 SuperNICs के साथ 2.3 टेराबाइट्स HBM3e मेमोरी प्रदान करता है।³¹ नेटवर्किंग आवश्यकताएं कंप्यूट क्षमता से मेल खाती हैं। कम आकार के नेटवर्क फैब्रिक बॉटलनेक बनाते हैं जो GPU क्षमता को बर्बाद करते हैं।
पूर्ण Blackwell Ultra DGX SuperPOD बनाने के लिए आठ NV72L रैक को एक साथ रखें: 288 Grace CPUs, 576 Blackwell Ultra GPUs, 300 टेराबाइट्स HBM3e मेमोरी, और 11.5 एक्साफ्लॉप्स FP4 कंप्यूट।³² यह स्केल उस चीज़ का प्रतिनिधित्व करता है जो फ्रंटियर AI लैब्स सबसे बड़े मॉडल्स को ट्रेन करने के लिए तैनात करती हैं।
इंफ्रास्ट्रक्चर आवश्यकताएं
पावर और कूलिंग आवश्यकताएं अधिकांश मौजूदा सुविधाओं द्वारा प्रदान की जाने वाली क्षमता से अधिक हैं। 4U HGX B300 सिस्टम लिक्विड कूलिंग के माध्यम से 98% तक गर्मी को कैप्चर करने के लिए Supermicro की DLC-2 तकनीक का उपयोग करता है।³³ एयर कूलिंग थर्मल आउटपुट को डिसिपेट नहीं कर सकती। Blackwell तैनाती की योजना बनाने वाले संगठनों को लिक्विड कूलिंग इंफ्रास्ट्रक्चर लागू करना होगा।
2-OU OCP लिक्विड-कूल्ड HGX B300 सिस्टम हाइपरस्केल और क्लाउड प्रोवाइडर्स के लिए प्रति रैक 144 GPUs तक सक्षम बनाता है।³⁴ एक सिंगल ORV3 रैक कुल 144 GPUs के साथ 18 नोड्स तक सपोर्ट करता है, जो Quantum-X800 InfiniBand स्विच और 1.8-मेगावाट इन-रो कूलेंट डिस्ट्रीब्यूशन यूनिट्स के साथ स्केल करता है।³⁵ आठ HGX B300 कंप्यूट रैक, तीन Quantum-X800 InfiniBand नेटवर्किंग रैक, और दो इन-रो CDUs 1,152 GPUs के साथ एक स्केलेबल SuperCluster यूनिट बनाते हैं।³⁶
नेटवर्किंग के लिए 800-गीगाबिट कनेक्टिविटी की आवश्यकता है। 2-OU OCP और 4U दोनों प्लेटफॉर्म इंटीग्रेटेड ConnectX-8 SuperNICs के माध्यम से कंप्यूट फैब्रिक नेटवर्क थ्रूपुट को 800 गीगाबिट्स प्रति सेकंड तक दोगुना करते हैं।³⁷ ConnectX-8 SuperNIC का I/O मॉड्यूल प्रति GPU 800 गीगाबिट्स प्रति सेकंड नेटवर्क कनेक्टिविटी के लिए दो ConnectX-8 डिवाइस होस्ट करता है।³⁸ 400-गीगाबिट इंफ्रास्ट्रक्चर वाले संगठनों को अपग्रेड आवश्यकताओं का सामना करना पड़ता है।
हाइपरस्केलर और एंटरप्राइज़ उपलब्धता
Google Cloud B200-आधारित ऑफरिंग की प्रीव्यू उपलब्धता की घोषणा करने वाला पहला हाइपरस्केलर बना।³⁹ AWS, Google Cloud, Microsoft Azure, और Oracle Cloud Infrastructure Blackwell-संचालित इंस्टेंस प्रदान करने वाले पहले क्लाउड प्रोवाइडर्स में से हैं।⁴⁰ हाइपरस्केलर उपलब्धता उन संगठनों के लिए क्लाउड-आधारित एक्सेस प्रदान करती है जो ऑन-प्रिमाइसेस इंफ्रास्ट्रक्चर तैनात करने के लिए तैयार नहीं हैं।
HPE ने फरवरी 2025 में अपना पहला NVIDIA Blackwell फैमिली सॉल्यूशन, GB200 NVL72, शिप किया।⁴¹ ग्लोबल सिस्टम मेकर्स Cisco, Dell, HPE, Lenovo, और Supermicro Blackwell के साथ NVIDIA-Certified RTX PRO Servers प्रदान करते हैं।⁴² वेंडर इकोसिस्टम घोषणा से लेकर प्रोडक्शन उपलब्धता तक तेजी से परिपक्व हुआ।
Pegatron और 5C ने Maryland डेटा सेंटर में एयर-कूल्ड सिस्टम के साथ इन-रो CDU इंटीग्रेशन के साथ HGX B200 पर आधारित लिक्विड-कूल्ड रैक सफलतापूर्वक तैनात किए।⁴³ यह तैनाती अपनी स्वयं की AI फैक्ट्रीज़ बनाने वाले संगठनों के लिए प्रोडक्शन-रेडी इंफ्रास्ट्रक्चर दर्शाती है।
सप्लाई कंस्ट्रेंट्स उपलब्धता को प्रभावित करते हैं। हाइपरस्केलर्स और AI लैब्स की मांग प्रोडक्शन क्षमता को पार कर जाती है।⁴⁴ प्रमुख हाइपरस्केलर्स और AI कंपनियां कई नोड्स ऑर्डर करती हैं जबकि छोटे संगठन केवल सीमित मात्रा का खर्च वहन कर सकते हैं।⁴⁵ NVIDIA को Blackwell चिप्स का बैकलॉग का सामना करना पड़ रहा है, आंशिक रूप से शुरुआती प्रोडक्शन में डिज़ाइन समस्याओं के कारण।⁴⁶ बड़े क्लस्टर को ऑपरेशनल बनाने में आमतौर पर प्रारंभिक डिलीवरी के बाद अतिरिक्त तीन महीने लगते हैं।⁴⁷
तैनाती अनुशंसाएं
संगठनों को यह निर्धारित करना चाहिए कि क्या Blackwell की क्षमताएं इंफ्रास्ट्रक्चर निवेश को उचित ठहराती हैं। इंफरेंस-प्रधान वर्कलोड के लिए, Blackwell के दक्षता लाभ आकर्षक साबित होते हैं। FP64 प्रिसीजन की आवश्यकता वाले ट्रेनिंग वर्कलोड के लिए, Hopper उपयुक्त रह सकता है।
संगठन H100 या H200 GPUs पर बड़े मॉडल्स को ट्रेन करना जारी रख सकते हैं जबकि इंफरेंस और डिप्लॉयमेंट कार्यों के लिए B200 या B300 का उपयोग कर सकते हैं जहां Blackwell सबसे बड़ा थ्रूपुट और लेटेंसी लाभ प्रदान करता है।⁴⁸ हाइब्रिड दृष्टिकोण वर्कलोड प्रकारों में इंफ्रास्ट्रक्चर निवेश को अनुकूलित करता है।
मूल्य निर्धारण क्षमता सुधारों को दर्शाता है। शुरुआती लिस्टिंग B200 192GB SXM को $45,000 से $50,000 प्रति GPU पर सुझाती हैं।⁴⁹ पूर्ण 8x B200 सर्वर सिस्टम $500,000 से अधिक हो सकते हैं।⁵⁰ पूंजी आवश्यकताएं स्पष्ट AI राजस्व मॉडल या रणनीतिक जनादेश वाले संगठनों के पक्ष में हैं।
B200 स्केल पर मॉडल इंफरेंस, वैज्ञानिक कंप्यूटिंग, FP64 वर्कलोड, और 4 से 8 GPUs वाले मल्टी-GPU सिस्टम के लिए उपयुक्त है।⁵¹ B300 उच्च थ्रूपुट और NVLink फैब्रिक के साथ LLM ट्रेनिंग, स्केल पर मॉडल इंफरेंस, और सुपरकंप्यूटर के लिए सबसे अच्छा साबित होता है।⁵² यह भेद संगठनों को उचित कॉन्फ़िगरेशन चुनने में मदद करता है।
इंफ्रास्ट्रक्चर निवेश निर्णयों को Blackwell की लिक्विड कूलिंग, 800-गीगाबिट नेटवर्किंग, और पावर आवश्यकताओं को ध्यान में रखना चाहिए। मौजूदा एयर-कूल्ड सुविधाओं वाले संगठनों को रेट्रोफिट लागत या नए निर्माण का सामना करना पड़ता है। 800-गीगाबिट नेटवर्क इंफ्रास्ट्रक्चर के बिना उन्हें फैब्रिक अपग्रेड की आवश्यकता है। पर्याप्त पावर डेंसिटी के बिना सुविधाएं अन्य तैयारियों के बावजूद Blackwell सिस्टम को होस्ट नहीं कर सकतीं।
Hopper और Blackwell आवश्यकताओं के बीच इंफ्रास्ट्रक्चर गैप किसी भी पिछले NVIDIA जेनरेशन ट्रांज़िशन से अधिक है। जो संगठन अभी योजना बनाना शुरू करते हैं वे सिस्टम उपलब्ध होने पर तैनाती के लिए खुद को तैयार करते हैं। जो देरी करते हैं वे पाएंगे कि GPU बजट की परवाह किए बिना सुविधा बाधाएं उनकी AI क्षमताओं को सीमित करती हैं।
मुख्य निष्कर्ष
इंफ्रास्ट्रक्चर आर्किटेक्ट्स के लिए: - B300: 15 PFLOPS FP4, 288GB HBM3e (12-हाई स्टैक्स), 8TB/s मेमोरी बैंडविड्थ, 1,400W TDP प्रति GPU - GB300 NVL72: 72 GPUs, 1.1 एक्साफ्लॉप्स FP4, 1.8TB/s NVLink बैंडविड्थ प्रति GPU; DGX SuperPOD: 576 GPUs, 11.5 एक्साफ्लॉप्स - पावर प्रगति: H100 (700W) → B200 (1,000W) → B300 (1,400W); इंफ्रास्ट्रक्चर गैप किसी भी पिछले जेनरेशन ट्रांज़िशन से अधिक है
प्रोक्योरमेंट टीमों के लिए: - B200 192GB SXM: $45,000-$50,000 प्रति GPU; पूर्ण 8x B200 सर्वर सिस्टम $500,000 से अधिक - सप्लाई कंस्ट्रेंट्स बने रहते हैं; हाइपरस्केलर्स की मांग प्रोडक्शन क्षमता को पार करती है जिसमें डिलीवरी के बाद 3+ महीने की तैनाती देरी होती है - HPE ने पहला GB200 शिप किया
[अनुवाद के लिए सामग्री संक्षिप्त की गई]