GB200 NVL72 डिप्लॉयमेंट: लिक्विड-कूल्ड कॉन्फ़िगरेशन में 72 GPUs का प्रबंधन
8 दिसंबर, 2025 को अपडेट किया गया
बहत्तर GPUs का एक एकल कम्प्यूटेशनल यूनिट के रूप में संचालन अब प्रोडक्शन में वास्तविकता बन चुका है। GB200 NVL72 एक सिंगल रैक में 120 किलोवाट की खपत करता है और 1.4 एक्साफ्लॉप्स AI कंप्यूट प्रदान करता है।¹ यह आर्किटेक्चर नोड्स के बीच पारंपरिक सीमाओं को पूरी तरह मिटा देता है, एक सुसंगत कम्प्यूटेशनल फैब्रिक बनाता है जो ट्रिलियन-पैरामीटर मॉडल्स को पारंपरिक क्लस्टर्स में होने वाली डिस्ट्रीब्यूटेड कंप्यूटिंग पेनल्टी के बिना प्रोसेस करता है। इन सिस्टम्स को डिप्लॉय करने वाले संगठनों को ऐसी इंजीनियरिंग चुनौतियों का सामना करना पड़ता है जो इंफ्रास्ट्रक्चर टीमों की संभव की परिभाषा को बदल देती हैं।
दिसंबर 2025 अपडेट: GB200 NVL72 सिस्टम दिसंबर 2024 से प्रमुख क्लाउड प्रोवाइडर्स को शिप होने शुरू हुए, और Q2-Q3 2025 में मास प्रोडक्शन पूर्ण स्केल पर पहुंच गया। विश्लेषकों ने सप्लाई चेन ऑप्टिमाइज़ेशन आवश्यकताओं के कारण 2025 की शिपमेंट भविष्यवाणियों को संशोधित कर 25,000-35,000 कैबिनेट कर दिया (प्रारंभिक अनुमान 50,000-80,000 थे)। NVIDIA ने GTC 2025 में पहले ही उत्तराधिकारी GB300 NVL72 का अनावरण कर दिया है, जिसमें Blackwell Ultra GPUs हैं जिनमें 288GB HBM3e मेमोरी, 1.4kW पावर प्रति GPU, और 50% अधिक परफॉर्मेंस (1,100 PFLOPS FP4 इनफेरेंस) है। GB300 सिस्टम Q3 2025 में प्रोडक्शन में आए और Quanta ने सितंबर से यूनिट्स शिप करना शुरू किया। नए डिप्लॉयमेंट की योजना बना रहे संगठनों को तत्काल GB200 आवश्यकताओं के मुकाबले GB300 की उपलब्धता का मूल्यांकन करना चाहिए।
केवल आंकड़े ही अनुभवी डेटा सेंटर आर्किटेक्ट्स को चौंका देते हैं: 576 टेराबाइट्स प्रति सेकंड पर एक्सेसिबल 13.5 टेराबाइट्स HBM3e मेमोरी, 130 टेराबाइट्स प्रति सेकंड GPU-टू-GPU बैंडविड्थ प्रदान करने वाले पांचवीं पीढ़ी के NVLink से जुड़ी हुई।² प्रत्येक रैक का वजन 3,000 किलोग्राम है और इसे अनिवार्य लिक्विड कूलिंग सिस्टम के माध्यम से 2.4 मेगावाट कूलिंग क्षमता की आवश्यकता होती है।³ पारंपरिक डिप्लॉयमेंट प्लेबुक्स अप्रासंगिक हो जाती हैं जब एक सिंगल सिस्टम की कीमत $3 मिलियन हो और वह GPT-4 क्लास मॉडल्स को महीनों के बजाय हफ्तों में ट्रेन कर सके।
CoreWeave ने 2025 डिलीवरी के लिए $2.3 बिलियन मूल्य के GB200 NVL72 सिस्टम ऑर्डर किए, अपनी पूरी इंफ्रास्ट्रक्चर स्ट्रैटेजी इस प्लेटफॉर्म की लार्ज लैंग्वेज मॉडल ट्रेनिंग और इनफेरेंस मार्केट्स पर हावी होने की क्षमता पर दांव लगाते हुए।⁴ Lambda Labs ने पावर और कूलिंग आवश्यकताओं को सपोर्ट करने के लिए अपनी सुविधाओं को पूरी तरह से पुनर्निर्मित करने के बावजूद 200 यूनिट्स प्री-परचेज़ किए।⁵ इन सिस्टम्स के लिए गोल्ड रश एक मौलिक सच्चाई को उजागर करता है: जो संगठन GB200 NVL72 इंफ्रास्ट्रक्चर डिप्लॉय नहीं कर सकते, वे फाउंडेशन मॉडल डेवलपमेंट में अप्रासंगिक होने का जोखिम उठाते हैं।
आर्किटेक्चर कंप्यूटिंग की सीमाओं को पुनर्परिभाषित करता है
GB200 NVL72 36 Grace-Blackwell Superchips को टू-लेवल NVLink स्विच सिस्टम के माध्यम से जोड़ता है जो अभूतपूर्व कम्प्यूटेशनल सुसंगतता बनाता है। प्रत्येक Superchip एक Arm-आधारित Grace CPU को दो Blackwell GPUs के साथ जोड़ता है, NVLink-C2C के माध्यम से 900GB/s बाइडायरेक्शनल बैंडविड्थ पर कनेक्टेड।⁶ 72 GPUs मेमोरी शेयर करते हैं और इस तरह कम्युनिकेट करते हैं जैसे वे एक सिंगल मैसिव प्रोसेसर हों, पारंपरिक डिस्ट्रीब्यूटेड ट्रेनिंग को सीमित करने वाले सिंक्रोनाइज़ेशन ओवरहेड को समाप्त करते हुए।
NVLink Switch Trays सिस्टम की रीढ़ बनाते हैं, नौ ट्रे में से प्रत्येक चार NVLink Switch चिप्स को सपोर्ट करता है। ये स्विच GPUs के बीच 1.8TB/s प्रति GPU पर ऑल-टू-ऑल कनेक्टिविटी प्रदान करते हैं, किसी भी GPU को सिस्टम में किसी भी मेमोरी लोकेशन को 300 नैनोसेकंड के भीतर एक्सेस करने में सक्षम बनाते हुए।⁷ लेटेंसी यूनिफॉर्मिटी का मतलब है कि डेवलपर्स पूरे सिस्टम को 72 गुना संसाधनों वाले एक सिंगल GPU के रूप में ट्रीट कर सकते हैं, सॉफ्टवेयर डेवलपमेंट को नाटकीय रूप से सरल बनाते हुए।
मेमोरी आर्किटेक्चर कंप्यूटिंग इतिहास में हर पूर्ववर्ती को तोड़ता है। सिस्टम 576TB/s एग्रीगेट बैंडविड्थ के साथ 13.5TB HBM3e मेमोरी प्रदान करता है, साथ ही Grace CPUs द्वारा एक्सेसिबल अतिरिक्त 2.25TB LPDDR5X।⁸ मेमोरी कोहेरेंस सभी प्रोसेसर्स में फैली हुई है, CPUs और GPUs को एक्सप्लिसिट कॉपी के बिना डेटा स्ट्रक्चर्स शेयर करने की अनुमति देते हुए। लार्ज लैंग्वेज मॉडल्स जिन्हें पहले मल्टीपल नोड्स में कॉम्प्लेक्स मॉडल पैरेललिज़्म की आवश्यकता थी, अब पूरी तरह से एक सिंगल NVL72 की मेमोरी स्पेस में फिट हो जाते हैं।
कूलिंग आर्किटेक्चर का अभिन्न अंग बन जाती है बजाय एक बाद की सोच के। NVIDIA सख्त स्पेसिफिकेशंस के साथ लिक्विड कूलिंग अनिवार्य करता है: इनलेट तापमान 20-25°C के बीच, फ्लो रेट 80 लीटर प्रति मिनट, और प्रेशर ड्रॉप 1.5 बार से अधिक नहीं।⁹ कूलिंग सिस्टम लगातार 120kW हीट जनरेशन के बावजूद जंक्शन तापमान 75°C से नीचे बनाए रखता है। स्पेसिफिकेशंस से विचलन ऑटोमैटिक थ्रॉटलिंग ट्रिगर करता है जो परफॉर्मेंस को 60% तक कम कर सकता है, कूलिंग को कंप्यूट रिसोर्सेज जितना ही क्रिटिकल बनाते हुए।
पावर डिलीवरी को पूर्ण इंफ्रास्ट्रक्चर रीडिज़ाइन की आवश्यकता होती है। सिस्टम चार 30kW पावर शेल्व्स के माध्यम से लगातार 120kW खींचता है, प्रत्येक को 480V थ्री-फेज़ इनपुट की आवश्यकता होती है।¹⁰ पावर कन्वर्ज़न दो स्टेज में होता है: पावर शेल्व्स में AC से 54V DC, फिर कंप्यूट बोर्ड्स पर 54V से पॉइंट-ऑफ-लोड वोल्टेज। आर्किटेक्चर 97% कन्वर्ज़न एफिशिएंसी प्राप्त करता है, लेकिन फिर भी केवल पावर कन्वर्ज़न से 3.6kW वेस्ट हीट जनरेट करता है।
फिज़िकल डिप्लॉयमेंट चुनौतियां गुणा होती हैं
GB200 NVL72 इंस्टॉल करने के लिए मिलिट्री प्रिसीज़न और स्पेशलाइज़्ड इक्विपमेंट की आवश्यकता होती है। सिस्टम चार अलग-अलग कंपोनेंट्स में आता है: 1,500kg वज़न का कंप्यूट रैक, 800kg का NVLink Switch रैक, 400kg का CDU, और 300kg का पावर डिस्ट्रीब्यूशन यूनिट।¹¹ स्टैंडर्ड डेटा सेंटर के दरवाज़े चौड़ाई को समायोजित नहीं कर सकते, दरवाज़े के फ्रेम और कभी-कभी दीवारों को हटाने की आवश्यकता होती है। Introl की डिप्लॉयमेंट टीमें फ्लोर सरफेस को नुकसान पहुंचाए बिना कंपोनेंट्स को पोज़िशन करने के लिए 2,000kg रेटेड स्पेशलाइज़्ड हाइड्रॉलिक लिफ्ट का उपयोग करती हैं।
फ्लोर लोडिंग तत्काल स्ट्रक्चरल चिंताएं प्रस्तुत करती है। कंप्यूट रैक केवल 0.8 वर्ग मीटर में 1,500kg केंद्रित करता है, 1,875 kg/m² के पॉइंट लोड बनाते हुए।¹² 1,000 kg/m² के लिए रेटेड स्टैंडर्ड रेज़्ड फ्लोर्स को वज़न वितरित करने के लिए स्टील रीइनफोर्समेंट प्लेट्स की आवश्यकता होती है। कई सुविधाएं विशेष रूप से NVL72 डिप्लॉयमेंट्स के लिए डाले गए रीइनफोर्स्ड कंक्रीट पैड्स के साथ स्लैब-ऑन-ग्रेड इंस्टॉलेशन का विकल्प चुनती हैं। सीस्मिक ज़ोन्स को भूकंप के दौरान मूवमेंट रोकने के लिए अतिरिक्त एंकरिंग की आवश्यकता होती है।
केबल मैनेजमेंट 5,000 से अधिक इंडिविजुअल कनेक्शंस के साथ थ्री-डाइमेंशनल पज़ल बन जाता है। सिस्टम GPU इंटरकनेक्ट्स के लिए 144 कॉपर NVLink केबल्स, नेटवर्क कनेक्टिविटी के लिए 288 ऑप्टिकल केबल्स, 72 लिक्विड कूलिंग ट्यूब्स, और सैकड़ों पावर केबल्स का उपयोग करता है।¹³ NVIDIA सटीक केबल लेंथ और रूटिंग डायग्राम प्रदान करता है, क्योंकि विचलन 1.8TB/s स्पीड पर सिग्नल इंटीग्रिटी इश्यूज़ का कारण बनते हैं। इंस्टॉलेशन टीमें केवल केबल मैनेजमेंट पर 60-80 घंटे बिताती हैं, हर कनेक्शन को स्पेसिफिकेशंस से मैच करने की वेरिफिकेशन के लिए ऑगमेंटेड रियलिटी हेडसेट्स का उपयोग करते हुए।
लिक्विड कूलिंग इंफ्रास्ट्रक्चर फार्मास्यूटिकल-ग्रेड क्लीनलीनेस की मांग करता है। कूलिंग लूप में 200 लीटर स्पेशली फॉर्मूलेटेड कूलेंट होता है जिसे स्पेसिफिक कंडक्टिविटी, pH, और पार्टिकुलेट लेवल्स बनाए रखने होते हैं।¹⁴ एक सिंगल कंटैमिनेंट पार्टिकल इंडिविजुअल चिप्स को कूल करने वाले माइक्रोचैनल कोल्ड प्लेट्स को क्लॉग कर सकता है। इंस्टॉलेशन टीमें कूलेंट इंट्रोड्यूस करने से पहले पूरे सिस्टम को डीआयोनाइज़्ड वाटर से तीन बार फ्लश करती हैं। प्रक्रिया में 12-16 घंटे लगते हैं और स्पेशलाइज़्ड पंपिंग इक्विपमेंट की आवश्यकता होती है।
नेटवर्क इंटीग्रेशन को अभूतपूर्व बैंडविड्थ प्रोविज़निंग की आवश्यकता होती है। प्रत्येक NVL72 को एक्सटर्नल कनेक्टिविटी के लिए आठ 400GbE कनेक्शंस की आवश्यकता होती है, कुल 3.2Tb/s प्रति सिस्टम।¹⁵ बैंडविड्थ आवश्यकता कई सुविधाओं की पूरी एक्सटर्नल कनेक्टिविटी से अधिक है। संगठन आमतौर पर NVL72 सिस्टम्स से कोर राउटर्स तक डेडिकेटेड ऑप्टिकल फाइबर रन डिप्लॉय करते हैं, पारंपरिक टॉप-ऑफ-रैक स्विचिंग आर्किटेक्चर को बायपास करते हुए। नेटवर्क डिज़ाइन को ईस्ट-वेस्ट ट्रैफिक पैटर्न्स को ध्यान में रखना चाहिए क्योंकि NVL72 सिस्टम्स डिस्ट्रीब्यूटेड ट्रेनिंग के दौरान चेकपॉइंट्स और ग्रेडिएंट्स एक्सचेंज करते हैं।
एक्सट्रीम स्केल पर सॉफ्टवेयर ऑर्केस्ट्रेशन
72 GPUs को एक सुसंगत सिस्टम के रूप में मैनेज करने के लिए फंडामेंटल सॉफ्टवेयर आर्किटेक्चर चेंजेस की आवश्यकता होती है। NVIDIA का NVLink Switch System सॉफ्टवेयर सभी GPUs में एक सिंगल मेमोरी स्पेस बनाता है, लेकिन एप्लीकेशंस को इस क्षमता का फायदा उठाने के लिए डिज़ाइन किया जाना चाहिए। Horovod और PyTorch Distributed जैसे पारंपरिक डिस्ट्रीब्यूटेड ट्रेनिंग फ्रेमवर्क अनावश्यक ओवरहेड बन जाते हैं। डेवलपर्स NVIDIA की Transformer Engine लाइब्रेरीज़ का उपयोग करते हैं जो मैन्युअल इंटरवेंशन के बिना मॉडल्स को ऑटोमैटिकली 72 GPUs में पार्टीशन करती हैं।¹⁶
कंटेनर ऑर्केस्ट्रेशन प्लेटफॉर्म्स NVL72 के रिसोर्स मॉडल के साथ संघर्ष करते हैं। Kubernetes डिफ़ॉल्ट रूप से सिस्टम को 72 अलग-अलग GPUs के रूप में देखता है, जिससे शेड्यूलिंग कॉन्फ्लिक्ट्स और रिसोर्स फ्रैग्मेंटेशन होता है। NVIDIA कस्टम डिवाइस प्लगइन्स प्रदान करता है जो NVL72 को एक सिंगल शेड्यूलेबल यूनिट के रूप में प्रेज़ेंट करते हैं, लेकिन यह स्टैंडर्ड ML प्लेटफॉर्म्स के साथ कम्पैटिबिलिटी तोड़ता है।¹⁷ संगठन अक्सर मल्टी-टेनेंसी का प्रयास करने के बजाय पूरे NVL72 सिस्टम्स को सिंगल वर्कलोड्स को डेडिकेट करते हैं।
मेमोरी मैनेजमेंट को यूनिफाइड मेमोरी स्पेस के बावजूद NUMA इफेक्ट्स पर सावधानीपूर्वक विचार की आवश्यकता होती है। प्रत्येक Grace CPU के पास लोकल GPUs के लिए 500GB/s बैंडविड्थ के साथ लोकल LPDDR5X मेमोरी है लेकिन रिमोट GPUs के लिए केवल 100GB/s।¹⁸ ऑप्टिमल परफॉर्मेंस के लिए क्रॉस-सॉकेट मेमोरी एक्सेस को मिनिमाइज़ करने वाले डेटा प्लेसमेंट एल्गोरिदम की आवश्यकता होती है। NVIDIA की Magnum IO लाइब्रेरीज़ कुछ ऑप्टिमाइज़ेशन ऑटोमैटिकली हैंडल करती हैं, लेकिन कस्टम एप्लीकेशंस को एक्सप्लिसिट NUMA अवेयरनेस की आवश्यकता होती है।
फेल्योर हैंडलिंग कॉम्प्लेक्स हो जाती है जब 72 GPUs एक के रूप में ऑपरेट करते हैं। एक सिंगल GPU फेल्योर का पारंपरिक रूप से मतलब था नोड के कंप्यूट का 1/8वां हिस्सा खोना। NVL72 में, NVLink टोपोलॉजी डिपेंडेंसीज़ के कारण एक फेल्ड GPU पूरे सिस्टम को अस्थिर कर सकता है। NVIDIA हार्डवेयर-लेवल फॉल्ट आइसोलेशन इम्प्लीमेंट करता है जो फेल्ड कंपोनेंट्स के आसपास NVLink रूटिंग को डायनामिकली रीकॉन्फ़िगर करता है, लेकिन परफॉर्मेंस प्रति फेल्ड GPU 15-20% तक डिग्रेड होती है।¹⁹ अधिकांश डिप्लॉयमेंट्स प्रोडक्शन यूनिट्स पर रिपेयर का प्रयास करने के बजाय स्पेयर NVL72 सिस्टम्स मेंटेन करते हैं।
परफॉर्मेंस मॉनिटरिंग ओवरव्हेल्मिंग टेलीमेट्री वॉल्यूम जनरेट करती है। प्रत्येक GPU प्रति सेकंड 10,000+ मेट्रिक्स प्रोड्यूस करता है जो टेम्परेचर, पावर, मेमोरी बैंडविड्थ, और कंप्यूट यूटिलाइज़ेशन को कवर करते हैं।²⁰ 72 GPUs प्लस CPUs और स्विचेस से गुणा करने पर, एक सिंगल NVL72 प्रति सेकंड 1 मिलियन मेट्रिक्स जनरेट करता है। पारंपरिक मॉनिटरिंग सिस्टम्स इस वॉल्यूम को हैंडल नहीं कर सकते। संगठन डेडिकेटेड टाइम-सीरीज़ डेटाबेस डिप्लॉय करते हैं और टेलीमेट्री स्ट्रीम में एनोमलीज़ आइडेंटिफाई करने के लिए AI-ड्रिवन एनालिटिक्स का उपयोग करते हैं।
इकनॉमिक मॉडल्स पारंपरिक सोच को चुनौती देते हैं
GB200 NVL72 की $3 मिलियन प्राइस टैग विकल्पों से तुलना करने तक खगोलीय लगती है। डिस्क्रीट DGX H100 सिस्टम्स से समकक्ष कंप्यूट बनाने के लिए नौ नोड्स की आवश्यकता होगी जिनकी कीमत $2.7 मिलियन होगी, लेकिन 5x अधिक पावर कंज़म्पशन और 10x अधिक रैक स्पेस के साथ।²¹ NVL72 का कोहेरेंट आर्किटेक्चर इंटर-नोड कम्युनिकेशन ओवरहेड को एलिमिनेट करता है, लार्ज मॉडल ट्रेनिंग के लिए 30% बेहतर एक्चुअल थ्रूपुट प्रदान करते हुए। प्रीमियम रिड्यूस्ड ट्रेनिंग टाइम और लोअर ऑपरेशनल कॉस्ट्स के माध्यम से खुद को जस्टिफाई करता है।
पावर इकनॉमिक्स NVL72 के 120kW ड्रॉ के बावजूद फेवर करती है। समान कंप्यूट प्राप्त करने वाले पारंपरिक डिस्ट्रीब्यूटेड सिस्टम्स नेटवर्किंग ओवरहेड सहित 400-500kW कंज़्यूम करेंगे।²² $0.10 प्रति kWh इंडस्ट्रियल रेट्स पर, पावर सेविंग्स वार्षिक $300,000 के बराबर हैं। रिड्यूस्ड कूलिंग लोड वार्षिक अन्य $100,000 बचाता है। टिपिकल थ्री-ईयर डेप्रिसिएशन पीरियड में, एनर्जी सेविंग्स इनिशियल प्रीमियम का लगभग आधा ऑफसेट करती हैं।
ट्रेनिंग टाइम रिडक्शंस सीधे कॉम्पिटिटिव एडवांटेज में ट्रांसलेट होते हैं। OpenAI अनुमान लगाता है कि NVL72 सिस्टम्स पर GPT-4 ट्रेनिंग पिछले इंफ्रास्ट्रक्चर पर 90 दिनों की तुलना में 45 दिनों में पूरी होगी।²³ कंप्यूट रिसोर्सेज पर प्रतिदिन $1 मिलियन खर्च करने वाले संगठनों के लिए, टाइम सेविंग्स किसी भी रीज़नेबल हार्डवेयर प्रीमियम को जस्टिफाई करती हैं। AI मार्केट्स में फर्स्ट-मूवर एडवांटेजेस प्योर फाइनेंशियल कैलकुलेशंस से परे स्पीड को अमूल्य बनाते हैं।
यूटिलाइज़ेशन रेट्स यूनिफाइड आर्किटेक्चर के साथ नाटकीय रूप से इम्प्रूव होते हैं। पारंपरिक क्लस्टर्स कम्युनिकेशन और सिंक्रोनाइज़ेशन ओवरहेड के कारण 50-60% GPU यूटिलाइज़ेशन प्राप्त करते हैं।²⁴ NVL72 सिस्टम्स इंटर-नोड बॉटलनेक्स को एलिमिनेट करके 85-90% यूटिलाइज़ेशन मेंटेन करते हैं। इम्प्रूव्ड यूटिलाइज़ेशन का मतलब है कि प्रत्येक NVL72 120-130 पारंपरिक GPUs का इफेक्टिव कंप्यूट डिलीवर करता है, लार्ज-स्केल AI इंफ्रास्ट्रक्चर की इकनॉमिक्स को बदलते हुए।
ऑपरेशनल कॉस्ट्स कई फाइनेंशियल एनालिस्ट्स को सरप्राइज़ करती हैं। सिस्टम की कॉम्प्लेक्सिटी के लिए $200,000+ सैलरी कमांड करने वाली डेडिकेटेड इंजीनियरिंग टीम्स की आवश्यकता होती है। अकेले कूलेंट की वार्षिक लागत $10,000 है और क्वार्टरली टेस्टिंग $2,000। एक सिंगल NVL72 के लिए स्पेयर पार्ट्स इन्वेंटरी $500,000 कैपिटल टाई करती है। फिर भी ये कॉस्ट्स मॉडल डेवलपमेंट के लिए पर्याप्त कंप्यूट न होने की ऑपर्चुनिटी कॉस्ट के सामने फीकी पड़ जाती हैं।
रियल डिप्लॉयमेंट्स ऑपरेशनल रियलिटीज़ उजागर करते हैं
Anthropic का Claude 3 ट्रेनिंग इंफ्रास्ट्रक्चर
[ट्रांसलेशन के लिए कंटेंट ट्रंकेटेड]