1200W GPU के लिए भौतिक इंफ्रास्ट्रक्चर: पावर, कूलिंग और रैक डिज़ाइन आवश्यकताएं
8 दिसंबर, 2025 को अपडेट किया गया
700W से 1200W GPU पावर कंसम्पशन की छलांग 70% से अधिक की वृद्धि से कहीं ज्यादा है—यह पिछले दशक में डेटा सेंटर डिज़ाइन को गाइड करने वाली हर धारणा को मूलभूत रूप से तोड़ देती है, जिसके लिए ऐसे इंफ्रास्ट्रक्चर की आवश्यकता होती है जो पारंपरिक IT वातावरण की तुलना में औद्योगिक विनिर्माण सुविधाओं से अधिक मिलता-जुलता है।¹ NVIDIA के B200 और GB300 Blackwell Ultra अब प्रति चिप 1200-1400W की मांग करते हैं, जबकि आगामी Vera Rubin प्लेटफॉर्म आवश्यकताओं को और भी ऊपर धकेलेगा।² आज इंफ्रास्ट्रक्चर बनाने वाले संगठनों को ऐसे GPU के लिए तैयार होना चाहिए जो एक रेजिडेंशियल स्पेस हीटर के बराबर गर्मी पैदा करते हैं, कूलिंग उपकरण के साथ 30 किलोग्राम वजन करते हैं, और इलेक्ट्रिक वाहन चार्जिंग स्टेशनों से उधार ली गई पावर डिलीवरी सिस्टम की आवश्यकता होती है।
दिसंबर 2025 अपडेट: 1200W GPU का युग आ गया है। GB200 सिस्टम (1200W प्रति Superchip) पूरे 2025 में शिप हुए, और GB300 Blackwell Ultra (1400W) अब प्रोडक्शन में है। NVIDIA का Vera Rubin प्लेटफॉर्म, जिसके टेस्ट सैंपल सितंबर 2025 से शिप हो रहे हैं, NVL144 कॉन्फ़िगरेशन के लिए प्रति रैक 600kW तक की आवश्यकता होगी—वर्तमान GB200 NVL72 सिस्टम से 5x की वृद्धि। जिन संगठनों ने 2024 में 1200W के लिए इंफ्रास्ट्रक्चर तैयार किया था, उन्हें अब इस वास्तविकता का सामना करना पड़ रहा है कि 2000W+ चिप्स 2027 के क्षितिज पर हैं। यहां प्रलेखित इंफ्रास्ट्रक्चर निर्णय मूलभूत बने हुए हैं, लेकिन भविष्य-उन्मुख डिप्लॉयमेंट को काफी अधिक पावर डेंसिटी के लिए योजना बनानी चाहिए।
इंफ्रास्ट्रक्चर चुनौती पैमाने से गुणा करने पर और भी जटिल हो जाती है। आठ 1200W GPU वाला एक सिंगल रैक सिर्फ कंप्यूट के लिए 10kW खींचता है, लेकिन सपोर्टिंग इक्विपमेंट कुल खपत को प्रति रैक 15-18kW तक धकेल देता है।³ Microsoft के नवीनतम डेटा सेंटर डिज़ाइन पहले से ही 1200W चिप्स को समायोजित करते हैं, जिनकी सुविधाएं सर्वर रूम की तुलना में एल्युमीनियम स्मेल्टर से अधिक मिलती-जुलती हैं।⁴ तैयारी के लिए इलेक्ट्रिकल अपग्रेड, कूलिंग सिस्टम इंस्टॉलेशन और स्ट्रक्चरल रीइंफोर्समेंट के लिए 18-24 महीने की लीड टाइम की आवश्यकता होती है, जिसकी लागत एक भी GPU खरीदने से पहले प्रति मेगावाट $5-8 मिलियन होती है।
शुरुआती अपनाने वाले इंफ्रास्ट्रक्चर आवश्यकताओं को कम आंकने के दर्दनाक सबक का सामना करते हैं। Cerebras ने अपने 23kW वेफर-स्केल इंजन को यह सोचते हुए डिप्लॉय किया कि पावर प्राथमिक चुनौती है, केवल यह पता लगाने के लिए कि कूलिंग पंपों से कंपन चिप विफलताओं का कारण बना।⁵ Tesla के Dojo सुपरकंप्यूटर को पूर्ण सुविधा पुनर्डिज़ाइन की आवश्यकता थी जब 1000W+ चिप्स पर्याप्त लगने वाली कूलिंग क्षमता के बावजूद ओवरहीट हो गए।⁶ अगली पीढ़ी के GPU डिप्लॉय करने वाला हर संगठन नए फेलियर मोड खोजता है जिसके लिए महंगे रेट्रोफिट की आवश्यकता होती है, जिससे मल्टी-मिलियन डॉलर की गलतियों से बचने के लिए उचित तैयारी महत्वपूर्ण हो जाती है।
पावर डिलीवरी आर्किटेक्चर नए क्षेत्र में प्रवेश करता है
पारंपरिक 208V पावर डिस्ट्रीब्यूशन 1200W लोड पर भौतिक रूप से असंभव हो जाता है। 208V पर 1200W डिलीवर करने के लिए थ्री-फेज पावर पर प्रति फेज 5.8 amps की आवश्यकता होती है, लेकिन इलेक्ट्रिकल कोड के अनुसार 80% डीरेटिंग को ध्यान में रखते हुए 7.2 amp सर्किट का मतलब है।⁷ करंट के लिए प्रत्येक GPU के लिए अंगूठे जितनी मोटी 6 AWG केबल की आवश्यकता होगी, जिससे केबल बंडल बनेंगे जो भौतिक रूप से स्टैंडर्ड रैक में फिट नहीं हो सकते। इंस्टॉलेशन लेबर से पहले सिर्फ कॉपर की कीमत प्रति GPU $500 कच्चे माल में होगी।
480V पावर डिस्ट्रीब्यूशन 1200W चिप्स के लिए एकमात्र व्यवहार्य समाधान के रूप में उभरता है। 480V थ्री-फेज पर, 1200W के लिए प्रति फेज केवल 1.5 amps की आवश्यकता होती है, जो 12 AWG वायरिंग के साथ प्रबंधनीय है।⁸ यूरोपीय डेटा सेंटर स्टैंडर्ड 400V डिस्ट्रीब्यूशन के माध्यम से लाभ प्राप्त करते हैं, जो बताता है कि क्यों कई हाइपरस्केलर अगली पीढ़ी के इंफ्रास्ट्रक्चर के लिए नॉर्डिक डिप्लॉयमेंट को प्राथमिकता देते हैं। उत्तरी अमेरिकी सुविधाओं को 208V से 480V डिस्ट्रीब्यूशन में ट्रांसफॉर्मर अपग्रेड की आवश्यकता होती है, जो कन्वर्जन इक्विपमेंट में प्रति मेगावाट $500,000 जोड़ता है।⁹
डायरेक्ट करंट डिस्ट्रीब्यूशन AC सिस्टम को प्रभावित करने वाली कई कन्वर्जन अक्षमताओं को समाप्त करता है। पारंपरिक AC-से-DC कन्वर्जन ट्रांसफॉर्मर और रेक्टिफायर लॉस के माध्यम से 8-10% पावर बर्बाद करता है।¹⁰ Google के डेटा सेंटर 380V DC डिस्ट्रीब्यूशन का प्रदर्शन करते हैं जो यूटिलिटी से चिप तक 99% एफिशिएंसी प्राप्त करता है।¹¹ 1200W GPU के लिए, DC डिस्ट्रीब्यूशन अकेले कन्वर्जन लॉस में प्रति चिप 120W बचाता है। बचाई गई पावर कन्वर्जन हीट के लिए कूलिंग आवश्यकताओं के बराबर होती है, जो एफिशिएंसी लाभों को और बढ़ाती है।
पावर सप्लाई डिज़ाइन परिष्कृत पावर मैनेजमेंट सिस्टम में विकसित होते हैं। पारंपरिक PSU 80 Plus Titanium की 94% एफिशिएंसी के साथ 2000W पर मैक्स आउट होते हैं।¹² आठ 1200W GPU को सपोर्ट करने के लिए N+1 रिडंडेंसी के साथ कई 3000W+ सप्लाई की आवश्यकता होती है। Delta Electronics ने विशेष रूप से हाई-डेंसिटी GPU डिप्लॉयमेंट के लिए 4000W पावर शेल्व विकसित किए, जो 97% एफिशिएंसी प्राप्त करने के लिए GaN ट्रांजिस्टर का उपयोग करते हैं।¹³ प्रत्येक पावर शेल्फ की कीमत $15,000 है लेकिन निरंतर ऑपरेशन के लिए बिजली में सालाना $50,000 बचाता है।
ट्रांजिएंट पावर मैनेजमेंट महत्वपूर्ण हो जाता है क्योंकि GPU माइक्रोसेकंड में आइडल से फुल लोड में शिफ्ट होते हैं। 200W आइडल से फुल पावर में ट्रांजिशन करने वाला 1200W GPU 1000W स्टेप लोड बनाता है जो पावर ग्रिड को अस्थिर करता है।¹⁴ कैपेसिटर बैंक इन ट्रांजिशन को स्मूथ करते हैं लेकिन सावधानीपूर्वक साइजिंग की आवश्यकता होती है: बहुत छोटे और वोल्टेज सैग सिस्टम क्रैश कर देते हैं, बहुत बड़े और लागत अनावश्यक रूप से बढ़ जाती है। आधुनिक GPU पावर डिलीवरी में 50,000 माइक्रोफैरड कैपेसिटर एरे शामिल हैं जिनकी कीमत प्रति रैक $5,000 है लेकिन पावर-प्रेरित विफलताओं को रोकते हैं।
1200W को कूल करने के लिए लिक्विड अनिवार्य है
इंजीनियरिंग रचनात्मकता के बावजूद 1200W GPU के लिए एयर कूलिंग थर्मोडायनामिक रूप से असंभव हो जाती है। हवा के साथ 1200W हीट निकालने के लिए 30°F तापमान वृद्धि के साथ 400 CFM की आवश्यकता होती है।¹⁵ आठ GPU को 3,200 CFM की आवश्यकता होती है, जो सर्वर रैक में 100+ mph की हवाएं बनाता है। अकेले फैन पावर 500W की खपत करेगी, जिससे निकालने के लिए और अधिक गर्मी जुड़ जाएगी। भले ही एयरफ्लो प्राप्त करने योग्य हो, ध्वनि का स्तर 110 dBA से अधिक होगा, जिससे मिनटों में स्थायी श्रवण क्षति होगी।¹⁶
कोल्ड प्लेट्स तक डायरेक्ट लिक्विड कूलिंग न्यूनतम व्यवहार्य समाधान बन जाता है। CoolIT Systems का डायरेक्ट लिक्विड कूलिंग मानव बाल से छोटे माइक्रोचैनल वाले विशेष कोल्ड प्लेट्स का उपयोग करके प्रति GPU 1500W को हैंडल करता है।¹⁷ सिस्टम 2 लीटर प्रति मिनट फ्लो रेट पर 30°C इनलेट वॉटर का उपयोग करके चिप तापमान 80°C से नीचे बनाए रखता है। इंजीनियरिंग पारंपरिक IT की तुलना में Formula 1 रेसिंग से अधिक मिलती है, जिसमें टॉलरेंस माइक्रोमीटर में और थर्मल रेजिस्टेंस प्रति वाट डिग्री सेल्सियस के अंश में मापे जाते हैं।
इमर्शन कूलिंग एक्सट्रीम डेंसिटी डिप्लॉयमेंट के लिए बेहतर हीट रिमूवल प्रदान करता है। Submer का SmartPodX डाइइलेक्ट्रिक फ्लूइड इमर्शन का उपयोग करके 60 वर्ग फीट में 100kW को हैंडल करता है।¹⁸ हवा की अनुपस्थिति हॉट स्पॉट्स और थर्मल ग्रेडिएंट्स को समाप्त करती है जो एयर और कोल्ड प्लेट कूलिंग को प्रभावित करते हैं। GRC की रिपोर्ट है कि 1200W GPU इमर्शन में डायरेक्ट लिक्विड कूलिंग की तुलना में 15°C ठंडे चलते हैं।¹⁹ तकनीक के लिए पूर्ण इंफ्रास्ट्रक्चर पुनर्डिज़ाइन की आवश्यकता होती है लेकिन यह अन्य दृष्टिकोणों के साथ असंभव डेंसिटी को सक्षम बनाती है।
टू-फेज कूलिंग अधिकतम हीट रिमूवल के लिए फेज चेंज फिजिक्स का उपयोग करती है। 3M के Novec फ्लूइड 50°C पर उबलते हैं, वाष्पीकरण सिंगल-फेज लिक्विड की तुलना में 10x अधिक गर्मी अवशोषित करता है।²⁰ Intel ने प्रयोगात्मक चिप्स से 60°C जंक्शन तापमान बनाए रखते हुए 2000W निकालने वाली टू-फेज कूलिंग का प्रदर्शन किया।²¹ तकनीक GPU के लिए प्रयोगात्मक बनी हुई है लेकिन 1500W+ भविष्य के चिप्स के लिए संभावित विकास का प्रतिनिधित्व करती है। शुरुआती अपनाने वालों को टू-फेज अपग्रेड पथों के साथ सुविधाएं डिज़ाइन करनी चाहिए।
हीट रिजेक्शन इंफ्रास्ट्रक्चर GPU पावर के अनुपात में स्केल करता है। 1200W GPU वाली 10MW सुविधा सर्दियों में 2,500 घरों के बराबर गर्मी पैदा करती है।²² कूलिंग टावरों को 35,000 गैलन प्रति मिनट कंडेंसर वॉटर फ्लो को हैंडल करना होगा। पानी की कमी वाले क्षेत्रों के लिए ड्राई कूलर को 50% अधिक क्षमता की आवश्यकता होती है और 20% अधिक पावर की खपत करते हैं। इंफ्रास्ट्रक्चर सर्वर रूम से कहीं आगे औद्योगिक-स्केल मैकेनिकल सिस्टम में विस्तारित होता है जिसकी लागत प्रति मेगावाट $2-3 मिलियन है।
स्ट्रक्चरल इंजीनियरिंग भारी लोड का सामना करती है
इंटीग्रेटेड कूलिंग सिस्टम के साथ GPU का वजन नाटकीय रूप से बढ़ता है। एक बेयर 1200W GPU का वजन 5kg है, लेकिन कोल्ड प्लेट्स, मैनिफोल्ड्स और कूलेंट जोड़ने से कुल वजन प्रति GPU 15kg हो जाता है।²³ आठ-GPU सर्वर पूरी तरह लोडेड होने पर 200kg के करीब पहुंच जाते हैं, जो 150kg प्रति वर्ग मीटर की अधिकांश रेज्ड फ्लोर रेटिंग से अधिक है। वजन की सघनता पॉइंट लोड बनाती है जो समय के साथ कंक्रीट को क्रैक करती है और स्टील सपोर्ट को मोड़ती है।
कूलिंग सिस्टम से वाइब्रेशन अप्रत्याशित स्ट्रक्चरल चुनौतियां बनाता है। लिक्विड कूलिंग के लिए हाई-फ्लो पंप 50-120 Hz फ्रीक्वेंसी पर वाइब्रेशन उत्पन्न करते हैं जो बिल्डिंग स्ट्रक्चर के साथ रेज़ोनेट करती हैं।²⁴ Cerebras ने खोजा कि पंप वाइब्रेशन सोल्डर जॉइंट्स पर मैकेनिकल स्ट्रेस के माध्यम से GPU मेमोरी एरर का कारण बने।²⁵ आइसोलेशन माउंटिंग अनिवार्य हो जाती है, स्प्रिंग-डैम्पर सिस्टम का उपयोग करके जो प्रति रैक $10,000 जोड़ते हैं लेकिन वाइब्रेशन-प्रेरित विफलताओं को रोकते हैं।
हेवीवेट GPU इंफ्रास्ट्रक्चर के लिए सीस्मिक विचार गुणा हो जाते हैं। कैलिफोर्निया बिल्डिंग कोड 400 पाउंड से अधिक उपकरणों के लिए एंकरिंग की आवश्यकता है, लेकिन 1200W GPU रैक पूरी तरह लोडेड होने पर 2,000 पाउंड के करीब पहुंच जाते हैं।²⁶ सीस्मिक एंकरिंग को बिना टिपिंग के 1.5g हॉरिजॉन्टल एक्सेलेरेशन को झेलना चाहिए। एंकरिंग सिस्टम की लागत प्रति रैक $5,000 है और यह सुनिश्चित करने के लिए स्ट्रक्चरल एनालिसिस की आवश्यकता होती है कि फ्लोर स्लैब लोड को हैंडल कर सकें। जापान के डेटा सेंटर बेस आइसोलेशन सिस्टम का उपयोग करते हैं जो भूकंप के दौरान 30cm हॉरिजॉन्टल मूवमेंट की अनुमति देते हैं।
लिक्विड डिस्ट्रीब्यूशन हाइड्रोस्टैटिक लोड जोड़ता है जिस पर डेटा सेंटर डिज़ाइन में शायद ही कभी विचार किया जाता है। 1200W GPU के लिए कूलिंग लूप में प्रति रैक 500+ लीटर कूलेंट होता है, जिसका वजन उपकरण वजन से परे 500kg है।²⁷ पाइप रन को इस वजन और 20+ लीटर प्रति मिनट फ्लो रेट से डायनामिक फोर्सेस को सपोर्ट करना चाहिए। एक कैटास्ट्रोफिक लीक पूरे डेटा सेंटर फ्लोर को फ्लड करने के लिए पर्याप्त लिक्विड रिलीज करता है। सेकेंडरी कंटेनमेंट सिस्टम अनिवार्य हो जाते हैं, जो कंस्ट्रक्शन कॉस्ट में 20% जोड़ते हैं लेकिन एनवायरनमेंटल डिजास्टर को रोकते हैं।
एक्सेस फ्लोरिंग को 1200W इंफ्रास्ट्रक्चर के लिए पूर्ण री-इंजीनियरिंग की आवश्यकता होती है। पारंपरिक 2-फुट रेज्ड फ्लोर उपकरण वजन को सपोर्ट नहीं कर सकते या आवश्यक केबलिंग और पाइपिंग को हाउस नहीं कर सकते। आधुनिक 1200W डिप्लॉयमेंट टाइल्स के बजाय स्टील ग्रेटिंग के साथ 4-फुट रेज्ड फ्लोर का उपयोग करते हैं।²⁸ गहरा प्लेनम 12-इंच कूलिंग पाइप और बड़े केबल बंडल को समायोजित करता है। कंस्ट्रक्शन कॉस्ट 40% बढ़ जाती है लेकिन आवश्यक इंफ्रास्ट्रक्चर स्पेस और लोड कैपेसिटी प्रदान करती है।
नेटवर्क और केबल इंफ्रास्ट्रक्चर तदनुसार स्केल करता है
प्रत्येक 1200W GPU को कंप्यूट आइलैंड बनने से रोकने के लिए कई हाई-स्पीड नेटवर्क कनेक्शन की आवश्यकता होती है। NVIDIA का B200 3.2Tb/s एग्रीगेट बैंडविड्थ के लिए प्रति GPU आठ 400GbE पोर्ट सपोर्ट करता है।²⁹ आठ GPU को रिडंडेंसी के साथ 64 नेटवर्क केबल की आवश्यकता होती है, जिससे 8 इंच व्यास के केबल बंडल बनते हैं। अकेले केबल का वजन प्रति रैक 200kg है और हाई-स्पीड DAC केबल में $50,000 या एक्टिव ऑप्टिकल केबल के लिए $100,000 की लागत है।
पावर केबलिंग एक महत्वपूर्ण इंफ्रास्ट्रक्चर चुनौती बन जाती है। प्रत्येक 1200W GPU को कैस्केड फेलियर को रोकने के लिए डेडिकेटेड पावर फीड की आवश्यकता होती है। 480V का उपयोग करने से केबल गेज कम हो जाता है, लेकिन सेफ्टी रिक्वायरमेंट्स इंडिविजुअल सर्किट प्रोटेक्शन को अनिवार्य करती हैं। आठ GPU वाले रैक को 24 पावर केबल (प्रति GPU थ्री-फेज) के साथ ग्राउंड और न्यूट्रल की आवश्यकता होती है। केबल ट्रे सिस्टम को पावर और डेटा केबल के बीच उचित सेपरेशन बनाए रखते हुए प्रति मीटर 100kg केबल वजन को सपोर्ट करना चाहिए।
बैंडविड्थ आवश्यकताओं के लिए ऑप्टिकल इंफ्रास्ट्रक्चर अनिवार्य हो जाता है। कॉपर केबल 3 मीटर से आगे 400GbE को सपोर्ट नहीं कर सकते, जिससे किसी भी सार्थक टोपोलॉजी के लिए ऑप्टिकल कनेक्शन मजबूर हो जाते हैं।³⁰ प्रत्येक ऑप्टिकल ट्रांसीवर 15W की खपत करता है और इसकी कीमत $3,000 है, जिससे पूरी तरह से कनेक्टेड आठ-GPU सिस्टम के लिए 1kW पावर और ट्रांसीवर में $200,000 जुड़ जाते हैं। ऑप्टिकल इंफ्रास्ट्रक्चर के लिए विशेष क्लीनिंग टूल्स, टेस्ट इक्विपमेंट और विशेषज्ञता की आवश्यकता होती है जो कई संगठनों के पास नहीं है।
केबल मैनेजमेंट कूलिंग एफिशिएंसी को अधिकांश की अपेक्षा से अधिक प्रभावित करता है। खराब केबल रूटिंग हाइब्रिड एयर/लिक्विड सिस्टम में एयरफ्लो को प्रतिबंधित करती है, जिससे हॉट स्पॉट्स बनते हैं जो थर्मल थ्रॉटलिंग को ट्रिगर करते हैं। उचित केबल मैनेजमेंट मेंटेनेंस एक्सेस के लिए केबलों को व्यवस्थित करते हुए एयरफ्लो के लिए 40% ओपन एरिया बनाए रखता है।³¹ स्ट्रक्चर्ड केबलिंग सिस्टम प्री-मेज़र्ड लेंथ और डिफाइंड रूटिंग पाथ का उपयोग करते हैं लेकिन 2-3x इंस्टॉलेशन टाइम की आवश्यकता होती है। निवेश कम मेंटेनेंस टाइम और बेहतर कूलिंग एफिशिएंसी के माध्यम से भुगतान करता है।
मैनेजमेंट नेटवर्क को कंट्रोल प्लेन स्टार्वेशन को रोकने के लिए डेटा पाथ से सेपरेशन की आवश्यकता होती है। प्रत्येक 1200W GPU को आउट-ऑफ-बैंड मैनेजमेंट के लिए IPMI/Redfish कनेक्टिविटी की आवश्यकता होती है, जिसके लिए अतिरिक्त नेटवर्क स्विच और केबलिंग की आवश्यकता होती है।³² एनवायरनमेंटल मॉनिटरिंग टेम्परेचर, ह्यूमिडिटी, प्रेशर और लीक डिटेक्शन के लिए प्रति रैक सैकड़ों सेंसर जोड़ती है। मैनेजमेंट इंफ्रास्ट्रक्चर गीगाबिट्स टेलीमेट्री जेनरेट करता है जो
[अनुवाद के लिए सामग्री छोटी की गई]