100kW+ GPU रैक का निर्माण: पावर डिस्ट्रीब्यूशन और कूलिंग आर्किटेक्चर

एक अकेला 100kW रैक 80 घरों जितनी बिजली खपत करता है और 30 फर्नेस जितनी गर्मी पैदा करता है। अत्यधिक घनत्व वाले GPU इंफ्रास्ट्रक्चर के लिए इंजीनियरिंग स्पेसिफिकेशंस।

100kW+ GPU रैक का निर्माण: पावर डिस्ट्रीब्यूशन और कूलिंग आर्किटेक्चर

100kW+ GPU रैक का निर्माण: पावर डिस्ट्रीब्यूशन और कूलिंग आर्किटेक्चर

अपडेटेड 8 दिसंबर, 2025

दिसंबर 2025 अपडेट: 100kW रैक अब स्टैंडर्ड है, महत्वाकांक्षा नहीं। NVIDIA GB200 NVL72 सिस्टम 120kW प्रति रैक पर चलते हैं, जबकि Vera Rubin NVL144 का लक्ष्य 2026 तक 600kW प्रति रैक है। रैक डेंसिटी पहले ही 40kW से 130kW तक बढ़ चुकी है, जो 2030 तक संभावित रूप से 250kW तक पहुंच सकती है। लिक्विड कूलिंग अपनाने की दर 22% डेटा सेंटर्स तक पहुंच गई है, जिसमें डायरेक्ट-टू-चिप का 47% मार्केट शेयर है। आज 100kW डिप्लॉयमेंट की योजना बनाने वाले संगठनों को 2-5x डेंसिटी ग्रोथ के लिए फ्यूचर-प्रूफ करना होगा।

एक अकेला 100kW रैक 80 अमेरिकी घरों जितनी बिजली खपत करता है, 30 रेजिडेंशियल फर्नेस के बराबर गर्मी पैदा करता है, और तीन Toyota Camrys से ज्यादा वजनी होता है।¹ फिर भी दुनिया भर के संगठन इन राक्षसों को बनाने की होड़ में हैं क्योंकि आधुनिक AI ट्रेनिंग के लिए अभूतपूर्व कंप्यूट डेंसिटी की जरूरत है। इंजीनियरिंग चुनौतियां पिछले तीन दशकों में डेटा सेंटर डिज़ाइन को गाइड करने वाली हर धारणा को तोड़ देती हैं।

Microsoft की नवीनतम Azure सुविधाएं 100kW रैक को स्टैंडर्ड कॉन्फ़िगरेशन के रूप में डिप्लॉय करती हैं, प्रयोगात्मक अपवाद के रूप में नहीं।² CoreWeave 120kW रैक स्पेसिफिकेशंस के आसपास पूरे डेटा सेंटर बनाता है।³ Oracle Cloud Infrastructure अपने अगली पीढ़ी के रीजन्स में 150kW डेंसिटी की ओर बढ़ रहा है।⁴ पारंपरिक 5-10kW रैक डिज़ाइन पुराने लगते हैं जब संगठनों को पता चलता है कि प्रतिस्पर्धी AI क्षमताओं के लिए या तो अत्यधिक डेंसिटी चाहिए या अत्यधिक रियल एस्टेट।

AI इंफ्रास्ट्रक्चर का गणित 100kW+ रैक को अनिवार्य बनाता है। एक NVIDIA DGX H100 सिस्टम आठ GPUs के लिए 10.2kW खींचता है।⁵ आगामी DGX B200 प्रति नोड 14.3kW की खपत करेगा।⁶ एक सार्थक ट्रेनिंग क्लस्टर के लिए आठ नोड्स स्टैक करें, और नेटवर्किंग उपकरणों पर विचार करने से पहले ही बिजली की खपत 100kW से अधिक हो जाती है। जो संगठन ये रैक नहीं बना सकते, वे लार्ज लैंग्वेज मॉडल डेवलपमेंट, ड्रग डिस्कवरी, या ऑटोनॉमस व्हीकल ट्रेनिंग में प्रतिस्पर्धा नहीं कर सकते।

पावर डिस्ट्रीब्यूशन आर्किटेक्चर पारंपरिक सीमाओं को तोड़ता है

पारंपरिक डेटा सेंटर 30-amp सर्किट के माध्यम से 208V थ्री-फेज पावर डिस्ट्रीब्यूट करते हैं, जो डीरेटिंग के बाद प्रति रैक लगभग 10kW डिलीवर करते हैं। एक 100kW रैक को दस अलग-अलग सर्किट की जरूरत होगी, जो कॉपर स्पेगेटी का ऐसा दुःस्वप्न बनाएगा जो क्लीन डिज़ाइन के हर सिद्धांत का उल्लंघन करता है। अकेले एम्परेज ही दुर्गम चुनौतियां प्रस्तुत करता है: 208V पर 100kW डिलीवर करने के लिए 480 amps की जरूरत होती है, जिसके लिए बेसबॉल बैट से मोटी केबल चाहिए।

आधुनिक 100kW डिप्लॉयमेंट करंट रिक्वायरमेंट्स को कम करने के लिए 415V या 480V डिस्ट्रीब्यूशन को अनिवार्य बनाते हैं। 480V थ्री-फेज पर, 100kW के लिए प्रति सर्किट केवल 120 amps की जरूरत होती है, जो 4/0 AWG कंडक्टर्स के साथ मैनेजेबल है।⁷ यूरोपीय सुविधाओं को स्टैंडर्ड 415V डिस्ट्रीब्यूशन के माध्यम से फायदे मिलते हैं, जो बताता है कि कई हाइपरस्केलर्स हाई-डेंसिटी इंफ्रास्ट्रक्चर के लिए नॉर्डिक डिप्लॉयमेंट को प्राथमिकता क्यों देते हैं। नॉर्थ अमेरिकन सुविधाओं को ट्रांसफॉर्मर अपग्रेड और स्विचगियर रिप्लेसमेंट की जरूरत होती है, जो रेट्रोफिट लागत में प्रति मेगावाट $500,000-$1 मिलियन जोड़ते हैं।⁸

100kW रैक के लिए पावर डिस्ट्रीब्यूशन यूनिट्स (PDUs) परिष्कृत पावर मैनेजमेंट सिस्टम में विकसित होती हैं। Raritan की PX4 सीरीज़ 130kW तक डिलीवर करने वाले 60 आउटलेट्स को इंटेलिजेंटली मैनेज करती है, जिसमें प्रति-आउटलेट मॉनिटरिंग और रिमोट स्विचिंग क्षमताएं हैं।⁹ Server Technology की HDOT PDUs ड्यूअल फीड्स के बीच ऑटोमैटिक ट्रांसफर स्विचिंग के साथ 415V इनपुट प्रदान करती हैं, जो यूटिलिटी इवेंट्स के दौरान निरंतर ऑपरेशन सुनिश्चित करती हैं।¹⁰ प्रत्येक PDU की कीमत $15,000-25,000 है, और अधिकांश 100kW रैक को रिडंडेंसी के लिए दो की जरूरत होती है।

बसवे सिस्टम पारंपरिक केबल डिस्ट्रीब्यूशन के बेहतर विकल्प के रूप में उभरते हैं। Starline Track Busway ओवरहेड कंडक्टर्स के माध्यम से 415V पर 1,600 amps डिलीवर करता है, जो एक सिंगल फीड से मल्टीपल 100kW रैक ड्रॉप्स को सपोर्ट करता है।¹¹ इंस्टॉलेशन कॉस्ट $1,000 प्रति लीनियर फुट तक पहुंचती है, लेकिन रीवायरिंग के बिना पावर ड्रॉप्स को रीकॉन्फ़िगर करने का लचीलापन फैसिलिटी लाइफसाइकल के दौरान मिलियन्स बचाता है। Siemens के Sentron बसवे सिस्टम में इंटीग्रेटेड मॉनिटरिंग शामिल है जो पावर क्वालिटी को ट्रैक करती है और हार्मोनिक एनालिसिस के माध्यम से मेंटेनेंस रिक्वायरमेंट्स की भविष्यवाणी करती है।¹²

डायरेक्ट करंट डिस्ट्रीब्यूशन मल्टीपल कन्वर्जन स्टेज को एलिमिनेट करता है जो डिलीवर की गई पावर का 10-15% बर्बाद करते हैं। Lawrence Berkeley National Laboratory ने प्रदर्शित किया कि 380V DC डिस्ट्रीब्यूशन कुल डेटा सेंटर खपत को 7% तक कम करती है जबकि रिलायबिलिटी में सुधार करती है।¹³ Open Compute Project स्पेसिफिकेशंस 48V DC डिस्ट्रीब्यूशन का विवरण सीधे सर्वर बोर्ड को देते हैं, जो पावर सप्लाइज को एलिमिनेट करता है जो हीट जनरेट करती हैं और वैल्युएबल रैक स्पेस ऑक्यूपाई करती हैं।¹⁴ Facebook की Prineville फैसिलिटी पूरी तरह से DC डिस्ट्रीब्यूशन पर चलती है, जो एक्सट्रीम कंप्यूट डेंसिटी के बावजूद 1.07 का PUE हासिल करती है।¹⁵

कूलिंग आर्किटेक्चर के लिए चिप पर लिक्विड अनिवार्य है

50kW प्रति रैक से ऊपर एयर कूलिंग फिजिकली असंभव हो जाती है। थर्मोडायनामिक्स निर्मम हैं: 20°F टेम्परेचर राइज के साथ 100kW हीट हटाने के लिए 35,000 क्यूबिक फीट प्रति मिनट (CFM) एयर मूव करनी होगी।¹⁶ वह एयरफ्लो कोल्ड आइल में तूफान जैसी हवाएं पैदा करेगी, जो शाब्दिक रूप से टेक्नीशियंस को उनके पैरों से उड़ा देगी। अगर आप इतनी हवा मूव भी कर सकें, तो अकेले फैन पावर 15-20kW खपत करेगी, जो एफिशिएंसी गोल्स को हरा देगी।

रियर-डोर हीट एक्सचेंजर्स (RDHx) 50-75kW डेंसिटीज के लिए ट्रांजिशनल कूलिंग प्रदान करते हैं। Motivair के ChilledDoor यूनिट्स डोर-माउंटेड रेडिएटर के माध्यम से चिल्ड वॉटर सर्कुलेशन का उपयोग करके प्रति रैक 75kW तक हटाते हैं।¹⁷ CoolIT Systems का CHx750 वेरिएबल-स्पीड फैन्स के साथ समान क्षमता हासिल करता है जो हीट लोड के अनुसार एडाप्ट होते हैं।¹⁸ टेक्नोलॉजी काम करती है, लेकिन 100kW+ डेंसिटीज सबसे एडवांस्ड RDHx डिज़ाइन को भी ओवरव्हेल्म कर देती हैं। जरूरी टेम्परेचर डिफरेंशियल कंडेंसेशन रिस्क पैदा करेगा जो इक्विपमेंट रिलायबिलिटी को खतरे में डालता है।

सच्चे 100kW+ डिप्लॉयमेंट के लिए कोल्ड प्लेट्स पर डायरेक्ट लिक्विड कूलिंग अनिवार्य हो जाती है। Asetek का InRackCDU 25°C पर कूलेंट सीधे CPU और GPU कोल्ड प्लेट्स पर डिस्ट्रीब्यूट करता है, जो प्रति रैक 120kW तक हटाता है।¹⁹ सिस्टम मैक्सिमम लोड पर भी चिप टेम्परेचर 70°C से नीचे मेंटेन करता है, एयर कूलिंग के साथ 85-90°C की तुलना में। कम ऑपरेटिंग टेम्परेचर लीकेज करंट को कम करते हैं, जो कूलिंग सेविंग्स के अलावा एनर्जी एफिशिएंसी में 3-5% सुधार करते हैं।²⁰

इमर्सन कूलिंग एक्सट्रीम डेंसिटी के लिए अल्टीमेट सॉल्यूशन का प्रतिनिधित्व करती है। Submer का SmartPodX पूरे सर्वर्स को डाइलेक्ट्रिक फ्लूइड में इमर्स करता है, जो सिर्फ 2.4 स्क्वायर मीटर फ्लोर स्पेस में 100kW को हैंडल करता है।²¹ GRC का ICEraQ Series 10 प्रति टैंक 368kW तक सपोर्ट करता है, हालांकि प्रैक्टिकल डिप्लॉयमेंट शायद ही कभी 200kW से अधिक होते हैं।²² फैन्स की अनुपस्थिति मैकेनिकल कंपोनेंट्स के एलिमिनेशन के माध्यम से सर्वर पावर कंज़म्प्शन का 10-15% एलिमिनेट करती है जबकि फेलियर रेट्स को 70% तक कम करती है।²³

टू-फेज इमर्सन कूलिंग सीमाओं को और आगे बढ़ाती है। 3M के Fluorinert लिक्विड्स प्रिसाइजली कंट्रोल्ड टेम्परेचर पर बॉइल होते हैं, जिसमें फेज चेंज भारी मात्रा में हीट अब्सॉर्ब करता है।²⁴ वेपर कंडेंसर्स तक उठता है जहां यह लिक्विड स्टेट में वापस आता है, जो बिना पंप्स के पैसिव सर्कुलेशन सिस्टम बनाता है। Microsoft के Project Natick ने टू-फेज कूलिंग का प्रदर्शन किया जो 250kW/m² हीट फ्लक्स के बावजूद लगातार 35°C चिप टेम्परेचर मेंटेन करती है।²⁵ टेक्नोलॉजी एक्सपेरिमेंटल बनी हुई है, लेकिन फिजिक्स सुझाव देती है कि यह 500kW+ प्रति रैक को हैंडल कर सकती है।

स्ट्रक्चरल इंजीनियरिंग भारी लोड का सामना करती है

एक फुली पॉपुलेटेड 100kW रैक का वजन 6,000-8,000 पाउंड होता है, जो सिर्फ 10 स्क्वायर फीट में कॉन्सेंट्रेटेड होता है।²⁶ 250 पाउंड प्रति स्क्वायर फुट के लिए रेटेड स्टैंडर्ड रेज्ड फ्लोर ऐसे लोड के नीचे ढह जाते हैं। वजन सिर्फ सर्वर्स का नहीं है: अकेले कॉपर केबल्स 500-800 पाउंड जोड़ती हैं, कूलेंट और 200-300 पाउंड जोड़ता है, और रैक स्ट्रक्चर खुद 500-1,000 पाउंड वजनी होता है। सिस्मिक जोन को अतिरिक्त चुनौतियों का सामना करना पड़ता है क्योंकि 8,000 पाउंड का डोलता हुआ मास भूकंप के दौरान आसपास के उपकरणों को नष्ट कर सकता है।

स्लैब-ऑन-ग्रेड डिप्लॉयमेंट रेज्ड फ्लोर की सीमाओं को एलिमिनेट करते हैं लेकिन नई चुनौतियां पैदा करते हैं। कंक्रीट को मिनिमल डिफ्लेक्शन के साथ 1,000+ PSF लोड्स को हैंडल करने के लिए रीइनफोर्स किया जाना चाहिए।²⁷ एपॉक्सी-कोटेड रीबार के साथ पोस्ट-टेंशन्ड कंक्रीट क्रैकिंग को रोकती है जो स्ट्रक्चरल इंटीग्रिटी को कॉम्प्रोमाइज कर सकती है। स्लैब थिकनेस पारंपरिक डेटा सेंटर्स के लिए 6-8 इंच की तुलना में 12-18 इंच तक बढ़ जाती है। अकेले फाउंडेशन वर्क कंस्ट्रक्शन कॉस्ट में $50-75 प्रति स्क्वायर फुट जोड़ता है।²⁸

स्ट्रक्चरल स्टील फ्रेमवर्क लोड को बड़े एरियाज में डिस्ट्रीब्यूट करते हैं। Introl कस्टम स्टील प्लेटफॉर्म डिज़ाइन करता है जो 100kW रैक लोड को 40 स्क्वायर फीट में फैलाते हैं, पॉइंट लोड को मैनेजेबल लेवल तक कम करते हैं। फ्रेमवर्क में इंटीग्रेटेड केबल ट्रे, कूलेंट मैनिफोल्ड्स, और मेंटेनेंस प्लेटफॉर्म शामिल हैं। मॉड्यूलर डिज़ाइन फैसिलिटी डाउनटाइम के बिना इंस्टॉलेशन इनेबल करते हैं, जो रेट्रोफिट प्रोजेक्ट्स के लिए क्रिटिकल है। प्रत्येक फ्रेमवर्क की कीमत $25,000-35,000 है लेकिन कैटास्ट्रोफिक फ्लोर फेलियर को रोकता है जिसकी कॉस्ट मिलियन्स होगी।

ओवरहेड सपोर्ट सिस्टम फ्लोर लोडिंग को पूरी तरह एलिमिनेट करते हैं। Facebook के डेटा सेंटर सीलिंग-माउंटेड रेल्स से सर्वर्स को सस्पेंड करते हैं, जिसमें पावर और कूलिंग ऊपर से डिलीवर होती है।²⁹ इस अप्रोच के लिए 18-20 फुट सीलिंग हाइट्स की जरूरत होती है लेकिन मेंटेनेंस के लिए अनलिमिटेड फ्लोर एक्सेस इनेबल करता है। Chatsworth Products का Evolution Cable Management सिस्टम ओवरहेड स्ट्रक्चर्स से 500 पाउंड प्रति लीनियर फुट सपोर्ट करता है, जो सबसे भारी पावर और कूलेंट डिस्ट्रीब्यूशन के लिए पर्याप्त है।³⁰

भूकंप वाले जोन में सिस्मिक आइसोलेशन क्रिटिकल हो जाता है। WorkSafe Technologies के ISO-Base प्लेटफॉर्म सिस्मिक इवेंट्स के दौरान इक्विपमेंट को प्रोटेक्ट करने के लिए बॉल-बेयरिंग आइसोलेशन का उपयोग करते हैं।³¹ प्लेटफॉर्म वर्टिकल स्टेबिलिटी मेंटेन करते हुए 12 इंच का हॉरिजॉन्टल मूवमेंट अलाउ करते हैं। प्रत्येक प्लेटफॉर्म 10,000 पाउंड सपोर्ट करता है और इसकी कीमत $15,000-20,000 है, लेकिन इंश्योरेंस कंपनियां तेजी से California, Japan, और अन्य एक्टिव जोन में हाई-वैल्यू कंप्यूटिंग इक्विपमेंट के लिए सिस्मिक प्रोटेक्शन की मांग कर रही हैं।

केबल मैनेजमेंट एक्सपोनेंशियली मल्टीप्लाई होता है

64 GPUs होस्ट करने वाले 100kW रैक को 500 से अधिक केबल्स की जरूरत होती है: 128 InfiniBand कनेक्शन, 64 मैनेजमेंट नेटवर्क केबल्स, 96 पावर केबल्स, साथ ही दर्जनों सेंसर और कंट्रोल कनेक्शन। प्रत्येक InfiniBand केबल की कीमत लेंथ और डेटा रेट के आधार पर $500-1,500 है।³² प्रति रैक कुल केबल कॉस्ट $100,000 के करीब पहुंचती है, और खराब मैनेजमेंट एयरफ्लो और सर्विसेबिलिटी दोनों को नष्ट कर देता है।

हाई-स्पीड सिग्नल्स को सिग्नल इंटीग्रिटी मेंटेन करने के लिए प्रिसाइज केबल रूटिंग की मांग करते हैं। 200Gbps पर चलने वाला InfiniBand HDR 3 इंच से कम अनमैच्ड डिफरेंशियल पेयर लेंथ को टॉलरेट करता है।³³ इम्पीडेंस चेंजेज को रोकने के लिए बेंड रेडियस केबल डायमीटर के 10 गुना से अधिक होना चाहिए जो बिट एरर्स का कारण बनते हैं। Introl 1mm टॉलरेंस के भीतर केबल लेंथ को वेरीफाई करने के लिए लेजर मेजरमेंट सिस्टम का उपयोग करता है, भविष्य के ट्रबलशूटिंग के लिए हर कनेक्शन को डॉक्यूमेंट करता है।

केबल वेट अप्रत्याशित चुनौतियां पैदा करता है। 2-3 पाउंड प्रत्येक वजन वाली पांच सौ केबल्स रैक इंफ्रास्ट्रक्चर में 1,000-1,500 पाउंड जोड़ती हैं। वजन के कारण रैक डोर झुक जाते हैं, जिससे उन्हें खोलना मुश्किल हो जाता है। कोलैप्स को रोकने के लिए वर्टिकल केबल मैनेजर्स को रीइनफोर्स किया जाना चाहिए। Panduit के Net-Verse कैबिनेट में 2,000 पाउंड के लिए रेटेड इंटीग्रेटेड केबल मैनेजमेंट शामिल है, जिसमें प्रॉपर रूटिंग मेंटेन करने के लिए हर 1U पर एडजस्टेबल फिंगर्स हैं।³⁴

फाइबर ऑप्टिक केबल्स वजन कम करती हैं लेकिन फ्रैजिलिटी कंसर्न्स पेश करती हैं। एक सिंगल 400G ऑप्टिकल ट्रांससीवर की कीमत $2,000-4,000 है, और उन्हें कनेक्ट करने वाली फाइबर केबल्स आसानी से डैमेज हो जाती हैं।³⁵ सिंगल-मोड फाइबर के लिए मिनिमम बेंड रेडियस केबल डायमीटर के 20 गुना तक बढ़ जाता है। टेक्नीशियंस को माइक्रोबेंड्स पैदा किए बिना फाइबर हैंडल करने के लिए स्पेशलाइज्ड ट्रेनिंग की जरूरत होती है जो सिग्नल क्वालिटी को डिग्रेड करते हैं। क्लीन कनेक्शन क्रिटिकल हो जाते हैं क्योंकि एक सिंगल डस्ट पार्टिकल 50% सिग्नल लॉस का कारण बन सकता है।

केबल लाइफसाइकल मैनेजमेंट महंगे डाउनटाइम को रोकता है। हर केबल को इंस्टॉलेशन डेट, टेस्ट रिजल्ट्स, और मेंटेनेंस हिस्ट्री सहित डॉक्यूमेंटेशन की जरूरत होती है। Introl हर केबल पर RFID टैग डिप्लॉय करता है, जो हैंडहेल्ड स्कैनर्स के साथ इंस्टेंट आइडेंटिफिकेशन इनेबल करता है। हमारा केबल मैनेजमेंट डेटाबेस ग्लोबल डिप्लॉयमेंट में 50 मिलियन इंडिविजुअल कनेक्शन ट्रैक करता है। प्रेडिक्टिव एनालिटिक्स बेंड रेडियस वायोलेशंस, टेम्परेचर एक्सपोजर, और एज के आधार पर फेलियर के करीब पहुंच रही केबल्स की पहचान करता है।

रिडंडेंसी आर्किटेक्चर निरंतर ऑपरेशन सुनिश्चित करता है

100kW स्केल पर सिंगल पॉइंट्स ऑफ फेलियर कैटास्ट्रोफिक हो जाते हैं। एक PDU फेलियर $5 मिलियन वर्थ के GPUs को क्रैश कर देगा। एक कूलिंग पंप फेलियर 60 सेकंड के भीतर थर्मल शटडाउन का कारण बनेगा। पारंपरिक N+1 रिडंडेंसी अपर्याप्त साबित होती है जब फेलियर इम्पैक्ट 10x से मल्टीप्लाई होता है। आधुनिक 100kW डिप्लॉयमेंट के लिए पावर और कूलिंग के लिए 2N रिडंडेंसी की जरूरत होती है, डाउनटाइम के खिलाफ इंश्योरेंस के रूप में 50% स्ट्रैंडेड कैपेसिटी को स्वीकार करते हुए।

पावर रिडंडेंसी यूटिलिटी एंट्रेंस पर अलग-अलग सबस्टेशंस से ड्यूअल फीड्स के साथ शुरू होती है। ऑटोमैटिक ट्रांसफर स्विच (ATS) बिनाauten रुकावट के फीड्स के बीच ट्रांजिशन करते हैं

[अनुवाद के लिए सामग्री छोटी की गई]

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING