xAI का Memphis Colossus: 100,000 GPU क्लस्टर की संरचना
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: Colossus में अब 150,000 H100 + 50,000 H200 + 30,000 GB200 GPUs हैं—दुनिया का सबसे बड़ा एकल-सुसंगत AI प्रशिक्षण क्लस्टर। 122 दिनों में बनाया गया (प्रारंभिक 100K), 92 और दिनों में दोगुना। 1M GPUs तक विस्तार की योजना। Memphis यूटिलिटी ग्रिड से 250MW बिजली खींच रहा है। Spectrum-X Ethernet पारंपरिक Ethernet पर 60% की तुलना में 95% थ्रूपुट प्राप्त कर रहा है।
122 दिनों में निर्मित, xAI के Colossus क्लस्टर ने Memphis, Tennessee में एक पुरानी उपकरण फैक्ट्री में 100,000 NVIDIA H100 GPUs तैनात किए।¹ फिर xAI ने 92 अतिरिक्त दिनों में सिस्टम को 200,000 GPUs तक दोगुना कर दिया।² क्लस्टर में वर्तमान में 150,000 H100 GPUs, 50,000 H200 GPUs, और 30,000 GB200 GPUs शामिल हैं, जो इसे दुनिया का सबसे बड़ा पूर्ण रूप से संचालित, एकल-सुसंगत AI प्रशिक्षण क्लस्टर बनाता है।³ xAI की योजना 1 मिलियन GPUs तक विस्तार करने की है।⁴ यह परियोजना दर्शाती है कि जब कोई संगठन पारंपरिक योजना समयसीमा पर गति को प्राथमिकता देता है तो आक्रामक बुनियादी ढांचा तैनाती कैसी दिखती है।
Colossus परियोजना किसी भी संगठन के लिए सबक प्रदान करती है जो बड़े पैमाने पर AI बुनियादी ढांचा बना रहा है। बिजली, शीतलन, नेटवर्किंग, और सुविधा चयन के बारे में निर्णय प्रकट करते हैं कि जब पारंपरिक दृष्टिकोण बहुत धीमे साबित होते हैं तो बाधाओं को कैसे दूर किया जा सकता है। ट्रेडऑफ उन जोखिमों को भी प्रकट करते हैं जिनसे अधिक व्यवस्थित तैनाती बचती है।
निर्माण समयरेखा और दृष्टिकोण
Musk को डेटा सेंटर निर्माण के लिए 18 से 24 महीने के प्रारंभिक कोट मिले।⁵ उस समयसीमा को अस्वीकार करते हुए, xAI ने Memphis में पूर्व Electrolux फैक्ट्री खोजी, जिसे उपकरण निर्माता ने 2012 में खोला था और 2020 में बंद कर दिया था।⁶ परित्यक्त सुविधा ने काफी गोदाम स्थान और 15 मेगावाट प्रारंभिक औद्योगिक बिजली की पेशकश की।⁷
Supermicro के CEO Charles Liang ने पुष्टि की कि उनकी कंपनी ने xAI के साथ मिलकर 122 दिनों में विशाल Colossus डेटा सेंटर बनाया।⁸ Dell Technologies और Supermicro दोनों ने निर्माण पर xAI के साथ साझेदारी की।⁹ संकुचित समयसीमा के लिए सुविधा तैयारी, बिजली बुनियादी ढांचे, शीतलन प्रणालियों, और कंप्यूट तैनाती में समानांतर कार्यप्रवाह की आवश्यकता थी।
100,000-GPU क्लस्टर HGX सर्वर का उपयोग करता है जिसमें प्रत्येक में आठ GPUs हैं, जो प्रति रैक 64 GPUs के साथ Supermicro लिक्विड-कूल्ड रैक में रखे गए हैं।¹⁰ कुल तैनाती में 1,500 GPU रैक शामिल हैं।¹¹ रैक घनत्व के लिए शुरू से ही लिक्विड कूलिंग की आवश्यकता थी, Supermicro की 4U लिक्विड-कूल्ड सिस्टम थर्मल प्रबंधन प्रदान करती है।¹²
प्रारंभिक तैनाती के तीन महीने बाद, xAI ने 1 मिलियन तक स्केलिंग जारी रखने की योजना के साथ 200,000 GPUs तक विस्तार की घोषणा की।¹³ विस्तार ने प्रदर्शित किया कि बुनियादी ढांचा वास्तुकला मौलिक पुनर्डिजाइन के बिना विकास को समायोजित कर सकती है।
अभूतपूर्व पैमाने पर बिजली बुनियादी ढांचा
Colossus सुविधा वर्तमान में लगभग 250 मेगावाट खींचती है, जो प्रारंभिक 150-मेगावाट कॉन्फ़िगरेशन से अधिक है।¹⁴ xAI ने Tesla Megapack बैटरी सिस्टम के साथ 420 मेगावाट बिजली उत्पन्न करने में सक्षम 35 गैस टर्बाइन स्थापित किए।¹⁵ हाइब्रिड दृष्टिकोण बेसलोड पावर और ग्रिड स्वतंत्रता दोनों प्रदान करता है।
xAI ने 97 दिनों में पहला MLGW सबस्टेशन डिज़ाइन और बनाया, 150-मेगावाट सबस्टेशन पूरा किया जिसमें सामान्यतः 2.5 साल लगते।¹⁶ त्वरण के लिए Memphis Light, Gas and Water के साथ काम करने की आवश्यकता थी जबकि साथ ही अस्थायी बिजली समाधान तैनात किए जा रहे थे।
कंपनी ने सुपरकंप्यूटर को पावर करने के लिए 208 Tesla Megapacks तैनात किए, शुरू में इसे MLGW ग्रिड से अलग किया।¹⁷ Megapacks बड़ी मात्रा में बिजली संग्रहीत करते हैं, ग्रिड व्यवधानों के दौरान बैकअप प्रदान करते हैं और स्थायी यूटिलिटी कनेक्शन पूरा होने से पहले संचालन सक्षम करते हैं।
Solaris Energy Infrastructure के पास 600 मेगावाट गैस टर्बाइनों का बेड़ा है, जिसमें से लगभग 400 मेगावाट वर्तमान में xAI की सेवा कर रहे हैं।¹⁸ xAI Solaris के 1,700-मेगावाट ऑर्डर बुक का 67% प्रतिनिधित्व करता है, कुल 1,140 मेगावाट।¹⁹ Solaris को Q2 2027 तक xAI के लिए 1.1 गीगावाट से अधिक पूर्ण रूप से संचालित टर्बाइन होने की उम्मीद है।²⁰
Tulane Road साइट पर Colossus 2 विस्तार में कम से कम 110,000 NVIDIA GB200 GPUs शामिल हैं जो लगभग 170 मेगावाट का पावर लोड वहन करते हैं।²¹ अतिरिक्त Megapacks और टर्बाइन क्षमता विस्तारित फुटप्रिंट का समर्थन करती है।
xAI को सुपरकंप्यूटर को पावर करने के लिए गैस-बर्निंग टर्बाइनों के परमिट प्राप्त हुए।²² परमिट 2027 में समाप्त होता है, जिस समय तक xAI Colossus कैंपस पर वित्तपोषित और निर्मित दो MLGW सबस्टेशनों सहित कई बिजली स्रोतों पर निर्भर रहने का इरादा रखता है।²³ xAI साइट के पास 500-एकड़ सोलर फार्म पर निर्माण शुरू करने की योजना बना रहा है।²⁴
शीतलन प्रणालियां और जल बुनियादी ढांचा
शुरू से ही, xAI ने सुपरकंप्यूटर को ठंडा करने के लिए पानी ट्रक से लाया और इसे आंतरिक बंद-लूप सिस्टम के माध्यम से पुनर्चक्रित किया।²⁵ अपरंपरागत दृष्टिकोण ने स्थायी जल बुनियादी ढांचा पूरा होने से पहले संचालन सक्षम किया। xAI ने दीर्घकालिक जल जरूरतों को पूरा करने के लिए $80 मिलियन की अपशिष्ट जल पुनर्चक्रण सुविधा बनाने की प्रतिबद्धता जताई।²⁶
कंपनी दुनिया के सबसे बड़े सिरेमिक मेम्ब्रेन बायोरिएक्टर अपशिष्ट जल पुनर्चक्रण संयंत्र की योजना बना रही है।²⁷ एक बार पूरा होने पर, सुविधा अनुमानित 4.745 बिलियन गैलन जलभृत जल की रक्षा करेगी।²⁸ निर्माणाधीन एक विशाल ग्रेवाटर कूलिंग टावर पास के ग्रेवाटर प्लांट से Colossus में ठंडा पुनर्चक्रित पानी पाइप करेगा।²⁹
Colossus 2 हाइब्रिड कूलिंग दृष्टिकोण का उपयोग करता है। लगभग आधी कूलिंग xAI की ग्रेवाटर सुविधा से आती है जबकि अन्य आधी एयर कूलिंग का उपयोग करती है।³⁰ अगस्त 2025 तक, 119 एयर-कूल्ड चिलर ने लगभग 200 मेगावाट कूलिंग क्षमता प्रदान की, जो लगभग 110,000 GB200 NVL72 GPUs के लिए पर्याप्त थी।³¹
प्रारंभिक निर्माण चरण के दौरान, xAI ने संचालन तेजी से शुरू करने के लिए जनरेटर और US मोबाइल कूलिंग क्षमता का लगभग एक चौथाई लीज पर लिया।³² अस्थायी बुनियादी ढांचे की आक्रामक खरीद ने स्थायी सिस्टम पूरा होने के दौरान संकुचित समयसीमा को सक्षम किया।
Spectrum-X Ethernet नेटवर्किंग
अधिकांश AI प्रशिक्षण क्लस्टर जो InfiniBand का उपयोग करते हैं उनके विपरीत, xAI का Colossus अपने RDMA नेटवर्क के लिए NVIDIA के Spectrum-X Ethernet प्लेटफॉर्म का उपयोग करता है।³³ यह विकल्प प्रदर्शित करता है कि Ethernet सबसे बड़े AI प्रशिक्षण क्लस्टर का समर्थन कर सकता है जब ठीक से कॉन्फ़िगर किया जाए।
Colossus 51.2 टेराबिट्स-प्रति-सेकंड Spectrum SN5600 का उपयोग करता है, जो 2U फॉर्म फैक्टर में 64 800-गीगाबिट Ethernet पोर्ट प्रदान करता है।³⁴ व्यक्तिगत नोड्स NVIDIA के BlueField-3 SuperNICs का उपयोग करते हैं जिनमें प्रत्येक GPU के लिए एकल 400-गीगाबिट कनेक्शन है।³⁵
नेटवर्क ने फैब्रिक के सभी तीन टियर में फ्लो टकराव के कारण शून्य एप्लिकेशन लेटेंसी डिग्रेडेशन या पैकेट लॉस हासिल किया।³⁶ सिस्टम ने Spectrum-X कंजेशन कंट्रोल द्वारा सक्षम 95% डेटा थ्रूपुट बनाए रखा।³⁷ मानक Ethernet आमतौर पर इस पैमाने पर हजारों फ्लो टकरावों के कारण केवल 60% थ्रूपुट प्रदान करता है।³⁸
पारंपरिक Ethernet नेटवर्क इनकास्ट समस्याओं से जूझते हैं जब हजारों GPUs एक साथ संवाद करते हैं।³⁹ InfiniBand ने पारंपरिक रूप से बिल्ट-इन Priority Flow Control और हार्डवेयर-स्तरीय कंजेशन प्रबंधन के साथ इसे हल किया।⁴⁰ Spectrum-X उन्नत कंजेशन कंट्रोल मैकेनिज्म के साथ RoCE v2 का उपयोग करके समान परिणाम प्राप्त करता है।⁴¹
Ethernet दृष्टिकोण प्रदर्शन बनाए रखते हुए InfiniBand की तुलना में लागत लाभ और लचीलापन प्रदान करता है। Direct Data Placement तकनीक के साथ अनुकूली रूटिंग, कंजेशन कंट्रोल, और उन्नत AI फैब्रिक विजिबिलिटी सहित Spectrum-X सुविधाएं Ethernet बुनियादी ढांचे पर InfiniBand जैसा प्रदर्शन सक्षम करती हैं।⁴²
पैमाने की तुलना
200,000 GPUs पर Colossus अन्य प्रमुख सुपरकंप्यूटरों को पर्याप्त मार्जिन से पार करता है।⁴³ Oracle के zettascale AI सुपरकंप्यूटर में 131,072 NVIDIA GPUs हैं।⁴⁴ Lawrence Livermore National Laboratory के El Capitan में 44,544 GPUs हैं।⁴⁵ Oak Ridge National Laboratory के Frontier में 37,632 GPUs हैं।⁴⁶
xAI के विनिर्देशों के अनुसार, Colossus 194 पेटाबाइट्स प्रति सेकंड की कुल मेमोरी बैंडविड्थ प्राप्त करता है जिसमें स्टोरेज क्षमता एक एक्साबाइट से अधिक है।⁴⁷ मेमोरी बैंडविड्थ उन सामूहिक संचालनों को सक्षम करती है जो AI प्रशिक्षण के लिए सैकड़ों हजारों GPUs में आवश्यक हैं।
क्लस्टर xAI के Grok चैटबॉट को प्रशिक्षित करता है और SpaceX सहित X और अन्य Musk उद्यमों को कंप्यूटिंग सहायता प्रदान करता है।⁴⁸ बहु-उद्देश्यीय उपयोग कई व्यवसाय लाइनों में बुनियादी ढांचा निवेश को उचित ठहराता है।
Colossus 2 विस्तार
xAI ने 7 मार्च, 2025 को Colossus 2 परियोजना शुरू की, Memphis में 1-मिलियन-वर्ग-फुट गोदाम और कुल 100 एकड़ की दो आसन्न साइटें अधिग्रहित कीं।⁴⁹ Tulane Road साइट विस्तारित GPU बेड़े की मेजबानी करेगी।
विस्तार 350,000 GPUs को लक्षित करता है जिसमें उच्च ग्रिड लोड के दौरान बैकअप पावर के लिए Tesla Megapack बैटरियों की दुनिया की सबसे बड़ी तैनाती है।⁵⁰ साइट में GPU बुनियादी ढांचे के साथ 60 से 70 Megapacks होंगे।⁵¹
Memphis Chamber of Commerce का दावा है कि xAI कुल 1 मिलियन GPUs तक विस्तार करने का इरादा रखता है।⁵² उस पैमाने को प्राप्त करने के लिए वर्तमान क्षमता से परे निरंतर बिजली बुनियादी ढांचा विकास की आवश्यकता है। Solaris द्वारा 2027 के लिए योजनाबद्ध 1.1 गीगावाट वर्तमान घनत्व स्तरों पर लगभग आधा मिलियन उच्च-शक्ति GPUs का समर्थन करेगा।
बुनियादी ढांचा सबक
Colossus परियोजना कई दृष्टिकोण प्रदर्शित करती है जो AI बुनियादी ढांचा तैनाती को तेज करते हैं।
सुविधा पुन: उपयोग समयसीमा को नाटकीय रूप से संकुचित कर सकता है। बिजली बुनियादी ढांचे के साथ एक मौजूदा औद्योगिक सुविधा खोजने से निर्माण समय समाप्त हो गया जो नए निर्माण के लिए आवश्यक होता है। बंद औद्योगिक सुविधाओं तक पहुंच वाले संगठनों को तेजी से AI बुनियादी ढांचा तैनाती के अवसर मिल सकते हैं।
अस्थायी बुनियादी ढांचा समानांतर पथ सक्षम करता है। जनरेटर, मोबाइल कूलिंग, और ट्रकिंग वाटर लीज पर लेने से स्थायी बुनियादी ढांचा पूरा होने के दौरान संचालन शुरू हो सका। अस्थायी समाधानों के लिए लागत प्रीमियम तब सार्थक साबित हो सकता है जब संचालन का समय प्रतिस्पर्धी स्थिति निर्धारित करता है।
Ethernet सबसे बड़े क्लस्टर का समर्थन कर सकता है। Spectrum-X तैनाती साबित करती है कि बड़े पैमाने पर AI प्रशिक्षण के लिए InfiniBand की आवश्यकता नहीं है। Ethernet विशेषज्ञता और बुनियादी ढांचे वाले संगठनों को सबसे बड़ी तैनाती के लिए भी InfiniBand अपनाने की आवश्यकता नहीं हो सकती है।
बिजली प्राथमिक बाधा बनी हुई है। बैटरी स्टोरेज, गैस टर्बाइन, और त्वरित सबस्टेशन निर्माण सहित रचनात्मक समाधानों के बावजूद, बिजली उपलब्धता ने तैनाती की गति और पैमाने को सीमित किया। बड़े AI क्लस्टर की योजना बनाने वाले संगठनों को पहले बिजली क्षमता सुरक्षित करनी चाहिए।
ट्रेडऑफ में नियामक चुनौतियां, सामुदायिक संबंध मुद्दे, और संकुचित समयसीमा से तकनीकी जोखिम शामिल हैं। गैस टर्बाइनों के लिए xAI का परमिट 2027 में समाप्त होता है, जो संक्रमण आवश्यकताएं पैदा करता है।⁵³ स्थानीय अधिकारियों ने xAI के संचालन में सीमित दृश्यता के बारे में चिंता व्यक्त की।⁵⁴ प्रतिस्पर्धी लाभ सक्षम करने वाली गति तकनीकी ऋण बना सकती है जिससे धीमी तैनाती बचती है।
त्वरित संदर्भ: Colossus विनिर्देश
| विनिर्देश | मान |
|---|---|
| कुल GPUs | 200,000+ (150K H100, 50K H200, 30K GB200) |
| निर्माण समय | 122 दिन (चरण 1), 92 दिन (चरण 2) |
| बिजली खपत | 250 MW वर्तमान |
| बिजली बुनियादी ढांचा | 35 गैस टर्बाइन (420 MW), 208 Tesla Megapacks |
| नेटवर्किंग | NVIDIA Spectrum-X 800G Ethernet |
| स्टोरेज | >1 एक्साबाइट |
| मेमोरी बैंडविड्थ | 194 PB/s |
| रैक कॉन्फ़िगरेशन | 64 GPUs प्रति रैक, 1,500 रैक |
| कूलिंग | लिक्विड कूलिंग + ग्रेवाटर पुनर्चक्रण |
| विस्तार लक्ष्य | 1 मिलियन GPUs |
मुख्य निष्कर्ष
बुनियादी ढांचा नेताओं के लिए: - पारंपरिक DC कोट: 18-24 महीने; xAI ने सुविधा पुन: उपयोग का उपयोग करके 122 दिनों में वितरित किया - अस्थायी बुनियादी ढांचा (लीज पर जनरेटर, मोबाइल कूलिंग, ट्रक से पानी) समानांतर पथ सक्षम करता है - बिजली प्राथमिक बाधा बनी हुई है—GPU खरीद से पहले क्षमता सुरक्षित करें - Spectrum-X Ethernet 200K GPU पैमाने पर व्यवहार्य साबित हुआ, InfiniBand आवश्यकता को चुनौती देता है
सुविधा टीमों के लिए: - बंद औद्योगिक सुविधाएं तेजी से तैनाती के अवसर प्रदान करती हैं - 250 MW के लिए कई बिजली स्रोतों की आवश्यकता है—गैस टर्बाइन, बैटरी, यूटिलिटी सबस्टेशन - ग्रेवाटर पुनर्चक्रण पैमाने पर जल चिंताओं को संबोधित करता है—$80M सुविधा 4.7B गैलन जलभृत की रक्षा करती है - 119 एयर-कूल्ड चिलर ~200 MW कूलिंग क्षमता प्रदान करते हैं
रणनीतिक योजना के लिए: - गति बनाम स्थिरता ट्रेडऑफ: गैस टर्बाइन परमिट 2027 में समाप्त होते हैं - संकुचित समयसीमा तकनीकी ऋण बनाती है जिससे व्यवस्थित तैनाती बचती है - बहु-उद्देश्यीय उपयोग (Grok, X, SpaceX) बुनियादी ढांचा निवेश को उचित ठहराता है - 1 मिलियन GPU लक्ष्य की आवश्यकता है
[अनुवाद के लिए सामग्री छोटी की गई]