xAI's Memphis Colossus: anatomie van een 100.000 GPU-cluster
Bijgewerkt 11 december 2025
Update december 2025: Colossus omvat nu 150.000 H100 + 50.000 H200 + 30.000 GB200 GPU's—'s werelds grootste samenhangende AI-trainingscluster. Gebouwd in 122 dagen (initiële 100K), verdubbeld in nog eens 92 dagen. Uitbreiding naar 1 miljoen GPU's gepland. Trekt 250MW van het elektriciteitsnet van Memphis. Spectrum-X Ethernet behaalt 95% doorvoer versus 60% op traditioneel Ethernet.
Gebouwd in 122 dagen, implementeerde xAI's Colossus-cluster 100.000 NVIDIA H100 GPU's in een voormalige huishoudelijke apparatenfabriek in Memphis, Tennessee.¹ Vervolgens verdubbelde xAI het systeem naar 200.000 GPU's in 92 extra dagen.² Het cluster omvat momenteel 150.000 H100 GPU's, 50.000 H200 GPU's en 30.000 GB200 GPU's, waarmee het het grootste volledig operationele, samenhangende AI-trainingscluster ter wereld is.³ xAI is van plan uit te breiden naar 1 miljoen GPU's.⁴ Het project demonstreert hoe agressieve infrastructuurimplementatie eruitziet wanneer een organisatie snelheid prioriteert boven conventionele planningstijdlijnen.
Het Colossus-project biedt lessen voor elke organisatie die AI-infrastructuur op grote schaal bouwt. De beslissingen rond energie, koeling, netwerken en faciliteitsselectie onthullen hoe beperkingen kunnen worden overwonnen wanneer traditionele benaderingen te traag blijken. De afwegingen onthullen ook risico's die meer methodische implementaties vermijden.
Bouwtijdlijn en aanpak
Musk ontving initiële offertes van 18 tot 24 maanden voor datacenterconstructie.⁵ Deze tijdlijn afwijzend, vond xAI de voormalige Electrolux-fabriek in Memphis, die de apparatenfabrikant in 2012 had geopend en in 2020 had gesloten.⁶ De verlaten faciliteit bood aanzienlijke magazijnruimte en 15 megawatt aan initieel industrieel vermogen.⁷
Supermicro CEO Charles Liang bevestigde dat zijn bedrijf samenwerkte met xAI om het gigantische Colossus-datacenter in 122 dagen te bouwen.⁸ Zowel Dell Technologies als Supermicro werkten samen met xAI aan de constructie.⁹ De gecomprimeerde tijdlijn vereiste parallelle werkstromen voor faciliteitsvoorbereiding, energie-infrastructuur, koelsystemen en compute-implementatie.
Het 100.000-GPU-cluster gebruikt HGX-servers met acht GPU's elk, gehuisvest in Supermicro vloeistofgekoelde racks met 64 GPU's per rack.¹⁰ De totale implementatie omvat 1.500 GPU-racks.¹¹ De rackdichtheid vereiste vloeistofkoeling vanaf het begin, waarbij Supermicro's 4U vloeistofgekoelde systemen thermisch beheer bieden.¹²
Drie maanden na de initiële implementatie kondigde xAI uitbreiding naar 200.000 GPU's aan met plannen om door te schalen naar 1 miljoen.¹³ De uitbreiding demonstreerde dat de infrastructuurarchitectuur groei kon accommoderen zonder fundamenteel herontwerp.
Energie-infrastructuur op ongekende schaal
De Colossus-faciliteit trekt momenteel ongeveer 250 megawatt, een stijging ten opzichte van de initiële 150-megawatt configuratie.¹⁴ xAI installeerde 35 gasturbines met een capaciteit van 420 megawatt aan vermogen naast Tesla Megapack-batterijsystemen.¹⁵ De hybride aanpak biedt zowel basislast als netonafhankelijkheid.
xAI ontwierp en bouwde het eerste MLGW-onderstation in 97 dagen, waarbij een 150-megawatt onderstation werd voltooid dat normaal 2,5 jaar zou duren.¹⁶ De versnelling vereiste samenwerking met Memphis Light, Gas and Water terwijl tegelijkertijd tijdelijke energieoplossingen werden geïmplementeerd.
Het bedrijf implementeerde 208 Tesla Megapacks om de supercomputer van stroom te voorzien, waarbij deze aanvankelijk werd geïsoleerd van het MLGW-netwerk.¹⁷ De Megapacks slaan grote hoeveelheden elektriciteit op, bieden back-up tijdens netverstoringen en maken operaties mogelijk voordat permanente nutsaansluitingen voltooid zijn.
Solaris Energy Infrastructure bezit een vloot van 600 megawatt aan gasturbines, waarvan ongeveer 400 megawatt momenteel xAI bedient.¹⁸ xAI vertegenwoordigt 67% van Solaris' orderboek van 1.700 megawatt, in totaal 1.140 megawatt.¹⁹ Solaris verwacht meer dan 1,1 gigawatt aan volledig operationele turbines voor xAI te hebben tegen Q2 2027.²⁰
De Colossus 2-uitbreiding op de Tulane Road-locatie omvat minstens 110.000 NVIDIA GB200 GPU's met een energiebelasting van ongeveer 170 megawatt.²¹ Extra Megapacks en turbinecapaciteit ondersteunen de uitgebreide voetafdruk.
xAI ontving vergunningen voor gasgestookte turbines om de supercomputer van stroom te voorzien.²² De vergunning loopt af in 2027, tegen welke tijd xAI van plan is te vertrouwen op meerdere energiebronnen, waaronder twee MLGW-onderstations die zijn gefinancierd en gebouwd op de Colossus-campus.²³ xAI is van plan om de eerste schop in de grond te zetten voor een 200 hectare groot zonnepark nabij de locatie.²⁴
Koelsystemen en waterinfrastructuur
Vanaf het begin transporteerde xAI water per vrachtwagen en recyclede het via een intern gesloten-lussysteem om de supercomputer te koelen.²⁵ De onconventionele aanpak maakte operaties mogelijk voordat de permanente waterinfrastructuur voltooid was. xAI committeerde zich aan de bouw van een afvalwaterrecyclingfaciliteit van $80 miljoen om de langetermijn waterbehoeften aan te pakken.²⁶
Het bedrijf plant 's werelds grootste keramische membraanbioreactor afvalwaterrecyclinginstallatie.²⁷ Eenmaal voltooid, zal de faciliteit naar schatting 17,96 miljard liter grondwater beschermen.²⁸ Een massieve grijswater koeltoren in aanbouw zal gekoeld gerecycled water naar Colossus leiden vanuit de nabijgelegen grijswaterinstallatie.²⁹
Colossus 2 gebruikt een hybride koelaanpak. Ongeveer de helft van de koeling komt van xAI's grijswaterfaciliteit, terwijl de andere helft luchtkoeling gebruikt.³⁰ Tegen augustus 2025 leverden 119 luchtgekoelde chillers ongeveer 200 megawatt aan koelcapaciteit, genoeg voor ongeveer 110.000 GB200 NVL72 GPU's.³¹
Tijdens de initiële constructiefase huurde xAI generatoren en ongeveer een kwart van de Amerikaanse mobiele koelcapaciteit om snel operaties te starten.³² De agressieve inkoop van tijdelijke infrastructuur maakte de gecomprimeerde tijdlijn mogelijk terwijl permanente systemen werden voltooid.
Spectrum-X Ethernet-netwerken
In tegenstelling tot de meeste AI-trainingsclusters die InfiniBand gebruiken, gebruikt xAI's Colossus NVIDIA's Spectrum-X Ethernet-platform voor zijn RDMA-netwerk.³³ De keuze demonstreert dat Ethernet de grootste AI-trainingsclusters kan ondersteunen wanneer correct geconfigureerd.
Colossus gebruikt de 51,2 terabits-per-seconde Spectrum SN5600, die 64 800-gigabit Ethernet-poorten biedt in een 2U-formaat.³⁴ Individuele nodes gebruiken NVIDIA's BlueField-3 SuperNICs met een enkele 400-gigabit verbinding naar elke GPU.³⁵
Het netwerk bereikte nul applicatielatentievermindering of pakketverlies door flowbotsingen over alle drie de lagen van de fabric.³⁶ Het systeem handhaafde 95% datadoorvoer mogelijk gemaakt door Spectrum-X congestiecontrole.³⁷ Standaard Ethernet levert typisch slechts 60% doorvoer op deze schaal door duizenden flowbotsingen.³⁸
Traditionele Ethernet-netwerken worstelen met incast-problemen wanneer duizenden GPU's gelijktijdig communiceren.³⁹ InfiniBand loste dit traditioneel op met ingebouwde Priority Flow Control en congestiebeheer op hardwareniveau.⁴⁰ Spectrum-X bereikt vergelijkbare resultaten met behulp van RoCE v2 met verbeterde congestiecontrolemechanismen.⁴¹
De Ethernet-aanpak biedt kostenvoordelen en flexibiliteit in vergelijking met InfiniBand terwijl de prestaties behouden blijven. Spectrum-X-functies waaronder adaptieve routing met Direct Data Placement-technologie, congestiecontrole en verbeterde AI-fabric-zichtbaarheid maken InfiniBand-achtige prestaties mogelijk op Ethernet-infrastructuur.⁴²
Schaalvergelijking
Colossus met 200.000 GPU's overtreft andere grote supercomputers met aanzienlijke marges.⁴³ Oracle's zettascale AI-supercomputer bevat 131.072 NVIDIA GPU's.⁴⁴ Lawrence Livermore National Laboratory's El Capitan heeft 44.544 GPU's.⁴⁵ Oak Ridge National Laboratory's Frontier heeft 37.632 GPU's.⁴⁶
Volgens xAI's specificaties bereikt Colossus een totale geheugenbandbreedte van 194 petabytes per seconde met een opslagcapaciteit van meer dan één exabyte.⁴⁷ De geheugenbandbreedte maakt de collectieve operaties mogelijk die AI-training vereist over honderdduizenden GPU's.
Het cluster traint xAI's Grok-chatbot en biedt computerondersteuning aan X en andere Musk-ondernemingen, waaronder SpaceX.⁴⁸ De multifunctionele benutting rechtvaardigt de infrastructuurinvestering over meerdere bedrijfsonderdelen.
Colossus 2-uitbreiding
xAI startte het Colossus 2-project op 7 maart 2025, met de aankoop van een magazijn van 93.000 vierkante meter in Memphis plus twee aangrenzende locaties van in totaal 40 hectare.⁴⁹ De Tulane Road-locatie zal de uitgebreide GPU-vloot huisvesten.
De uitbreiding richt zich op 350.000 GPU's met 's werelds grootste implementatie van Tesla Megapack-batterijen voor reservevermogen tijdens hoge netbelastingen.⁵⁰ De locatie zal 60 tot 70 Megapacks bevatten naast de GPU-infrastructuur.⁵¹
De Memphis Chamber of Commerce claimt dat xAI van plan is uit te breiden naar in totaal 1 miljoen GPU's.⁵² Het bereiken van die schaal vereist voortdurende ontwikkeling van energie-infrastructuur voorbij de huidige capaciteit. De 1,1 gigawatt die Solaris plant voor 2027 zou ongeveer een half miljoen krachtige GPU's ondersteunen bij huidige dichtheidsniveaus.
Infrastructuurlessen
Het Colossus-project demonstreert verschillende benaderingen die AI-infrastructuurimplementatie versnellen.
Hergebruik van faciliteiten kan tijdlijnen dramatisch comprimeren. Het vinden van een bestaande industriële faciliteit met energie-infrastructuur op zijn plaats elimineerde bouwtijd die nieuwe constructies vereisen. Organisaties met toegang tot buiten bedrijf gestelde industriële faciliteiten kunnen mogelijkheden vinden voor snelle AI-infrastructuurimplementatie.
Tijdelijke infrastructuur maakt parallelle paden mogelijk. Het huren van generatoren, mobiele koeling en het aanvoeren van water per vrachtwagen stelde operaties in staat te beginnen terwijl permanente infrastructuur werd voltooid. De kostenpremie voor tijdelijke oplossingen kan de moeite waard blijken wanneer time-to-operation de concurrentiepositie bepaalt.
Ethernet kan de grootste clusters ondersteunen. De Spectrum-X-implementatie bewijst dat InfiniBand niet vereist is voor grootschalige AI-training. Organisaties met Ethernet-expertise en -infrastructuur hoeven mogelijk geen InfiniBand te adopteren, zelfs niet voor de grootste implementaties.
Energie blijft de primaire beperking. Ondanks creatieve oplossingen, waaronder batterijopslag, gasturbines en versnelde onderstationconstructie, beperkte de beschikbaarheid van energie de snelheid en schaal van implementatie. Organisaties die grote AI-clusters plannen, moeten eerst energiecapaciteit veiligstellen.
De afwegingen omvatten regelgevende uitdagingen, problemen met gemeenschapsrelaties en technische risico's door gecomprimeerde tijdlijnen. xAI's vergunning voor gasturbines loopt af in 2027, wat transitievereisten creëert.⁵³ Lokale functionarissen uitten zorgen over beperkte zichtbaarheid in xAI's operaties.⁵⁴ De snelheid die concurrentievoordeel mogelijk maakt, kan technische schuld creëren die langzamere implementaties vermijden.
Snelle referentie: Colossus-specificaties
| Specificatie | Waarde |
|---|---|
| Totaal GPU's | 200.000+ (150K H100, 50K H200, 30K GB200) |
| Bouwtijd | 122 dagen (Fase 1), 92 dagen (Fase 2) |
| Energieverbruik | 250 MW huidig |
| Energie-infrastructuur | 35 gasturbines (420 MW), 208 Tesla Megapacks |
| Netwerken | NVIDIA Spectrum-X 800G Ethernet |
| Opslag | >1 exabyte |
| Geheugenbandbreedte | 194 PB/s |
| Rackconfiguratie | 64 GPU's per rack, 1.500 racks |
| Koeling | Vloeistofkoeling + grijswaterrecycling |
| Uitbreidingsdoel | 1 miljoen GPU's |
Belangrijkste inzichten
Voor infrastructuurleiders: - Traditionele DC-offertes: 18-24 maanden; xAI leverde in 122 dagen met behulp van faciliteitshergebruik - Tijdelijke infrastructuur (gehuurde generatoren, mobiele koeling, aangevoerd water) maakt parallelle paden mogelijk - Energie blijft de primaire beperking—zorg voor capaciteit vóór GPU-inkoop - Spectrum-X Ethernet bleek levensvatbaar op 200K GPU-schaal, waarmee de noodzaak van InfiniBand ter discussie staat
Voor faciliteitsteams: - Buiten bedrijf gestelde industriële faciliteiten bieden mogelijkheden voor snelle implementatie - 250 MW vereist meerdere energiebronnen—gasturbines, batterijen, nutsonderstations - Grijswaterrecycling pakt waterzorgen op schaal aan—faciliteit van $80 miljoen beschermt 17,96 miljard liter grondwater - 119 luchtgekoelde chillers bieden ~200 MW koelcapaciteit
Voor strategische planning: - Snelheid vs. duurzaamheid afweging: gasturbinevergunningen lopen af in 2027 - Gecomprimeerde tijdlijnen creëren technische schuld die methodische implementaties vermijden - Multifunctionele benutting (Grok, X, SpaceX) rechtvaardigt infrastructuurinvestering - Doel van 1 miljoen GPU's vereist
[Inhoud afgekapt voor vertaling]