xAIs Memphis Colossus: Anatomie eines 100.000-GPU-Clusters
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: Colossus umfasst jetzt 150.000 H100 + 50.000 H200 + 30.000 GB200 GPUs – der weltweit größte kohärente KI-Trainingscluster. Erbaut in 122 Tagen (anfängliche 100K), verdoppelt in weiteren 92 Tagen. Expansion auf 1 Million GPUs geplant. Bezieht 250 MW aus dem Stromnetz von Memphis. Spectrum-X Ethernet erreicht 95% Durchsatz gegenüber 60% bei herkömmlichem Ethernet.
In nur 122 Tagen erbaut, installierte xAIs Colossus-Cluster 100.000 NVIDIA H100 GPUs in einer ehemaligen Haushaltsgerätefabrik in Memphis, Tennessee.¹ Anschließend verdoppelte xAI das System in weiteren 92 Tagen auf 200.000 GPUs.² Der Cluster umfasst derzeit 150.000 H100 GPUs, 50.000 H200 GPUs und 30.000 GB200 GPUs und ist damit der größte voll funktionsfähige, kohärente KI-Trainingscluster der Welt.³ xAI plant eine Erweiterung auf 1 Million GPUs.⁴ Das Projekt demonstriert, wie aggressive Infrastrukturbereitstellung aussieht, wenn eine Organisation Geschwindigkeit über konventionelle Planungszeiträume stellt.
Das Colossus-Projekt bietet Lehren für jede Organisation, die KI-Infrastruktur im großen Maßstab aufbaut. Die Entscheidungen bezüglich Stromversorgung, Kühlung, Netzwerk und Standortwahl zeigen, wie Einschränkungen überwunden werden können, wenn traditionelle Ansätze zu langsam sind. Die Kompromisse offenbaren auch Risiken, die methodischere Bereitstellungen vermeiden.
Bauzeitplan und Vorgehensweise
Musk erhielt erste Angebote von 18 bis 24 Monaten für den Rechenzentrumsbau.⁵ Diesen Zeitrahmen ablehnend, fand xAI die ehemalige Electrolux-Fabrik in Memphis, die der Haushaltsgerätehersteller 2012 eröffnet und 2020 geschlossen hatte.⁶ Die verlassene Anlage bot beträchtliche Lagerfläche und 15 Megawatt industrielle Anfangsleistung.⁷
Supermicro-CEO Charles Liang bestätigte, dass sein Unternehmen mit xAI zusammenarbeitete, um das gigantische Colossus-Rechenzentrum in 122 Tagen zu errichten.⁸ Sowohl Dell Technologies als auch Supermicro waren Partner von xAI beim Bau.⁹ Der komprimierte Zeitplan erforderte parallele Arbeitsabläufe für Gebäudevorbereitung, Strominfrastruktur, Kühlsysteme und Compute-Bereitstellung.
Der 100.000-GPU-Cluster verwendet HGX-Server mit jeweils acht GPUs, untergebracht in flüssigkeitsgekühlten Supermicro-Racks mit 64 GPUs pro Rack.¹⁰ Die gesamte Bereitstellung umfasst 1.500 GPU-Racks.¹¹ Die Rack-Dichte erforderte von Anfang an Flüssigkeitskühlung, wobei Supermicros 4U-flüssigkeitsgekühlte Systeme das Wärmemanagement übernahmen.¹²
Drei Monate nach der ersten Bereitstellung kündigte xAI die Erweiterung auf 200.000 GPUs mit Plänen zur weiteren Skalierung auf 1 Million an.¹³ Die Erweiterung zeigte, dass die Infrastrukturarchitektur Wachstum ohne grundlegende Neugestaltung ermöglichte.
Strominfrastruktur in beispiellosem Maßstab
Die Colossus-Anlage bezieht derzeit etwa 250 Megawatt, gegenüber der anfänglichen 150-Megawatt-Konfiguration.¹⁴ xAI installierte 35 Gasturbinen mit einer Kapazität von 420 Megawatt zusammen mit Tesla Megapack-Batteriesystemen.¹⁵ Der hybride Ansatz bietet sowohl Grundlast als auch Netzunabhängigkeit.
xAI entwarf und baute die erste MLGW-Umspannstation in 97 Tagen und stellte eine 150-Megawatt-Umspannstation fertig, die normalerweise 2,5 Jahre dauern würde.¹⁶ Die Beschleunigung erforderte die Zusammenarbeit mit Memphis Light, Gas and Water bei gleichzeitiger Bereitstellung temporärer Stromlösungen.
Das Unternehmen installierte 208 Tesla Megapacks zur Stromversorgung des Supercomputers und isolierte ihn zunächst vom MLGW-Netz.¹⁷ Die Megapacks speichern große Mengen Elektrizität, bieten Backup bei Netzstörungen und ermöglichten den Betrieb vor Fertigstellung der permanenten Netzanschlüsse.
Solaris Energy Infrastructure besitzt eine Flotte von 600 Megawatt Gasturbinen, wovon etwa 400 Megawatt derzeit xAI versorgen.¹⁸ xAI repräsentiert 67% von Solaris' 1.700-Megawatt-Auftragsbestand, insgesamt 1.140 Megawatt.¹⁹ Solaris erwartet, bis Q2 2027 über 1,1 Gigawatt voll funktionsfähiger Turbinen für xAI zu betreiben.²⁰
Die Colossus 2-Erweiterung am Tulane Road-Standort umfasst mindestens 110.000 NVIDIA GB200 GPUs mit einer Leistungsaufnahme von etwa 170 Megawatt.²¹ Zusätzliche Megapacks und Turbinenkapazität unterstützen die erweiterte Fläche.
xAI erhielt Genehmigungen für gasbetriebene Turbinen zur Stromversorgung des Supercomputers.²² Die Genehmigung läuft 2027 aus, bis dahin beabsichtigt xAI, auf mehrere Stromquellen zu setzen, darunter zwei MLGW-Umspannstationen, die auf dem Colossus-Campus finanziert und gebaut werden.²³ xAI plant den Baubeginn einer 500 Hektar großen Solarfarm in der Nähe des Standorts.²⁴
Kühlsysteme und Wasserinfrastruktur
Von Anfang an transportierte xAI Wasser per LKW und recycelte es durch ein internes geschlossenes Kreislaufsystem zur Kühlung des Supercomputers.²⁵ Der unkonventionelle Ansatz ermöglichte den Betrieb vor Fertigstellung der permanenten Wasserinfrastruktur. xAI verpflichtete sich zum Bau einer 80 Millionen Dollar teuren Abwasserrecyclinganlage zur Deckung des langfristigen Wasserbedarfs.²⁶
Das Unternehmen plant die weltweit größte Abwasserrecyclinganlage mit keramischem Membran-Bioreaktor.²⁷ Nach Fertigstellung wird die Anlage schätzungsweise 4,745 Milliarden Gallonen Grundwasser schützen.²⁸ Ein massiver Grauwasser-Kühlturm im Bau wird gekühltes Recyclingwasser von der nahegelegenen Grauwasseranlage in Colossus leiten.²⁹
Colossus 2 verwendet einen hybriden Kühlansatz. Etwa die Hälfte der Kühlung stammt aus xAIs Grauwasseranlage, während die andere Hälfte Luftkühlung nutzt.³⁰ Bis August 2025 lieferten 119 luftgekühlte Kältemaschinen etwa 200 Megawatt Kühlkapazität, ausreichend für etwa 110.000 GB200 NVL72 GPUs.³¹
Während der anfänglichen Bauphase mietete xAI Generatoren und etwa ein Viertel der US-amerikanischen mobilen Kühlkapazität, um den Betrieb schnell zu starten.³² Die aggressive Beschaffung temporärer Infrastruktur ermöglichte den komprimierten Zeitplan, während die permanenten Systeme fertiggestellt wurden.
Spectrum-X Ethernet-Netzwerk
Im Gegensatz zu den meisten KI-Trainingsclustern, die InfiniBand verwenden, nutzt xAIs Colossus NVIDIAs Spectrum-X Ethernet-Plattform für sein RDMA-Netzwerk.³³ Die Wahl demonstriert, dass Ethernet die größten KI-Trainingscluster unterstützen kann, wenn es richtig konfiguriert ist.
Colossus verwendet den 51,2 Terabit-pro-Sekunde Spectrum SN5600, der 64 800-Gigabit-Ethernet-Ports in einem 2U-Formfaktor bietet.³⁴ Einzelne Knoten verwenden NVIDIAs BlueField-3 SuperNICs mit einer einzelnen 400-Gigabit-Verbindung zu jeder GPU.³⁵
Das Netzwerk erreichte keine Anwendungslatenz-Verschlechterung oder Paketverluste durch Flow-Kollisionen über alle drei Ebenen des Fabrics.³⁶ Das System hielt 95% Datendurchsatz aufrecht, ermöglicht durch Spectrum-X Staukontrolle.³⁷ Standard-Ethernet liefert bei dieser Größenordnung typischerweise nur 60% Durchsatz aufgrund tausender Flow-Kollisionen.³⁸
Traditionelle Ethernet-Netzwerke kämpfen mit Incast-Problemen, wenn tausende GPUs gleichzeitig kommunizieren.³⁹ InfiniBand löste dies traditionell mit eingebauter Priority Flow Control und Hardware-Level-Staumanagement.⁴⁰ Spectrum-X erreicht ähnliche Ergebnisse mit RoCE v2 und verbesserten Staukontrollmechanismen.⁴¹
Der Ethernet-Ansatz bietet Kostenvorteile und Flexibilität im Vergleich zu InfiniBand bei gleichzeitiger Leistungserhaltung. Spectrum-X-Funktionen wie adaptives Routing mit Direct Data Placement-Technologie, Staukontrolle und verbesserte AI-Fabric-Sichtbarkeit ermöglichen InfiniBand-ähnliche Leistung auf Ethernet-Infrastruktur.⁴²
Größenvergleich
Colossus mit 200.000 GPUs übertrifft andere große Supercomputer um erhebliche Margen.⁴³ Oracles Zettascale-KI-Supercomputer enthält 131.072 NVIDIA GPUs.⁴⁴ Das El Capitan des Lawrence Livermore National Laboratory hat 44.544 GPUs.⁴⁵ Das Frontier des Oak Ridge National Laboratory hat 37.632 GPUs.⁴⁶
Laut xAIs Spezifikationen erreicht Colossus eine Gesamtspeicherbandbreite von 194 Petabyte pro Sekunde bei einer Speicherkapazität von über einem Exabyte.⁴⁷ Die Speicherbandbreite ermöglicht die kollektiven Operationen, die KI-Training über hunderttausende GPUs erfordert.
Der Cluster trainiert xAIs Grok-Chatbot und bietet Rechenunterstützung für X und andere Musk-Unternehmen einschließlich SpaceX.⁴⁸ Die Mehrfachnutzung rechtfertigt die Infrastrukturinvestition über mehrere Geschäftsbereiche.
Colossus 2-Erweiterung
xAI startete das Colossus 2-Projekt am 7. März 2025 mit dem Erwerb eines 1 Million Quadratfuß großen Lagers in Memphis plus zwei angrenzender Standorte mit insgesamt 100 Hektar.⁴⁹ Der Tulane Road-Standort wird die erweiterte GPU-Flotte beherbergen.
Die Erweiterung zielt auf 350.000 GPUs mit dem weltweit größten Einsatz von Tesla Megapack-Batterien als Backup-Strom bei hoher Netzlast.⁵⁰ Der Standort wird 60 bis 70 Megapacks neben der GPU-Infrastruktur aufweisen.⁵¹
Die Handelskammer von Memphis behauptet, xAI beabsichtige eine Erweiterung auf insgesamt 1 Million GPUs.⁵² Das Erreichen dieser Größenordnung erfordert eine fortgesetzte Strominfrastrukturentwicklung über die aktuelle Kapazität hinaus. Die 1,1 Gigawatt, die Solaris für 2027 plant, würden bei aktueller Dichte etwa eine halbe Million Hochleistungs-GPUs unterstützen.
Infrastruktur-Lektionen
Das Colossus-Projekt demonstriert mehrere Ansätze, die die Bereitstellung von KI-Infrastruktur beschleunigen.
Gebäudewiederverwendung kann Zeitrahmen dramatisch verkürzen. Eine bestehende Industrieanlage mit vorhandener Strominfrastruktur zu finden, eliminierte Bauzeit, die Neubauten erfordern. Organisationen mit Zugang zu stillgelegten Industrieanlagen finden möglicherweise Möglichkeiten für schnelle KI-Infrastrukturbereitstellung.
Temporäre Infrastruktur ermöglicht parallele Pfade. Das Mieten von Generatoren, mobiler Kühlung und Wassertransport per LKW ermöglichte den Betriebsstart, während die permanente Infrastruktur fertiggestellt wurde. Der Kostenaufschlag für temporäre Lösungen kann sich lohnen, wenn die Zeit bis zur Inbetriebnahme die Wettbewerbsposition bestimmt.
Ethernet kann die größten Cluster unterstützen. Die Spectrum-X-Bereitstellung beweist, dass InfiniBand nicht für massives KI-Training erforderlich ist. Organisationen mit Ethernet-Expertise und -Infrastruktur müssen möglicherweise auch für die größten Bereitstellungen nicht auf InfiniBand umsteigen.
Strom bleibt die primäre Einschränkung. Trotz kreativer Lösungen einschließlich Batteriespeicher, Gasturbinen und beschleunigtem Umspannstationsbau begrenzte die Stromverfügbarkeit die Geschwindigkeit und den Umfang der Bereitstellung. Organisationen, die große KI-Cluster planen, sollten zuerst Stromkapazität sichern.
Die Kompromisse umfassen regulatorische Herausforderungen, Probleme mit Gemeinschaftsbeziehungen und technische Risiken durch komprimierte Zeitpläne. xAIs Genehmigung für Gasturbinen läuft 2027 aus und erfordert Übergangsmaßnahmen.⁵³ Lokale Beamte äußerten Bedenken über begrenzte Einblicke in xAIs Betrieb.⁵⁴ Die Geschwindigkeit, die Wettbewerbsvorteile ermöglicht, kann technische Schulden erzeugen, die langsamere Bereitstellungen vermeiden.
Kurzübersicht: Colossus-Spezifikationen
| Spezifikation | Wert |
|---|---|
| Gesamt-GPUs | 200.000+ (150K H100, 50K H200, 30K GB200) |
| Bauzeit | 122 Tage (Phase 1), 92 Tage (Phase 2) |
| Stromverbrauch | 250 MW aktuell |
| Strominfrastruktur | 35 Gasturbinen (420 MW), 208 Tesla Megapacks |
| Netzwerk | NVIDIA Spectrum-X 800G Ethernet |
| Speicher | >1 Exabyte |
| Speicherbandbreite | 194 PB/s |
| Rack-Konfiguration | 64 GPUs pro Rack, 1.500 Racks |
| Kühlung | Flüssigkeitskühlung + Grauwasserrecycling |
| Erweiterungsziel | 1 Million GPUs |
Wichtigste Erkenntnisse
Für Infrastruktur-Führungskräfte: - Traditionelle DC-Angebote: 18-24 Monate; xAI lieferte in 122 Tagen durch Gebäudewiederverwendung - Temporäre Infrastruktur (gemietete Generatoren, mobile Kühlung, transportiertes Wasser) ermöglicht parallele Pfade - Strom bleibt die primäre Einschränkung – Kapazität vor GPU-Beschaffung sichern - Spectrum-X Ethernet erwies sich bei 200K GPUs als tragfähig und stellt die InfiniBand-Notwendigkeit in Frage
Für Facility-Teams: - Stillgelegte Industrieanlagen bieten schnelle Bereitstellungsmöglichkeiten - 250 MW erfordern mehrere Stromquellen – Gasturbinen, Batterien, Umspannstationen - Grauwasserrecycling adressiert Wasserbedenken im großen Maßstab – 80-Mio.-Dollar-Anlage schützt 4,7 Mrd. Gallonen Grundwasser - 119 luftgekühlte Kältemaschinen bieten ~200 MW Kühlkapazität
Für strategische Planung: - Kompromiss Geschwindigkeit vs. Nachhaltigkeit: Gasturbinengenehmigungen laufen 2027 aus - Komprimierte Zeitpläne erzeugen technische Schulden, die methodische Bereitstellungen vermeiden - Mehrfachnutzung (Grok, X, SpaceX) rechtfertigt Infrastrukturinvestition - 1-Million-GPU-Ziel erfordert
[Inhalt für Übersetzung gekürzt]