Colossus de xAI à Memphis : anatomie d'un cluster de 100 000 GPU
Mis à jour le 11 décembre 2025
Mise à jour de décembre 2025 : Colossus comprend désormais 150 000 GPU H100 + 50 000 GPU H200 + 30 000 GPU GB200 — le plus grand cluster d'entraînement d'IA cohérent au monde. Construit en 122 jours (100 000 initiaux), doublé en 92 jours supplémentaires. Expansion prévue à 1 million de GPU. Consommation de 250 MW sur le réseau électrique de Memphis. Ethernet Spectrum-X atteignant 95 % de débit contre 60 % sur Ethernet traditionnel.
Construit en 122 jours, le cluster Colossus de xAI a déployé 100 000 GPU NVIDIA H100 dans une ancienne usine d'électroménager à Memphis, Tennessee.¹ Puis xAI a doublé le système à 200 000 GPU en 92 jours supplémentaires.² Le cluster comprend actuellement 150 000 GPU H100, 50 000 GPU H200 et 30 000 GPU GB200, ce qui en fait le plus grand cluster d'entraînement d'IA pleinement opérationnel et cohérent au monde.³ xAI prévoit d'étendre à 1 million de GPU.⁴ Le projet démontre ce à quoi ressemble un déploiement d'infrastructure agressif lorsqu'une organisation privilégie la rapidité sur les délais de planification conventionnels.
Le projet Colossus offre des enseignements pour toute organisation construisant une infrastructure d'IA à grande échelle. Les décisions concernant l'alimentation électrique, le refroidissement, le réseau et la sélection des installations révèlent comment les contraintes peuvent être surmontées lorsque les approches traditionnelles s'avèrent trop lentes. Les compromis révèlent également des risques que des déploiements plus méthodiques évitent.
Calendrier et approche de construction
Musk a reçu des devis initiaux de 18 à 24 mois pour la construction du centre de données.⁵ Rejetant ce délai, xAI a trouvé l'ancienne usine Electrolux à Memphis, que le fabricant d'électroménager avait ouverte en 2012 et fermée en 2020.⁶ L'installation abandonnée offrait un espace d'entrepôt considérable et 15 mégawatts de puissance industrielle initiale.⁷
Le PDG de Supermicro, Charles Liang, a confirmé que son entreprise s'est associée à xAI pour construire le gigantesque centre de données Colossus en 122 jours.⁸ Dell Technologies et Supermicro se sont tous deux associés à xAI pour la construction.⁹ Le calendrier compressé a nécessité des flux de travail parallèles pour la préparation des installations, l'infrastructure électrique, les systèmes de refroidissement et le déploiement du calcul.
Le cluster de 100 000 GPU utilise des serveurs HGX contenant huit GPU chacun, hébergés dans des racks Supermicro refroidis par liquide avec 64 GPU par rack.¹⁰ Le déploiement total comprend 1 500 racks de GPU.¹¹ La densité des racks a nécessité un refroidissement liquide dès le départ, les systèmes 4U refroidis par liquide de Supermicro assurant la gestion thermique.¹²
Trois mois après le déploiement initial, xAI a annoncé l'expansion à 200 000 GPU avec des plans pour continuer à évoluer vers 1 million.¹³ L'expansion a démontré que l'architecture de l'infrastructure pouvait s'adapter à la croissance sans refonte fondamentale.
Infrastructure électrique à une échelle sans précédent
L'installation Colossus consomme actuellement environ 250 mégawatts, contre 150 mégawatts dans la configuration initiale.¹⁴ xAI a installé 35 turbines à gaz capables de produire 420 mégawatts d'électricité aux côtés des systèmes de batteries Tesla Megapack.¹⁵ L'approche hybride fournit à la fois une puissance de base et une indépendance vis-à-vis du réseau.
xAI a conçu et construit le premier poste électrique MLGW en 97 jours, achevant un poste de 150 mégawatts qui prendrait normalement 2,5 ans.¹⁶ L'accélération a nécessité de travailler avec Memphis Light, Gas and Water tout en déployant simultanément des solutions d'alimentation temporaires.
L'entreprise a déployé 208 Tesla Megapacks pour alimenter le superordinateur, l'isolant initialement du réseau MLGW.¹⁷ Les Megapacks stockent de grandes quantités d'électricité, fournissant une alimentation de secours lors des perturbations du réseau et permettant des opérations avant que les connexions aux services publics permanents ne soient achevées.
Solaris Energy Infrastructure possède une flotte de 600 mégawatts de turbines à gaz, dont environ 400 mégawatts servent actuellement xAI.¹⁸ xAI représente 67 % du carnet de commandes de 1 700 mégawatts de Solaris, totalisant 1 140 mégawatts.¹⁹ Solaris prévoit d'avoir plus de 1,1 gigawatt de turbines pleinement opérationnelles pour xAI d'ici le deuxième trimestre 2027.²⁰
L'expansion Colossus 2 sur le site de Tulane Road comprend au moins 110 000 GPU NVIDIA GB200 avec une charge électrique d'environ 170 mégawatts.²¹ Des Megapacks et une capacité de turbines supplémentaires soutiennent l'empreinte élargie.
xAI a reçu des permis pour des turbines à gaz pour alimenter le superordinateur.²² Le permis expire en 2027, date à laquelle xAI entend s'appuyer sur plusieurs sources d'énergie, dont deux postes électriques MLGW financés et construits sur le campus Colossus.²³ xAI prévoit de lancer la construction d'une ferme solaire de 200 hectares près du site.²⁴
Systèmes de refroidissement et infrastructure hydraulique
Dès le départ, xAI a acheminé de l'eau par camions et l'a recyclée via un système interne en boucle fermée pour refroidir le superordinateur.²⁵ L'approche non conventionnelle a permis des opérations avant que l'infrastructure hydraulique permanente ne soit achevée. xAI s'est engagé à construire une installation de recyclage des eaux usées de 80 millions de dollars pour répondre aux besoins en eau à long terme.²⁶
L'entreprise prévoit la plus grande usine de recyclage des eaux usées à bioréacteur à membrane céramique au monde.²⁷ Une fois terminée, l'installation protégera environ 18 milliards de litres d'eau de nappe phréatique.²⁸ Une tour de refroidissement massive à eaux grises en construction acheminera l'eau recyclée refroidie vers Colossus depuis l'usine d'eaux grises voisine.²⁹
Colossus 2 utilise une approche de refroidissement hybride. Environ la moitié du refroidissement provient de l'installation d'eaux grises de xAI tandis que l'autre moitié utilise le refroidissement par air.³⁰ En août 2025, 119 refroidisseurs à air fournissaient environ 200 mégawatts de capacité de refroidissement, suffisamment pour environ 110 000 GPU GB200 NVL72.³¹
Pendant la phase de construction initiale, xAI a loué des générateurs et environ un quart de la capacité de refroidissement mobile des États-Unis pour démarrer rapidement les opérations.³² L'approvisionnement agressif en infrastructure temporaire a permis le calendrier compressé pendant que les systèmes permanents s'achevaient.
Réseau Ethernet Spectrum-X
Contrairement à la plupart des clusters d'entraînement d'IA qui utilisent InfiniBand, le Colossus de xAI utilise la plateforme Ethernet Spectrum-X de NVIDIA pour son réseau RDMA.³³ Ce choix démontre qu'Ethernet peut supporter les plus grands clusters d'entraînement d'IA lorsqu'il est correctement configuré.
Colossus utilise le Spectrum SN5600 de 51,2 térabits par seconde, qui fournit 64 ports Ethernet 800 gigabits dans un format 2U.³⁴ Les nœuds individuels utilisent les SuperNIC BlueField-3 de NVIDIA avec une seule connexion 400 gigabits vers chaque GPU.³⁵
Le réseau a atteint zéro dégradation de latence applicative ou perte de paquets due aux collisions de flux sur les trois niveaux du fabric.³⁶ Le système a maintenu 95 % de débit de données grâce au contrôle de congestion Spectrum-X.³⁷ L'Ethernet standard ne délivre généralement que 60 % de débit à cette échelle en raison de milliers de collisions de flux.³⁸
Les réseaux Ethernet traditionnels peinent avec les problèmes d'incast lorsque des milliers de GPU communiquent simultanément.³⁹ InfiniBand résolvait traditionnellement cela avec le Priority Flow Control intégré et la gestion de congestion au niveau matériel.⁴⁰ Spectrum-X obtient des résultats similaires en utilisant RoCE v2 avec des mécanismes de contrôle de congestion améliorés.⁴¹
L'approche Ethernet offre des avantages de coût et de flexibilité par rapport à InfiniBand tout en maintenant les performances. Les fonctionnalités Spectrum-X, notamment le routage adaptatif avec la technologie Direct Data Placement, le contrôle de congestion et la visibilité améliorée du fabric IA, permettent des performances similaires à InfiniBand sur une infrastructure Ethernet.⁴²
Comparaison d'échelle
Colossus avec 200 000 GPU dépasse les autres grands superordinateurs par des marges substantielles.⁴³ Le superordinateur IA zettascale d'Oracle contient 131 072 GPU NVIDIA.⁴⁴ El Capitan du Lawrence Livermore National Laboratory dispose de 44 544 GPU.⁴⁵ Frontier du Oak Ridge National Laboratory compte 37 632 GPU.⁴⁶
Selon les spécifications de xAI, Colossus atteint une bande passante mémoire totale de 194 pétaoctets par seconde avec une capacité de stockage dépassant un exaoctet.⁴⁷ La bande passante mémoire permet les opérations collectives que l'entraînement d'IA nécessite sur des centaines de milliers de GPU.
Le cluster entraîne le chatbot Grok de xAI et fournit un support informatique à X et à d'autres entreprises de Musk, dont SpaceX.⁴⁸ L'utilisation polyvalente justifie l'investissement en infrastructure sur plusieurs lignes d'activité.
Expansion Colossus 2
xAI a lancé le projet Colossus 2 le 7 mars 2025, acquérant un entrepôt d'un million de pieds carrés à Memphis plus deux sites adjacents totalisant 40 hectares.⁴⁹ Le site de Tulane Road hébergera la flotte de GPU élargie.
L'expansion vise 350 000 GPU avec le plus grand déploiement mondial de batteries Tesla Megapack pour l'alimentation de secours pendant les charges élevées du réseau.⁵⁰ Le site comportera 60 à 70 Megapacks aux côtés de l'infrastructure GPU.⁵¹
La Chambre de commerce de Memphis affirme que xAI a l'intention d'étendre à 1 million de GPU au total.⁵² Atteindre cette échelle nécessite un développement continu de l'infrastructure électrique au-delà de la capacité actuelle. Les 1,1 gigawatts que Solaris prévoit pour 2027 supporteraient environ un demi-million de GPU haute puissance aux niveaux de densité actuels.
Enseignements en matière d'infrastructure
Le projet Colossus démontre plusieurs approches qui accélèrent le déploiement de l'infrastructure d'IA.
La réutilisation des installations peut comprimer considérablement les délais. Trouver une installation industrielle existante avec une infrastructure électrique en place a éliminé le temps de construction que les nouvelles constructions nécessitent. Les organisations ayant accès à des installations industrielles désaffectées peuvent trouver des opportunités de déploiement rapide d'infrastructure d'IA.
L'infrastructure temporaire permet des voies parallèles. La location de générateurs, de refroidissement mobile et le transport d'eau par camions ont permis de commencer les opérations pendant que l'infrastructure permanente s'achevait. Le surcoût des solutions temporaires peut s'avérer justifié lorsque le délai de mise en service détermine la position concurrentielle.
Ethernet peut supporter les plus grands clusters. Le déploiement Spectrum-X prouve qu'InfiniBand n'est pas nécessaire pour l'entraînement d'IA à très grande échelle. Les organisations disposant d'une expertise et d'une infrastructure Ethernet peuvent ne pas avoir besoin d'adopter InfiniBand même pour les plus grands déploiements.
L'alimentation électrique reste la contrainte principale. Malgré des solutions créatives incluant le stockage par batteries, les turbines à gaz et la construction accélérée de postes électriques, la disponibilité électrique a limité la vitesse et l'échelle du déploiement. Les organisations planifiant de grands clusters d'IA devraient sécuriser la capacité électrique en premier.
Les compromis incluent des défis réglementaires, des problèmes de relations avec la communauté et des risques techniques liés aux délais compressés. Le permis de xAI pour les turbines à gaz expire en 2027, créant des exigences de transition.⁵³ Les responsables locaux ont exprimé des préoccupations concernant la visibilité limitée sur les opérations de xAI.⁵⁴ La rapidité qui permet un avantage concurrentiel peut créer une dette technique que des déploiements plus lents évitent.
Référence rapide : spécifications de Colossus
| Spécification | Valeur |
|---|---|
| Total GPU | 200 000+ (150K H100, 50K H200, 30K GB200) |
| Temps de construction | 122 jours (Phase 1), 92 jours (Phase 2) |
| Consommation électrique | 250 MW actuel |
| Infrastructure électrique | 35 turbines à gaz (420 MW), 208 Tesla Megapacks |
| Réseau | NVIDIA Spectrum-X 800G Ethernet |
| Stockage | >1 exaoctet |
| Bande passante mémoire | 194 Po/s |
| Configuration des racks | 64 GPU par rack, 1 500 racks |
| Refroidissement | Refroidissement liquide + recyclage des eaux grises |
| Objectif d'expansion | 1 million de GPU |
Points clés à retenir
Pour les responsables d'infrastructure : - Devis traditionnels de centres de données : 18-24 mois ; xAI a livré en 122 jours grâce à la réutilisation d'installations - L'infrastructure temporaire (générateurs loués, refroidissement mobile, eau acheminée par camions) permet des voies parallèles - L'alimentation électrique reste la contrainte principale — sécurisez la capacité avant l'approvisionnement en GPU - L'Ethernet Spectrum-X s'est avéré viable à l'échelle de 200K GPU, remettant en question la nécessité d'InfiniBand
Pour les équipes des installations : - Les installations industrielles désaffectées offrent des opportunités de déploiement rapide - 250 MW nécessitent plusieurs sources d'énergie — turbines à gaz, batteries, postes électriques de service public - Le recyclage des eaux grises répond aux préoccupations hydriques à grande échelle — installation de 80 M$ protégeant 18 milliards de litres de nappe phréatique - 119 refroidisseurs à air fournissent environ 200 MW de capacité de refroidissement
Pour la planification stratégique : - Compromis vitesse vs durabilité : les permis des turbines à gaz expirent en 2027 - Les délais compressés créent une dette technique que les déploiements méthodiques évitent - L'utilisation polyvalente (Grok, X, SpaceX) justifie l'investissement en infrastructure - L'objectif de 1 million de GPU nécessite
[Contenu tronqué pour la traduction]