Colossus de xAI en Memphis: anatomía de un clúster de 100.000 GPUs
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: Colossus ahora comprende 150.000 H100 + 50.000 H200 + 30.000 GPUs GB200—el clúster de entrenamiento de IA coherente más grande del mundo. Construido en 122 días (100K iniciales), duplicado en 92 días más. Planificando expansión a 1M de GPUs. Consumiendo 250MW de la red eléctrica de Memphis. Ethernet Spectrum-X alcanzando 95% de rendimiento frente al 60% del Ethernet tradicional.
Construido en 122 días, el clúster Colossus de xAI desplegó 100.000 GPUs NVIDIA H100 en una antigua fábrica de electrodomésticos en Memphis, Tennessee.¹ Luego xAI duplicó el sistema a 200.000 GPUs en 92 días adicionales.² El clúster actualmente comprende 150.000 GPUs H100, 50.000 GPUs H200 y 30.000 GPUs GB200, convirtiéndolo en el clúster de entrenamiento de IA coherente más grande y completamente operativo del mundo.³ xAI planea expandirse a 1 millón de GPUs.⁴ El proyecto demuestra cómo luce un despliegue agresivo de infraestructura cuando una organización prioriza la velocidad sobre los plazos de planificación convencionales.
El proyecto Colossus ofrece lecciones para cualquier organización que construya infraestructura de IA a escala. Las decisiones sobre energía, refrigeración, redes y selección de instalaciones revelan cómo se pueden superar las limitaciones cuando los enfoques tradicionales resultan demasiado lentos. Las compensaciones también revelan riesgos que los despliegues más metódicos evitan.
Cronograma y enfoque de construcción
Musk recibió cotizaciones iniciales de 18 a 24 meses para la construcción del centro de datos.⁵ Rechazando ese cronograma, xAI encontró la antigua fábrica de Electrolux en Memphis, que el fabricante de electrodomésticos había abierto en 2012 y cerrado en 2020.⁶ La instalación abandonada ofrecía un espacio de almacén considerable y 15 megavatios de potencia industrial inicial.⁷
El CEO de Supermicro, Charles Liang, confirmó que su empresa se asoció con xAI para construir el gigantesco centro de datos Colossus en 122 días.⁸ Tanto Dell Technologies como Supermicro se asociaron con xAI en la construcción.⁹ El cronograma comprimido requirió flujos de trabajo paralelos en preparación de instalaciones, infraestructura eléctrica, sistemas de refrigeración y despliegue de cómputo.
El clúster de 100.000 GPUs utiliza servidores HGX que contienen ocho GPUs cada uno, alojados en racks de Supermicro con refrigeración líquida con 64 GPUs por rack.¹⁰ El despliegue total comprende 1.500 racks de GPUs.¹¹ La densidad de racks requirió refrigeración líquida desde el inicio, con los sistemas de refrigeración líquida 4U de Supermicro proporcionando gestión térmica.¹²
Tres meses después del despliegue inicial, xAI anunció la expansión a 200.000 GPUs con planes de continuar escalando a 1 millón.¹³ La expansión demostró que la arquitectura de infraestructura podía acomodar el crecimiento sin un rediseño fundamental.
Infraestructura eléctrica a escala sin precedentes
La instalación Colossus actualmente consume aproximadamente 250 megavatios, frente a la configuración inicial de 150 megavatios.¹⁴ xAI instaló 35 turbinas de gas capaces de producir 420 megavatios de potencia junto con sistemas de baterías Tesla Megapack.¹⁵ El enfoque híbrido proporciona tanto carga base como independencia de la red.
xAI diseñó y construyó la primera subestación de MLGW en 97 días, completando una subestación de 150 megavatios que normalmente tomaría 2,5 años.¹⁶ La aceleración requirió trabajar con Memphis Light, Gas and Water mientras se desplegaban simultáneamente soluciones de energía temporales.
La empresa desplegó 208 Tesla Megapacks para alimentar el supercomputador, aislándolo inicialmente de la red de MLGW.¹⁷ Los Megapacks almacenan grandes cantidades de electricidad, proporcionando respaldo durante interrupciones de la red y permitiendo operaciones antes de que se completaran las conexiones permanentes a la red.
Solaris Energy Infrastructure posee una flota de 600 megavatios de turbinas de gas, con aproximadamente 400 megavatios sirviendo actualmente a xAI.¹⁸ xAI representa el 67% del libro de pedidos de 1.700 megavatios de Solaris, totalizando 1.140 megavatios.¹⁹ Solaris espera tener más de 1,1 gigavatios de turbinas completamente operativas para xAI en el segundo trimestre de 2027.²⁰
La expansión Colossus 2 en el sitio de Tulane Road incluye al menos 110.000 GPUs NVIDIA GB200 con una carga de potencia de alrededor de 170 megavatios.²¹ Megapacks adicionales y capacidad de turbinas soportan la huella expandida.
xAI recibió permisos para turbinas de combustión de gas para alimentar el supercomputador.²² El permiso expira en 2027, momento en el cual xAI pretende depender de múltiples fuentes de energía incluyendo dos subestaciones de MLGW financiadas y construidas en el campus de Colossus.²³ xAI planea iniciar la construcción de una granja solar de 500 acres cerca del sitio.²⁴
Sistemas de refrigeración e infraestructura hídrica
Desde el inicio, xAI transportó agua en camiones y la recicló a través de un sistema interno de circuito cerrado para enfriar el supercomputador.²⁵ El enfoque poco convencional permitió operaciones antes de que se completara la infraestructura hídrica permanente. xAI se comprometió a construir una instalación de reciclaje de aguas residuales de $80 millones para abordar las necesidades de agua a largo plazo.²⁶
La empresa planea la planta de reciclaje de aguas residuales con biorreactor de membrana cerámica más grande del mundo.²⁷ Una vez completada, la instalación protegerá un estimado de 4.745 mil millones de galones de agua del acuífero.²⁸ Una torre de refrigeración de aguas grises masiva en construcción canalizará agua reciclada enfriada hacia Colossus desde la planta de aguas grises cercana.²⁹
Colossus 2 utiliza un enfoque de refrigeración híbrido. Aproximadamente la mitad de la refrigeración proviene de la instalación de aguas grises de xAI mientras que la otra mitad usa refrigeración por aire.³⁰ Para agosto de 2025, 119 enfriadores refrigerados por aire proporcionaban aproximadamente 200 megavatios de capacidad de refrigeración, suficiente para aproximadamente 110.000 GPUs GB200 NVL72.³¹
Durante la fase inicial de construcción, xAI arrendó generadores y aproximadamente una cuarta parte de la capacidad de refrigeración móvil de EE.UU. para iniciar operaciones rápidamente.³² La adquisición agresiva de infraestructura temporal permitió el cronograma comprimido mientras se completaban los sistemas permanentes.
Redes Ethernet Spectrum-X
A diferencia de la mayoría de los clústeres de entrenamiento de IA que usan InfiniBand, el Colossus de xAI utiliza la plataforma Ethernet Spectrum-X de NVIDIA para su red RDMA.³³ La elección demuestra que Ethernet puede soportar los clústeres de entrenamiento de IA más grandes cuando se configura adecuadamente.
Colossus utiliza el Spectrum SN5600 de 51,2 terabits por segundo, que proporciona 64 puertos Ethernet de 800 gigabits en un factor de forma 2U.³⁴ Los nodos individuales usan las SuperNICs BlueField-3 de NVIDIA con una conexión única de 400 gigabits a cada GPU.³⁵
La red logró cero degradación de latencia de aplicación o pérdida de paquetes debido a colisiones de flujo en los tres niveles del fabric.³⁶ El sistema mantuvo un 95% de rendimiento de datos habilitado por el control de congestión de Spectrum-X.³⁷ El Ethernet estándar típicamente entrega solo el 60% de rendimiento a esta escala debido a miles de colisiones de flujo.³⁸
Las redes Ethernet tradicionales tienen dificultades con problemas de incast cuando miles de GPUs se comunican simultáneamente.³⁹ InfiniBand tradicionalmente resolvió esto con Control de Flujo Prioritario integrado y gestión de congestión a nivel de hardware.⁴⁰ Spectrum-X logra resultados similares usando RoCE v2 con mecanismos de control de congestión mejorados.⁴¹
El enfoque Ethernet proporciona beneficios de costo y flexibilidad en comparación con InfiniBand mientras mantiene el rendimiento. Las características de Spectrum-X incluyendo enrutamiento adaptativo con tecnología Direct Data Placement, control de congestión y visibilidad mejorada del fabric de IA permiten un rendimiento similar a InfiniBand en infraestructura Ethernet.⁴²
Comparación de escala
Colossus con 200.000 GPUs supera a otros supercomputadores importantes por márgenes sustanciales.⁴³ El supercomputador de IA a escala zetta de Oracle contiene 131.072 GPUs NVIDIA.⁴⁴ El El Capitan del Lawrence Livermore National Laboratory tiene 44.544 GPUs.⁴⁵ El Frontier del Oak Ridge National Laboratory tiene 37.632 GPUs.⁴⁶
Según las especificaciones de xAI, Colossus logra un ancho de banda de memoria total de 194 petabytes por segundo con capacidad de almacenamiento superior a un exabyte.⁴⁷ El ancho de banda de memoria permite las operaciones colectivas que el entrenamiento de IA requiere a través de cientos de miles de GPUs.
El clúster entrena el chatbot Grok de xAI y proporciona soporte de computación a X y otras empresas de Musk incluyendo SpaceX.⁴⁸ La utilización multipropósito justifica la inversión en infraestructura a través de múltiples líneas de negocio.
Expansión Colossus 2
xAI inició el proyecto Colossus 2 el 7 de marzo de 2025, adquiriendo un almacén de 1 millón de pies cuadrados en Memphis más dos sitios adyacentes que totalizan 100 acres.⁴⁹ El sitio de Tulane Road albergará la flota de GPUs expandida.
La expansión apunta a 350.000 GPUs con el despliegue más grande del mundo de baterías Tesla Megapack para energía de respaldo durante cargas altas de la red.⁵⁰ El sitio contará con 60 a 70 Megapacks junto con la infraestructura de GPUs.⁵¹
La Cámara de Comercio de Memphis afirma que xAI pretende expandirse a 1 millón de GPUs en total.⁵² Alcanzar esa escala requiere desarrollo continuo de infraestructura eléctrica más allá de la capacidad actual. Los 1,1 gigavatios que Solaris planea para 2027 soportarían aproximadamente medio millón de GPUs de alta potencia a los niveles de densidad actuales.
Lecciones de infraestructura
El proyecto Colossus demuestra varios enfoques que aceleran el despliegue de infraestructura de IA.
La reutilización de instalaciones puede comprimir dramáticamente los cronogramas. Encontrar una instalación industrial existente con infraestructura eléctrica ya en su lugar eliminó el tiempo de construcción que requieren las nuevas edificaciones. Las organizaciones con acceso a instalaciones industriales fuera de servicio pueden encontrar oportunidades para el despliegue rápido de infraestructura de IA.
La infraestructura temporal permite caminos paralelos. Arrendar generadores, refrigeración móvil y transportar agua permitió que las operaciones comenzaran mientras se completaba la infraestructura permanente. El costo adicional de las soluciones temporales puede valer la pena cuando el tiempo hasta la operación determina la posición competitiva.
Ethernet puede soportar los clústeres más grandes. El despliegue de Spectrum-X demuestra que InfiniBand no es necesario para el entrenamiento de IA a escala masiva. Las organizaciones con experiencia e infraestructura Ethernet pueden no necesitar adoptar InfiniBand incluso para los despliegues más grandes.
La energía sigue siendo la restricción principal. A pesar de soluciones creativas incluyendo almacenamiento en baterías, turbinas de gas y construcción acelerada de subestaciones, la disponibilidad de energía limitó la velocidad y escala del despliegue. Las organizaciones que planean grandes clústeres de IA deberían asegurar la capacidad eléctrica primero.
Las compensaciones incluyen desafíos regulatorios, problemas de relaciones con la comunidad y riesgos técnicos por los cronogramas comprimidos. El permiso de xAI para turbinas de gas expira en 2027, creando requisitos de transición.⁵³ Los funcionarios locales expresaron preocupaciones sobre la visibilidad limitada de las operaciones de xAI.⁵⁴ La velocidad que permite la ventaja competitiva puede crear deuda técnica que los despliegues más lentos evitan.
Referencia rápida: especificaciones de Colossus
| Especificación | Valor |
|---|---|
| Total de GPUs | 200.000+ (150K H100, 50K H200, 30K GB200) |
| Tiempo de construcción | 122 días (Fase 1), 92 días (Fase 2) |
| Consumo de energía | 250 MW actual |
| Infraestructura eléctrica | 35 turbinas de gas (420 MW), 208 Tesla Megapacks |
| Redes | NVIDIA Spectrum-X 800G Ethernet |
| Almacenamiento | >1 exabyte |
| Ancho de banda de memoria | 194 PB/s |
| Configuración de racks | 64 GPUs por rack, 1.500 racks |
| Refrigeración | Refrigeración líquida + reciclaje de aguas grises |
| Objetivo de expansión | 1 millón de GPUs |
Conclusiones clave
Para líderes de infraestructura: - Cotizaciones tradicionales de DC: 18-24 meses; xAI entregó en 122 días usando reutilización de instalaciones - La infraestructura temporal (generadores arrendados, refrigeración móvil, agua transportada) permite caminos paralelos - La energía sigue siendo la restricción principal—asegurar capacidad antes de la adquisición de GPUs - Ethernet Spectrum-X demostró ser viable a escala de 200K GPUs, desafiando la necesidad de InfiniBand
Para equipos de instalaciones: - Las instalaciones industriales fuera de servicio ofrecen oportunidades de despliegue rápido - 250 MW requiere múltiples fuentes de energía—turbinas de gas, baterías, subestaciones de servicios públicos - El reciclaje de aguas grises aborda las preocupaciones de agua a escala—instalación de $80M protege 4,7 mil millones de galones del acuífero - 119 enfriadores refrigerados por aire proporcionan ~200 MW de capacidad de refrigeración
Para planificación estratégica: - Compensación velocidad vs. sostenibilidad: los permisos de turbinas de gas expiran en 2027 - Los cronogramas comprimidos crean deuda técnica que los despliegues metódicos evitan - La utilización multipropósito (Grok, X, SpaceX) justifica la inversión en infraestructura - El objetivo de 1 millón de GPUs requiere
[Contenido truncado para traducción]