Colossus de Memphis da xAI: anatomia de um cluster de 100.000 GPUs
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: O Colossus agora compreende 150.000 GPUs H100 + 50.000 H200 + 30.000 GB200—o maior cluster de treinamento de IA coerente único do mundo. Construído em 122 dias (100K iniciais), dobrado em mais 92. Planejando expansão para 1M de GPUs. Consumindo 250MW da rede elétrica de Memphis. Ethernet Spectrum-X alcançando 95% de throughput vs 60% em Ethernet tradicional.
Construído em 122 dias, o cluster Colossus da xAI implantou 100.000 GPUs NVIDIA H100 em uma antiga fábrica de eletrodomésticos em Memphis, Tennessee.¹ Em seguida, a xAI dobrou o sistema para 200.000 GPUs em 92 dias adicionais.² O cluster atualmente compreende 150.000 GPUs H100, 50.000 GPUs H200 e 30.000 GPUs GB200, tornando-o o maior cluster de treinamento de IA totalmente operacional e coerente único do mundo.³ A xAI planeja expandir para 1 milhão de GPUs.⁴ O projeto demonstra como é a implantação agressiva de infraestrutura quando uma organização prioriza velocidade em vez de cronogramas de planejamento convencionais.
O projeto Colossus oferece lições para qualquer organização construindo infraestrutura de IA em escala. As decisões sobre energia, resfriamento, rede e seleção de instalações revelam como as restrições podem ser superadas quando as abordagens tradicionais se mostram muito lentas. As compensações também revelam riscos que implantações mais metódicas evitam.
Cronograma e abordagem de construção
Musk recebeu cotações iniciais de 18 a 24 meses para a construção do data center.⁵ Rejeitando esse cronograma, a xAI encontrou a antiga fábrica da Electrolux em Memphis, que o fabricante de eletrodomésticos havia inaugurado em 2012 e fechado em 2020.⁶ A instalação abandonada oferecia considerável espaço de armazém e 15 megawatts de energia industrial inicial.⁷
O CEO da Supermicro, Charles Liang, confirmou que sua empresa se uniu à xAI para construir o gigantesco data center Colossus em 122 dias.⁸ Tanto a Dell Technologies quanto a Supermicro fizeram parceria com a xAI na construção.⁹ O cronograma comprimido exigiu fluxos de trabalho paralelos em preparação de instalações, infraestrutura de energia, sistemas de resfriamento e implantação de computação.
O cluster de 100.000 GPUs usa servidores HGX contendo oito GPUs cada, alojados em racks Supermicro com refrigeração líquida com 64 GPUs por rack.¹⁰ A implantação total compreende 1.500 racks de GPU.¹¹ A densidade dos racks exigiu refrigeração líquida desde o início, com os sistemas de refrigeração líquida 4U da Supermicro fornecendo gerenciamento térmico.¹²
Três meses após a implantação inicial, a xAI anunciou a expansão para 200.000 GPUs com planos de continuar escalando para 1 milhão.¹³ A expansão demonstrou que a arquitetura de infraestrutura poderia acomodar crescimento sem redesenho fundamental.
Infraestrutura de energia em escala sem precedentes
A instalação Colossus atualmente consome aproximadamente 250 megawatts, acima da configuração inicial de 150 megawatts.¹⁴ A xAI instalou 35 turbinas a gás capazes de produzir 420 megawatts de energia junto com sistemas de bateria Tesla Megapack.¹⁵ A abordagem híbrida fornece tanto energia de base quanto independência da rede.
A xAI projetou e construiu a primeira subestação MLGW em 97 dias, completando uma subestação de 150 megawatts que normalmente levaria 2,5 anos.¹⁶ A aceleração exigiu trabalhar com a Memphis Light, Gas and Water enquanto simultaneamente implantava soluções temporárias de energia.
A empresa implantou 208 Tesla Megapacks para alimentar o supercomputador, inicialmente isolando-o da rede MLGW.¹⁷ Os Megapacks armazenam grandes quantidades de eletricidade, fornecendo backup durante interrupções da rede e permitindo operações antes da conclusão das conexões permanentes de utilidade.
A Solaris Energy Infrastructure possui uma frota de 600 megawatts de turbinas a gás, com aproximadamente 400 megawatts atualmente atendendo a xAI.¹⁸ A xAI representa 67% da carteira de pedidos de 1.700 megawatts da Solaris, totalizando 1.140 megawatts.¹⁹ A Solaris espera ter mais de 1,1 gigawatts de turbinas totalmente operacionais para a xAI até o segundo trimestre de 2027.²⁰
A expansão Colossus 2 no local da Tulane Road inclui pelo menos 110.000 GPUs NVIDIA GB200 com uma carga de energia de cerca de 170 megawatts.²¹ Megapacks adicionais e capacidade de turbinas suportam a área expandida.
A xAI recebeu licenças para turbinas a gás para alimentar o supercomputador.²² A licença expira em 2027, momento em que a xAI pretende depender de múltiplas fontes de energia, incluindo duas subestações MLGW financiadas e construídas no campus do Colossus.²³ A xAI planeja iniciar a construção de uma fazenda solar de 500 acres próxima ao local.²⁴
Sistemas de resfriamento e infraestrutura de água
Desde o início, a xAI transportou água por caminhões e a reciclou através de um sistema interno de circuito fechado para resfriar o supercomputador.²⁵ A abordagem não convencional permitiu operações antes da conclusão da infraestrutura permanente de água. A xAI se comprometeu a construir uma instalação de reciclagem de águas residuais de $80 milhões para atender às necessidades de água a longo prazo.²⁶
A empresa planeja a maior planta de reciclagem de águas residuais com biorreator de membrana cerâmica do mundo.²⁷ Uma vez concluída, a instalação protegerá cerca de 4,745 bilhões de galões de água do aquífero.²⁸ Uma enorme torre de resfriamento de água cinza em construção canalizará água reciclada resfriada para o Colossus a partir da planta de água cinza próxima.²⁹
O Colossus 2 usa uma abordagem de resfriamento híbrido. Aproximadamente metade do resfriamento vem da instalação de água cinza da xAI, enquanto a outra metade usa resfriamento a ar.³⁰ Até agosto de 2025, 119 chillers resfriados a ar forneciam aproximadamente 200 megawatts de capacidade de resfriamento, suficiente para aproximadamente 110.000 GPUs GB200 NVL72.³¹
Durante a fase inicial de construção, a xAI alugou geradores e aproximadamente um quarto da capacidade de resfriamento móvel dos EUA para iniciar as operações rapidamente.³² A aquisição agressiva de infraestrutura temporária permitiu o cronograma comprimido enquanto os sistemas permanentes eram concluídos.
Rede Ethernet Spectrum-X
Ao contrário da maioria dos clusters de treinamento de IA que usam InfiniBand, o Colossus da xAI usa a plataforma Ethernet Spectrum-X da NVIDIA para sua rede RDMA.³³ A escolha demonstra que a Ethernet pode suportar os maiores clusters de treinamento de IA quando configurada adequadamente.
O Colossus usa o Spectrum SN5600 de 51,2 terabits por segundo, que fornece 64 portas Ethernet de 800 gigabits em um formato 2U.³⁴ Os nós individuais usam os SuperNICs BlueField-3 da NVIDIA com uma única conexão de 400 gigabits para cada GPU.³⁵
A rede alcançou zero degradação de latência de aplicação ou perda de pacotes devido a colisões de fluxo em todos os três níveis da malha.³⁶ O sistema manteve 95% de throughput de dados habilitado pelo controle de congestionamento Spectrum-X.³⁷ A Ethernet padrão normalmente entrega apenas 60% de throughput nessa escala devido a milhares de colisões de fluxo.³⁸
As redes Ethernet tradicionais têm dificuldades com problemas de incast quando milhares de GPUs se comunicam simultaneamente.³⁹ O InfiniBand tradicionalmente resolveu isso com Priority Flow Control integrado e gerenciamento de congestionamento em nível de hardware.⁴⁰ O Spectrum-X alcança resultados semelhantes usando RoCE v2 com mecanismos aprimorados de controle de congestionamento.⁴¹
A abordagem Ethernet oferece benefícios de custo e flexibilidade em comparação com o InfiniBand, mantendo o desempenho. Os recursos do Spectrum-X, incluindo roteamento adaptativo com tecnologia Direct Data Placement, controle de congestionamento e visibilidade aprimorada da malha de IA, permitem desempenho semelhante ao InfiniBand em infraestrutura Ethernet.⁴²
Comparação de escala
O Colossus com 200.000 GPUs supera outros grandes supercomputadores por margens substanciais.⁴³ O supercomputador de IA em escala zetta da Oracle contém 131.072 GPUs NVIDIA.⁴⁴ O El Capitan do Lawrence Livermore National Laboratory tem 44.544 GPUs.⁴⁵ O Frontier do Oak Ridge National Laboratory tem 37.632 GPUs.⁴⁶
De acordo com as especificações da xAI, o Colossus alcança largura de banda de memória total de 194 petabytes por segundo com capacidade de armazenamento superior a um exabyte.⁴⁷ A largura de banda de memória permite as operações coletivas que o treinamento de IA requer em centenas de milhares de GPUs.
O cluster treina o chatbot Grok da xAI e fornece suporte de computação para X e outros empreendimentos de Musk, incluindo SpaceX.⁴⁸ A utilização multipropósito justifica o investimento em infraestrutura em várias linhas de negócios.
Expansão Colossus 2
A xAI iniciou o projeto Colossus 2 em 7 de março de 2025, adquirindo um armazém de 1 milhão de pés quadrados em Memphis mais dois locais adjacentes totalizando 100 acres.⁴⁹ O local da Tulane Road hospedará a frota expandida de GPUs.
A expansão visa 350.000 GPUs com a maior implantação do mundo de baterias Tesla Megapack para energia de backup durante altas cargas de rede.⁵⁰ O local contará com 60 a 70 Megapacks junto com a infraestrutura de GPU.⁵¹
A Câmara de Comércio de Memphis afirma que a xAI pretende expandir para 1 milhão de GPUs no total.⁵² Alcançar essa escala requer desenvolvimento contínuo de infraestrutura de energia além da capacidade atual. Os 1,1 gigawatts que a Solaris planeja para 2027 suportariam aproximadamente meio milhão de GPUs de alta potência nos níveis de densidade atuais.
Lições de infraestrutura
O projeto Colossus demonstra várias abordagens que aceleram a implantação de infraestrutura de IA.
A reutilização de instalações pode comprimir cronogramas dramaticamente. Encontrar uma instalação industrial existente com infraestrutura de energia no local eliminou o tempo de construção que novas construções exigem. Organizações com acesso a instalações industriais desativadas podem encontrar oportunidades para implantação rápida de infraestrutura de IA.
A infraestrutura temporária permite caminhos paralelos. Alugar geradores, resfriamento móvel e transportar água por caminhões permitiu que as operações começassem enquanto a infraestrutura permanente era concluída. O prêmio de custo para soluções temporárias pode valer a pena quando o tempo de operação determina a posição competitiva.
A Ethernet pode suportar os maiores clusters. A implantação do Spectrum-X prova que o InfiniBand não é necessário para treinamento de IA em escala massiva. Organizações com expertise e infraestrutura Ethernet podem não precisar adotar InfiniBand mesmo para as maiores implantações.
A energia permanece como a principal restrição. Apesar de soluções criativas incluindo armazenamento de bateria, turbinas a gás e construção acelerada de subestações, a disponibilidade de energia limitou a velocidade e a escala da implantação. Organizações planejando grandes clusters de IA devem garantir capacidade de energia primeiro.
As compensações incluem desafios regulatórios, questões de relações comunitárias e riscos técnicos de cronogramas comprimidos. A licença da xAI para turbinas a gás expira em 2027, criando requisitos de transição.⁵³ Autoridades locais expressaram preocupações sobre visibilidade limitada nas operações da xAI.⁵⁴ A velocidade que permite vantagem competitiva pode criar dívida técnica que implantações mais lentas evitam.
Referência rápida: especificações do Colossus
| Especificação | Valor |
|---|---|
| Total de GPUs | 200.000+ (150K H100, 50K H200, 30K GB200) |
| Tempo de construção | 122 dias (Fase 1), 92 dias (Fase 2) |
| Consumo de energia | 250 MW atual |
| Infraestrutura de energia | 35 turbinas a gás (420 MW), 208 Tesla Megapacks |
| Rede | NVIDIA Spectrum-X 800G Ethernet |
| Armazenamento | >1 exabyte |
| Largura de banda de memória | 194 PB/s |
| Configuração de rack | 64 GPUs por rack, 1.500 racks |
| Resfriamento | Refrigeração líquida + reciclagem de água cinza |
| Meta de expansão | 1 milhão de GPUs |
Principais conclusões
Para líderes de infraestrutura: - Cotações tradicionais de DC: 18-24 meses; a xAI entregou em 122 dias usando reutilização de instalações - Infraestrutura temporária (geradores alugados, resfriamento móvel, água transportada por caminhões) permite caminhos paralelos - A energia permanece como a principal restrição—garanta capacidade antes da aquisição de GPUs - Ethernet Spectrum-X provou ser viável em escala de 200K GPUs, desafiando a necessidade de InfiniBand
Para equipes de instalações: - Instalações industriais desativadas oferecem oportunidades de implantação rápida - 250 MW requer múltiplas fontes de energia—turbinas a gás, baterias, subestações de utilidade - Reciclagem de água cinza aborda preocupações com água em escala—instalação de $80M protege 4,7 bilhões de galões do aquífero - 119 chillers resfriados a ar fornecem ~200 MW de capacidade de resfriamento
Para planejamento estratégico: - Compensação velocidade vs. sustentabilidade: licenças de turbinas a gás expiram em 2027 - Cronogramas comprimidos criam dívida técnica que implantações metódicas evitam - Utilização multipropósito (Grok, X, SpaceX) justifica investimento em infraestrutura - Meta de 1 milhão de GPUs requer
[Conteúdo truncado para tradução]