xAI Memphis Colossus: Anatomi Superkomputer 100.000 GPU

xAI membangun klaster Colossus 100.000 GPU dalam 122 hari, digandakan menjadi 200K dalam 92 hari berikutnya. Daya 250MW, Spectrum-X Ethernet. Di dalam superkomputer AI terbesar di dunia.

xAI Memphis Colossus: Anatomi Superkomputer 100.000 GPU

xAI Memphis Colossus: anatomi klaster 100.000 GPU

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: Colossus kini terdiri dari 150.000 H100 + 50.000 H200 + 30.000 GB200 GPU—klaster pelatihan AI koheren tunggal terbesar di dunia. Dibangun dalam 122 hari (100K awal), digandakan dalam 92 hari berikutnya. Merencanakan ekspansi ke 1 juta GPU. Mengonsumsi 250MW dari jaringan utilitas Memphis. Spectrum-X Ethernet mencapai throughput 95% dibanding 60% pada Ethernet tradisional.

Dibangun dalam 122 hari, klaster Colossus xAI mengerahkan 100.000 GPU NVIDIA H100 di bekas pabrik peralatan rumah tangga di Memphis, Tennessee.¹ Kemudian xAI menggandakan sistem menjadi 200.000 GPU dalam 92 hari tambahan.² Klaster ini saat ini terdiri dari 150.000 GPU H100, 50.000 GPU H200, dan 30.000 GPU GB200, menjadikannya klaster pelatihan AI koheren tunggal yang beroperasi penuh terbesar di dunia.³ xAI berencana memperluas hingga 1 juta GPU.⁴ Proyek ini menunjukkan seperti apa penerapan infrastruktur agresif ketika sebuah organisasi memprioritaskan kecepatan di atas timeline perencanaan konvensional.

Proyek Colossus menawarkan pelajaran bagi organisasi mana pun yang membangun infrastruktur AI dalam skala besar. Keputusan seputar daya, pendinginan, jaringan, dan pemilihan fasilitas mengungkapkan bagaimana kendala dapat diatasi ketika pendekatan tradisional terbukti terlalu lambat. Trade-off tersebut juga mengungkapkan risiko yang dihindari oleh penerapan yang lebih metodis.

Timeline dan pendekatan konstruksi

Musk menerima penawaran awal 18 hingga 24 bulan untuk konstruksi pusat data.⁵ Menolak timeline tersebut, xAI menemukan bekas pabrik Electrolux di Memphis, yang dibuka oleh produsen peralatan rumah tangga tersebut pada 2012 dan ditutup pada 2020.⁶ Fasilitas terbengkalai ini menawarkan ruang gudang yang cukup besar dan 15 megawatt daya industri awal.⁷

CEO Supermicro Charles Liang mengonfirmasi bahwa perusahaannya bermitra dengan xAI untuk membangun pusat data Colossus yang sangat besar dalam 122 hari.⁸ Baik Dell Technologies maupun Supermicro bermitra dengan xAI dalam konstruksi.⁹ Timeline yang dipadatkan memerlukan alur kerja paralel di seluruh persiapan fasilitas, infrastruktur daya, sistem pendingin, dan penerapan komputasi.

Klaster 100.000 GPU menggunakan server HGX yang berisi delapan GPU masing-masing, ditempatkan dalam rak berpendingin cair Supermicro dengan 64 GPU per rak.¹⁰ Total penerapan terdiri dari 1.500 rak GPU.¹¹ Kepadatan rak memerlukan pendinginan cair sejak awal, dengan sistem berpendingin cair 4U Supermicro menyediakan manajemen termal.¹²

Tiga bulan setelah penerapan awal, xAI mengumumkan ekspansi ke 200.000 GPU dengan rencana untuk terus meningkatkan skala hingga 1 juta.¹³ Ekspansi tersebut menunjukkan bahwa arsitektur infrastruktur dapat mengakomodasi pertumbuhan tanpa desain ulang fundamental.

Infrastruktur daya pada skala yang belum pernah terjadi sebelumnya

Fasilitas Colossus saat ini mengonsumsi sekitar 250 megawatt, naik dari konfigurasi awal 150 megawatt.¹⁴ xAI memasang 35 turbin gas yang mampu menghasilkan 420 megawatt daya bersama dengan sistem baterai Tesla Megapack.¹⁵ Pendekatan hybrid ini menyediakan daya beban dasar dan kemandirian dari jaringan listrik.

xAI merancang dan membangun gardu induk MLGW pertama dalam 97 hari, menyelesaikan gardu induk 150 megawatt yang biasanya membutuhkan waktu 2,5 tahun.¹⁶ Percepatan tersebut memerlukan kerja sama dengan Memphis Light, Gas and Water sambil secara bersamaan menerapkan solusi daya sementara.

Perusahaan mengerahkan 208 Tesla Megapack untuk memberi daya pada superkomputer, awalnya mengisolasinya dari jaringan MLGW.¹⁷ Megapack menyimpan listrik dalam jumlah besar, menyediakan cadangan selama gangguan jaringan dan memungkinkan operasi sebelum koneksi utilitas permanen selesai.

Solaris Energy Infrastructure memiliki armada 600 megawatt turbin gas, dengan sekitar 400 megawatt saat ini melayani xAI.¹⁸ xAI mewakili 67% dari order book Solaris sebesar 1.700 megawatt, dengan total 1.140 megawatt.¹⁹ Solaris memperkirakan akan memiliki lebih dari 1,1 gigawatt turbin yang beroperasi penuh untuk xAI pada Q2 2027.²⁰

Ekspansi Colossus 2 di lokasi Tulane Road mencakup setidaknya 110.000 GPU NVIDIA GB200 dengan beban daya sekitar 170 megawatt.²¹ Megapack tambahan dan kapasitas turbin mendukung footprint yang diperluas.

xAI menerima izin untuk turbin berbahan bakar gas untuk memberi daya pada superkomputer.²² Izin tersebut berakhir pada 2027, di mana pada saat itu xAI bermaksud mengandalkan berbagai sumber daya termasuk dua gardu induk MLGW yang dibiayai dan dibangun di kampus Colossus.²³ xAI berencana memulai pembangunan ladang surya seluas 500 acre di dekat lokasi.²⁴

Sistem pendingin dan infrastruktur air

Sejak awal, xAI mengangkut air dengan truk dan mendaur ulangnya melalui sistem loop tertutup internal untuk mendinginkan superkomputer.²⁵ Pendekatan tidak konvensional ini memungkinkan operasi sebelum infrastruktur air permanen selesai. xAI berkomitmen membangun fasilitas daur ulang air limbah senilai $80 juta untuk mengatasi kebutuhan air jangka panjang.²⁶

Perusahaan merencanakan pabrik daur ulang air limbah membran keramik bioreactor terbesar di dunia.²⁷ Setelah selesai, fasilitas ini akan melindungi perkiraan 4,745 miliar galon air akuifer.²⁸ Menara pendingin graywater besar yang sedang dibangun akan menyalurkan air daur ulang yang didinginkan ke Colossus dari pabrik graywater terdekat.²⁹

Colossus 2 menggunakan pendekatan pendinginan hybrid. Sekitar setengah dari pendinginan berasal dari fasilitas graywater xAI sementara setengah lainnya menggunakan pendinginan udara.³⁰ Pada Agustus 2025, 119 chiller berpendingin udara menyediakan kapasitas pendinginan sekitar 200 megawatt, cukup untuk sekitar 110.000 GPU GB200 NVL72.³¹

Selama fase konstruksi awal, xAI menyewa generator dan sekitar seperempat dari kapasitas pendinginan mobile AS untuk memulai operasi dengan cepat.³² Pengadaan agresif infrastruktur sementara memungkinkan timeline yang dipadatkan sementara sistem permanen diselesaikan.

Jaringan Ethernet Spectrum-X

Berbeda dengan sebagian besar klaster pelatihan AI yang menggunakan InfiniBand, Colossus xAI menggunakan platform Ethernet Spectrum-X NVIDIA untuk jaringan RDMA-nya.³³ Pilihan ini menunjukkan bahwa Ethernet dapat mendukung klaster pelatihan AI terbesar ketika dikonfigurasi dengan benar.

Colossus menggunakan Spectrum SN5600 51,2 terabit per detik, yang menyediakan 64 port Ethernet 800 gigabit dalam form factor 2U.³⁴ Node individual menggunakan SuperNIC BlueField-3 NVIDIA yang menampilkan koneksi 400 gigabit tunggal ke setiap GPU.³⁵

Jaringan mencapai nol degradasi latensi aplikasi atau packet loss akibat tabrakan aliran di ketiga tier fabric.³⁶ Sistem mempertahankan throughput data 95% yang dimungkinkan oleh kontrol kemacetan Spectrum-X.³⁷ Ethernet standar biasanya hanya memberikan throughput 60% pada skala ini karena ribuan tabrakan aliran.³⁸

Jaringan Ethernet tradisional kesulitan dengan masalah incast ketika ribuan GPU berkomunikasi secara bersamaan.³⁹ InfiniBand secara tradisional menyelesaikan ini dengan Priority Flow Control bawaan dan manajemen kemacetan tingkat hardware.⁴⁰ Spectrum-X mencapai hasil serupa menggunakan RoCE v2 dengan mekanisme kontrol kemacetan yang ditingkatkan.⁴¹

Pendekatan Ethernet memberikan manfaat biaya dan fleksibilitas dibandingkan InfiniBand sambil mempertahankan kinerja. Fitur Spectrum-X termasuk adaptive routing dengan teknologi Direct Data Placement, kontrol kemacetan, dan visibilitas fabric AI yang ditingkatkan memungkinkan kinerja seperti InfiniBand pada infrastruktur Ethernet.⁴²

Perbandingan skala

Colossus dengan 200.000 GPU melampaui superkomputer besar lainnya dengan margin substansial.⁴³ Superkomputer AI zettascale Oracle berisi 131.072 GPU NVIDIA.⁴⁴ El Capitan Lawrence Livermore National Laboratory memiliki 44.544 GPU.⁴⁵ Frontier Oak Ridge National Laboratory memiliki 37.632 GPU.⁴⁶

Menurut spesifikasi xAI, Colossus mencapai total bandwidth memori 194 petabyte per detik dengan kapasitas penyimpanan melebihi satu exabyte.⁴⁷ Bandwidth memori memungkinkan operasi kolektif yang dibutuhkan pelatihan AI di ratusan ribu GPU.

Klaster ini melatih chatbot Grok xAI dan menyediakan dukungan komputasi ke X dan usaha Musk lainnya termasuk SpaceX.⁴⁸ Pemanfaatan multi-tujuan membenarkan investasi infrastruktur di berbagai lini bisnis.

Ekspansi Colossus 2

xAI memulai proyek Colossus 2 pada 7 Maret 2025, mengakuisisi gudang seluas 1 juta kaki persegi di Memphis ditambah dua lokasi berdekatan dengan total 100 acre.⁴⁹ Lokasi Tulane Road akan menampung armada GPU yang diperluas.

Ekspansi menargetkan 350.000 GPU dengan penerapan baterai Tesla Megapack terbesar di dunia untuk daya cadangan selama beban jaringan tinggi.⁵⁰ Lokasi ini akan menampilkan 60 hingga 70 Megapack bersama infrastruktur GPU.⁵¹

Memphis Chamber of Commerce mengklaim xAI bermaksud memperluas hingga total 1 juta GPU.⁵² Mencapai skala tersebut memerlukan pengembangan infrastruktur daya berkelanjutan di luar kapasitas saat ini. 1,1 gigawatt yang direncanakan Solaris untuk 2027 akan mendukung sekitar setengah juta GPU berdaya tinggi pada tingkat kepadatan saat ini.

Pelajaran infrastruktur

Proyek Colossus menunjukkan beberapa pendekatan yang mempercepat penerapan infrastruktur AI.

Penggunaan kembali fasilitas dapat memadatkan timeline secara dramatis. Menemukan fasilitas industri yang ada dengan infrastruktur daya yang sudah tersedia menghilangkan waktu konstruksi yang dibutuhkan bangunan baru. Organisasi dengan akses ke fasilitas industri yang tidak lagi digunakan mungkin menemukan peluang untuk penerapan infrastruktur AI yang cepat.

Infrastruktur sementara memungkinkan jalur paralel. Menyewa generator, pendinginan mobile, dan mengangkut air memungkinkan operasi dimulai sementara infrastruktur permanen diselesaikan. Premi biaya untuk solusi sementara mungkin terbukti berharga ketika waktu operasi menentukan posisi kompetitif.

Ethernet dapat mendukung klaster terbesar. Penerapan Spectrum-X membuktikan bahwa InfiniBand tidak diperlukan untuk pelatihan AI skala masif. Organisasi dengan keahlian dan infrastruktur Ethernet mungkin tidak perlu mengadopsi InfiniBand bahkan untuk penerapan terbesar.

Daya tetap menjadi kendala utama. Meskipun solusi kreatif termasuk penyimpanan baterai, turbin gas, dan konstruksi gardu induk yang dipercepat, ketersediaan daya membatasi kecepatan dan skala penerapan. Organisasi yang merencanakan klaster AI besar harus mengamankan kapasitas daya terlebih dahulu.

Trade-off mencakup tantangan regulasi, masalah hubungan masyarakat, dan risiko teknis dari timeline yang dipadatkan. Izin xAI untuk turbin gas berakhir pada 2027, menciptakan persyaratan transisi.⁵³ Pejabat lokal menyatakan kekhawatiran tentang visibilitas terbatas ke dalam operasi xAI.⁵⁴ Kecepatan yang memungkinkan keunggulan kompetitif dapat menciptakan utang teknis yang dihindari oleh penerapan yang lebih lambat.

Referensi cepat: Spesifikasi Colossus

Spesifikasi Nilai
Total GPU 200.000+ (150K H100, 50K H200, 30K GB200)
Waktu pembangunan 122 hari (Fase 1), 92 hari (Fase 2)
Konsumsi daya 250 MW saat ini
Infrastruktur daya 35 turbin gas (420 MW), 208 Tesla Megapack
Jaringan NVIDIA Spectrum-X 800G Ethernet
Penyimpanan >1 exabyte
Bandwidth memori 194 PB/s
Konfigurasi rak 64 GPU per rak, 1.500 rak
Pendinginan Pendinginan cair + daur ulang graywater
Target ekspansi 1 juta GPU

Poin-poin penting

Untuk pemimpin infrastruktur: - Penawaran DC tradisional: 18-24 bulan; xAI menyelesaikan dalam 122 hari menggunakan penggunaan kembali fasilitas - Infrastruktur sementara (generator sewaan, pendinginan mobile, air yang diangkut truk) memungkinkan jalur paralel - Daya tetap menjadi kendala utama—amankan kapasitas sebelum pengadaan GPU - Ethernet Spectrum-X terbukti layak pada skala 200K GPU, menantang keharusan InfiniBand

Untuk tim fasilitas: - Fasilitas industri yang tidak lagi digunakan menawarkan peluang penerapan cepat - 250 MW memerlukan berbagai sumber daya—turbin gas, baterai, gardu induk utilitas - Daur ulang graywater mengatasi masalah air dalam skala besar—fasilitas $80 juta melindungi 4,7 miliar galon akuifer - 119 chiller berpendingin udara menyediakan kapasitas pendinginan ~200 MW

Untuk perencanaan strategis: - Trade-off kecepatan vs. keberlanjutan: izin turbin gas berakhir 2027 - Timeline yang dipadatkan menciptakan utang teknis yang dihindari oleh penerapan metodis - Pemanfaatan multi-tujuan (Grok, X, SpaceX) membenarkan investasi infrastruktur - Target 1 juta GPU memerlukan

[Konten dipotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING