xAI Memphis Colossus: анатомія кластера на 100 000 GPU
Оновлено 11 грудня 2025 року
Оновлення грудня 2025: Colossus тепер налічує 150 000 GPU H100 + 50 000 GPU H200 + 30 000 GPU GB200 — найбільший у світі єдиний когерентний кластер для навчання ШІ. Побудований за 122 дні (початкові 100 000), подвоєний ще за 92 дні. Плани розширення до 1 млн GPU. Споживає 250 МВт з електромережі Мемфіса. Spectrum-X Ethernet досягає 95% пропускної здатності порівняно з 60% на традиційному Ethernet.
Побудований за 122 дні, кластер Colossus від xAI розгорнув 100 000 GPU NVIDIA H100 у колишньому заводі побутової техніки в Мемфісі, штат Теннессі.¹ Потім xAI подвоїла систему до 200 000 GPU за додаткові 92 дні.² Наразі кластер складається з 150 000 GPU H100, 50 000 GPU H200 та 30 000 GPU GB200, що робить його найбільшим повністю функціональним єдиним когерентним кластером для навчання ШІ у світі.³ xAI планує розширення до 1 мільйона GPU.⁴ Цей проєкт демонструє, як виглядає агресивне розгортання інфраструктури, коли організація надає пріоритет швидкості над традиційними термінами планування.
Проєкт Colossus містить уроки для будь-якої організації, що будує інфраструктуру ШІ великого масштабу. Рішення щодо енергопостачання, охолодження, мережі та вибору об'єкта показують, як можна подолати обмеження, коли традиційні підходи виявляються надто повільними. Компроміси також виявляють ризики, яких уникають більш методичні розгортання.
Терміни та підхід до будівництва
Маск отримав початкові пропозиції від 18 до 24 місяців на будівництво дата-центру.⁵ Відхиливши ці терміни, xAI знайшла колишній завод Electrolux у Мемфісі, який виробник побутової техніки відкрив у 2012 році та закрив у 2020 році.⁶ Покинутий об'єкт пропонував значні складські площі та 15 мегават початкової промислової потужності.⁷
Генеральний директор Supermicro Чарльз Лянг підтвердив, що його компанія разом із xAI побудувала гігантський дата-центр Colossus за 122 дні.⁸ Обидві компанії — Dell Technologies та Supermicro — стали партнерами xAI у будівництві.⁹ Стислі терміни вимагали паралельних робочих потоків з підготовки об'єкта, енергетичної інфраструктури, систем охолодження та розгортання обчислювальних потужностей.
Кластер на 100 000 GPU використовує сервери HGX, що містять по вісім GPU кожен, розміщені в стійках Supermicro з рідинним охолодженням по 64 GPU на стійку.¹⁰ Загальне розгортання включає 1500 стійок GPU.¹¹ Щільність стійок вимагала рідинного охолодження з самого початку, а 4U системи Supermicro з рідинним охолодженням забезпечували термічне управління.¹²
Через три місяці після початкового розгортання xAI оголосила про розширення до 200 000 GPU з планами подальшого масштабування до 1 мільйона.¹³ Розширення продемонструвало, що архітектура інфраструктури може забезпечити зростання без фундаментального перепроєктування.
Енергетична інфраструктура безпрецедентного масштабу
Об'єкт Colossus наразі споживає приблизно 250 мегават, порівняно з початковою конфігурацією на 150 мегават.¹⁴ xAI встановила 35 газових турбін потужністю 420 мегават разом із акумуляторними системами Tesla Megapack.¹⁵ Гібридний підхід забезпечує як базове навантаження, так і незалежність від мережі.
xAI спроєктувала та побудувала першу підстанцію MLGW за 97 днів, завершивши підстанцію на 150 мегават, яка зазвичай будується 2,5 роки.¹⁶ Прискорення вимагало роботи з Memphis Light, Gas and Water одночасно з розгортанням тимчасових рішень енергопостачання.
Компанія розгорнула 208 Tesla Megapack для живлення суперкомп'ютера, спочатку ізолювавши його від мережі MLGW.¹⁷ Megapack зберігають великі обсяги електроенергії, забезпечуючи резервне живлення під час збоїв у мережі та дозволяючи роботу до завершення постійних підключень до комунальних мереж.
Solaris Energy Infrastructure володіє парком газових турбін потужністю 600 мегават, з яких приблизно 400 мегават наразі обслуговують xAI.¹⁸ xAI становить 67% від портфеля замовлень Solaris у 1700 мегават, загалом 1140 мегават.¹⁹ Solaris очікує мати понад 1,1 гігават повністю працюючих турбін для xAI до другого кварталу 2027 року.²⁰
Розширення Colossus 2 на об'єкті Tulane Road включає щонайменше 110 000 GPU NVIDIA GB200 з енергетичним навантаженням близько 170 мегават.²¹ Додаткові Megapack та потужності турбін підтримують розширений об'єкт.
xAI отримала дозволи на газові турбіни для живлення суперкомп'ютера.²² Дозвіл закінчується у 2027 році, до якого xAI планує покладатися на декілька джерел енергії, включаючи дві підстанції MLGW, профінансовані та побудовані на території Colossus.²³ xAI планує розпочати будівництво сонячної ферми площею 500 акрів поблизу об'єкта.²⁴
Системи охолодження та водна інфраструктура
З самого початку xAI доставляла воду вантажівками та переробляла її через внутрішню замкнену систему для охолодження суперкомп'ютера.²⁵ Нетрадиційний підхід дозволив розпочати роботу до завершення постійної водної інфраструктури. xAI зобов'язалася побудувати завод з переробки стічних вод вартістю 80 мільйонів доларів для задоволення довгострокових потреб у воді.²⁶
Компанія планує створити найбільший у світі завод з переробки стічних вод на керамічних мембранних біореакторах.²⁷ Після завершення об'єкт захистить орієнтовно 4,745 мільярда галонів підземних вод.²⁸ Масивна градирня для сірої води, що будується, буде подавати охолоджену перероблену воду в Colossus з найближчого заводу з переробки сірої води.²⁹
Colossus 2 використовує гібридний підхід до охолодження. Приблизно половина охолодження надходить з установки xAI з переробки сірої води, а інша половина використовує повітряне охолодження.³⁰ Станом на серпень 2025 року 119 чилерів з повітряним охолодженням забезпечували приблизно 200 мегават охолоджувальної потужності, достатньої для приблизно 110 000 GPU GB200 NVL72.³¹
Під час початкової фази будівництва xAI орендувала генератори та приблизно чверть мобільних охолоджувальних потужностей США для швидкого запуску операцій.³² Агресивна закупівля тимчасової інфраструктури дозволила досягти стислих термінів, поки завершувалися постійні системи.
Мережа Spectrum-X Ethernet
На відміну від більшості кластерів для навчання ШІ, що використовують InfiniBand, Colossus від xAI використовує платформу NVIDIA Spectrum-X Ethernet для своєї мережі RDMA.³³ Цей вибір демонструє, що Ethernet може підтримувати найбільші кластери для навчання ШІ при належному налаштуванні.
Colossus використовує Spectrum SN5600 з пропускною здатністю 51,2 терабіт на секунду, який забезпечує 64 порти Ethernet на 800 гігабіт у форм-факторі 2U.³⁴ Окремі вузли використовують BlueField-3 SuperNIC від NVIDIA з одним підключенням на 400 гігабіт до кожного GPU.³⁵
Мережа досягла нульової деградації затримки додатків або втрати пакетів через колізії потоків на всіх трьох рівнях фабрики.³⁶ Система підтримувала 95% пропускної здатності даних завдяки контролю перевантаження Spectrum-X.³⁷ Стандартний Ethernet зазвичай забезпечує лише 60% пропускної здатності в такому масштабі через тисячі колізій потоків.³⁸
Традиційні мережі Ethernet мають проблеми з incast, коли тисячі GPU спілкуються одночасно.³⁹ InfiniBand традиційно вирішував це за допомогою вбудованого Priority Flow Control та апаратного управління перевантаженням.⁴⁰ Spectrum-X досягає подібних результатів, використовуючи RoCE v2 з покращеними механізмами контролю перевантаження.⁴¹
Підхід на основі Ethernet забезпечує переваги у вартості та гнучкості порівняно з InfiniBand, зберігаючи продуктивність. Функції Spectrum-X, включаючи адаптивну маршрутизацію з технологією Direct Data Placement, контроль перевантаження та покращену видимість фабрики ШІ, забезпечують продуктивність рівня InfiniBand на інфраструктурі Ethernet.⁴²
Порівняння масштабу
Colossus з 200 000 GPU перевищує інші великі суперкомп'ютери з суттєвим відривом.⁴³ Zettascale AI суперкомп'ютер Oracle містить 131 072 GPU NVIDIA.⁴⁴ El Capitan Ліверморської національної лабораторії імені Лоуренса має 44 544 GPU.⁴⁵ Frontier Окріджської національної лабораторії має 37 632 GPU.⁴⁶
За специфікаціями xAI, Colossus досягає загальної пропускної здатності пам'яті 194 петабайти на секунду з обсягом сховища понад один ексабайт.⁴⁷ Пропускна здатність пам'яті забезпечує колективні операції, яких потребує навчання ШІ на сотнях тисяч GPU.
Кластер навчає чат-бота Grok від xAI та забезпечує обчислювальну підтримку X та інших підприємств Маска, включаючи SpaceX.⁴⁸ Багатоцільове використання виправдовує інвестиції в інфраструктуру через кілька напрямків бізнесу.
Розширення Colossus 2
xAI розпочала проєкт Colossus 2 7 березня 2025 року, придбавши склад площею 1 мільйон квадратних футів у Мемфісі плюс два суміжні об'єкти загальною площею 100 акрів.⁴⁹ Об'єкт на Tulane Road розміститиме розширений парк GPU.
Розширення націлене на 350 000 GPU з найбільшим у світі розгортанням акумуляторів Tesla Megapack для резервного живлення під час високих навантажень мережі.⁵⁰ На об'єкті буде від 60 до 70 Megapack поряд з інфраструктурою GPU.⁵¹
Торгова палата Мемфіса стверджує, що xAI має намір розширитися до загальної кількості 1 мільйон GPU.⁵² Досягнення такого масштабу вимагає подальшого розвитку енергетичної інфраструктури понад поточну потужність. 1,1 гігават, який Solaris планує на 2027 рік, підтримуватиме приблизно півмільйона високопотужних GPU при поточних рівнях щільності.
Уроки інфраструктури
Проєкт Colossus демонструє кілька підходів, що прискорюють розгортання інфраструктури ШІ.
Повторне використання об'єктів може драматично скоротити терміни. Пошук існуючого промислового об'єкта з наявною енергетичною інфраструктурою усунув час на будівництво, якого вимагають нові об'єкти. Організації з доступом до виведених з експлуатації промислових об'єктів можуть знайти можливості для швидкого розгортання інфраструктури ШІ.
Тимчасова інфраструктура забезпечує паралельні шляхи. Оренда генераторів, мобільного охолодження та доставка води вантажівками дозволила розпочати роботу, поки завершувалася постійна інфраструктура. Додаткова вартість тимчасових рішень може бути виправданою, коли час запуску визначає конкурентну позицію.
Ethernet може підтримувати найбільші кластери. Розгортання Spectrum-X доводить, що InfiniBand не є обов'язковим для масштабного навчання ШІ. Організації з досвідом та інфраструктурою Ethernet можуть не потребувати впровадження InfiniBand навіть для найбільших розгортань.
Енергопостачання залишається основним обмеженням. Незважаючи на креативні рішення, включаючи акумуляторне зберігання, газові турбіни та прискорене будівництво підстанцій, доступність електроенергії обмежувала швидкість та масштаб розгортання. Організації, що планують великі кластери ШІ, повинні спочатку забезпечити енергетичні потужності.
Компроміси включають регуляторні виклики, проблеми з громадськістю та технічні ризики від стислих термінів. Дозвіл xAI на газові турбіни закінчується у 2027 році, створюючи вимоги до переходу.⁵³ Місцеві чиновники висловили занепокоєння щодо обмеженої прозорості операцій xAI.⁵⁴ Швидкість, що забезпечує конкурентну перевагу, може створювати технічний борг, якого уникають повільніші розгортання.
Коротка довідка: специфікації Colossus
| Специфікація | Значення |
|---|---|
| Загальна кількість GPU | 200 000+ (150 тис. H100, 50 тис. H200, 30 тис. GB200) |
| Час будівництва | 122 дні (Фаза 1), 92 дні (Фаза 2) |
| Споживання електроенергії | 250 МВт поточне |
| Енергетична інфраструктура | 35 газових турбін (420 МВт), 208 Tesla Megapack |
| Мережа | NVIDIA Spectrum-X 800G Ethernet |
| Сховище | >1 ексабайт |
| Пропускна здатність пам'яті | 194 ПБ/с |
| Конфігурація стійок | 64 GPU на стійку, 1500 стійок |
| Охолодження | Рідинне охолодження + переробка сірої води |
| Ціль розширення | 1 мільйон GPU |
Ключові висновки
Для керівників інфраструктури: - Традиційні пропозиції ЦОД: 18-24 місяці; xAI виконала за 122 дні завдяки повторному використанню об'єкта - Тимчасова інфраструктура (орендовані генератори, мобільне охолодження, доставка води) забезпечує паралельні шляхи - Енергопостачання залишається основним обмеженням — забезпечте потужність до закупівлі GPU - Spectrum-X Ethernet виявився життєздатним у масштабі 200 тис. GPU, ставлячи під сумнів необхідність InfiniBand
Для команд з обслуговування об'єктів: - Виведені з експлуатації промислові об'єкти пропонують можливості швидкого розгортання - 250 МВт вимагає декількох джерел енергії — газові турбіни, акумулятори, підстанції - Переробка сірої води вирішує проблеми з водою в масштабі — об'єкт за $80 млн захищає 4,7 млрд галонів підземних вод - 119 чилерів з повітряним охолодженням забезпечують ~200 МВт охолоджувальної потужності
Для стратегічного планування: - Компроміс між швидкістю та стійкістю: дозволи на газові турбіни закінчуються у 2027 році - Стислі терміни створюють технічний борг, якого уникають методичні розгортання - Багатоцільове використання (Grok, X, SpaceX) виправдовує інвестиції в інфраструктуру - Ціль в 1 мільйон GPU вимагає
[Вміст скорочено для перекладу]