Побудова GPU-стійок потужністю 100 кВт+: архітектура розподілу електроенергії та охолодження
Оновлено 8 грудня 2025 року
Оновлення за грудень 2025: Стійка потужністю 100 кВт тепер є стандартом, а не амбіційною метою. Системи NVIDIA GB200 NVL72 працюють на 120 кВт на стійку, а Vera Rubin NVL144 планує досягти 600 кВт на стійку до 2026 року. Щільність стійок вже зросла з 40 кВт до 130 кВт і потенційно може досягти 250 кВт до 2030 року. Впровадження рідинного охолодження досягло 22% дата-центрів, при цьому пряме охолодження чипів займає 47% частки ринку. Організації, що планують розгортання на 100 кВт сьогодні, повинні закладати можливість 2-5-кратного зростання щільності.
Одна стійка потужністю 100 кВт споживає стільки ж електроенергії, скільки 80 американських домогосподарств, виділяє тепло, еквівалентне 30 побутовим печам, і важить більше, ніж три Toyota Camry.¹ Проте організації по всьому світу наввипередки будують цих монстрів, оскільки сучасне навчання ШІ вимагає безпрецедентної обчислювальної щільності. Інженерні виклики руйнують усі припущення, що керували проєктуванням дата-центрів протягом останніх тридцяти років.
Найновіші об'єкти Microsoft Azure розгортають стійки на 100 кВт як стандартні конфігурації, а не експериментальні винятки.² CoreWeave будує цілі дата-центри навколо специфікацій стійок на 120 кВт.³ Oracle Cloud Infrastructure прямує до щільності 150 кВт у своїх регіонах наступного покоління.⁴ Традиційні конструкції стійок на 5-10 кВт виглядають архаїчно, коли організації виявляють, що конкурентоспроможні можливості ШІ вимагають або екстремальної щільності, або величезних площ.
Математика інфраструктури ШІ робить стійки 100 кВт+ неминучими. Система NVIDIA DGX H100 споживає 10,2 кВт для восьми GPU.⁵ Майбутній DGX B200 споживатиме 14,3 кВт на вузол.⁶ Встановіть вісім вузлів для повноцінного навчального кластера, і споживання електроенергії перевищить 100 кВт ще до врахування мережевого обладнання. Організації, які не можуть будувати такі стійки, не можуть конкурувати у розробці великих мовних моделей, відкритті ліків чи навчанні безпілотних транспортних засобів.
Архітектура розподілу електроенергії виходить за межі традиційних обмежень
Традиційні дата-центри розподіляють трифазну напругу 208 В через 30-амперні ланцюги, забезпечуючи приблизно 10 кВт на стійку після зниження номіналу. Стійка на 100 кВт потребувала б десяти окремих ланцюгів, створюючи мідний хаос, що порушує всі принципи чистого проєктування. Одне лише навантаження по силі струму створює нездоланні виклики: подача 100 кВт при 208 В вимагає 480 А, що потребує кабелів товщих за бейсбольні бити.
Сучасні розгортання на 100 кВт вимагають розподілу напруги 415 В або 480 В для зменшення вимог до сили струму. При трифазній напрузі 480 В для 100 кВт потрібно лише 120 А на ланцюг, що можна забезпечити провідниками 4/0 AWG.⁷ Європейські об'єкти отримують переваги завдяки стандартному розподілу 415 В, що пояснює, чому багато гіперскейлерів надають пріоритет розгортанню в скандинавських країнах для інфраструктури високої щільності. Об'єкти в Північній Америці потребують модернізації трансформаторів і заміни розподільних пристроїв, додаючи $500 000–$1 млн за мегават до витрат на модернізацію.⁸
Блоки розподілу електроенергії (PDU) еволюціонують у складні системи управління живленням для стійок на 100 кВт. Серія PX4 від Raritan інтелектуально керує 60 розетками з потужністю до 130 кВт, з моніторингом кожної розетки та можливостями дистанційного перемикання.⁹ HDOT PDU від Server Technology забезпечують вхід 415 В з автоматичним перемиканням між двома джерелами живлення, гарантуючи безперервну роботу під час аварій електромережі.¹⁰ Кожен PDU коштує $15 000–25 000, і більшість стійок на 100 кВт потребують двох для резервування.
Шинопроводні системи виявляються кращою альтернативою традиційному кабельному розподілу. Starline Track Busway подає 1600 А при 415 В через верхні провідники, підтримуючи кілька відводів для стійок на 100 кВт від одного джерела.¹¹ Витрати на встановлення досягають $1000 за погонний фут, але гнучкість переконфігурування точок живлення без перекладання кабелів економить мільйони протягом життєвого циклу об'єкта. Шинопроводні системи Sentron від Siemens включають інтегрований моніторинг, що відстежує якість електроенергії та прогнозує потреби в обслуговуванні через аналіз гармонік.¹²
Розподіл постійного струму усуває кілька етапів перетворення, які витрачають 10-15% поданої електроенергії. Національна лабораторія Лоуренса в Берклі продемонструвала, що розподіл 380 В постійного струму зменшує загальне споживання дата-центру на 7%, одночасно підвищуючи надійність.¹³ Специфікації Open Compute Project детально описують розподіл 48 В постійного струму безпосередньо до серверних плат, усуваючи блоки живлення, які генерують тепло і займають цінний простір у стійці.¹⁴ Об'єкт Facebook у Прайнвіллі працює повністю на розподілі постійного струму, досягаючи PUE 1,07 попри екстремальну обчислювальну щільність.¹⁵
Архітектура охолодження вимагає рідини безпосередньо на чипі
Повітряне охолодження стає фізично неможливим при потужності понад 50 кВт на стійку. Термодинаміка невблаганна: відведення 100 кВт тепла вимагає переміщення 35 000 кубічних футів за хвилину (CFM) повітря з підвищенням температури на 11°C.¹⁶ Такий потік повітря створив би ураганні вітри в холодному коридорі, буквально збиваючи техніків з ніг. Навіть якби ви могли переміщувати стільки повітря, одне лише споживання вентиляторів становило б 15-20 кВт, зводячи нанівець цілі енергоефективності.
Задні дверні теплообмінники (RDHx) забезпечують перехідне охолодження для щільностей 50-75 кВт. Блоки ChilledDoor від Motivair відводять до 75 кВт на стійку, використовуючи циркуляцію охолодженої води через радіатор, встановлений на дверях.¹⁷ CHx750 від CoolIT Systems досягає аналогічної потужності з вентиляторами змінної швидкості, що адаптуються до теплового навантаження.¹⁸ Технологія працює, але щільності 100 кВт+ перевантажують навіть найдосконаліші конструкції RDHx. Необхідна різниця температур створила б ризики конденсації, що загрожують надійності обладнання.
Пряме рідинне охолодження до холодних пластин стає обов'язковим для справжніх розгортань 100 кВт+. InRackCDU від Asetek розподіляє охолоджувач при 25°C безпосередньо до холодних пластин CPU та GPU, відводячи до 120 кВт на стійку.¹⁹ Система підтримує температуру чипів нижче 70°C навіть при максимальному навантаженні, порівняно з 85-90°C при повітряному охолодженні. Нижчі робочі температури зменшують струми витоку, підвищуючи енергоефективність на 3-5% понад економію на охолодженні.²⁰
Занурювальне охолодження є найкращим рішенням для екстремальної щільності. SmartPodX від Submer занурює цілі сервери в діелектричну рідину, обробляючи 100 кВт на площі лише 2,4 квадратних метри.²¹ ICEraQ Series 10 від GRC підтримує до 368 кВт на резервуар, хоча практичні розгортання рідко перевищують 200 кВт.²² Відсутність вентиляторів усуває 10-15% споживання електроенергії сервером, одночасно зменшуючи частоту відмов на 70% завдяки усуненню механічних компонентів.²³
Двофазне занурювальне охолодження розсуває межі ще далі. Рідини Fluorinert від 3M кипить при точно контрольованих температурах, при цьому фазовий перехід поглинає величезну кількість тепла.²⁴ Пара піднімається до конденсаторів, де повертається до рідкого стану, створюючи пасивну систему циркуляції, що не потребує насосів. Project Natick від Microsoft продемонстрував двофазне охолодження, що підтримує стабільну температуру чипів 35°C попри тепловий потік 250 кВт/м².²⁵ Технологія залишається експериментальною, але фізика свідчить, що вона може впоратися з 500 кВт+ на стійку.
Будівельне проєктування протистоїть масивним навантаженням
Повністю укомплектована стійка на 100 кВт важить 2700-3600 кг, сконцентрованих на площі менш ніж 1 квадратний метр.²⁶ Стандартні фальшпідлоги, розраховані на 1220 кг на квадратний метр, руйнуються під такими навантаженнями. Вага — це не лише сервери: одні мідні кабелі додають 225-360 кг, охолоджувач додає ще 90-135 кг, а сама конструкція стійки важить 225-450 кг. Сейсмічні зони стикаються з додатковими викликами, оскільки 3600 кг хитної маси можуть зруйнувати сусіднє обладнання під час землетрусів.
Розгортання на монолітній плиті усувають обмеження фальшпідлоги, але створюють нові виклики. Бетон повинен бути армований для витримування навантажень 4900+ кг/м² з мінімальним прогином.²⁷ Попередньо напружений бетон з епоксидною арматурою запобігає розтріскуванню, що може порушити структурну цілісність. Товщина плити збільшується до 30-45 см порівняно з 15-20 см для традиційних дата-центрів. Одні фундаментні роботи додають $540-810 за квадратний метр до витрат на будівництво.²⁸
Каркаси з конструкційної сталі розподіляють навантаження на більші площі. Introl проєктує індивідуальні сталеві платформи, що розподіляють навантаження стійок на 100 кВт на площу 4 квадратних метри, зменшуючи точкові навантаження до прийнятних рівнів. Каркаси включають інтегровані кабельні лотки, колектори охолоджувача та платформи для обслуговування. Модульні конструкції дозволяють встановлення без простою об'єкта, що критично важливо для проєктів модернізації. Кожен каркас коштує $25 000-35 000, але запобігає катастрофічному руйнуванню підлоги, яке коштувало б мільйони.
Системи верхньої підтримки повністю усувають навантаження на підлогу. Дата-центри Facebook підвішують сервери на рейках, закріплених на стелі, з живленням та охолодженням, що подаються зверху.²⁹ Такий підхід вимагає висоти стелі 5,5-6 метрів, але забезпечує необмежений доступ до підлоги для обслуговування. Система Evolution Cable Management від Chatsworth Products підтримує 225 кг на погонний метр від верхніх конструкцій, достатньо для найважчого розподілу живлення та охолоджувача.³⁰
Сейсмічна ізоляція стає критичною в зонах землетрусів. Платформи ISO-Base від WorkSafe Technologies використовують кулькову ізоляцію для захисту обладнання під час сейсмічних подій.³¹ Платформи дозволяють 30 см горизонтального переміщення, зберігаючи вертикальну стабільність. Кожна платформа підтримує 4500 кг і коштує $15 000-20 000, але страхові компанії дедалі частіше вимагають сейсмічного захисту для цінного обчислювального обладнання в Каліфорнії, Японії та інших активних зонах.
Управління кабелями зростає експоненційно
Стійка на 100 кВт із 64 GPU потребує понад 500 кабелів: 128 з'єднань InfiniBand, 64 кабелі управління мережею, 96 кабелів живлення, плюс десятки сенсорних та контрольних з'єднань. Кожен кабель InfiniBand сам по собі коштує $500-1500 залежно від довжини та швидкості передачі даних.³² Загальна вартість кабелів на стійку наближається до $100 000, і погане управління руйнує як повітряний потік, так і зручність обслуговування.
Високошвидкісні сигнали вимагають точної прокладки кабелів для підтримки цілісності сигналу. InfiniBand HDR, що працює на 200 Гбіт/с, допускає менше 7,5 см невідповідності довжини диференціальної пари.³³ Радіус вигину повинен перевищувати діаметр кабелю в 10 разів, щоб запобігти змінам імпедансу, які спричиняють бітові помилки. Introl використовує лазерні вимірювальні системи для перевірки довжини кабелів з точністю до 1 мм, документуючи кожне з'єднання для майбутнього усунення несправностей.
Вага кабелів створює несподівані виклики. П'ятсот кабелів вагою 0,9-1,4 кг кожен додають 450-680 кг до інфраструктури стійки. Вага спричиняє провисання дверей стійки, ускладнюючи їх відкриття. Вертикальні кабельні організатори повинні бути підсилені, щоб запобігти обваленню. Шафи Net-Verse від Panduit включають інтегроване управління кабелями, розраховане на 900 кг, з регульованими тримачами кожні 1U для підтримки належної прокладки.³⁴
Волоконно-оптичні кабелі зменшують вагу, але створюють проблеми крихкості. Один оптичний трансивер на 400G коштує $2000-4000, і волоконні кабелі, що їх з'єднують, легко пошкоджуються.³⁵ Мінімальний радіус вигину збільшується до 20 діаметрів кабелю для одномодового волокна. Техніки потребують спеціалізованого навчання для роботи з волокном без створення мікровигинів, що погіршують якість сигналу. Чисті з'єднання стають критичними, оскільки одна частинка пилу може спричинити 50% втрати сигналу.
Управління життєвим циклом кабелів запобігає дорогим простоям. Кожен кабель потребує документації, включаючи дату встановлення, результати тестування та історію обслуговування. Introl розгортає RFID-мітки на кожному кабелі, що дозволяє миттєву ідентифікацію ручними сканерами. Наша база даних управління кабелями відстежує 50 мільйонів окремих з'єднань по всьому світу. Прогнозна аналітика виявляє кабелі, що наближаються до відмови, на основі порушень радіуса вигину, температурного впливу та віку.
Архітектура резервування забезпечує безперервну роботу
Єдині точки відмови стають катастрофічними при масштабі 100 кВт. Відмова PDU призведе до аварії GPU вартістю $5 мільйонів. Відмова насоса охолодження спричинить термічне відключення протягом 60 секунд. Традиційне резервування N+1 виявляється недостатнім, коли вплив відмови множиться в 10 разів. Сучасні розгортання на 100 кВт вимагають резервування 2N для живлення та охолодження, приймаючи 50% невикористаної потужності як страховку від простоїв.
Резервування живлення починається на вході від електромережі з двома підводами від окремих підстанцій. Автоматичні перемикачі резерву (ATS) безперервно переключаються між
[Контент скорочено для перекладу]