40-250кВт на стійку: рішення для дата-центрів надвисокої щільності

Сучасний AI потребує 40-250 кВт на стійку, тоді як традиційне охолодження виходить з ладу при 15 кВт. Дізнайтеся про інженерні рішення для розгортання інфраструктури надвисокої щільності.

40-250кВт на стійку: рішення для дата-центрів надвисокої щільності

Дата-центри, побудовані п'ять років тому, мають проблеми з охолодженням 10кВт на стійку. Сьогоднішні AI навантаження потребують мінімум 40кВт, а розгортання наступного покоління націлені на 250кВт. Розрив між існуючою інфраструктурою та сучасними вимогами створює проблему на $100 мільярдів, яку може вирішити розумна інженерія.

Системи NVIDIA GB200 NVL72 споживають 140кВт в конфігурації однієї стійки.¹ Останні розгортання Microsoft Azure регулярно досягають 50кВт на стійку.² Google досягає щільності 60кВт у своїх TPU модулях.³ Інфраструктура, яка забезпечувала вчорашнє хмарне середовище, не може впоратися з завтрашнім AI, і організації стикаються з важким вибором: відбудовувати з нуля або розробляти креативні рішення, що заповнюють прогалину.

Фізика охолодження надвисокої щільності

Традиційне повітряне охолодження з фальшпідлогою катастрофічно провалюється вище 15кВт на стійку. Рециркуляція гарячого повітря може створити умови теплового неконтрольованого зростання, де температури виходять з-під контролю. Одна 40кВт стійка генерує стільки ж тепла, як 14 побутових обігрівачів, що працюють безперервно. Розмістіть вісім таких стійок поспіль, і ви керуватимете тепловою потужністю невеликої офісної будівлі, стисненої в 200 квадратних футів.

Інженери вирішують проблеми надвисокої щільності через три фундаментальні підходи. Пряме рідинне охолодження подає охолоджувач безпосередньо до джерела тепла, видаляючи 30-40кВт на стійку за допомогою задніх теплообмінників або холодних пластин. Занурювальне охолодження занурює цілі системи в діелектричну рідину, обробляючи щільності 50-100кВт при цьому усуваючи потребу у вентиляторах. Гібридні підходи поєднують кілька технологій, використовуючи рідинне охолодження для GPU при збереженні повітряного охолодження для компонентів нижчої щільності.

Математика рішуче підтримує рідинне охолодження. Коефіцієнт теплопередачі води перевищує коефіцієнт повітря у 3,500 разів.⁴ Один галон води може відвести стільки ж тепла, як 3,000 кубічних футів повітря. Системи рідинного охолодження досягають показників ефективності використання енергії (PUE) 1.02-1.10, порівняно з 1.4-1.8 для традиційного повітряного охолодження.⁵ Кожне покращення PUE на 0.1 економить приблизно $1 мільйон щорічно в 10МВт об'єкті.⁶

Проблеми розподілу електроенергії множаться в масштабі.

Подача 250кВт до однієї стійки потребує фундаментального перепроектування енергетичної інфраструктури. Традиційні 208В кола потребують 1,200-амперних з'єднань — кабелі товщі за людську руку. Сучасні об'єкти розгортають 415В або 480В розподіл для зменшення потреб у струмі, але навіть ці системи потребують масштабних інвестицій у мідь. Одна 250кВт стійка потребує енергетичної інфраструктури, еквівалентної 50 типовим будинкам.

Польові інженери Introl регулярно стикаються з об'єктами, що намагаються модифікувати 5кВт рішення для 40кВт навантажень. Автоматичні вимикачі постійно спрацьовують. Трансформатори перегріваються. Блоки розподілу електроенергії відмовляють під навантаженнями, для яких вони ніколи не проектувалися. Організації часто виявляють, що загальна потужність їхньої будівлі не може підтримати більше кількох високощільних стійок, змушуючи до дорогих оновлень комунальних послуг, що займають 18-24 місяці.

Розумне проектування електроживлення починається з DC розподілу там, де це можливо. Постійний струм усуває втрати перетворення, що марнують 10-15% енергії в традиційних AC системах.⁷ Проект Open Compute Project Facebook продемонстрував, що DC розподіл зменшує загальне споживання енергії на 20% при покращенні надійності.⁸ Сучасні GPU системи дедалі частіше підтримують прямий DC вхід, усуваючи кілька етапів перетворення, що генерують тепло та зменшують ефективність.

Механічна інфраструктура потребує повного переосмислення.

Стандартні підлоги дата-центрів витримують 150-250 фунтів на квадратний фут. Повністю завантажена 250кВт стійка важить понад 8,000 фунтів, зосереджених лише на 10 квадратних футах.⁹ Зміцнення підлоги стає обов'язковим, додаючи $50,000-100,000 на стійку в структурних модернізаціях. Сейсмічні зони стикаються з додатковими викликами, потребуючи спеціалізованих систем ізоляції, що запобігають пошкодженню обладнання під час землетрусів.

Рідинне охолодження впроваджує нові механічні складності. Розподіл охолоджувача потребує насосів, теплообмінників та систем фільтрації, яких бракує традиційним об'єктам. 1МВт розгортання рідинного охолодження потребує 400-500 галонів за хвилину потоку охолоджувача.¹⁰ Виявлення витоків стає критичним — один прорив охолоджувача може знищити мільйони доларів обладнання за секунди. Introl розгортає потрійно резервне виявлення витоків з автоматичними запірними клапанами, що активуються протягом 100 мілісекунд виявлення вологи.

Сама трубопровідна інфраструктура становить масштабну інвестицію. Мідні труби коштують $30-50 за лінійний фут, встановлені.¹¹ Один ряд стійок рідинного охолодження потребує 500-1,000 футів трубопроводу для подавальних та зворотних ліній. Колектори, клапани та з'єднувальні точки додають $20,000-30,000 на стійку. Механічна інфраструктура часто коштує більше за обчислювальне обладнання, яке вона підтримує.

Мережева архітектура адаптується до вимог щільності.

Обчислення надвисокої щільності вимагає безпрецедентної пропускної здатності мережі. Кожен NVIDIA H100 GPU потребує 400Gbps мережевого з'єднання для оптимальної продуктивності.¹² 8-GPU сервер потребує 3.2Tbps агрегованої пропускної здатності — більше, ніж споживали багато цілих дата-центрів п'ять років тому. Традиційні архітектури комутації верхньої стійки мають проблеми з виконанням цих вимог.

Щільні розгортання стимулюють прийняття дезагрегованих мережевих архітектур. Топології spine-leaf забезпечують постійну затримку та пропускну здатність незалежно від схем трафіку. Кремнієва фотоніка дозволяє 800 Gbps та 1.6 Tbps з'єднання, яких мідь не може досягти.¹³ Розгортання Introl дедалі частіше використовують кабелі прямого підключення (DAC) для з'єднань до 3 метрів та активні оптичні кабелі (AOC) для довших прогонів, оптимізуючи як вартість, так і споживання енергії.

Управління кабелями стає несподівано складним при надвисоких щільностях. 40-GPU стійка потребує понад 200 кабелів для живлення, мережі та управління. Кожен кабель генерує тепло через електричний опір. Погане управління кабелями обмежує повітряний потік, створюючи гарячі точки, що викликають теплове дроселювання. Інженери Introl присвячують 20-30% часу встановлення управлінню кабелями, використовуючи спеціалізовані системи маршрутизації, що підтримують правильні радіуси згину при максимізації ефективності охолодження.

Географічні обмеження формують стратегії розгортання.

Сінгапур лідирує у світовому впровадженні щільності з новими об'єктами, спроектованими для 50-100кВт на стійку з першого дня.¹⁴ Дефіцит землі стимулює вертикальне розширення та максимальні обчислення на квадратний фут. Урядові стимули підтримують впровадження рідинного охолодження через зменшені податки та прискорене отримання дозволів. Присутність Introl в APAC розташовує нас у центрі трансформації, з місцевими інженерами, які розуміють регіональні вимоги та регуляції.

Північноєвропейські ринки використовують холодний клімат для переваг безкоштовного охолодження. Дата-центри Стокгольма використовують холодну воду Балтійського моря для відведення тепла, досягаючи цілорічного PUE нижче 1.10.¹⁵ Норвезькі об'єкти поєднують гідроелектричну енергію з природним охолодженням для створення найефективнішої AI інфраструктури у світі. Introl керує розгортаннями, що експлуатують ці географічні переваги при збереженні глобальних стандартів підключення.

Доступність води дедалі більше визначає місця розгортання. Системи рідинного охолодження споживають 0.1-0.2 галона за хвилину на кВт охолоджувальної потужності.¹⁶ 10МВт об'єкт потребує 1,000-2,000 галонів за хвилину — достатньо, щоб заповнити олімпійський басейн кожні п'ять годин. Пустельні місця стикаються з неможливим вибором між неефективністю повітряного охолодження та дефіцитом води. Далекоглядні організації тепер оцінюють права на воду поряд з доступністю електроенергії при виборі розташування дата-центрів.

Економічні моделі стимулюють рішення про впровадження.

Бізнес-кейс для інфраструктури надвисокої щільності залежить від характеристик навантаження. AI навантаження навчання, що працюють безперервно тижнями, виправдовують будь-які інвестиції, що покращують ефективність. 1% покращення продуктивності місячного навчального прогону економить 7.2 години обчислювального часу. При $40 за GPU-годину для H100 інстансів, здавалося б невеликі оптимізації генерують масштабні повернення.¹⁷

Порівняння капітальних витрат (CapEx) підтримує традиційну інфраструктуру, але операційні витрати (OpEx) розповідають іншу історію. Рідинне охолодження зменшує споживання енергії на 30-40% порівняно з повітряним охолодженням.¹⁸ 1МВт розгортання економить $400,000-500,000 щорічно лише на електричних витратах.¹⁹ Зменшений механічний знос подовжує термін служби обладнання на 20-30%, відкладаючи витрати на заміну.²⁰ Вища щільність дозволяє більше обчислень в існуючих об'єктах, уникаючи витрат на нове будівництво, що в середньому становлять $10-15 мільйонів на мегават.²¹

Моделі загальної вартості володіння (TCO) повинні враховувати альтернативні витрати. Організації, що не можуть розгортати високощільну інфраструктуру, втрачають конкурентну перевагу перед тими, хто може. Навчальні прогони GPT OpenAI займали б у 10 разів більше часу без оптимізованої інфраструктури.²² Різниця між 40кВт та 100кВт на стійку визначає, чи навчаються моделі тижнями або місяцями. Ринкове лідерство дедалі більше залежить від інфраструктурних можливостей, які традиційні метрики не вдаються охопити.

Операційна складність потребує нових експертиз.

Управління інфраструктурою надвисокої щільності вимагає навичок, яких бракує традиційним командам дата-центрів. Системи рідинного охолодження потребують сантехнічної експертизи, рідко знайденої в IT відділах. Технічні фахівці повинні розуміти гідродинаміку, різниці тиску та хімію охолоджувачів. Одна неправильна конфігурація параметра може спричинити катастрофічну відмову — занадто високий тиск може розірвати з'єднання, а занадто низький може спричинити кавітацію насоса.

Introl вирішує проблему експертизи через спеціалізовані програми навчання для наших 550 польових інженерів. Команди вчаться діагностувати проблеми потоку охолоджувача, виконувати запобіжне обслуговування блоків розподілу охолодження та реагувати на події витоків. Програми сертифікації покривають специфічні вимоги виробника для різних технологій охолодження. Регіональні команди діляться найкращими практиками через нашу глобальну базу знань, забезпечуючи постійну якість обслуговування у всіх 257 локаціях.

Системи моніторингу генерують у 10-100 разів більше даних, ніж традиційна інфраструктура. Кожна стійка виробляє тисячі точок телеметрії, що покривають температуру, тиск, швидкість потоку, споживання енергії та здоров'я компонентів. Алгоритми машинного навчання ідентифікують шаблони, що передбачають відмови до їх виникнення. Операційні команди Introl використовують прогнозну аналітику для планування обслуговування під час запланованих вікон простою, досягаючи 99.999% доступності для критичних AI навантажень.

Майбутні технології штовхають межі далі.

GPU наступного покоління вимагатимуть ще більш екстремальної інфраструктури. Дорожня карта NVIDIA передбачає 1,500-2,000Вт на GPU до 2027 року.²³ Серія AMD MI400 націлена на подібне споживання енергії.²⁴ Двигуни масштабу пластини Cerebras вже споживають 23кВт в одному блоці.²⁵ Завтрашня інфраструктура повинна обробляти щільності, що здаються неможливими сьогодні.

Двофазне занурювальне охолодження виникає як остаточне рішення для надвисокої щільності. Діелектричні рідини киплять при точно контрольованих температурах, забезпечуючи ізотермічне охолодження, що підтримує компоненти в оптимальних робочих точках. Фазовий перехід від рідини до пари поглинає величезні кількості тепла — до 250кВт на стійку.²⁶ Міністерство енергетики США фінансує дослідження двофазного охолодження для систем екзамасштабних обчислень.²⁷

Малі модульні реактори (SMR) могли б усунути обмеження електричної мережі. Гіперскейлери досліджують розміщення ядерної енергії поряд з дата-центрами, забезпечуючи безвуглецеву електрику з передбачуваними витратами. Один 300МВт SMR міг би живити 3,000 100кВт стійок — достатньо для 24,000 GPU.²⁸ Регуляторне схвалення залишається викликом, але економіка стає переконливою при достатньому масштабі.

Шлях вперед вимагає негайних дій.

Організації, що будують AI інфраструктуру, стикаються з критичними рішеннями сьогодні, що визначають конкурентну позицію на наступне десятиліття. Модернізація існуючих об'єктів для щільності 40кВт коштує $50,000-100,000 на стійку.²⁹ Будівництво нової інфраструктури здатності 100кВт коштує $200,000-300,000 на стійку, але забезпечує простір для майбутнього зростання.³⁰ Неправильний вибір замикає організації в застарілу інфраструктуру саме тоді, коли AI навантаження вибухають.

Успішні переходи починаються з комплексної оцінки. Інженерні команди Introl оцінюють існуючу потужність, охолоджувальну інфраструктуру, структурну підтримку та мережеву архітектуру для забезпечення оптимальної продуктивності. Ми ідентифікуємо вузькі місця, що обмежують збільшення щільності, та розробляємо поетапні плани оновлення, що мінімізують порушення. Наша глобальна присутність дозволяє швидке розгортання спеціалізованого обладнання та експертизи там, де клієнти потребують рішень надвисокої щільності.

Переможцями в AI інфраструктурі будуть ті, хто прийме надвисоку щільність замість боротьби з нею. Кожен місяць затримки означає, що конкуренти навчають моделі швидше, розгортають функції раніше та захоплюють ринки першими. Питання не в тому, чи впроваджувати високощільну інфраструктуру, а в тому, як швидко організації можуть трансформувати свої об'єкти для підтримки обчислювальних вимог, що визначають конкурентну перевагу в епоху AI.

Посилання

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ