Розгортання GB200 NVL72: керування 72 графічними процесорами в конфігураціях з рідинним охолодженням
Оновлено 8 грудня 2025 року
Сімдесят два графічні процесори, що працюють як єдиний обчислювальний блок, — це вже виробнича реальність. GB200 NVL72 споживає 120 кіловат і забезпечує 1,4 екзафлопса обчислювальної потужності для ШІ в одній стійці.¹ Ця архітектура руйнує традиційні межі між вузлами, створюючи узгоджену обчислювальну структуру, яка обробляє моделі з трильйоном параметрів без штрафів розподілених обчислень, що переслідують звичайні кластери. Організації, які розгортають ці системи, стикаються з інженерними викликами, що переосмислюють уявлення інфраструктурних команд про можливе.
Оновлення грудня 2025 року: Системи GB200 NVL72 почали постачатися великим хмарним провайдерам з грудня 2024 року, а масове виробництво вийшло на повну потужність у другому-третьому кварталах 2025 року. Аналітики переглянули прогнози поставок на 2025 рік до 25 000–35 000 стійок (порівняно з початковими прогнозами 50 000–80 000) через вимоги оптимізації ланцюга постачання. NVIDIA вже представила наступника GB300 NVL72 на GTC 2025, оснащеного графічними процесорами Blackwell Ultra з 288 ГБ пам'яті HBM3e, потужністю 1,4 кВт на GPU та на 50% вищою продуктивністю (1100 PFLOPS для FP4-інференсу). Системи GB300 увійшли у виробництво в третьому кварталі 2025 року, а Quanta почала відвантаження з вересня. Організаціям, які планують нові розгортання, варто оцінити доступність GB300 порівняно з негайними потребами в GB200.
Самі лише цифри вражають досвідчених архітекторів дата-центрів: 13,5 терабайта пам'яті HBM3e, доступної зі швидкістю 576 терабайт на секунду, з'єднаної через NVLink п'ятого покоління, що забезпечує 130 терабайт на секунду пропускної здатності GPU-GPU.² Кожна стійка важить 3000 кілограмів і потребує 2,4 мегавата охолоджувальної потужності, що подається через обов'язкові системи рідинного охолодження.³ Традиційні посібники з розгортання стають непридатними, коли одна система коштує 3 мільйони доларів і може навчати моделі класу GPT-4 за тижні, а не місяці.
CoreWeave замовила системи GB200 NVL72 на суму 2,3 мільярда доларів з поставкою у 2025 році, поставивши всю свою інфраструктурну стратегію на здатність платформи домінувати на ринках навчання та інференсу великих мовних моделей.⁴ Lambda Labs заздалегідь придбала 200 одиниць, незважаючи на необхідність повністю перебудувати свої об'єкти для забезпечення вимог до живлення та охолодження.⁵ Ажіотажний попит на ці системи розкриває фундаментальну істину: організації, які не можуть розгорнути інфраструктуру GB200 NVL72, ризикують стати неконкурентними у розробці базових моделей.
Архітектура переосмислює межі обчислень
GB200 NVL72 з'єднує 36 суперчіпів Grace-Blackwell через дворівневу комутаційну систему NVLink, що створює безпрецедентну обчислювальну узгодженість. Кожен суперчіп поєднує CPU Grace на базі Arm із двома GPU Blackwell, з'єднаними через NVLink-C2C з двонаправленою пропускною здатністю 900 ГБ/с.⁶ 72 GPU спільно використовують пам'ять і взаємодіють так, ніби вони є одним масивним процесором, усуваючи накладні витрати на синхронізацію, що обмежують традиційне розподілене навчання.
Комутаційні панелі NVLink формують основу системи: дев'ять панелей, кожна з яких підтримує чотири чіпи NVLink Switch. Ці комутатори забезпечують повнозв'язну топологію між GPU зі швидкістю 1,8 ТБ/с на GPU, дозволяючи будь-якому GPU отримати доступ до будь-якої комірки пам'яті в системі протягом 300 наносекунд.⁷ Рівномірність затримок означає, що розробники можуть розглядати всю систему як один GPU з 72-кратними ресурсами, що значно спрощує розробку програмного забезпечення.
Архітектура пам'яті перевершує всі попередні рекорди в історії обчислювальної техніки. Система надає 13,5 ТБ пам'яті HBM3e з сукупною пропускною здатністю 576 ТБ/с плюс додаткові 2,25 ТБ LPDDR5X, доступні CPU Grace.⁸ Когерентність пам'яті поширюється на всі процесори, дозволяючи CPU та GPU спільно використовувати структури даних без явного копіювання. Великі мовні моделі, які раніше потребували складного паралелізму моделей на кількох вузлах, тепер повністю вміщуються в пам'яті одного NVL72.
Охолодження стає невід'ємною частиною архітектури, а не запізнілим доповненням. NVIDIA вимагає рідинного охолодження із суворими специфікаціями: температура на вході 20–25°C, швидкість потоку 80 літрів на хвилину та перепад тиску не більше 1,5 бар.⁹ Система охолодження підтримує температуру кристалів нижче 75°C попри безперервне виділення 120 кВт тепла. Відхилення від специфікацій запускає автоматичне обмеження продуктивності, яке може знизити її на 60%, роблячи охолодження настільки ж критичним, як і обчислювальні ресурси.
Електропостачання потребує повної перебудови інфраструктури. Система споживає 120 кВт безперервно через чотири 30-кіловатні блоки живлення, кожен з яких потребує трифазного входу 480 В.¹⁰ Перетворення енергії відбувається у два етапи: змінний струм до 54 В постійного струму в блоках живлення, потім 54 В до напруги точки навантаження на обчислювальних платах. Архітектура досягає 97% ефективності перетворення, але все одно генерує 3,6 кВт відхідного тепла лише від перетворення енергії.
Фізичні виклики розгортання множаться
Встановлення GB200 NVL72 вимагає військової точності та спеціалізованого обладнання. Система надходить у чотирьох окремих компонентах: обчислювальна стійка вагою 1500 кг, стійка комутаторів NVLink — 800 кг, CDU — 400 кг та блок розподілу живлення — 300 кг.¹¹ Стандартні двері дата-центру не можуть вмістити ширину, що вимагає демонтажу дверних рам, а іноді й стін. Команди розгортання Introl використовують спеціалізовані гідравлічні підйомники, розраховані на 2000 кг, щоб позиціонувати компоненти без пошкодження поверхні підлоги.
Навантаження на підлогу створює негайні структурні проблеми. Обчислювальна стійка концентрує 1500 кг на площі лише 0,8 квадратних метра, створюючи точкові навантаження 1875 кг/м².¹² Стандартні фальшпідлоги, розраховані на 1000 кг/м², потребують сталевих підсилювальних пластин для розподілу ваги. Багато об'єктів обирають встановлення безпосередньо на плиту з армованими бетонними основами, залитими спеціально для розгортання NVL72. Сейсмічні зони потребують додаткового кріплення для запобігання переміщенню під час землетрусів.
Кабельний менеджмент стає тривимірною головоломкою з понад 5000 окремих з'єднань. Система використовує 144 мідні кабелі NVLink для міжз'єднань GPU, 288 оптичних кабелів для мережевого підключення, 72 трубки рідинного охолодження та сотні кабелів живлення.¹³ NVIDIA надає точні довжини кабелів та схеми прокладки, оскільки відхилення спричиняють проблеми з цілісністю сигналу на швидкостях 1,8 ТБ/с. Команди встановлення витрачають 60–80 годин лише на кабельний менеджмент, використовуючи гарнітури доповненої реальності для перевірки відповідності кожного з'єднання специфікаціям.
Інфраструктура рідинного охолодження вимагає чистоти фармацевтичного рівня. Контур охолодження містить 200 літрів спеціально розробленого теплоносія, який повинен підтримувати певні рівні провідності, pH та вмісту часток.¹⁴ Навіть одна частинка забруднювача може забити мікроканальні холодні пластини, що охолоджують окремі чіпи. Команди встановлення промивають всю систему тричі деіонізованою водою перед введенням теплоносія. Процес займає 12–16 годин і потребує спеціалізованого насосного обладнання.
Мережева інтеграція потребує безпрецедентного забезпечення пропускної здатності. Кожен NVL72 потребує вісім з'єднань 400GbE для зовнішнього підключення, що загалом становить 3,2 Тб/с на систему.¹⁵ Ця вимога до пропускної здатності перевищує всю зовнішню пропускну здатність багатьох об'єктів. Організації зазвичай прокладають виділені оптоволоконні лінії від систем NVL72 до центральних маршрутизаторів, обходячи традиційні архітектури комутації на верхній частині стійки. Мережевий дизайн повинен враховувати шаблони трафіку схід-захід, оскільки системи NVL72 обмінюються контрольними точками та градієнтами під час розподіленого навчання.
Оркестрація програмного забезпечення в екстремальному масштабі
Керування 72 GPU як узгодженою системою вимагає фундаментальних змін в архітектурі програмного забезпечення. Програмне забезпечення NVIDIA NVLink Switch System створює єдиний простір пам'яті для всіх GPU, але застосунки повинні бути розроблені для використання цієї можливості. Традиційні фреймворки розподіленого навчання, такі як Horovod та PyTorch Distributed, стають непотрібними накладними витратами. Розробники використовують бібліотеки NVIDIA Transformer Engine, які автоматично розподіляють моделі між 72 GPU без ручного втручання.¹⁶
Платформи оркестрації контейнерів мають труднощі з ресурсною моделлю NVL72. Kubernetes за замовчуванням бачить систему як 72 окремі GPU, що призводить до конфліктів планування та фрагментації ресурсів. NVIDIA надає спеціальні плагіни пристроїв, які представляють NVL72 як єдиний планований блок, але це порушує сумісність зі стандартними ML-платформами.¹⁷ Організації часто виділяють цілі системи NVL72 для окремих робочих навантажень замість спроб багатокористувацької оренди.
Керування пам'яттю вимагає ретельного врахування ефектів NUMA, незважаючи на єдиний простір пам'яті. Кожен CPU Grace має локальну пам'ять LPDDR5X з пропускною здатністю 500 ГБ/с до локальних GPU, але лише 100 ГБ/с до віддалених GPU.¹⁸ Оптимальна продуктивність вимагає алгоритмів розміщення даних, які мінімізують міжсокетний доступ до пам'яті. Бібліотеки NVIDIA Magnum IO автоматично виконують деяку оптимізацію, але спеціальні застосунки потребують явного врахування NUMA.
Обробка відмов стає складною, коли 72 GPU працюють як один. Відмова одного GPU традиційно означала втрату 1/8 обчислювальної потужності вузла. У NVL72 один несправний GPU може дестабілізувати всю систему через залежності топології NVLink. NVIDIA реалізує апаратну ізоляцію відмов, яка динамічно переконфігуровує маршрутизацію NVLink навколо несправних компонентів, але продуктивність знижується на 15–20% на кожен несправний GPU.¹⁹ Більшість розгортань підтримують запасні системи NVL72, а не намагаються ремонтувати виробничі одиниці.
Моніторинг продуктивності генерує приголомшливі обсяги телеметрії. Кожен GPU виробляє понад 10 000 метрик на секунду, що охоплюють температуру, потужність, пропускну здатність пам'яті та завантаження обчислень.²⁰ При множенні на 72 GPU плюс CPU та комутатори один NVL72 генерує 1 мільйон метрик на секунду. Традиційні системи моніторингу не можуть обробити такий обсяг. Організації розгортають виділені бази даних часових рядів і використовують аналітику на основі ШІ для виявлення аномалій у потоці телеметрії.
Економічні моделі кидають виклик традиційному мисленню
Ціна GB200 NVL72 у 3 мільйони доларів здається астрономічною, поки не порівняти з альтернативами. Побудова еквівалентної обчислювальної потужності з дискретних систем DGX H100 потребувала б дев'яти вузлів вартістю 2,7 мільйона доларів, але з 5-кратним вищим енергоспоживанням і 10-кратним більшим простором у стійці.²¹ Узгоджена архітектура NVL72 усуває накладні витрати на міжвузлову комунікацію, забезпечуючи на 30% вищу фактичну пропускну здатність для навчання великих моделей. Премія окупається через скорочення часу навчання та нижчі операційні витрати.
Економіка енергоспоживання сприяє NVL72, незважаючи на споживання 120 кВт. Традиційні розподілені системи з подібною обчислювальною потужністю споживали б 400–500 кВт, включаючи мережеві накладні витрати.²² За промисловими тарифами 0,10 долара за кВт·год економія електроенергії становить 300 000 доларів щорічно. Знижене навантаження на охолодження економить ще 100 000 доларів на рік. За типовий трирічний період амортизації економія енергії компенсує майже половину початкової премії.
Скорочення часу навчання безпосередньо перетворюється на конкурентну перевагу. OpenAI оцінює, що навчання GPT-4 на системах NVL72 завершилося б за 45 днів замість 90 днів на попередній інфраструктурі.²³ Для організацій, які витрачають 1 мільйон доларів щодня на обчислювальні ресурси, економія часу виправдовує будь-яку розумну апаратну премію. Переваги першопрохідця на ринках ШІ роблять швидкість безцінною поза межами чистих фінансових розрахунків.
Коефіцієнт використання значно покращується з уніфікованою архітектурою. Традиційні кластери досягають 50–60% використання GPU через накладні витрати на комунікацію та синхронізацію.²⁴ Системи NVL72 підтримують 85–90% використання завдяки усуненню міжвузлових вузьких місць. Покращене використання означає, що кожен NVL72 забезпечує ефективну обчислювальну потужність 120–130 традиційних GPU, змінюючи економіку великомасштабної інфраструктури ШІ.
Операційні витрати дивують багатьох фінансових аналітиків. Складність системи вимагає виділених інженерних команд із зарплатами понад 200 000 доларів. Лише теплоносій коштує 10 000 доларів на рік із квартальним тестуванням за 2000 доларів. Запас запасних частин для одного NVL72 пов'язує 500 000 доларів капіталу. Проте ці витрати незначні порівняно з альтернативною вартістю відсутності достатньої обчислювальної потужності для розробки моделей.
Реальні розгортання розкривають операційні реальності
Інфраструктура навчання Claude 3 від Anthropic
[Вміст скорочено для перекладу]