Повний посібник з розгортання NVIDIA B200 та GB200: аналіз енергоспоживання, охолодження та рентабельності інвестицій

B200 забезпечує продуктивність у 2,5 рази вищу за H100 при 700 Вт, тоді як суперчип GB200 досягає 30-кратного прискорення інференсу при 1200 Вт. Порівняння енергоспоживання, охолодження та ROI для AI-інфраструктури.

Madison Kersh

Apr 12, 2026 8 min read Disclaimer

Повний посібник з розгортання NVIDIA B200 та GB200: аналіз енергоспоживання, охолодження та рентабельності інвестицій

Оновлено 8 грудня 2025 року

Архітектура Blackwell від NVIDIA розділяється на два шляхи розгортання, що змушують інфраструктурні команди приймати рішення вартістю в мільйони доларів. B200 забезпечує продуктивність у 2,5 рази вищу за H100 при аналогічному енергоспоживанні.¹ Суперчип GB200 Grace-Blackwell досягає 30-кратного прискорення інференсу для великих мовних моделей, але вимагає абсолютно нових підходів до проєктування інфраструктури.² З огляду на те, що системи Blackwell вже постачаються у значних обсягах, а GB300 Blackwell Ultra виходить у виробництво, організації стоять перед критичними інфраструктурними рішеннями.

Оновлення за грудень 2025 року: Системи GB200 NVL72 почали постачатися великим хмарним провайдерам (Microsoft, Oracle, AWS, Meta) у грудні 2024 року, а масове виробництво активно нарощувалося протягом Q2-Q3 2025. Supermicro оголосила про повну виробничу готовність рішень HGX B200 у лютому 2025 року. Тим часом NVIDIA представила GB300 Blackwell Ultra на GTC 2025 (березень), що пропонує на 50% вищу продуктивність порівняно з GB200 — з початком поставок у вересні 2025 року. GPU B200 тепер доступні на AWS та GCP, хоча попит на Blackwell залишається настільки високим, що нові замовлення мають 12-місячний лист очікування.

Напівпровідникова індустрія уважно стежить за цими розгортаннями, оскільки вони представляють принципово різні підходи до прискорення AI. Чисте прискорення на GPU (B200) конкурує з інтеграцією CPU-GPU (GB200) за робочі навантаження, які споживатимуть обчислювальних ресурсів на $2 трильйони до 2030 року.³ Ранні впроваджувачі повідомляють про 10-кратні відмінності в продуктивності залежно від характеристик робочого навантаження, що робить процес вибору критичним для конкурентного позиціонування.

Дженсен Хуанг називає Blackwell «двигуном нової промислової революції», проте NVIDIA пропонує два двигуни з радикально різними вимогами до палива.⁴ Інфраструктурні команди повинні обирати між еволюційними оновленнями, що використовують існуючі проєктні рішення, та революційними розгортаннями, що вимагають повного перепроєктування об'єктів. Це рішення визначає не лише показники продуктивності, а й організаційну здатність конкурувати на ринках, керованих штучним інтелектом.

Архітектурні відмінності визначають складність розгортання

B200 дотримується традиційної архітектури GPU з 208 мільярдами транзисторів, виготовлених за технологічним процесом 4NP від TSMC.⁵ Кожен чип забезпечує 20 петафлопс обчислень FP4, що приблизно в 2,5 рази перевищує продуктивність H100, зберігаючи при цьому таку ж розрахункову теплову потужність (TDP) у 700 Вт.⁶ Пропускна здатність пам'яті досягає 8 ТБ/с завдяки HBM3e, вирішуючи проблему вузького місця пам'яті, що обмежує розгортання поточного покоління. Інфраструктурні команди, знайомі з розгортаннями H100, можуть перейти на B200 з мінімальними модифікаціями об'єктів.

GB200 революціонізує парадигму обчислень, поєднуючи CPU Grace та GPU Blackwell на єдиній підкладці. CPU має 72 ядра Arm Neoverse V2, з'єднаних з GPU через NVLink-C2C з двонаправленою пропускною здатністю 900 ГБ/с.⁷ Це усуває вузьке місце PCIe, яке традиційно обмежує зв'язок CPU-GPU до 64 ГБ/с. Інтеграція дозволяє використовувати нові моделі програмування, де CPU та GPU когерентно спільно використовують пам'ять, усуваючи переміщення даних, яке споживає до 30% загальної потужності системи в традиційних архітектурах.⁸

Енергоспоживання різко відрізняється між архітектурами. Один B200 зберігає оболонку 700 Вт, яку підтримує існуюча інфраструктура. Суперчип GB200 споживає 1200 Вт для комбінованого пакету CPU-GPU, тоді як повна система GB200 NVL72 споживає 120 кВт на стійку.⁹ Організації повинні оцінити, чи може їхня енергетична інфраструктура забезпечити 600 ампер при 208 В, чи потрібне повне оновлення електричної системи до розподілу 480 В.

Вимоги до охолодження відповідають моделям енергоспоживання. Розгортання B200 працюють з існуючими задніми дверними теплообмінниками, розрахованими на 50 кВт на стійку. Конфігурації GB200 вимагають рідинного охолодження безпосередньо до чипа, з витратою охолоджувальної рідини 20 літрів на хвилину при температурі на вході нижче 30°C.¹⁰ Об'єкти, спроєктовані для повітряного охолодження, стикаються з витратами на модернізацію $5-10 мільйонів на мегават для підтримки розгортань GB200.¹¹

Архітектура пам'яті визначає придатність для робочих навантажень

Конфігурація HBM3e B200 забезпечує 192 ГБ пам'яті з високою пропускною здатністю на GPU, що втричі більше за ємність H100.¹² Восьми-GPU системи HGX B200 пропонують 1,5 ТБ пам'яті GPU, достатньо для більшості сучасних великих мовних моделей. Пропускна здатність пам'яті досягає 8 ТБ/с на GPU, забезпечуючи швидше обслуговування моделей та зменшуючи затримку інференсу на 40% порівняно з H100.¹³ Архітектура чудово підходить для традиційних робочих навантажень GPU: навчання моделей, пакетного інференсу та задач паралельної обробки.

GB200 трансформує економіку пам'яті через уніфікований простір пам'яті CPU-GPU. CPU Grace додає до 960 ГБ пам'яті LPDDR5X, доступної обом процесорам зі швидкістю 546 ГБ/с.¹⁴ У поєднанні з HBM3e GPU загальний обсяг пам'яті системи досягає 1,1 ТБ на суперчип. Моделі, що переповнюють пам'ять GPU, можуть використовувати пам'ять CPU без 50-кратного штрафу продуктивності традиційних передач CPU-GPU. Робочі навантаження з обмеженнями пам'яті демонструють 7-кратне покращення продуктивності, коли пам'ять CPU запобігає підкачці на диск.¹⁵

Аналіз робочих навантажень виявляє чіткі шаблони розгортання. Чисте навчання моделей надає перевагу конфігураціям B200, де кожен транзистор сфокусований на множенні матриць. Відсутність накладних витрат CPU означає на 15% більше площі кристала, виділеної для тензорних ядер.¹⁶ Цикли навчання завершуються швидше та споживають менше енергії на епоху. Симуляції навчання Llama 3 від Meta показують, що кластери B200 завершують навчання моделі з 405B параметрами на 23% швидше, ніж еквівалентні розгортання GB200.¹⁷

Робочі навантаження інференсу малюють іншу картину. CPU GB200 обробляє попередню обробку, токенізацію та форматування результатів, поки GPU обробляє нейронну мережу. Архітектура усуває переміщення даних між окремими серверами CPU та GPU, зменшуючи загальну затримку інференсу на 60%.¹⁸ OpenAI повідомляє, що розгортання GB200 обслуговують у 30 разів більше одночасних користувачів, ніж конфігурації B200 для моделей масштабу ChatGPT.¹⁹ Присутність CPU дозволяє використовувати складні стратегії кешування, неможливі в чисто GPU системах.

Топологія мережі впливає на проєктування кластера

B200 підтримує усталений мережевий підхід NVIDIA з 18 з'єднаннями NVLink на GPU, що підтримують бісекційну пропускну здатність 900 ГБ/с.²⁰ Восьми-GPU вузли HGX B200 з'єднуються через 400GbE або 800GbE InfiniBand, підтримуючи мережеву ієрархію, зрозумілу архітекторам HPC. Існуючі розгортання InfiniBand оновлюються для підтримки B200 через оновлення прошивки комутаторів та заміну оптичних модулів. Еволюційний шлях мінімізує ризики розгортання та прискорює вихід у продакшн.

GB200 NVL72 революціонізує архітектуру кластера, з'єднуючи 72 GPU Blackwell через NVLink п'ятого покоління зі швидкістю 1,8 ТБ/с на GPU.²¹ Вся система функціонує як один логічний GPU з 13 петафлопсами обчислень та 30 ТБ когерентної пам'яті.²² Традиційні мережеві межі розчиняються, оскільки комутатори NVLink замінюють InfiniBand для внутрішньостійкової комунікації. Архітектура вимагає повного перепроєктування мережі, але усуває вузькі місця, що обмежують сильне масштабування в розподіленому навчанні.

Управління кабелями стає критичним у масштабах GB200. Кожна стійка NVL72 вимагає понад 2000 кабелів для живлення, мережі та рідинного охолодження.²³ Референсний дизайн NVIDIA визначає точні довжини кабелів та шляхи прокладання для підтримки цілісності сигналу на швидкостях 1,8 ТБ/с. Відхилення від заданого радіуса згину спричиняють бітові помилки, що запускають постійне повторне навчання, зменшуючи ефективну пропускну здатність до 40%.²⁴ Команди розгортання Introl витрачають 40% часу встановлення на управління кабелями, використовуючи системи доповненої реальності для перевірки відповідності кожного з'єднання специфікаціям.

Аналіз мережевих витрат надає перевагу B200 для інкрементальних розгортань. Організації додають вузли B200 до існуючих кластерів без заміни мережевої інфраструктури. Розгортання 1000 GPU B200 вимагає $15-20 мільйонів мережевого обладнання.²⁵ Еквівалентні системи GB200 NVL72 потребують $30-40 мільйонів на комутатори NVLink та оптичні трансивери.²⁶ Надбавка окупається через кращу ефективність масштабування, але лише для робочих навантажень, що використовують повну систему.

Енергетична інфраструктура визначає можливість реалізації

Розгортання B200 використовують існуючі проєктні рішення для живлення, оптимізовані для 35-50 кВт на стійку. Стандартні трифазні ланцюги 208 В забезпечують достатній струм через існуючі блоки розподілу живлення (PDU). Дата-центри виділяють 6-8 стійок на мегават, підтримуючи коефіцієнт ефективності використання енергії (PUE) нижче 1,3.²⁷ Об'єкти з інфраструктурою H100 підтримують B200 через просту заміну обладнання без електричних оновлень.

Вимоги до живлення GB200 руйнують традиційні припущення. Попит NVL72 у 120 кВт на стійку перевищує номінали автоматичних вимикачів більшості об'єктів. Подача живлення вимагає трифазного 480 В з ланцюгами на 300 ампер — інфраструктури, зазвичай зарезервованої для промислового обладнання.²⁸ Трансформатори, розподільчі пристрої та панелі потребують повної заміни. Витрати на модернізацію досягають $2-3 мільйонів на мегават до врахування обмежень потужності комунальних служб.²⁹

Координація з енергопостачальними компаніями стає критичною для розгортань GB200. Скромна інсталяція на 100 стійок GB200 споживає 12 МВт постійно, що еквівалентно 10 000 домогосподарств.³⁰ Енергокомпанії вимагають 18-24 місяці на модернізацію передавальних мереж. Мораторій на дата-центри в Сінгапурі частково зумовлений вимогами до живлення GB200, які споживали б 5% національного виробництва електроенергії.³¹ Introl співпрацює з енергокомпаніями по всьому нашому регіону покриття в APAC для забезпечення розподілу потужності до початку проєктування інфраструктури.

Системи резервного живлення стикаються з безпрецедентними викликами. Традиційні джерела безперебійного живлення (UPS), розраховані на 15-хвилинну автономність, стають непрактичними при 120 кВт на стійку. Акумуляторні приміщення займали б більше місця, ніж обчислювальна інфраструктура, яку вони захищають. Сучасні розгортання GB200 використовують мережеві інвертори з 30-секундним акумуляторним буфером до запуску генератора, приймаючи вищий ризик заради драматичної економії простору та коштів.³² Такий підхід вимагає генераторів, здатних приймати 100% навантаження миттєво — технології, що не існувала п'ять років тому.

Архітектура охолодження визначає варіанти розгортання

Охолодження B200 дотримується усталених шаблонів з гнучкістю для різних підходів. Повітряне охолодження залишається життєздатним для розгортань низької щільності до 35 кВт на стійку. Задні дверні теплообмінники справляються з конфігураціями 50 кВт, підтримуючи температуру холодного коридору нижче 25°C.³³ Пряме рідинне охолодження до холодних пластин дозволяє щільності 70 кВт для організацій, готових управляти розподілом охолоджувальної рідини. Гнучкість дозволяє поступову еволюцію інфраструктури зі зростанням вимог до щільності.

GB200 усуває гнучкість охолодження на користь максимальної продуктивності. Референсний дизайн NVIDIA вимагає прямого рідинного охолодження зі строгими специфікаціями: температура на вході 25°C, витрата 20 літрів на хвилину та різниця температур менше 10°C на холодній пластині.³⁴ Відхилення запускають теплове дроселювання, що зменшує продуктивність до 50%. Система охолодження стає такою ж критичною, як і саме обчислювальне обладнання.

Вибір охолоджувальної рідини впливає на довгострокову експлуатацію. Розгортання B200 зазвичай використовують технічну воду з інгібіторами корозії, використовуючи існуючі системи будівлі. GB200 вимагає інженерних рідин з питомою теплоємністю понад 4,0 кДж/кг·К та електричним опором понад 1 МОм·см.³⁵ Ці рідини коштують $200-300 за галон і вимагають щоквартального тестування для підтримки властивостей.³⁶ Забруднення від одного негерметичного з'єднання може вимагати повного промивання та заміни системи вартістю $500 000.

Відведення тепла визначає географічну доцільність. Помірна теплова щільність B200 працює з традиційними градирнями в більшості кліматичних умов. Екстремальна щільність GB200 вимагає передового відведення тепла, що наближається до теоретичних меж. Об'єкти в жаркому кліматі потребують гібридних градирень з випарним підсиленням, споживаючи 2-3 галони води на хвилину на стійку.³⁷ Розгортання в пустелі стають економічно нездійсненними, коли витрати на воду перевищують витрати на електроенергію. Локації в Північній Європі отримують конкурентну перевагу завдяки вільному охолодженню, що зменшує операційні витрати GB200 на 30%.³⁸

Загальна вартість володіння виявляє несподівану економіку

Порівняння капітальних витрат значно надає перевагу B200. GPU i

[Вміст скорочено для перекладу]

Повний посібник з розгортання NVIDIA B200 та GB200: аналіз енергоспоживання, охолодження та рентабельності інвестицій

Архітектурні відмінності визначають складність розгортання

Архітектура пам'яті визначає придатність для робочих навантажень

Топологія мережі впливає на проєктування кластера

Енергетична інфраструктура визначає можливість реалізації

Архітектура охолодження визначає варіанти розгортання

Загальна вартість володіння виявляє несподівану економіку

You Might Also Like

Бум AI-інфраструктури в Сінгапурі на $27 млрд: можливості дл...

Малайзія та Таїланд: нові центри ШІ-дата-центрів у Південно-...

Резервне копіювання та відновлення для AI: Захист навчальних...

Запросити пропозицію_

Запит отримано_