NVIDIA Blackwell Ultra та B300: що вимагає наступне покоління GPU
Оновлено 11 грудня 2025 року
Оновлення грудня 2025: B300 забезпечує 15 PFLOPS FP4, 288 ГБ HBM3e (12-рівневі стеки), пропускну здатність 8 ТБ/с, TDP 1400 Вт. Стійка GB300 NVL72 досягає 1,1 EXAFLOPS — екзамасштабна продуктивність в одному вузлі. DGX B200 забезпечує 3x швидше навчання, 15x швидший інференс порівняно з Hopper. Системи постачаються у другій половині 2025 року. Потребує рідинного охолодження, мережі 800 Гбіт/с, щільності потужності, яку більшість існуючих об'єктів не може забезпечити.
GPU NVIDIA Blackwell Ultra забезпечує 15 петафлопс щільних обчислень FP4, на 50% більше пам'яті, ніж B200, та в 1,5 рази вищу продуктивність.¹ Одна стійка GB300 NVL72 досягає 1,1 екзафлопс обчислень FP4, працюючи як екзамасштабний суперкомп'ютер в одному вузлі.² Оснащена вісьмома GPU NVIDIA Blackwell, система DGX B200 забезпечує 3x вищу продуктивність навчання та 15x вищу продуктивність інференсу порівняно з системами попереднього покоління Hopper.³ Інфраструктурні вимоги для Blackwell суттєво відрізняються від усього, що організації розгортали раніше, вимагаючи рідинного охолодження, мережі 800 Гбіт/с та щільності потужності, яку більшість існуючих об'єктів не може забезпечити.
NVIDIA анонсувала B300 на GTC 2025, системи постачаються у другій половині 2025 року.⁴ Терміни створюють терміновість планування для організацій, яким потрібно підготувати об'єкти, забезпечити електроживлення та побудувати операційні можливості до прибуття обладнання. Розуміння інфраструктурних вимог Blackwell зараз визначає, чи зможуть організації ефективно розгорнути системи, коли вони стануть доступними.
Специфікації Blackwell Ultra
GPU Blackwell Ultra має дворетикульний дизайн з 208 мільярдами транзисторів та 160 потоковими мультипроцесорами на двох кристалах, з'єднаних за допомогою інтерфейсу NVIDIA High-Bandwidth Interface.⁵ B200 містив 208 мільярдів транзисторів порівняно з 80 мільярдами на H100.⁶ Кількість транзисторів відображає архітектурну складність, необхідну для навантажень ШІ передового масштабу.
B300 забезпечує 288 гігабайт пам'яті HBM3e на GPU, досягнутих завдяки 12-рівневим стекам пам'яті замість 8-рівневої конфігурації B200.⁷ Пропускна здатність пам'яті досягає 8 терабайт на секунду.⁸ Обсяг пам'яті дозволяє обробляти моделі, які раніше вимагали конфігурацій з кількома GPU, на одному GPU.
Вимоги до потужності значно зростають. Кожен чіп B300 споживає 1400 Вт у серці GB300.⁹ B200 споживав 1000 Вт, порівняно з 700 Вт у H100.¹⁰ Прогресія від 700 до 1000 до 1400 Вт на GPU протягом трьох поколінь демонструє траєкторію потужності, яку організації повинні планувати.
Продуктивність Dense FP4 досягає 14 петафлопс на B300 порівняно з 9 петафлопс на B200, що представляє покращення на 55,6%.¹¹ Можливість обчислень FP4 зменшує обсяг пам'яті приблизно в 1,8 рази порівняно з FP8, зберігаючи майже еквівалентну точність.¹² Можливість нижчої точності адресує навантаження інференсу, де знижена точність покращує пропускну здатність без погіршення якості.
Продуктивність порівняно з Hopper
Перевірені дані продуктивності показують до 11-15 разів вищу пропускну здатність LLM на GPU порівняно з поколінням Hopper.¹³ HGX B200 забезпечує до 15x покращення інференсу та 3x покращення навчання порівняно з HGX H100, зі зменшенням енергоспоживання та витрат у 12 разів.¹⁴ Кластер GB200 NVL72 пропонує 4x швидше навчання та 30x швидший інференс у реальному часі порівняно з кластерами H100.¹⁵
B200 забезпечує 20 петафлопс продуктивності ШІ з одного GPU. Один H100 мав максимум 4 петафлопс в обчисленнях ШІ.¹⁶ 5-кратне покращення на GPU змінює економіку великомасштабних розгортань. Організації можуть досягти еквівалентної потужності з меншою кількістю GPU або суттєво більшої потужності з еквівалентною кількістю GPU.
Покращення пам'яті доповнюють приріст обчислень. B200 має 192 гігабайти HBM3e порівняно з 80 гігабайтами HBM3 у H100.¹⁷ Пропускна здатність пам'яті досягає 8 терабайт на секунду, що в 2,4 рази швидше за 3,35 терабайт на секунду у H100.¹⁸ Обсяг пам'яті дозволяє обробку на одному GPU моделей, які раніше вимагали складних конфігурацій з кількома GPU.
Для навантажень інференсу Blackwell забезпечує в 25 разів нижче енергоспоживання на інференс, ніж H100.¹⁹ Один B200 замінює 5x вузлів H100 для інференсу Llama 3, скорочуючи витрати та вуглецевий слід.²⁰ Приріст ефективності накопичується у великих розгортаннях, де інференс домінує в обчислювальному попиті.
Архітектурні відмінності від Hopper
Hopper націлений на широкий спектр високопродуктивних обчислень та навантажень ШІ з фокусом на традиційну точність FP64 та FP32.²¹ Blackwell оптимізований явно для великомасштабних завдань генеративного ШІ.²² Архітектурний фокус відображає оцінку NVIDIA, що навантаження ШІ, особливо інференс, будуть домінувати в попиті на GPU.
Blackwell представляє тензорні ядра п'ятого покоління з режимами надзвичайно низької точності, що підтримують 4-бітні та 6-бітні операції.²³ Можливості низької точності прискорюють навантаження інференсу, де квантовані моделі підтримують прийнятну якість. Навантаження навчання, що вимагають вищої точності, отримують менше переваг від архітектурних змін.
Зв'язність NVLink драматично зростає. Кожен GPU Blackwell має 18 з'єднань NVLink п'ятого покоління, в 18 разів більше, ніж було доступно на H100.²⁴ Кожне з'єднання пропонує 50 гігабайт на секунду двонаправленої пропускної здатності.²⁵ Розширене міжз'єднання дозволяє архітектурі GB300 NVL72, де 72 GPU працюють як єдина обчислювальна фабрика.
Для чистих числових завдань HPC, включаючи матричну алгебру, динаміку рідин та молекулярну динаміку з подвійною точністю, переваги Hopper у FP64 на ват, великій спільній пам'яті та добре забезпечених кешах для FP32 зберігаються.²⁶ Організації з традиційними навантаженнями HPC не повинні припускати, що Blackwell покращує всі випадки використання однаково.
Архітектура стійки GB300 NVL72
Стійка GB300 NVL72 з рідинним охолодженням інтегрує 36 суперчіпів Grace Blackwell, з'єднаних через NVLink 5 та NVLink Switching.²⁷ Стійка містить 72 GPU B300, кожен з 288 гігабайтами пам'яті HBM3e.²⁸ З кожним GPU, з'єднаним через 1,8 терабайт на секунду пропускної здатності NVLink, система працює як єдиний екзамасштабний вузол.²⁹
GB300 NVL72 забезпечує в 50 разів вищу продуктивність фабрики ШІ, поєднуючи в 10 разів кращу латентність та в 5 разів вищу пропускну здатність на мегават порівняно з платформами Hopper.³⁰ Приріст ефективності демонструє, чому вимоги рідинного охолодження представляють інвестицію, а не накладні витрати.
Система DGX B300 забезпечує 2,3 терабайти пам'яті HBM3e з вісьмома SuperNIC ConnectX-8 для мережі 800 Гбіт/с.³¹ Мережеві вимоги відповідають обчислювальній потужності. Недостатньо потужні мережеві фабрики створюють вузькі місця, що марнують потужність GPU.
Об'єднайте вісім стійок NV72L, щоб сформувати повний Blackwell Ultra DGX SuperPOD: 288 процесорів Grace, 576 GPU Blackwell Ultra, 300 терабайт пам'яті HBM3e та 11,5 екзафлопс обчислень FP4.³² Масштаб представляє те, що провідні лабораторії ШІ розгортають для навчання найбільших моделей.
Інфраструктурні вимоги
Вимоги до живлення та охолодження перевищують те, що можуть забезпечити більшість існуючих об'єктів. Система HGX B300 4U використовує технологію Supermicro DLC-2 для захоплення до 98% тепла через рідинне охолодження.³³ Повітряне охолодження не може розсіяти теплову потужність. Організації, що планують розгортання Blackwell, повинні впровадити інфраструктуру рідинного охолодження.
Система HGX B300 2-OU OCP з рідинним охолодженням дозволяє до 144 GPU на стійку для гіперскейлерів та хмарних провайдерів.³⁴ Одна стійка ORV3 підтримує до 18 вузлів із загалом 144 GPU, масштабуючись з комутаторами Quantum-X800 InfiniBand та внутрішньорядними блоками розподілу охолоджувальної рідини на 1,8 МВт.³⁵ Вісім обчислювальних стійок HGX B300, три мережеві стійки Quantum-X800 InfiniBand та два внутрішньорядні CDU формують масштабований блок SuperCluster з 1152 GPU.³⁶
Мережа вимагає підключення 800 Гбіт/с. Обидві платформи 2-OU OCP та 4U подвоюють пропускну здатність обчислювальної фабричної мережі до 800 Гбіт/с через інтегровані SuperNIC ConnectX-8.³⁷ I/O модуль SuperNIC ConnectX-8 містить два пристрої ConnectX-8 для мережевого підключення 800 Гбіт/с на GPU.³⁸ Організації з інфраструктурою 400 Гбіт/с стикаються з вимогами оновлення.
Доступність у гіперскейлерів та підприємств
Google Cloud став першим гіперскейлером, що оголосив попередню доступність пропозицій на базі B200.³⁹ AWS, Google Cloud, Microsoft Azure та Oracle Cloud Infrastructure є одними з перших хмарних провайдерів, що пропонують екземпляри на базі Blackwell.⁴⁰ Доступність у гіперскейлерів забезпечує хмарний доступ для організацій, не готових розгортати власну інфраструктуру.
HPE відвантажила своє перше рішення сімейства NVIDIA Blackwell, GB200 NVL72, у лютому 2025 року.⁴¹ Глобальні виробники систем Cisco, Dell, HPE, Lenovo та Supermicro пропонують сертифіковані NVIDIA сервери RTX PRO з Blackwell.⁴² Екосистема постачальників швидко дозріла від анонсу до виробничої доступності.
Pegatron та 5C успішно розгорнули стійки з рідинним охолодженням на базі HGX B200 з інтеграцією внутрішньорядних CDU в центрі обробки даних у Меріленді разом із системами з повітряним охолодженням.⁴³ Розгортання демонструє готову до виробництва інфраструктуру для організацій, що будують власні фабрики ШІ.
Обмеження постачання впливають на доступність. Попит від гіперскейлерів та лабораторій ШІ перевищує виробничі потужності.⁴⁴ Великі гіперскейлери та компанії ШІ замовляють численні вузли, тоді як менші організації можуть дозволити собі лише обмежену кількість.⁴⁵ NVIDIA стикається із заборгованістю по чіпах Blackwell, частково через проблеми проектування на ранніх етапах виробництва.⁴⁶ Введення великих кластерів в експлуатацію зазвичай займає додаткові три місяці після початкової доставки.⁴⁷
Рекомендації щодо розгортання
Організації повинні визначити, чи виправдовують можливості Blackwell інфраструктурні інвестиції. Для навантажень з домінуванням інференсу приріст ефективності Blackwell є переконливим. Для навантажень навчання, що вимагають точності FP64, Hopper може залишатися доречним.
Організації можуть продовжувати навчання великих моделей на GPU H100 або H200, використовуючи B200 або B300 для завдань інференсу та розгортання, де Blackwell забезпечує найбільший приріст пропускної здатності та латентності.⁴⁸ Гібридний підхід оптимізує інфраструктурні інвестиції для різних типів навантажень.
Ціни відображають покращення можливостей. Ранні лістинги пропонують B200 192GB SXM за $45,000-$50,000 за GPU.⁴⁹ Повні серверні системи 8x B200 можуть перевищувати $500,000.⁵⁰ Капітальні вимоги надають перевагу організаціям з чіткими моделями доходу від ШІ або стратегічними мандатами.
B200 підходить для інференсу моделей у масштабі, наукових обчислень, навантажень FP64 та систем з кількома GPU з 4-8 GPU.⁵¹ B300 найкраще підходить для навчання LLM з вищою пропускною здатністю та фабрикою NVLink, інференсу моделей у масштабі та суперкомп'ютерів.⁵² Розмежування допомагає організаціям вибирати відповідні конфігурації.
Рішення про інфраструктурні інвестиції повинні враховувати рідинне охолодження Blackwell, мережу 800 Гбіт/с та вимоги до живлення. Організації з існуючими об'єктами з повітряним охолодженням стикаються з витратами на модернізацію або нове будівництво. Ті, хто не має мережевої інфраструктури 800 Гбіт/с, потребують оновлення фабрики. Об'єкти без адекватної щільності потужності не можуть розміщувати системи Blackwell незалежно від інших приготувань.
Інфраструктурний розрив між вимогами Hopper та Blackwell перевищує будь-який попередній перехід поколінь NVIDIA. Організації, що починають планування зараз, позиціонують себе для розгортання, коли системи стануть доступними. Ті, хто зволікає, виявлять, що інфраструктурні обмеження лімітують їхні можливості ШІ незалежно від бюджету на GPU.
Ключові висновки
Для архітекторів інфраструктури: - B300: 15 PFLOPS FP4, 288 ГБ HBM3e (12-рівневі стеки), пропускна здатність пам'яті 8 ТБ/с, TDP 1400 Вт на GPU - GB300 NVL72: 72 GPU, 1,1 екзафлопс FP4, пропускна здатність NVLink 1,8 ТБ/с на GPU; DGX SuperPOD: 576 GPU, 11,5 екзафлопс - Прогресія потужності: H100 (700 Вт) → B200 (1000 Вт) → B300 (1400 Вт); інфраструктурний розрив перевищує будь-який попередній перехід поколінь
Для команд закупівель: - B200 192GB SXM: $45,000-$50,000 за GPU; повні серверні системи 8x B200 перевищують $500,000 - Обмеження постачання зберігаються; попит від гіперскейлерів перевищує виробничі потужності з 3+ місячною затримкою розгортання після доставки - HPE відвантажила перший GB200
[Вміст скорочено для перекладу]