NVLink та мережі масштабування: коли 800G Ethernet недостатньо
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025: NVLink 5 забезпечує 1,8 ТБ/с на GPU (18 каналів × 100 ГБ/с) — у 14 разів більше пропускної здатності PCIe Gen5. GB200 NVL72 з'єднує 72 GPU із сукупною пропускною здатністю 130 ТБ/с. NVSwitch забезпечує неблокуючу мережу для 576 GPU із загальною пропускною здатністю понад 1 ПБ/с. П'яте покоління NVLink досягає 12-кратного збільшення пропускної здатності порівняно з першим поколінням (2014). Мережі масштабування створюють можливості, недосяжні для мереж горизонтального розширення.
Один GPU NVIDIA Blackwell підтримує до 18 з'єднань NVLink зі швидкістю 100 гігабайт на секунду кожне, забезпечуючи загальну пропускну здатність 1,8 терабайта на секунду — у 14 разів більше, ніж PCIe Gen5.¹ Система GB200 NVL72 об'єднує 72 GPU в єдиному домені NVLink із сукупною пропускною здатністю 130 терабайт на секунду.² Комутатор NVLink від NVIDIA забезпечує неблокуючу обчислювальну мережу для 576 GPU із загальною пропускною здатністю понад 1 петабайт на секунду.³ Мережі масштабування створюють інфраструктурні можливості, недосяжні для мереж горизонтального розширення на базі Ethernet та InfiniBand.
Різниця між мережами масштабування та горизонтального розширення визначає архітектуру сучасної інфраструктури для ШІ. NVLink та NVSwitch забезпечують комунікацію всередині вузлів і стійок, надаючи пропускну здатність і затримку, необхідні для тензорного паралелізму у великих моделях. InfiniBand та Ethernet забезпечують комунікацію між стійками, надаючи охоплення, необхідне для паралелізму даних на тисячах GPU. Розуміння сфери застосування кожної технології визначає, чи принесуть інфраструктурні інвестиції очікувану продуктивність.
Специфікації NVLink п'ятого покоління
NVLink п'ятого покоління подвоює пропускну здатність порівняно з попереднім поколінням.⁴ Кожен канал працює зі швидкістю 100 гігабайт на секунду в обох напрямках, а 18 каналів на GPU Blackwell забезпечують сукупну пропускну здатність 1,8 терабайта на секунду.⁵ Це перевищує пропускну здатність PCIe Gen5 більш ніж у 14 разів.⁶
Еволюція між поколіннями демонструє траєкторію розвитку:
| Покоління | Архітектура | Каналів | Пропускна здатність на GPU |
|---|---|---|---|
| 1-е (2018) | Volta V100 | 6 | 300 ГБ/с |
| 2-е (2020) | Ampere A100 | 12 | 600 ГБ/с |
| 3-є (2022) | Hopper H100 | 18 | 900 ГБ/с |
| 4-е (2024) | Blackwell B200 | 18 | 1,8 ТБ/с |
NVLink п'ятого покоління досягає 12-кратної пропускної здатності порівняно з першим поколінням NVLink, представленим у 2014 році.⁷ Подвоєння від Hopper до Blackwell відображає зростаючі вимоги до пропускної здатності моделей із трильйоном параметрів.
Збільшення пропускної здатності на канал з 50 гігабайт на секунду в NVLink 4 до 100 гігабайт на секунду в NVLink 5 дозволяє тій самій конфігурації з 18 каналів подвоїти загальну пропускну здатність.⁸ Архітектура зберігає кількість каналів, покращуючи швидкість передачі сигналу.
Еволюція архітектури NVSwitch
NVIDIA представила NVSwitch із системою DGX-2 у 2018 році для забезпечення повного зв'язку між GPU в межах однієї системи.⁹ NVSwitch діє як високошвидкісний неблокуючий перехресний комутатор для трафіку NVLink, дозволяючи кожному GPU в системі обмінюватися даними з будь-яким іншим GPU на повній швидкості.¹⁰
DGX-2 містив 16 GPU V100, з'єднаних через NVSwitch першого покоління.¹¹ Кожен чип NVSwitch мав 18 портів NVLink із сукупною комутаційною здатністю 900 гігабайт на секунду.¹² 100-ватний чип, виготовлений за технологією TSMC 12 нм, містив 2 мільярди транзисторів.¹³
NVSwitch другого покоління з'явився з DGX A100 у 2020 році, підтримуючи NVLink 3.0 зі швидкістю 600 гігабайт на секунду на GPU.¹⁴ Шість чипів NVSwitch створювали повнозв'язну мережеву топологію для восьми GPU A100.¹⁵
NVSwitch третього покоління для Hopper збільшив загальну двонаправлену пропускну здатність до 25,6 терабіта на секунду на чип.¹⁶ Чотири чипи NVSwitch у кожній системі HGX H100 та HGX H200 забезпечують двонаправлену мережеву пропускну здатність 3,6 терабайта на секунду для восьми GPU.¹⁷ NVSwitch третього покоління представив функціональність SHARP для обчислень у мережі, агрегуючи та оновлюючи результати на кількох GPU без необхідності передачі даних до окремих GPU та назад.¹⁸
NVSwitch четвертого покоління для Blackwell має 72 порти NVLink 5.0 на чип.¹⁹ Комутатор NVLink 5 забезпечує 144 порти NVLink із неблокуючою комутаційною здатністю 14,4 терабайта на секунду.²⁰ Це покоління представило комутацію на рівні стійки, перемістивши NVSwitch із серверів у спеціалізовані комутаційні лотки.
Архітектура масштабування GB200 NVL72
GB200 NVL72 об'єднує 36 процесорів Grace та 72 GPU Blackwell у стійковому рішенні з рідинним охолодженням.²¹ Домен NVLink із 72 GPU функціонує як єдиний масивний GPU і забезпечує у 30 разів швидший інференс великих мовних моделей із трильйоном параметрів у реальному часі порівняно з попередніми поколіннями.²²
Фізична архітектура розподіляє компоненти між обчислювальними лотками та комутаційними лотками.²³ Кожен обчислювальний лоток містить два суперчипи GB200, кожен із яких складається з двох GPU B200 та одного процесора Grace.²⁴ Система містить 18 обчислювальних лотків, загалом 72 GPU.
Дев'ять комутаційних лотків NVLink забезпечують повнозв'язну топологію.²⁵ Кожен комутаційний лоток містить два чипи NVLink Switch із загальною кількістю 144 порти NVLink.²⁶ Дев'ять комутаторів повністю з'єднують кожен із 18 портів NVLink на кожному GPU Blackwell.²⁷
Пряме з'єднання GPU-GPU в межах одного сервера чи обчислювального лотка відсутнє.²⁸ Вся комунікація проходить через зовнішню мережу NVSwitch.²⁹ Ця архітектура робить усі 72 GPU еквівалентними з точки зору зв'язності — будь-який GPU може обмінюватися даними з будь-яким іншим із однаковою пропускною здатністю та затримкою.³⁰
Сукупна пропускна здатність NVLink у 130 терабайт на секунду забезпечує тензорний паралелізм на всіх 72 GPU.³¹ Великі моделі, що перевищують обсяг пам'яті одного GPU, можуть розподіляти тензори по всьому домену з мінімальними накладними витратами на комунікацію. Архітектура усуває традиційний кордон між серверною та стійковою мережею для робочих навантажень масштабування.
Мережі масштабування проти мереж горизонтального розширення
Мережі масштабування (NVLink) та мережі горизонтального розширення (InfiniBand та Ethernet) виконують принципово різні функції в інфраструктурі ШІ.³²
NVLink забезпечує швидку комунікацію між GPU в межах одного домену — значно швидшу, ніж InfiniBand, із пропускною здатністю порядку терабайт на секунду для локальних з'єднань.³³ Низька затримка та висока пропускна здатність підтримують тензорний паралелізм, коли ваги моделі розподіляються між GPU та повинні синхронізуватися на кожному шарі. Пропускна здатність NVLink у 1,8 терабайта на секунду на GPU забезпечує цю синхронізацію без виникнення вузьких місць.
NVLink не допомагає, коли комунікація виходить за межі вузла.³⁴ Міжвузлова мережа вимагає InfiniBand або Ethernet незалежно від можливостей NVLink всередині вузла. Ці технології працюють на різних рівнях ієрархії.
InfiniBand є галузевим стандартом для з'єднання тисяч серверних вузлів.³⁵ Віддалений прямий доступ до пам'яті (RDMA) дозволяє серверам обмінюватися даними безпосередньо між адресними просторами пам'яті, обходячи накладні витрати CPU та ОС.³⁶ Ця функція є критично важливою для масштабного розподіленого навчання з використанням паралелізму даних, коли кожен вузол обробляє різні пакети та синхронізує градієнти.
InfiniBand залишається золотим стандартом для навчання ШІ в масштабі, з'єднуючи понад 270 найпотужніших суперкомп'ютерів світу.³⁷ Адаптивна маршрутизація, контроль перевантаження та можливості RDMA були спеціально розроблені для синхронних високопродуктивних обчислень.
Ethernet випереджає InfiniBand для розгортань горизонтального розширення.³⁸ NVIDIA Spectrum-X переносить інновації InfiniBand на Ethernet, включаючи контроль перевантаження на основі телеметрії, адаптивне балансування навантаження та пряме розміщення даних.³⁹ Великомасштабні системи зі Spectrum-X досягли 95% пропускної здатності даних без деградації затримки додатків, порівняно з лише 60% пропускної здатності стандартних мереж Ethernet.⁴⁰
Ієрархічна модель належним чином поєднує ці технології. NVLink забезпечує масштабування в межах стійки, надаючи приблизно у 18 разів більшу пропускну здатність, ніж мережі горизонтального розширення.⁴¹ InfiniBand або Ethernet забезпечують горизонтальне розширення між стійками, надаючи охоплення тисяч вузлів. Кожен лоток GPU в системах GB200 NVL72 включає мережеві адаптери RDMA на 800 гігабіт на секунду для міжстійкової комунікації.⁴²
Домени на 576 GPU та архітектура SuperPOD
Комутатор NVLink забезпечує повнозв'язну неблокуючу обчислювальну мережу для 576 GPU.⁴³ Вісім стійок GB200 NVL72 формують SuperPOD, створюючи суперкластер із 576 GPU із загальною пропускною здатністю понад 1 петабайт на секунду та 240 терабайтами швидкої пам'яті.⁴⁴
DGX SuperPOD побудований на масштабованих модулях (SU), кожен з яких містить вісім систем DGX GB200.⁴⁵ Модульна конструкція забезпечує швидке розгортання SuperPOD будь-якого масштабу. Референсна архітектура включає специфікації для InfiniBand, мережі NVLink, топологій Ethernet, систем зберігання, компонування стійок та кабельної розводки.⁴⁶
Домен із 576 GPU підтримує повнозв'язну топологію NVLink для всіх стійок у SuperPOD.⁴⁷ Будь-який GPU може обмінюватися даними з будь-яким іншим зі швидкістю 1,8 терабайта на секунду без проходження через мережі горизонтального розширення.⁴⁸ Розмір домену відповідає вимогам найбільших базових моделей, які наразі навчаються.
Розгортання SuperPOD вимагає локальної інсталяції.⁴⁹ Замовники володіють і керують обладнанням у власних центрах обробки даних або колокаційних комерційних об'єктах. Архітектура відповідає внутрішнім системам досліджень і розробок NVIDIA, що означає тестування інфраструктурного програмного забезпечення, додатків та підтримки на ідентичних конфігураціях.⁵⁰
Хмарні провайдери Microsoft Azure, Oracle Cloud та CoreWeave зобов'язалися підтримувати архітектуру X800, коли вона стане доступною у 2025 році.⁵¹ Хмарні розгортання розширюють можливості SuperPOD для організацій, які не можуть обґрунтувати виділену локальну інфраструктуру.
Розгортання на Enterprise Kubernetes
Системи Multi-Node NVLink (MNNVL) вимагають спеціалізованої конфігурації Kubernetes.⁵² Kubernetes не розпізнає архітектуру NVIDIA MNNVL за замовчуванням, що ускладнює управління робочими навантаженнями та планування порівняно зі стандартними розгортаннями GPU.⁵³
Вимоги до розгортання включають Kubernetes 1.32 або новіший та NVIDIA GPU Operator версії 25.3 або вище.⁵⁴ Версія GPU Operator повинна включати драйвер Dynamic Resource Allocation (DRA), який забезпечує підтримку ресурсів прискореної мережі GB200 та функції ComputeDomain.⁵⁵ NVIDIA Network Operator забезпечує мережеву конфігурацію.
Сервіс IMEX підтримує експорт та імпорт пам'яті GPU між доменами ОС у багатовузлових розгортаннях NVLink.⁵⁶ Сервіс забезпечує однорангову комунікацію NVLink та операції зі спільною пам'яттю в межах домену.
Коли розподілені робочі навантаження націлюються на пули вузлів MNNVL, платформа створює Custom Resource Definition (CRD) ComputeDomain для керування призначеннями домену NVLink.⁵⁷ Посилання на ComputeDomain автоматично додається до специфікацій робочих навантажень як ресурсна заявка, дозволяючи планувальнику прив'язувати робочі навантаження до конкретних доменів NVLink.⁵⁸
Правила pod affinity використовують ключ мітки MNNVL (nvidia.com/gpu.clique) як топологічний ключ.⁵⁹ Конфігурація забезпечує розміщення pod'ів у розподілених робочих навантаженнях на вузлах із з'єднаннями NVLink, підтримуючи топологію, необхідну для продуктивності.⁶⁰
Міркування щодо планування інфраструктури
Організаціям, що оцінюють інфраструктуру NVLink, слід спочатку врахувати характеристики робочих навантажень. Тензорний паралелізм для великих моделей безпосередньо виграє від пропускної здатності NVLink. Паралелізм даних для багатьох менших моделей може не потребувати можливостей NVLink і досягати адекватної продуктивності лише з мережами горизонтального розширення.
GB200 NVL72 представляє значні інфраструктурні зобов'язання. Вимоги до рідинного охолодження, інтеграція на рівні стійки та спеціалізована мережа перевищують складність архітектур із повітряним охолодженням, орієнтованих на окремі сервери. Організаціям слід підтвердити, що робочі навантаження вимагають цих можливостей, перш ніж брати зобов'язання.
Інфраструктура живлення та охолодження повинна забезпечувати рідинне охолодження з моменту початкового розгортання. GB200 NVL72 не може працювати з повітряним охолодженням. Модернізація об'єктів для рідинного охолодження після розгортання є дорогою та руйнівною.
Мережеве планування повинно враховувати як вимоги масштабування, так і горизонтального розширення. Мережа NVLink забезпечує комунікацію всередині стійки, але міжстійкова