InfiniBand проти Ethernet для GPU-кластерів: Посібник з вибору мережевої архітектури 800G
Оновлено 8 грудня 2025 року
Оновлення грудня 2025: NVIDIA Spectrum-X 800G Ethernet тепер поставляється та валідований для розгортань Blackwell, скорочуючи перевагу InfiniBand для специфічних робочих навантажень. NDR 400G InfiniBand залишається домінуючим для тренувальних кластерів, із поступовим впровадженням XDR 800G. Ultra Ethernet Consortium випустив специфікацію UEC 1.0 у 2024 році, сумісні продукти очікуються у 2025-2026 роках. Мережі AI-кластерів стають дедалі більш гібридними — InfiniBand для тренування, Ethernet для інференсу. Оптика 1,6T починає з'являтися в дорожніх картах на 2026-2027 роки.
Мережа, що з'єднує 10 000 GPU, визначає, чи працюватимуть вони як єдиний суперкомп'ютер, чи як дорога колекція ізольованих процесорів, проте більшість інфраструктурних команд приймають це рішення вартістю $50 мільйонів на основі маркетингу вендорів, а не інженерного аналізу.¹ Meta стандартизувала Ethernet після того, як виявила, що 15% перевага InfiniBand у продуктивності не виправдовує 2,3-кратно вищу загальну вартість володіння для їхнього парку з 600 000 GPU.² Тим часом OpenAI приписує чудовому контролю перевантажень InfiniBand те, що тренування GPT-4 завершилося на 40% швидше, ніж початкові спроби на базі Ethernet.³ Суперечливий досвід розкриває фундаментальну істину: «правильний» вибір повністю залежить від характеристик робочого навантаження, амбіцій щодо масштабування та економічних обмежень.
Рішення щодо мережевої архітектури відлунюють роками в кожному аспекті AI-інфраструктури. Пропрієтарна екосистема InfiniBand прив'язує організації до дорожньої карти NVIDIA, але забезпечує передбачувану продуктивність для розподіленого тренування. Відкриті стандарти Ethernet дають гнучкість у виборі вендорів та оптимізацію витрат, але потребують складного налаштування, щоб зрівнятися з ефективністю InfiniBand «з коробки». Вибір впливає не лише на поточні розгортання, але й на майбутню масштабованість, оскільки перехід на іншу технологію пізніше означає заміну мільйонів доларів у комутаторах, кабелях і мережевих картах.
Ставки зростають з кожним поколінням обладнання. NVIDIA Spectrum-X обіцяє принести продуктивність рівня InfiniBand в Ethernet на швидкостях 800 Гбіт/с, потенційно нівелюючи перевагу InfiniBand.⁴ Ultra Ethernet Consortium від Intel просуває відкриті стандарти, які можуть ще більше фрагментувати ринок.⁵ Організації, що розгортають інфраструктуру сьогодні, мають передбачити, яка технологія домінуватиме у 2030 році, коли поточні інвестиції повністю амортизуються. Помилкові прогнози заморожують активи та обмежують можливості саме тоді, коли конкуренція в AI загострюється.
Технічні архітектури розкривають фундаментальні відмінності
InfiniBand виник із вимог суперкомп'ютерів, де мікросекунди визначають успіх або невдачу. Архітектура передбачає безвтратну передачу через контроль потоку на основі кредитів, де відправники передають дані лише тоді, коли отримувачі гарантують доступність буфера.⁶ Це усуває втрату пакетів, але вимагає тісної взаємодії між кінцевими точками. Кожен пристрій InfiniBand бере участь у централізованих рішеннях щодо маршрутизації менеджера підмережі, створюючи детерміновані шляхи, оптимізовані для конкретних патернів трафіку. Такий підхід забезпечує стабільну затримку менше мікросекунди, але має труднощі з динамічними навантаженнями, що відхиляються від очікуваних патернів.
Ethernet еволюціонував із локальних мереж, де простота та сумісність мали більше значення, ніж абсолютна продуктивність. Архітектура передбачає передачу з втратами з доставкою за принципом «максимальних зусиль», покладаючись на протоколи вищого рівня для надійності. Втрата пакетів запускає алгоритми контролю перевантажень, які зменшують швидкість передачі, запобігаючи колапсу мережі, але збільшуючи варіативність затримки. Розподілені рішення маршрутизації Ethernet забезпечують масивне масштабування та гнучкість, але створюють непередбачувану продуктивність під навантаженням. Сучасний Ethernet для дата-центрів додає такі функції, як Priority Flow Control та Explicit Congestion Notification, щоб наблизитися до безвтратної поведінки InfiniBand.⁷
Можливості RDMA (Remote Direct Memory Access) відрізняють обидві технології від традиційних мереж. InfiniBand спочатку включав RDMA, дозволяючи пряму передачу пам'яті між системами без участі CPU.⁸ RDMA через InfiniBand досягає затримки 0,5 мікросекунди для малих повідомлень, що в 10 разів краще за мережеву взаємодію через ядро. Ethernet додав RDMA через RoCE (RDMA over Converged Ethernet), забезпечуючи подібну продуктивність при правильному налаштуванні. Однак RoCE вимагає бездоганних мережевих умов, які важко підтримувати в масштабі.
Архітектури комутації фундаментально відрізняються між технологіями. Комутатори InfiniBand працюють як crossbar-фабрики з неблокуючою пропускною здатністю між усіма портами.⁹ 40-портовий комутатор HDR InfiniBand забезпечує сукупну пропускну здатність 16 Тбіт/с зі стабільною затримкою незалежно від патерну трафіку. Комутатори Ethernet використовують архітектури зі спільною пам'яттю та статистичним мультиплексуванням, досягаючи вищої щільності портів, але змінної продуктивності під час перевантаження. Архітектурна відмінність означає, що InfiniBand підтримує передбачувану продуктивність, тоді як Ethernet пропонує кращу економіку.
Площини управління відображають різні філософські підходи. Менеджер підмережі InfiniBand забезпечує централізований контроль з глобальним оглядом топології та трафіку.¹⁰ Менеджер обчислює оптимальні маршрути, обробляє збої та підтримує якість обслуговування без ручного втручання. Ethernet покладається на розподілені протоколи, такі як spanning tree, OSPF або BGP, які потребують ретельного налаштування. Програмно-визначені мережі приносять централізований контроль в Ethernet, але додають складність та потенційні точки відмови. Різниця в управлінні суттєво впливає на операційні накладні витрати в масштабі.
Метрики продуктивності за межами сирої пропускної здатності
Виміри затримки виявляють нюансні відмінності між технологіями. InfiniBand HDR стабільно досягає затримки 0,6 мікросекунди між портами для всіх розмірів повідомлень.¹¹ Ethernet на 100 Гбіт/с показує базову затримку 1,2 мікросекунди, яка деградує до 50+ мікросекунд під час перевантаження. 2-кратна базова різниця стає 100-кратною під навантаженням. Для розподіленого тренування, де синхронізація градієнтів відбувається мільйони разів, мікросекундні різниці накопичуються в години додаткового часу тренування.
Ефективність пропускної здатності розповідає іншу історію, ніж маркетингові специфікації. InfiniBand забезпечує 95% від теоретичної пропускної здатності для великих передач завдяки ефективному кодуванню та мінімальним накладним витратам протоколу.¹² 200 Гбіт/с InfiniBand підтримує реальну пропускну здатність 190 Гбіт/с. Накладні витрати Ethernet варіюються залежно від конфігурації: стандартний Ethernet досягає 85% ефективності, тоді як RoCE v2 сягає 92% при правильному налаштуванні. Розрив в ефективності звужується на швидкостях 800 Гбіт/с, де обидві технології використовують подібне кодування PAM4.
Поведінка при перевантаженні кардинально розділяє технології. Контроль потоку на основі кредитів InfiniBand запобігає перевантаженню, зупиняючи передачу до переповнення буферів.¹³ Продуктивність деградує поступово зі зростанням навантаження. Втрата пакетів Ethernet запускає алгоритми відступу в стилі TCP, які створюють пилкоподібні патерни пропускної здатності. Сценарії incast, коли кілька відправників перевантажують одного отримувача, спричиняють катастрофічний колапс продуктивності на погано налаштованому Ethernet. InfiniBand обробляє той самий сценарій з мінімальною деградацією.
Тестування масштабованості виявляє архітектурні межі. Фабрики InfiniBand масштабуються до 48 000 вузлів в одній підмережі з трирівневими топологіями fat tree.¹⁴ Більші розгортання вимагають кількох підмереж, з'єднаних через маршрутизатори, що додає складності. Ethernet масштабується до мільйонів вузлів за допомогою ієрархічної маршрутизації, але вимагає ретельного проєктування для підтримки продуктивності. Дата-центри Facebook з'єднують понад 100 000 серверів за допомогою Ethernet із власними протоколами для керування трафіком.¹⁵ Приклади показують, що обидві технології масштабуються, але через різні механізми.
Метрики надійності дещо віддають перевагу InfiniBand у контрольованих середовищах. Безвтратна передача та автоматична міграція шляхів InfiniBand досягають 99,999% доставки пакетів.¹⁶ Ethernet з належною надлишковістю досягає 99,995% надійності, прийнятної для більшості робочих навантажень. Однак тісніша інтеграція InfiniBand означає, що збої окремих компонентів можуть дестабілізувати цілі фабрики. Слабкий зв'язок Ethernet краще ізолює збої, запобігаючи каскадним ефектам. Різниця в надійності найбільше важлива для тривалих тренувальних завдань, де будь-яке переривання марнує мільйони обчислювального часу.
Аналіз витрат спростовує загальноприйняту думку
Витрати на обладнання — це лише частина економічної картини. Адаптери InfiniBand HDR коштують $2 000-3 000 за порт порівняно з $800-1 500 за еквівалентні карти Ethernet.¹⁷ 40-портовий комутатор InfiniBand коштує $50 000 проти $25 000 за Ethernet. Кабелі додають ще одну надбавку: кабелі DAC InfiniBand коштують $500-800, тоді як еквіваленти Ethernet — $200-400. Для кластера з 1 000 GPU обладнання InfiniBand коштує $15 мільйонів проти $7 мільйонів за Ethernet, надбавка в $8 мільйонів, яка здається непомірною.
Операційні витрати суттєво змінюють розрахунок. Автоматизоване управління InfiniBand скорочує адміністративні накладні витрати на 60% порівняно з Ethernet.¹⁸ Один мережевий інженер може керувати 10 000 портами InfiniBand проти 4 000 портів Ethernet, що вимагають ручного налаштування. Економія на робочій силі становить $500 000 щорічно для великих розгортань. Вища ефективність InfiniBand також зменшує енергоспоживання на 15%, заощаджуючи $200 000 щорічно для об'єкта потужністю мегават.
Ліцензування програмного забезпечення створює приховані витрати, які багато хто не помічає. Стек OFED (OpenFabrics Enterprise Distribution) InfiniBand є відкритим вихідним кодом з опціональними контрактами підтримки.¹⁹ Корпоративний Ethernet часто вимагає дорогих ліцензій на програмне забезпечення для розширених функцій: VMware NSX коштує $5 000 за CPU, Cisco ACI — $50 000 за комутатор.²⁰ Ці ліцензії можуть перевищити витрати на обладнання протягом п'ятирічних циклів розгортання. Ініціативи відкритих мереж, такі як SONiC, зменшують витрати на програмне забезпечення Ethernet, але вимагають інженерних інвестицій.
Моделі загальної вартості володіння сильно залежать від припущень щодо використання. Якщо 15% перевага InfiniBand у продуктивності перетворюється на 15% швидше тренування, економія часу виправдовує преміальну ціну для організацій, де швидкість визначає конкурентну перевагу. Організація, яка витрачає $1 мільйон щомісяця на GPU-обчислення, економить $150 000 завдяки швидшому завершенню. За три роки економія перевищує надбавку InfiniBand. Однак, якщо робочі навантаження не отримують користі від переваг InfiniBand, надбавка стає чистою втратою.
Витрати на прив'язку до вендора важко кількісно оцінити, але вони суттєво впливають на довгострокову економіку. InfiniBand прив'язує організації до екосистеми NVIDIA, обмежуючи важелі для переговорів та технологічний вибір.²¹ Різноманітність вендорів Ethernet дозволяє проводити конкурентні торги, що зменшує витрати на 20-30%. Однак перехід між вендорами Ethernet вимагає реінженерії, яка коштує мільйони. Справжня незалежність від вендорів залишається ілюзорною незалежно від вибору технології.
Зрілість програмної екосистеми суттєво відрізняється
Стабільність драйверів впливає на надійність продакшену більше, ніж специфікації обладнання. Драйвери Mellanox OFED для InfiniBand проходять ретельне тестування з GPU NVIDIA, забезпечуючи сумісність між програмними стеками.²² Версія 5.8 OFED безперешкодно підтримує кожну версію CUDA. Якість драйверів Ethernet варіюється залежно від вендора: драйвер ice від Intel доведено надійний, тоді як деякі вендори постачають драйвери, що викликають kernel panic під навантаженням. Проблеми з драйверами спричиняють загадкові збої, на налагодження яких витрачаються тижні.
Інтеграція з фреймворками визначає продуктивність розробників. PyTorch і TensorFlow оптимізовані для InfiniBand через нативну підтримку UCX, досягаючи майже теоретичної продуктивності без налаштування.²³ NCCL (NVIDIA Collective Communications Library) включає оптимізації, специфічні для InfiniBand, які прискорюють операції all-reduce на 30%.²⁴ Підтримка Ethernet існує, але вимагає ручного налаштування параметрів RoCE, алгоритмів контролю перевантажень та розмірів буферів. Розрив в інтеграції звужується, оскільки фреймворки додають оптимізації для Ethernet, але InfiniBand зберігає перевагу в простоті використання.
Інструменти управління відображають різницю в зрілості екосистем. UFM (Unified Fabric Manager) від NVIDIA забезпечує комплексний моніторинг InfiniBand, автоматично виявляючи
[Вміст скорочено для перекладу]