Оптимізація пропускної здатності для розподіленого навчання: керування мережевим трафіком 400+ Гбіт/с

Навчання GPT-4 генерує 400 ТБ/год мережевого трафіку. Meta підтримує обмін градієнтами зі швидкістю 1,6 Тбіт/с. Оптимізація пропускної здатності скорочує час навчання втричі, заощаджуючи $50 млн.

Оптимізація пропускної здатності для розподіленого навчання: керування мережевим трафіком 400+ Гбіт/с

Оптимізація пропускної здатності для розподіленого навчання: керування мережевим трафіком 400+ Гбіт/с

Оновлено 8 грудня 2025 року

Оновлення грудня 2025: Передові моделі тепер потребують міжз'єднання 800+ Гбіт/с на GPU, при цьому GB200 NVL72 використовує пропускну здатність NVLink 1,8 ТБ/с у межах стійок. NCCL 2.20+ оптимізовано для архітектур Blackwell. Ring-allreduce дедалі частіше замінюється ієрархічними алгоритмами, оптимізованими для багатостійкових топологій. Компресія градієнтів досягає 100-кратного зменшення при навчанні FP8 на Blackwell. DeepSpeed-Ulysses від Microsoft забезпечує навчання з контекстним вікном 100K+ через оптимізовану комунікацію послідовного паралелізму.

Розподілене навчання GPT-4 генерує 400 терабайт мережевого трафіку щогодини на 25 000 GPU, і будь-яке вузьке місце пропускної здатності потенційно витрачає мільйони на простій обчислювальних ресурсів. Коли Meta навчає моделі LLaMA, їхня мережа підтримує 1,6 терабіта на секунду трафіку обміну градієнтами, що вимагає складної оптимізації для запобігання перетворенню комунікації на обмежувальний фактор. Різниця між оптимізованим і наївним використанням мережі може подовжити час навчання втричі та збільшити витрати на $50 мільйонів для великих циклів навчання моделей. Цей посібник розглядає перевірені методи керування екстремальними вимогами до пропускної здатності в розподіленому навчанні ШІ.

Патерни мережевого трафіку в розподіленому навчанні

Операції all-reduce домінують у комунікації розподіленого навчання, споживаючи 89% пропускної здатності мережі під час навчання великих моделей. Кожна ітерація навчання вимагає, щоб кожен GPU поділився своїми обчисленими градієнтами з усіма іншими GPU, створюючи патерн комунікації N-до-N, який генерує N²/2 мережевих потоків. Для моделі з 70B параметрів, що навчається на 512 GPU, це означає 280 ГБ градієнтних даних, які необхідно синхронізувати кожні 2 секунди, вимагаючи сукупної пропускної здатності 140 ГБ/с або 1,12 Тбіт/с.

Архітектури серверів параметрів створюють інші патерни трафіку з централізованими вузькими місцями. Робочі вузли надсилають градієнти на сервери параметрів, які агрегують і перерозподіляють оновлені ваги. Цей патерн «зірка» концентрує вимоги до пропускної здатності на серверах параметрів, які повинні обробляти 2N-кратний обсяг градієнтів. Рекомендаційні моделі Amazon, що використовують сервери параметрів, бачать 90% трафіку, що проходить через лише 10% вузлів, що вимагає ретельного планування топології мережі для запобігання перевантаженню.

Конвеєрний паралелізм генерує двоточковий трафік між суміжними етапами конвеєра. Активації рухаються вперед через конвеєр, тоді як градієнти рухаються назад, створюючи двонаправлені патерни трафіку. Кожна межа конвеєра передає приблизно 10 ГБ даних активації на батч для великих моделей. Реалізація конвеєра DeepSpeed від Microsoft досягає 95% ефективності пропускної здатності завдяки ретельному плануванню, що перекриває обчислення з комунікацією.

Трафік паралелізму даних масштабується лінійно з розміром моделі, але залишається постійним зі зростанням кількості GPU. Кожен GPU повинен отримати повний тензор градієнтів незалежно від ступеня паралелізму. Модель зі 175B параметрів генерує 700 ГБ градієнтних даних за ітерацію, незалежно від того, чи навчається вона на 100 або 1000 GPU. Ця характеристика робить вимоги до пропускної здатності передбачуваними, але суттєвими для великих моделей.

Тензорний паралелізм створює дрібнозернисту комунікацію в межах шарів моделі. Множення матриць, розподілене між GPU, вимагає обміну проміжними результатами посеред обчислень. Це генерує чутливий до затримок трафік із суворими вимогами до синхронізації. Реалізація Megatron від NVIDIA маскує 70% затримки комунікації тензорного паралелізму через перекриття з обчисленнями, але все ще потребує пропускної здатності 200 Гбіт/с між тензорно-паралельними GPU.

Методи та стратегії оптимізації

Компресія градієнтів зменшує обсяг комунікації в 10-100 разів з мінімальним впливом на точність. Спарсифікація передає лише top-k градієнти, зазвичай найбільші 1% за величиною. Квантування зменшує точність градієнтів з 32-бітної до 8-бітної або навіть 1-бітної репрезентації. Механізми зворотного зв'язку помилок накопичують помилки компресії локально, зберігаючи властивості збіжності. 1-bit Adam від Microsoft досягає 94% компресії без втрати точності для навчання BERT.

Алгоритми ring-allreduce мінімізують вимоги до пропускної здатності порівняно з наївними підходами broadcast. Градієнти рухаються по логічному кільцю, де кожен GPU отримує від одного сусіда і надсилає іншому. Це вимагає лише (N-1)/N даних для проходження через будь-яке одне з'єднання, досягаючи оптимального використання пропускної здатності. Бібліотека NCCL від NVIDIA реалізує оптимальні за пропускною здатністю кільцеві алгоритми, що досягають 90% теоретичної пропускної здатності мережі.

Ієрархічна редукція використовує топологію мережі для мінімізації міжкомутаторного трафіку. Локальна редукція в межах стійок передує глобальній редукції між стійками. Це зменшує міжстійковий трафік на кількість GPU у стійці, зазвичай у 8 разів. TPU-поди Google реалізують трирівневу ієрархічну редукцію, зберігаючи 70% трафіку в межах локальних комутаторів. Правильне проектування ієрархії може зменшити вимоги до глобальної мережі на 90%.

Накопичення градієнтів протягом кількох мікробатчів амортизує накладні витрати на комунікацію. Замість синхронізації після кожного мікробатча градієнти накопичуються локально перед періодичною синхронізацією. Це зменшує частоту комунікації пропорційно до кроків накопичення. Навчання GPT-3 від OpenAI накопичувало градієнти протягом 8 мікробатчів, зменшуючи мережевий трафік на 87,5% з еквівалентними математичними результатами.

Планування комунікації перекриває передачу даних з обчисленнями для приховування затримок. Поки шар N обчислюється, градієнти шару N-1 передаються у фоновому режимі. Це конвеєрування вимагає лише достатньої пропускної здатності для відповідності швидкості обчислень, а не пікової ємності сплеску. Правильне планування досягає 95% завантаження GPU, незважаючи на безперервну мережеву комунікацію. Планувальник комунікації DeepSpeed автоматично оптимізує патерни перекриття на основі даних профілювання.

Проектування інфраструктури для високої пропускної здатності

Топологія мережі критично впливає на досяжну пропускну здатність і продуктивність навчання. Архітектури fat-tree забезпечують повну секційну пропускну здатність, що дозволяє комунікацію будь-який-до-будь-якого на лінійній швидкості. Дизайни leaf-spine з перепідпискою 3:1 балансують вартість і продуктивність для більшості робочих навантажень. Топології dragonfly зменшують кількість комутаторів, зберігаючи високу пропускну здатність через інтелектуальну маршрутизацію. Research SuperCluster від Meta використовує трирівневу мережу Clos, що досягає сукупної пропускної здатності 2 Пбіт/с.

Розгортання InfiniBand забезпечують кращу пропускну здатність і затримку порівняно з Ethernet для робочих навантажень ШІ. NDR 400Gb/s InfiniBand надає 400 Гбіт/с на порт із субмікросекундною затримкою. Обхід ядра мережевого стека через RDMA зменшує навантаження на CPU майже до нуля. Адаптивна маршрутизація автоматично балансує навантаження між кількома шляхами. Суперкомп'ютер Selene від NVIDIA використовує виключно InfiniBand, досягаючи 95% ефективності масштабування до 4480 GPU.

Еволюція Ethernet приносить конкурентну продуктивність за нижчу ціну, ніж InfiniBand. Стандарти 400GbE та нові 800GbE наближаються до рівнів пропускної здатності InfiniBand. RoCEv2 (RDMA over Converged Ethernet) дозволяє обхід ядра в мережах Ethernet. Однак Ethernet вимагає ретельного налаштування керування потоком, QoS та керування перевантаженням. EFA (Elastic Fabric Adapter) від Amazon демонструє, що Ethernet може відповідати InfiniBand для певних робочих навантажень.

Вибір комутаторів впливає як на пропускну здатність, так і на характеристики затримки. Комутатори Broadcom Tomahawk забезпечують високу щільність портів за конкурентними цінами, але з вищою затримкою. Програмовані комутатори Intel Tofino дозволяють реалізувати власні алгоритми керування перевантаженням. Комутатори NVIDIA Spectrum інтегруються з пам'яттю GPU для прямого розміщення даних. Глибина буфера комутатора повинна вміщувати сплески трафіку без втрати пакетів. Правильний вибір комутаторів може покращити ефективну пропускну здатність на 30%.

Проектування кабельної інфраструктури впливає на цілісність сигналу на високих швидкостях. Кабелі Direct Attach Copper (DAC) працюють для відстаней до 3 метрів при 400 Гбіт/с. Активні оптичні кабелі (AOC) розширюють охоплення до 100 метрів із нижчим енергоспоживанням. Одномодове волокно дозволяє розгортання в масштабах кампусу, але вимагає дорогих трансиверів. Якість кабелів безпосередньо впливає на частоту бітових помилок, які викликають повторні передачі, що зменшує ефективну пропускну здатність. Центри обробки даних Google стандартизовані на AOC для стабільної продуктивності.

Керування перевантаженням і трафіком

Алгоритми керування перевантаженням TCP погано працюють у високошвидкісних мережах з низькою затримкою, типових для кластерів ШІ. Традиційні алгоритми, такі як CUBIC, недовикористовують доступну пропускну здатність через консервативні темпи зростання. Data Center TCP (DCTCP) використовує маркування ECN для підтримки неглибоких черг і високого використання. Керування перевантаженням Swift від Google досягає 99% завантаження каналів з мікросекундною затримкою. Правильний вибір керування перевантаженням покращує ефективну пропускну здатність на 40%.

Конфігурація Quality of Service (QoS) пріоритезує градієнтний трафік над допоміжними потоками. Маркування DSCP ідентифікує навчальний трафік для преференційної обробки. Priority Flow Control (PFC) запобігає втраті пакетів для критичного трафіку. Зважене справедливе обслуговування розподіляє пропускну здатність пропорційно між різними класами трафіку. Ці механізми забезпечують отримання навчальним трафіком необхідної пропускної здатності, незважаючи на конкуруючі робочі навантаження. Інфраструктура ШІ Microsoft Azure використовує 8 класів QoS для диференціації трафіку.

Балансування навантаження між кількома шляхами максимізує використання сукупної пропускної здатності. Маршрутизація Equal-Cost Multi-Path (ECMP) розподіляє потоки між паралельними каналами. Адаптивна маршрутизація динамічно підлаштовується до перевантаження та відмов. Розсіювання по пакетах досягає найдрібнішого балансу навантаження, але може викликати переупорядкування. Fabric Facebook використовує адаптивну маршрутизацію, досягаючи 95% завантаження всіх каналів одночасно.

Керування буферами запобігає втраті пакетів, мінімізуючи затримку. Неглибокі буфери зменшують затримку в черзі, але ризикують втратами під час сплесків. Глибокі буфери вміщують сплески трафіку, але збільшують затримку. Active Queue Management (AQM) динамічно регулює ймовірність відкидання на основі заповненості черги. Оптимальний розмір буфера для робочих навантажень ШІ зазвичай становить 100-200 мікросекунд пропускної здатності каналу. Цей баланс суттєво впливає на ефективну пропускну здатність.

Механізми керування потоком запобігають швидким відправникам від перевантаження повільних отримувачів. Кредитне керування потоком в InfiniBand запобігає перевантаженню на джерелі. Priority Flow Control в Ethernet може викликати блокування головою черги при неправильній конфігурації. Керування потоком, кероване отримувачем, дозволяє точне узгодження швидкостей. Правильна конфігурація керування потоком запобігає втраті пакетів, яка б викликала дорогі повторні передачі.

Моніторинг та аналіз продуктивності

Метрики використання пропускної здатності показують, чи обмежує мережева ємність продуктивність навчання. Завантаження каналів має в середньому становити 60-80% з піками нижче 95% для вміщення сплесків. Виявлення мікросплесків вимагає субмілісекундного семплування для перехоплення транзієнтних перевантажень. Стале високе завантаження вказує на потребу в розширенні ємності. Моніторинг Alibaba показує 73% середнього завантаження по їхній навчальній мережі з 92% піками.

Профілювання затримок виявляє комунікаційні вузькі місця, що впливають на час ітерації навчання. Час завершення all-reduce безпосередньо впливає на завантаження GPU та швидкість навчання. Хвостові затримки важливіші за середні для синхронізованих операцій. Внесок мережі в загальний час ітерації повинен залишатися нижче 25%. Інструменти профілювання повинні корелювати мережеві події з часовою шкалою GPU для точної атрибуції.

Моніторинг втрати пакетів виявляє проблеми мережі до того, як вони суттєво вплинуть на навчання. Навіть 0,01% рівень втрат може зменшити ефективну пропускну здатність на 10% через повторні передачі. Патерни втрат показують, чи є проблеми систематичними або випадковими. Кореляція з конкретними комутаторами або каналами ідентифікує несправні компоненти. Автоматичне оповіщення про втрату пакетів запобігає тривалим затримкам навчання.

Аналіз патернів трафіку оптимізує конфігурацію мережі для фактичних робочих навантажень. Теплові карти візуалізують патерни комунікації між парами GPU. Часовий аналіз виявляє періодичні патерни та аномалії. Незбалансований трафік вказує на субоптимальні стратегії паралелізації. Цей аналіз спрямовує оптимізацію топології та

[Контент скорочено для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ