Впровадження NVMe-oF: дезагрегація сховищ для розгортань на 100 000 GPU

Впровадження NVMe-oF прискорюється завдяки накопичувачам PCIe Gen5 зі швидкістю 14 ГБ/с та фабрикам 400GbE, що стають стандартом. Специфікацію NVMe 2.0 завершено з покращеною підтримкою багатошляхового доступу та зонованих просторів імен....

Впровадження NVMe-oF: дезагрегація сховищ для розгортань на 100 000 GPU

Впровадження NVMe-oF: дезагрегація сховищ для розгортань на 100 000 GPU

Оновлено 8 грудня 2025 року

Оновлення за грудень 2025: Впровадження NVMe-oF прискорюється завдяки накопичувачам PCIe Gen5 зі швидкістю 14 ГБ/с та фабрикам 400GbE, що стають стандартом. Специфікацію NVMe 2.0 завершено з покращеною підтримкою багатошляхового доступу та зонованих просторів імен. DPU NVIDIA BlueField-3 забезпечують апаратне прискорення NVMe-oF з пропускною здатністю 400 Гбіт/с. Обчислювальні сховища з'являються для попередньої обробки даних перед передачею на GPU, що зменшує вимоги до пропускної здатності на 40-60% для окремих робочих навантажень.

Рекомендаційний рушій ByteDance охоплює 100 000 GPU у 12 центрах обробки даних, але досягає 94% використання сховища завдяки технології NVMe over Fabric, яка об'єднує 85 петабайт флеш-пам'яті в єдиний логічний простір імен, доступний для будь-якого GPU зі швидкістю 180 ГБ/с та затримкою 5 мікросекунд.¹ Китайський технологічний гігант раніше виділяв фіксоване сховище для кожного GPU-сервера, що призводило до 40% простою ємності, тоді як інші вузли потерпали від нестачі місця. Їхня архітектура NVMe-oF тепер динамічно призначає блоки сховища GPU на вимогу, усуваючи надлишкові закупівлі SSD на $42 мільйони та покращуючи швидкість навчання моделей у 2,3 рази завдяки оптимізованому розміщенню даних. Традиційні архітектури сховищ з прямим підключенням не справляються з гіпермасштабом — при управлінні 100 000 GPU можливість дезагрегації сховища від обчислень стає різницею між лінійним масштабуванням та експоненціальною складністю.

NVMe over Fabric розширює протокол NVMe через мережеві фабрики, забезпечуючи віддалений доступ до сховища з продуктивністю, близькою до локальної. Організації, що впроваджують NVMe-oF, повідомляють про 85-95% використання сховища порівняно з 50-60% при конфігураціях з прямим підключенням, зберігаючи затримки менше 10 мікросекунд.² Технологія підтримує кілька транспортних протоколів, включаючи RDMA over Converged Ethernet (RoCE), InfiniBand, Fibre Channel та TCP, причому розгортання RoCE домінують в AI-інфраструктурі завдяки повсюдному поширенню Ethernet. Дезагреговані архітектури сховищ зменшують капітальні витрати на 35-45% завдяки покращеному використанню, дозволяють незалежне масштабування обчислювальних ресурсів та ресурсів сховища, а також забезпечують операційну гнучкість, неможливу з традиційними архітектурами.

Основи протоколу NVMe-oF

NVMe over Fabric зберігає ефективність протоколу NVMe, розширюючи його на мережеві транспорти. Протокол підтримує оптимізований набір команд NVMe, архітектуру паралельних черг та модель на основі переривань, додаючи мінімальні накладні витрати на мережевий транспорт. Типова транзакція NVMe-oF додає лише 2-8 мікросекунд затримки порівняно з локальним NVMe, досягаючи 95% продуктивності локального SSD через належним чином налаштовані мережі.³

Варіанти транспорту визначають характеристики продуктивності та складність розгортання:

NVMe over RoCE v2 домінує в корпоративних розгортаннях завдяки повторному використанню Ethernet-інфраструктури. RoCE (RDMA over Converged Ethernet) забезпечує обхід ядра та передачу без копіювання, досягаючи затримок менше 5 мікросекунд. Конфігурація Ethernet без втрат з використанням Priority Flow Control запобігає втраті пакетів. Стандартні Ethernet-комутатори підтримують RoCE з відповідною прошивкою. Розгортання вимагає ретельного налаштування Quality of Service для запобігання перевантаженню.

NVMe over InfiniBand забезпечує найнижчу затримку 2-3 мікросекунди, але вимагає спеціалізованої інфраструктури. Кредитне керування потоком InfiniBand гарантує доставку без втрат без складнощів PFC. Вбудоване управління перевантаженням запобігає зниженню продуктивності під навантаженням. Вища вартість обмежує впровадження розгортаннями, критичними до продуктивності. Нативна підтримка GPU Direct Storage максимізує пропускну здатність.

NVMe over TCP забезпечує максимальну сумісність з використанням стандартних мереж TCP/IP. Суто програмна реалізація не вимагає спеціального обладнання. Затримки варіюються від 15 до 50 мікросекунд залежно від умов мережі. Контроль перевантаження та повторна передача TCP додають накладні витрати. Підходить для рівнів сховищ, орієнтованих на ємність, де вартість важливіша за продуктивність.

NVMe over Fibre Channel використовує існуючу SAN-інфраструктуру в корпоративних середовищах. Доставка без втрат та зонування FC забезпечують ізоляцію сховища. Затримки зазвичай становлять 10-20 мікросекунд. Наразі обмежено 32 Гбіт/с, тоді як Ethernet досягає 400 Гбіт/с. Переважно використовується для переходу застарілих FC-середовищ на NVMe.

Проектування архітектури для масштабу 100 000 GPU

Масштабування NVMe-oF до 100 000 GPU вимагає ієрархічної архітектури з кількома рівнями агрегації:

Leaf-Spine фабрика сховища: Вузли сховища підключаються до leaf-комутаторів на швидкості 100-200GbE. Кожен leaf обслуговує 32-48 вузлів сховища з перепідпискою 2:1. Spine-комутатори з'єднують leaf за допомогою каналів 400-800GbE. Неблокуючий рівень spine запобігає перевантаженню між leaf. Типове розгортання використовує 4-8 spine для резервування та пропускної здатності.

Масштабування на основі Pod: Організуйте інфраструктуру в pod по 1000-2000 GPU для керованих доменів. Кожен pod містить виділену фабрику сховища з 20-40 вузлами сховища. Міжподові з'єднання використовують високошвидкісні канали DCI (Data Center Interconnect). Pod масштабуються незалежно, не впливаючи на інші. Домени відмов обмежують радіус ураження від збоїв.

Конфігурація вузла сховища: Двосокетні сервери з 24-36 NVMe-накопичувачами на вузол. Мережеві адаптери 200GbE з двома портами для резервного підключення до фабрики. 512 ГБ-1 ТБ оперативної пам'яті для кешування метаданих та буферів. Можливості апаратного розвантаження для обробки NVMe-oF. Програмно-визначений рівень сховища для управління пулами накопичувачів.

Архітектура просторів імен: Глобальний простір імен забезпечує єдине представлення сховища на всіх вузлах. Підпростори імен ізолюють дані орендарів або застосунків. Динамічне створення/видалення просторів імен без перебоїв. Тонке надання запобігає марнуванню ємності. Спільне використання просторів імен забезпечує спільні робочі процеси.

Реальне розгортання в масштабі ByteDance: - 12 центрів обробки даних з 8000-10000 GPU кожен - 2500 вузлів сховища, що забезпечують 85 ПБ корисної ємності - 3-рівнева мережа Clos зі spine 400GbE - 180 ГБ/с сукупної пропускної здатності на стійку - 5 мікросекунд середньої затримки - 94% використання сховища досягнуто

Найкращі практики впровадження

Успішні розгортання NVMe-oF дотримуються усталених патернів:

Досконала конфігурація мережі: Увімкніть jumbo-кадри (9000 MTU) наскрізно для ефективності. Налаштуйте Priority Flow Control (PFC) на всіх портах комутаторів для доставки без втрат. Впровадьте Enhanced Transmission Selection (ETS) для розподілу пропускної здатності. Розгорніть Data Center Bridging (DCB) для уніфікованої конфігурації. Моніторте статистику pause-кадрів PFC для виявлення перевантаження. Відокремте трафік сховища за допомогою VLAN або оверлейних мереж.

Оптимізація Quality of Service: Призначте трафіку сховища найвищий клас пріоритету. Зарезервуйте мінімум 40% пропускної здатності для потоків сховища. Налаштуйте зважене справедливе обслуговування черг для класів трафіку. Впровадьте обмеження швидкості для запобігання домінування окремих потоків. Моніторте використання буферів для запобігання втратам. Коригуйте параметри QoS на основі патернів робочих навантажень.

Резервування та висока доступність: Розгортайте вузли сховища з подвійним підключенням до окремих комутаторів. Впроваджуйте багатошляховий введення/виведення з активними-активними шляхами. Налаштуйте автоматичне перемикання шляхів за 50 мс або швидше. Використовуйте консистентне хешування для розподілу даних. Підтримуйте 3-кратну реплікацію або erasure coding для надійності. Проектуйте з резервуванням N+2 на рівні компонентів.

Впровадження безпеки: Увімкніть IPsec або TLS для шифрування при передачі. Впровадьте контроль доступу на основі зон для ізоляції. Використовуйте ключі автентифікації для з'єднань NVMe-oF. Розгорніть мікросегментацію для обмеження бокового переміщення. Проводьте аудит усього доступу до сховища для відповідності вимогам. Регулярне сканування безпеки на вразливості.

Introl проектує та розгортає архітектури NVMe-oF для гіпермасштабної AI-інфраструктури в нашій зоні глобального покриття, з підтвердженою експертизою управління дезагрегованими системами сховищ, що підтримують до 100 000 GPU.⁴ Наші команди впровадили понад 50 розгортань NVMe-oF масштабом від 1 ПБ до 100 ПБ.

Техніки оптимізації продуктивності

Досягнення максимальної продуктивності NVMe-oF вимагає систематичної оптимізації:

Налаштування CPU та переривань: Прив'яжіть переривання NVMe-oF до виділених ядер CPU, уникаючи накладних витрат планувальника. Вимкніть масштабування частоти CPU для стабільної продуктивності. Налаштуйте NUMA-спорідненість для локального доступу до пам'яті. Збільште коалесценцію переривань для зменшення використання CPU. Увімкніть адаптивну модерацію переривань для динамічної оптимізації. Моніторте використання CPU для виявлення вузьких місць.

Управління пам'яттю та буферами: Виділіть huge pages для буферів NVMe-oF, зменшуючи промахи TLB. Налаштуйте параметри пам'яті ядра для робочих навантажень з високою пропускною здатністю. Налаштуйте відповідні розміри буферів сокетів для мережевого стеку. Впровадьте пулінг пам'яті для зменшення накладних витрат на виділення. Моніторте використання пропускної здатності пам'яті. Запобігайте фрагментації пам'яті через ретельне виділення.

Оптимізація стеку сховища: Вирівняйте розміри введення/виведення з межами сторінок SSD для ефективності. Налаштуйте глибину черги між 256-1024 на з'єднання. Увімкніть controller memory buffers (CMB) для зменшення затримки. Впровадьте планування введення/виведення, оптимізоване для характеристик NVMe. Вимкніть непотрібні функції, такі як журналювання. Моніторте вирівнювання зносу SSD та збирання сміття.

Інтелектуальне розміщення робочих навантажень: Впровадьте алгоритми локальності даних, зберігаючи гарячі дані поблизу обчислень. Використовуйте консистентне хешування для передбачуваного розподілу даних. Балансуйте ємність та продуктивність між вузлами сховища. Мігруйте дані на основі патернів доступу. Кешуйте часто використовувані дані на швидших рівнях. Прогнозуйте майбутні патерни доступу за допомогою ML-моделей.

Метрики продуктивності з виробничих розгортань: - Випадкове читання 4 КБ: 15 мільйонів IOPS на вузол сховища - Послідовне читання 128 КБ: 180 ГБ/с на вузол сховища - Середня затримка: 5-7 мікросекунд через RoCE - Хвостова затримка (p99.9): 25 мікросекунд - Накладні витрати CPU: 8-12% для насичених робочих навантажень

Усунення типових проблем

Розгортання NVMe-oF стикаються з характерними викликами, що вимагають специфічних рішень:

Різкі стрибки затримки: Симптом: Періодичні збільшення затримки з 5 мкс до 500 мкс Причини: PFC-шторми, вичерпання буферів, повторні передачі TCP Рішення: Налаштуйте пороги PFC, збільште буфери комутаторів, ізолюйте трафік сховища Моніторинг: Відстежуйте тривалість та частоту pause-кадрів

Деградація пропускної здатності: Симптом: Продуктивність падає зі 180 ГБ/с до 50 ГБ/с Причини: Перевантаження мережі, термальне дроселювання SSD, вузькі місця CPU Рішення: Впровадьте формування трафіку, покращте охолодження, масштабуйте вузли сховища Моніторинг: Вимірюйте використання кожного каналу та температури SSD

Збої з'єднань: Симптом: З'єднання NVMe-oF випадково розриваються Причини: Проблеми з автентифікацією, збої мережі, баги драйверів Рішення: Перевірте облікові дані, перевірте кабелі/оптику, оновіть драйвери/прошивки Моніторинг: Журналюйте зміни стану з'єднань та лічильники помилок

Дисбаланс ємності: Симптом: Деякі вузли на 95% ємності, інші на 40% Причини: Погане розміщення даних, перекіс робочих навантажень, невдале перебалансування Рішення: Впровадьте краще хешування, активно мігруйте дані, виправте автоматизацію Моніторинг: Відстежуйте ємність та розподіл IOPS по вузлах

Приклади реальних розгортань

Meta — Модернізація інфраструктури навчання: - Виклик: 50 000 GPU з 60% використанням сховища - Рішення: Розгортання NVMe-oF з 40 ПБ дезагрегованого сховища - Архітектура: RoCE v2 через фабрику Ethernet 200GbE - Результати: 90% використання, у 2,1 рази швидше навчання моделей - Інвестиції: $45 мільйонів заощаджено на закупівлях сховища - Ключова інновація: Прогнозне розміщення даних на основі патернів доступу

Фінансова компанія — Аналіз тікових даних: - Масштаб: 5000 GPU, що обробляють 10 ТБ/день ринкових даних - Сховище: Пул NVMe-oF 5 ПБ з доступом менше мілісекунди - Мережа: Фабрика InfiniBand для детермінованої затримки - Продуктивність: Досягнуто середньої затримки 3 мікросекунди - Перевага: Аналіз 20-річних історичних даних у реальному часі - Архітектура: Багаторівневе сховище з NVMe та Optane PMem

Компанія автономних транспортних засобів — Платформа симуляції: - Набір даних: 100 ПБ відеозаписів водіння та даних датчиків - Інфраструктура: 8000 GPU з централізованим сховищем - Технологія: NVMe-oF через TCP для оптимізації витрат - Пропускна здатність: 500 ГБ/с сук

[Контент скорочено для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ