Об'єктне сховище для ШІ: впровадження GPU Direct Storage з пропускною здатністю 200 ГБ/с

GPUDirect Storage 2.0 постачається з CUDA 12.3+, забезпечуючи 15% покращення пропускної здатності та нативну підтримку GPU H100/H200. PCIe Gen5 NVMe-накопичувачі тепер досягають 14 ГБ/с на диск, що дозволяє отримати понад 400 ГБ/с...

Об'єктне сховище для ШІ: впровадження GPU Direct Storage з пропускною здатністю 200 ГБ/с

Об'єктне сховище для ШІ: впровадження GPU Direct Storage з пропускною здатністю 200 ГБ/с

Оновлено 8 грудня 2025 року

Оновлення грудня 2025: GPUDirect Storage 2.0 постачається з CUDA 12.3+, забезпечуючи 15% покращення пропускної здатності та нативну підтримку GPU H100/H200. PCIe Gen5 NVMe-накопичувачі тепер досягають 14 ГБ/с на диск, що дозволяє отримати понад 400 ГБ/с на сервер. Стек NVIDIA Magnum IO оптимізований для Blackwell, ранні бенчмарки показують стабільну пропускну здатність 250 ГБ/с. Основні хмарні провайдери (AWS, Azure, GCP) тепер пропонують інстанси з підтримкою GPUDirect Storage та інтеграцією з EBS/Azure Disk/Persistent Disk.

Meta досягла 3,8-кратного покращення швидкості навчання моделей, впровадивши GPUDirect Storage у своїх дослідницьких кластерах, усунувши вузьке місце CPU, яке раніше обмежувало швидкість завантаження даних до 50 ГБ/с, і тепер передає навчальні дані безпосередньо на GPU зі швидкістю 192 ГБ/с.¹ Завдання навчання PyTorch цього гіганта соціальних мереж раніше витрачали 35% обчислювального часу на очікування даних — злочинне марнування, коли GPU H100 коштують $3,50 за годину. Їхня архітектура об'єктного сховища тепер одночасно живить 2048 GPU через паралельні S3-сумісні ендпоінти, при цьому кожен GPU отримує свій фрагмент даних без участі CPU. Сучасні робочі навантаження ШІ вимагають систем зберігання, які відповідають швидкості обробки GPU, проте більшість організацій досі пропускають петабайти через традиційні файлові системи, розроблені для ери CPU.

Навчання GPT-4 вимагало обробки 13 трильйонів токенів з наборів даних обсягом понад 45 ТБ, при цьому швидкість завантаження даних безпосередньо впливала на вартість навчання в $100 мільйонів.² Об'єктне сховище забезпечує масштабованість, довговічність та паралельні патерни доступу, необхідні для робочих навантажень ШІ, підтримуючи тисячі одночасних GPU-читачів при збереженні довговічності 99,999999999% (11 дев'яток). Організації, що впроваджують оптимізоване для GPU об'єктне сховище, повідомляють про 60% скорочення часу навчання, 75% зниження витрат на зберігання порівняно з традиційними SAN/NAS та можливість масштабування від терабайтів до ексабайтів без змін архітектури. Конвергенція NVMe-сховищ, RDMA-мереж та технології GPUDirect забезпечує пропускну здатність сховища, яка нарешті відповідає апетитам сучасних GPU.

Основи архітектури GPUDirect Storage

GPUDirect Storage (GDS) революціонізує переміщення даних, встановлюючи прямі шляхи пам'яті між сховищем та пам'яттю GPU, повністю оминаючи CPU та системну RAM. Традиційні шляхи даних вимагають чотирьох копіювань пам'яті: зі сховища в буфер ядра, з ядра в простір користувача, з простору користувача в драйвер GPU, з драйвера в пам'ять GPU.³ GDS усуває проміжні копіювання через обхід ядра та peer-to-peer DMA, зменшуючи затримку з 15 мікросекунд до менш ніж 2 мікросекунд. Програмний стек NVIDIA Magnum IO оркеструє ці передачі, досягаючи 97% теоретичної пропускної здатності NVMe.

Технологічний стек вимагає узгодженої роботи специфічних апаратних та програмних компонентів. NVMe SSD з підтримкою CMB/PMR забезпечують пряме відображення пам'яті. Мережеві карти з підтримкою RDMA (ConnectX-6 або новіші) забезпечують віддалений доступ до сховища. GPU покоління V100 і новіших підтримують операції GDS. Ядро Linux 5.10+ включає необхідні драйвери та функції управління пам'яттю. Мережевий стек MOFED забезпечує RoCE v2 для розгортань на Ethernet. Застосунки вимагають явної інтеграції API GDS або сумісних фреймворків, таких як DALI для глибокого навчання.

Архітектури впровадження варіюються залежно від масштабу та вимог до продуктивності:

Локальний NVMe: Безпосередньо підключені NVMe-накопичувачі забезпечують 200 ГБ/с на сервер з 8 дисками. Кожен GPU відображає специфічні диски через peer-to-peer PCIe-транзакції. Найнижча затримка, але обмежена ємність та відсутність спільного доступу між вузлами.

NVMe-oF: Дезагреговані NVMe-масиви з доступом через фабрику забезпечують 100 ГБ/с на з'єднання. Вузли зберігання безпосередньо надають простори імен серверам GPU. Дозволяє об'єднання ресурсів при збереженні мікросекундних затримок.

S3-сумісне об'єктне сховище: Масштабовані об'єктні сховища забезпечують необмежену ємність з паралельним доступом. Кілька вузлів зберігання одночасно обслуговують фрагменти для досягнення сукупної пропускної здатності. Вища затримка, але масивна масштабованість та вбудована довговічність.

Проєктування інфраструктури сховища

Досягнення стабільної пропускної здатності 200 ГБ/с вимагає ретельного проєктування інфраструктури на кількох рівнях:

Вибір носіїв зберігання: Корпоративні NVMe-накопичувачі забезпечують 7 ГБ/с послідовного читання на диск. Samsung PM1735 або серія Kioxia CM6 забезпечують стабільну продуктивність під постійним навантаженням.⁴ Форм-фактор U.2 дозволяє встановити 24 диски в 2U-сервер. M.2-накопичувачі пропонують вищу щільність, але мають термічні проблеми. Постійна пам'ять Optane забезпечує 40 ГБ/с на модуль для кешування гарячих даних. Розраховуйте мінімум 30-35 накопичувачів для 200 ГБ/с з урахуванням накладних витрат.

Мережева архітектура: 200GbE або подвійний 100GbE забезпечує достатню пропускну здатність із запасом. RDMA over Converged Ethernet (RoCE v2) усуває накладні витрати протоколу. Топологія spine-leaf зі співвідношенням перепідписки 3:1 обробляє піковий трафік. Кожен вузол зберігання потребує пропускної здатності аплінку 200 Гбіт/с. Вузли GPU потребують відповідної вхідної пропускної здатності. Неблокуючі комутатори запобігають уповільненням через перевантаження.

Конфігурація серверів: Вузли зберігання балансують CPU, пам'ять та ємність накопичувачів. Два AMD EPYC або Intel Xeon забезпечують достатню обчислювальну потужність для erasure coding. 512 ГБ RAM дозволяє розширене кешування метаданих. Апаратні RAID-контролери створюють вузьке місце продуктивності — використовуйте програмно-визначене сховище. Два порти 100GbE забезпечують резервування та балансування навантаження. Слоти PCIe Gen4 x16 для кожного NVMe-накопичувача забезпечують повну пропускну здатність.

Програмний стек: Платформи об'єктного сховища суттєво відрізняються за оптимізацією для GPU: - MinIO: Нативна реалізація S3 з підтримкою GDS, демонструє пропускну здатність 183 ГБ/с⁵ - VAST Data: Апаратно оптимізована платформа, що досягає 200 ГБ/с з QLC flash - WekaFS: Паралельна файлова система зі шлюзом S3, виміряна продуктивність 191 ГБ/с - Pure Storage FlashBlade: Інтегровані масиви з 75 ГБ/с на шасі - DDN EXAScaler: Рішення, орієнтоване на HPC, що досягає 250 ГБ/с на масштабі

Найкращі практики впровадження

Успішні розгортання GPU Direct Storage дотримуються перевірених патернів:

Організація даних: Структуруйте набори даних для паралельних патернів доступу. Розбивайте навчальні дані на кілька об'єктів розміром 64-256 МБ для оптимального стрімінгу. Впроваджуйте консистентне хешування для детермінованого відображення GPU-фрагмент. Зберігайте метадані у швидких key-value сховищах для швидкої індексації наборів даних. Версіонуйте набори даних за принципами незмінних об'єктів. Стискайте дані там, де декомпресія на GPU випереджає пропускну здатність сховища.

Дизайн просторів імен: Розділяйте простори імен за типом робочого навантаження та патерном доступу. Навчальні дані в пулах з високою пропускною здатністю та erasure coding. Контрольні точки моделей у пулах з високою довговічністю та реплікацією. Тимчасові дані в оптимізованих за продуктивністю пулах без надлишковості. Архівні дані в оптимізованих за ємністю пулах з агресивним стисненням.

Стратегія кешування: Впроваджуйте багаторівневе кешування для часто використовуваних даних. NVMe-кеш на вузлах GPU для робочих наборів до 10 ТБ. Розподілений кеш з використанням Redis або Memcached для метаданих. Кеш на стороні сховища з використанням Optane або RAM для гарячих об'єктів. Випереджаюче завантаження на основі патернів навчальних епох. Прогрівання кешу в непікові години зменшує вплив на продуктивне середовище.

Балансування навантаження: Розподіляйте запити між вузлами зберігання для сукупної пропускної здатності. DNS round-robin для простого розподілу S3-ендпоінтів. HAProxy або NGINX для інтелектуальної маршрутизації запитів. Балансування на стороні клієнта з використанням консистентного хешування. Моніторинг пропускної здатності кожного вузла для виявлення вузьких місць. Впровадження об'єднання запитів для малих об'єктів.

Introl проєктує та впроваджує високопродуктивні рішення зберігання для робочих навантажень ШІ у нашій глобальній зоні покриття, маючи експертизу управління петабайтними об'єктними сховищами.⁶ Наші команди оптимізують інфраструктуру зберігання для максимального використання GPU та ефективності навчання.

Техніки оптимізації продуктивності

Досягнення стабільної пропускної здатності 200 ГБ/с вимагає систематичної оптимізації:

Налаштування ядра: Збільште мережеві буфери до 128 МБ для високопропускних з'єднань. Вимкніть масштабування частоти CPU для стабільної затримки. Прив'яжіть обробники переривань до специфічних ядер, уникаючи ядер GPU. Увімкніть huge pages для зменшення навантаження на TLB. Налаштуйте параметри NUMA для локального доступу до пам'яті. Встановіть io_schedule на 'none' для NVMe-пристроїв.

Оптимізація мережі: Увімкніть jumbo frames (9000 MTU) на всьому шляху. Налаштуйте ECN для повідомлення про перевантаження без втрати пакетів. Налаштуйте параметри TCP для високих добутків пропускної здатності на затримку. Увімкніть апаратне розвантаження для контрольних сум та сегментації. Налаштуйте об'єднання переривань для зменшення накладних витрат CPU. Впровадьте контроль пріоритетного потоку для безвтратного RoCE.

Налаштування сховища: Вирівняйте межі розділів до розмірів блоків стирання. Налаштуйте відповідні глибини черг (256-1024 на пристрій). Увімкніть кешування запису із захистом від втрати живлення. Вимкніть непотрібні функції файлової системи, такі як оновлення часу доступу. Впровадьте TRIM/UNMAP для стабільної продуктивності SSD. Моніторте вирівнювання зносу SSD та завчасно замінюйте накопичувачі.

Оптимізація застосунків: Використовуйте великі розміри IO (1-4 МБ) для послідовного доступу. Впровадьте випереджаюче завантаження для приховування затримки сховища. Перекривайте обчислення з передачею даних за допомогою подвійної буферизації. Прив'язуйте буфери пам'яті для запобігання міграції сторінок. Використовуйте прямий IO для обходу кешування ядра. Об'єднуйте малі запити в більші операції.

Реальні впровадження

OpenAI — інфраструктура навчання GPT: - Сховище: 50 ПБ WekaFS з S3-інтерфейсом - Пропускна здатність: 175 ГБ/с стабільно до 10 000 GPU - Архітектура: 100 вузлів зберігання з NVMe + Optane - Мережа: 400GbE InfiniBand з RDMA - Результат: скорочення завантаження даних з 30% до 5% часу навчання - Інновація: індивідуальне випереджаюче завантаження з прогнозуванням патернів доступу

Netflix — платформа розуміння відео: - Сховище: 20 ПБ MinIO у 3 регіонах - Пропускна здатність: 145 ГБ/с сукупно для інференсу - Конфігурація: 60 вузлів з 24 NVMe-накопичувачами кожен - Оптимізація: розбиття з урахуванням контенту за сценами - Результат: обробка всього каталогу за 72 години - Вартість: 80% зниження порівняно з AWS S3

Компанія автономних транспортних засобів (під NDA): - Набір даних: 500 ТБ відео водіння - Сховище: Pure FlashBlade з GDS - Продуктивність: 200 ГБ/с до 512 GPU V100 - Архітектура: 10 шасі з'єднані між собою - Вплив: час навчання скорочено з 21 до 7 днів - Ключ: оптимізація темпоральної локальності в розташуванні даних

Національна лабораторія — науковий ML: - Масштаб: 100 ПБ DDN EXAScaler - Пропускна здатність: 250 ГБ/с стабільно - Робоче навантаження: навчання симуляції клімату - GPU: 2048 A100 з одночасним доступом - Ефективність: досягнуто 94% використання GPU - Інновація: ієрархічне сховище з бекендом на стрічках

Моніторинг та усунення несправностей

Комплексний моніторинг забезпечує стабільну продуктивність:

Метрики пропускної здатності: Відстежуйте пропускну здатність читання кожного GPU для виявлення відстаючих. Моніторте сукупну пропускну здатність кластера порівняно з теоретичним максимумом. Вимірюйте перцентилі затримки запитів (p50, p99, p999). Налаштуйте сповіщення при зниженні пропускної здатності понад 10%. Будуйте графіки годинних/денних патернів для виявлення пікових періодів. Порівнюйте показники, що повідомляються застосунком, із виміряними інфраструктурою.

Стан сховища: Моніторте індикатори зносу SSD для прогнозування відмов. Відстежуйте частоту помилок, що потребують уваги до впливу. Спостерігайте за температурою для уникнення термічного дроселювання. Вимірюйте глибини черг для виявлення насичення. Спостерігайте патерни IOPS для виявлення аномалій. Налаштуйте сповіщення при заповненні ємності понад 80%.

Продуктивність мережі: Моніторте втрату пакетів, що потребує негайного дослідження. Відстежуйте частоту повторних передач, що вказує на перевантаження. Вимірюйте час туди-назад для виявлення збільшення затримки. Спостерігайте за використанням буферів для запобігання переповненню. Будуйте графіки використання пропускної здатності для виявлення вузьких місць. Налаштуйте сповіщення при помилках, що перевищують базовий рівень.

Метрики застосунків: Відстежуйте час завантаження даних на епоху. Моніторте використання GPU для впевненості, що сховище встигає. Вимірюйте тривалість збереження/відновлення контрольних точок. Спостерігайте за показниками попадань у кеш наборів даних. Будуйте графіки пропускної здатності навчання (ітерацій/секунду). Порівнюйте очікувану та фактичну продуктивність.

Поширені проблеми та рішення:

Симптом: пропускна здатність нижче очікуваної - Перевірте: консистентність мережевого MTU на всьому шляху - Перевірте: черга контролера сховища

[Контент обрізано для перекладу]

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ