Оптимізоване для ШІ сховище: технологічний стек для живлення GPU-кластерів
Оновлено 11 грудня 2025 року
Оновлення за грудень 2025: Ринок сховищ для ШІ зростає з $36 млрд (2025) до $322 млрд до 2035 року. DDN EXAScaler забезпечує 4 ТБ/с для суперкомп'ютера NVIDIA Eos. GPUDirect Storage дозволяє прямі передачі зі швидкістю понад 40 ГБ/с; технологія SCADA від NVIDIA, представлена в листопаді 2025 року, повністю усуває участь CPU. NVMe-oF демонструє середньорічний темп зростання 27,8%, оскільки організації розширюють затримки рівня PCIe через мережі.
Вузькі місця сховищ простоюють GPU. Одна реалізація DDN EXAScaler забезпечує чотири терабайти на секунду для суперкомп'ютера NVIDIA Eos, живлячи 18,4 екзафлопс продуктивності ШІ від 576 систем DGX H100.¹ Коли GPU коштують десятки тисяч доларів за одиницю, а навчальні кластери налічують тисячі прискорювачів, інфраструктура сховищ, яка не може підтримувати пропускну здатність даних, марнує мільйони на обчислювальних ресурсах. Ринок сховищ на базі ШІ відображає цю терміновість: прогнозується зростання з $36,28 млрд у 2025 році до $321,93 млрд до 2035 року із середньорічним темпом зростання 24,4%.²
Сучасні робочі навантаження ШІ вимагають характеристик продуктивності сховищ, принципово відмінних від традиційних корпоративних застосунків. Навчальні набори даних, що вимірюються петабайтами, потребують стабільної послідовної пропускної здатності. Операції створення контрольних точок мають завершуватися за секунди, щоб мінімізувати переривання навчання. Робочі навантаження інференсу генерують непередбачувані шаблони введення/виведення, поєднуючи малі випадкові зчитування з пакетними записами. Організації, що розгортають інфраструктуру ШІ в масштабі, тепер оцінюють системи сховищ на основі метрик використання GPU, а не традиційних показників IOPS.
NVMe-oF розширює продуктивність флеш-пам'яті через мережу
NVMe over Fabrics (NVMe-oF) забезпечує високопродуктивні робочі навантаження в масштабі, надаючи низькозатримкове спільне використання NVMe SSD через високопродуктивні мережі Ethernet або InfiniBand.³ Протокол забезпечує продуктивність, подібну до локально підключених NVMe SSD, водночас дозволяючи організаціям масштабувати ресурси сховищ незалежно від обчислень, GPU та розподілу пам'яті.⁴
Традиційні протоколи сховищ додають мілісекунди затримки через програмні стеки, оптимізовані для обертових дисків. NVMe-oF усуває ці рівні, досягаючи затримок у десятки мікросекунд навіть при масштабуванні до тисяч вузлів з використанням транспортів RDMA.⁵ Транспорти TCP дозволяють розгортання через звичайний Ethernet, все ще забезпечуючи суттєві покращення продуктивності порівняно зі застарілими протоколами NFS або iSCSI.⁶
Для інфраструктури ШІ NVMe-oF важливий там, де рахується кожна мікросекунда: навчальні конвеєри, де GPU простоюють в очікуванні даних, операції контрольних точок, які мають завершуватися у суворих часових рамках, та робочі навантаження інференсу, що вимагають часу відгуку менше мілісекунди.⁷ Опубліковані бенчмарки показують 351 ГіБ на секунду послідовного зчитування з інтеграцією GPUDirect Storage, при цьому очікується, що зменшення затримки підвищить ефективне використання GPU у 2-3 рази в конфігураціях, обмежених введенням/виведенням.⁸
Впровадження в галузі прискорюється протягом 2025 року. Western Digital та Ingrasys уклали партнерство в травні 2025 року, поєднавши експертизу в GPU-серверах з можливостями NVMe-oF та fabric-attached сховищ.⁹ Hitachi Vantara запустила Virtual Storage Platform One Block High End у листопаді 2025 року — блочне NVMe сховище нового покоління на повністю флеш-архітектурі, розроблене для критично важливих робочих навантажень та ШІ.¹⁰ Системи NVMe-oF прогнозують середньорічний темп зростання 27,80%, оскільки організації розширюють затримки рівня PCIe через мережі для підвищення використання GPU в розподілених кластерах ШІ.¹¹
GPUDirect Storage усуває вузьке місце CPU
GPUDirect Storage від NVIDIA дозволяє пряму передачу даних зі сховища до пам'яті GPU без маршрутизації через CPU та системну пам'ять.¹² Технологія усуває фундаментальний бар'єр продуктивності в навчальних конвеєрах ШІ, де великі набори даних мають безперервно надходити до пам'яті GPU для обробки.
Навчання глибокого навчання передбачає часті операції створення контрольних точок, коли навчені ваги мережі зберігаються на диск на різних етапах навчання. За визначенням, створення контрольних точок знаходиться на критичному шляху введення/виведення.¹³ Модель зі 100 мільярдами параметрів генерує приблизно від 800 ГБ до 1,6 ТБ на контрольну точку, а навчання в масштабі з 16 000 прискорювачів вимагає 155 контрольних точок щодня.¹⁴ Щоб підтримувати накладні витрати нижче 5%, операції контрольних точок мають завершуватися менш ніж за 28 секунд у такому масштабі, зменшуючись до 4,4 секунд для кластерів зі 100 000 прискорювачів.¹⁵
GPUDirect Storage відповідає цим вимогам, забезпечуючи швидкість прямої передачі понад 40 ГБ/с зі сховища до пам'яті GPU.¹⁶ Референсна архітектура Lenovo/NVIDIA забезпечує 20 ГБ/с на вузол з можливостями лінійного масштабування, підтримуючи навчання LLM, інференс та функції контрольних точок.¹⁷ Технологія SCADA від NVIDIA, представлена в листопаді 2025 року, розвиває GPUDirect далі, вивантажуючи навіть шлях керування сховищем на GPU, усуваючи останню участь CPU в операціях зі сховищем.¹⁸
Апаратні реалізації поширюються по всій екосистемі. Адаптер HighPoint Rocker 7638D забезпечує робочі процеси GPUDirect Storage з пропускною здатністю до 64 ГБ/с та передбачуваною затримкою, що особливо корисно для великомасштабних навчальних наборів даних.¹⁹ Постачальники сховищ, включаючи DDN, Pure Storage, WEKA та VAST Data, сертифікують свої платформи для інтеграції GPUDirect з системами NVIDIA DGX та HGX.
Паралельні файлові системи забезпечують екзамасштабний ШІ
Паралельні файлові системи розподіляють дані та метадані між кількома серверами, забезпечуючи сукупну пропускну здатність, яка масштабується зі збільшенням кількості вузлів сховища. Три платформи домінують у розгортаннях ШІ та HPC: Lustre, IBM Storage Scale (раніше GPFS) та WekaFS.
Lustre займає 41% ринку паралельних файлових систем, за нею йде IBM Storage Scale з 17% та WEKA з 6%.²⁰ Кожна архітектура оптимізована для різних характеристик робочого навантаження.
Lustre відмінно працює в середовищах з переважанням великих послідовних операцій, включаючи наукові симуляції та конвеєри рендерингу відео.²¹ Архітектура надає пріоритет стабільній пропускній здатності над обробкою малих файлів, досягаючи майже лінійного масштабування продуктивності з додатковими серверами Object Storage Servers (OSS) для навантажень з інтенсивною пропускною здатністю.²² Lustre найкраще працює з мережами InfiniBand та живить більшість суперкомп'ютерів світу. Продукт EXAScaler від DDN поєднує Lustre з оптимізаціями продуктивності та можливостями корпоративного управління.
IBM Storage Scale забезпечує чудову продуктивність в операціях, інтенсивних щодо метаданих.²³ Підхід розподілених метаданих створює малі файли, модифікує атрибути та структурує складні каталоги ефективніше, ніж архітектура централізованого сервера метаданих Lustre.²⁴ Storage Scale забезпечує стабільну продуктивність для різних шаблонів введення/виведення та інтегрується в референсні архітектури NVIDIA DGX SuperPOD з підтримкою GPUDirect.²⁵
WekaFS націлений саме на робочі навантаження AI/ML, розроблений з самого початку для NVMe SSD, а не адаптований з архітектур обертових дисків.²⁶ Розподілені метадані WEKA усувають вузьке місце сервера метаданих, яке обмежує застарілі паралельні файлові системи.²⁷ Бенчмарки показують, що WekaFS перевершує FSx for Lustre на 300% і більше при подібних ємностях, з затримкою введення/виведення іноді менше 30% від конкуруючих рішень.²⁸ WekaFS підтримує протоколи pNFS, SMB та S3, забезпечуючи мультипротокольні шаблони доступу, поширені в конвеєрах ШІ.
DDN, Pure Storage та VAST Data лідирують серед постачальників
Три постачальники сховищ домінують у розгортаннях інфраструктури ШІ з продуктами, спеціально спроектованими для робочих навантажень GPU-кластерів.
DDN живить найпрофільніші суперкомп'ютери ШІ. Система NVIDIA Eos включає 576 систем DGX H100 з 48 приладами DDN A³I, які забезпечують 12 петабайт сховища зі швидкістю чотири терабайти на секунду, займаючи менше трьох стійок та споживаючи лише 100 кВт потужності.²⁹ DDN оголосила про сертифікацію Blackwell у березні 2025 року, оптимізувавши EXAScaler та Infinia 2.0 для DGX SuperPOD з системами DGX GB200 та DGX B200.³⁰ Один DDN AI400X2-Turbo досягає 10-кратного перевищення мінімальної вимоги 1 ГБ/с/GPU як для операцій читання, так і запису в парі з DGX B200, забезпечуючи до 96% використання мережі.³¹ Партнерство DDN з Yotta для суверенної ініціативи ШІ Індії розгорнуло системи EXAScaler AI400X3, що живлять 8000 GPU NVIDIA B200.³²
Pure Storage представила FlashBlade//EXA в березні 2025 року, прогнозуючи продуктивність читання понад 10 терабайт на секунду в єдиному просторі імен.³³ Платформа націлена на клієнтів, які використовують від одного до десятків тисяч GPU і потребують пропускної здатності сховища від 1 ТБ/с до 50 ТБ/с.³⁴ Дезагрегована архітектура FlashBlade//EXA масштабує дані та метадані незалежно, використовуючи вузли даних сторонніх виробників, що забезпечує масивну паралельну продуктивність.³⁵ Pure Storage досягла сертифікації FlashBlade//S500 з NVIDIA DGX SuperPOD, інтегрувавши референсний дизайн NVIDIA AI Data Platform з підтримкою GPUDirect Storage.³⁶
VAST Data досягла $2 млрд кумулятивних замовлень на програмне забезпечення до травня 2025 року.³⁷ Архітектура DASE (Distributed and Shared Everything) забезпечує проривний паралелізм для кластерів понад 100 000 GPU зі швидкістю терабайти на секунду, усуваючи вузькі місця даних ШІ.³⁸ VAST заявляє про понад 50% нижчу загальну вартість володіння для вимогливих робочих навантажень ШІ завдяки радикальній ефективності.³⁹ Платформа підтримує ексабайти повністю флеш-сховища з галузево-стандартним доступом NFS, SMB, S3 та Kubernetes CSI.⁴⁰ Microsoft Azure оголосила про інтеграцію з AI Operating System від VAST у листопаді 2025 року для розширення локальних конвеєрів ШІ в хмарну інфраструктуру з прискоренням GPU.⁴¹
Архітектури контрольних точок балансують швидкість та надійність
Створення контрольних точок моделей створює найвимогливіші вимоги до сховищ у навчанні ШІ. Розміри контрольних точок масштабуються з кількістю параметрів: приблизно від 8 до 12 байт на параметр для навчання зі змішаною точністю означає, що модель зі 100 мільярдами параметрів генерує від 800 ГБ до 1,2 ТБ на контрольну точку.⁴² Вимоги до частоти посилюються з масштабом кластера, досягаючи контрольних точок кожні 1,5 хвилини для розгортань зі 100 000 прискорювачів.⁴³
Сучасні навчальні системи використовують багаторівневі архітектури контрольних точок. Контрольні точки швидкого рівня записуються на локальне NVMe сховище вузла кожні кілька хвилин. Контрольні точки середнього рівня поширюються на спільні файлові системи кожні 30 хвилин. Довготривалі контрольні точки досягають об'єктного сховища, як-от Amazon S3, лише кожні кілька годин.⁴⁴ Асинхронне створення контрольних точок дозволяє навчанню продовжуватися, поки фонові процеси переносять дані з локального сховища на глобальні рівні.⁴⁵
Вимоги до глобальної пропускної здатності контрольних точок залишаються напрочуд помірними навіть у масштабі. Аналіз 85 000 контрольних точок у реальних системах показав, що пропускна здатність зазвичай значно нижче 1 ТБ/с навіть для моделей з трильйоном параметрів.⁴⁶ Пропускна здатність контрольних точок на GPU зменшується зі зростанням розміру моделі, оскільки лише одна репліка з паралелізмом даних записує під час створення контрольної точки, незалежно від загального розміру кластера.⁴⁷
Заявлена пропускна здатність значно варіюється між реалізаціями. Gemini повідомляє про пропускну здатність контрольних точок 3,13 ГБ/с. Nebula (DeepSpeed) від Microsoft досягає 1-4 ГБ/с. Ці цифри відображають архітектурні компроміси між частотою контрольних точок, рівнем сховища та прийнятними накладними витратами на навчання.⁴⁸
Обчислювальне сховище переносить обробку до даних
Пристрої обчислювального сховища (CSD) вбудовують обчислювальні функції в апаратне забезпечення сховища, обробляючи дані перед передачею для зменшення вимог до пропускної здатності введення/виведення.⁴⁹ Архітектура особливо цінна для розгортань граничного ШІ, що стикаються з обмеженими обчислювальними ресурсами, суворими енергетичними бюджетами та вимогами до затримки в реальному часі.⁵⁰
Розширені застосування CSD включають запуск баз даних, моделей машинного навчання та аналітики безпосередньо на пристроях сховища. Деякі реалізації підтримують повноцінні операційні системи Linux, що дозволяє виконувати інференс AI/ML безпосередньо на накопичувачі.⁵¹ Граничні розгортання виграють від початкової обробки на рівні сховища, фільтруючи результати перед передачею на основні процесори.⁵²
Технологія відповідає унікальним обмеженням граничного ШІ. Виконання інференсу все більше переміщується на граничні пристрої для підвищення доступності, налаштовуваності та ефективності.⁵³ Cisco запустила Unified Edge у листопаді 2025 року — інтегровану обчислювальну платформу, що об'єднує обчислення, мережу, сховище та безпеку для ШІ в реальному часі
[Контент скорочено для перекладу]