Архітектура конвеєрів даних для ШІ: живлення петабайтного навчання на швидкості 100 ГБ/с

Служба попередньої обробки даних (DPP) від Meta тепер усуває затримки даних у кластерах навчання ексабайтного масштабу. WEKApod досягає пропускної здатності 720 ГБ/с з 8 вузлів зберігання, що живлять 768 GPU H100. PCIe Gen5...

Архітектура конвеєрів даних для ШІ: живлення петабайтного навчання на швидкості 100 ГБ/с

Архітектура конвеєрів даних для ШІ: живлення петабайтного навчання на швидкості 100 ГБ/с

Оновлено 11 грудня 2025 року

Оновлення за грудень 2025 року: Служба попередньої обробки даних (DPP) від Meta тепер усуває затримки даних у кластерах навчання ексабайтного масштабу. WEKApod досягає пропускної здатності 720 ГБ/с з 8 вузлів зберігання, що живлять 768 GPU H100. PCIe Gen5 NVMe SSD перевищують 14 ГБ/с послідовного читання і стають стандартом для рівня зберігання навчальних даних. Сховища ознак та архітектури багаторівневого кешування зменшують затримку доступу до холодних даних у 10 разів.

Meta виявила, що 56% циклів GPU простоювали в очікуванні навчальних даних.[^1] Компанія зберігає ексабайти навчальних даних у Tectonic, своїй розподіленій файловій системі, але не мала достатньої ємності зберігання для локального розміщення петабайтних наборів даних поруч з навчальним обладнанням.[^2] Рішенням стало створення Служби попередньої обробки даних (DPP), яка масштабується для повного усунення затримок даних. Організації, що навчають великі моделі, стикаються з тією ж фундаментальною проблемою: найпотужніші GPU нічого не досягають, очікуючи вхідних даних.

Система зберігання, що живить навчання ШІ, визначає, чи інвестиції в GPU принесуть очікувану віддачу. WEKApod досягає понад 720 ГБ/с пропускної здатності та 18 мільйонів IOPS із затримками менше 150 мікросекунд, живлячи 768 GPU H100 лише з 8 вузлів зберігання.[^3] Суперкомп'ютер RSC від Meta використовує 46 петабайтів кеш-пам'яті для забезпечення GPU даними.[^4] Навчання GPT-4 вимагало приблизно 25 000 GPU A100, що обробляли 13 трильйонів токенів протягом 90-100 днів.[^5] У масштабі архітектура конвеєра даних стає настільки ж критичною, як і архітектура обчислень.

Виклик конвеєра даних

Великі мовні моделі вимагають доступу до петабайтів високоякісних попередньо оброблених даних. Без швидкого та надійного сховища навіть найпотужніші GPU простоюють в очікуванні вхідних даних.[^6] Продуктивний рівень інфраструктури зберігання забезпечує безперебійний потік даних через ресурсомісткі етапи конвеєра: нормалізацію, токенізацію та навчання.

Типовий конвеєр машинного навчання включає попередню обробку даних, керовану CPU, навчання моделі, перенесене на GPU, та постобробку, повернуту на CPU.[^7] Вузькі місця виникають при передачі даних між RAM CPU та DRAM GPU. Невідповідність між пропускною здатністю сховища, пропускною здатністю мережі, обчисленнями попередньої обробки та споживанням GPU створює затримки, що марнують дорогі обчислювальні потужності прискорювачів.

Архітектура зберігання та прийому даних Meta

Наскрізний конвеєр DSI від Meta складається з центрального сховища даних, побудованого на розподіленому зберіганні, та Служби попередньої обробки даних, яка масштабує попередню обробку незалежно від навчальних обчислень.[^8] Архітектура розділяє зберігання, попередню обробку та навчання на окремі масштабовані рівні.

Tectonic слугує розподіленою файловою системою ексабайтного масштабу Meta, забезпечуючи дезагреговану інфраструктуру зберігання для моделей навчання ШІ.[^9] Компанія навчає моделі на наборах даних від терабайтного до петабайтного масштабу без локальної ємності зберігання, що відповідає цим обсягам. Дезагреговане зберігання дозволяє гнучко розподіляти ресурси, але вимагає високошвидкісних мереж, що з'єднують сховище з обчисленнями.

DPP Master отримує специфікації сесій, що містять таблиці наборів даних, розділи, необхідні ознаки та операції трансформації.[^10] Master розбиває робочі навантаження попередньої обробки на петабайтах даних на незалежні, самодостатні робочі елементи, звані сплітами. DPP Workers запитують спліти у Master і виконують трансформації попередньої обробки, відокремлюючи пропускну здатність попередньої обробки від потужності CPU навчальних вузлів.

Ієрархія зберігання та кешування

Meta рухається до багаторівневих рішень зберігання, що поєднують HDD та SSD, причому SSD слугують рівнями кешування для часто використовуваних ознак.[^11] Не всі навчальні дані вимагають однакових патернів доступу: часто запитувані ознаки виграють від флеш-пам'яті, тоді як холодні дані залишаються на носіях, оптимізованих для ємності.

Стратегія кешування знижує витрати на зберігання без шкоди для пропускної здатності навчання. Гарячі дані, що знаходяться на швидких рівнях, обслуговують більшість запитів на читання, тоді як холодні дані передаються з ємнісного сховища під час початкових епох. Розуміння патернів доступу до даних дозволяє приймати розумні рішення щодо рівнів, що балансують вартість і продуктивність.

Технології зберігання для навчання ШІ

Різні технології зберігання виконують різні ролі в конвеєрах даних ШІ. Вибір залежить від патернів доступу, вимог до ємності та бюджетних обмежень.

Паралельні файлові системи

Паралельні файлові системи, такі як Lustre та GPFS, забезпечують екстремальну продуктивність з масовою конкурентністю, що робить їх ідеальними для синхронних ресурсомістких робочих навантажень ШІ.[^12] Ці системи розподіляють дані між багатьма серверами зберігання, забезпечуючи сукупну пропускну здатність, яка масштабується з кількістю серверів.

Google Cloud пропонує Managed Lustre як високопродуктивний кеш поверх Cloud Storage, прискорюючи робочі навантаження ШІ, що вимагають надзвичайно високої пропускної здатності та операцій введення-виведення з низькою затримкою.[^13] Організації імпортують та експортують дані між Managed Lustre та Cloud Storage, використовуючи паралельну файлову систему як продуктивний рівень для активного навчання, зберігаючи дані в об'єктному сховищі для надійності.

NVMe сховища

PCIe Gen5 NVMe SSD перевищують 14 ГБ/с пропускної здатності послідовного читання та обробляють мільйони випадкових операцій читання IOPS.[^14] Ця технологія усуває сховище як вузьке місце при навчанні моделей ШІ на десятках терабайтів даних. Впровадження PCIe Gen5 протягом 2024-2025 років подвоїло пропускну здатність на лінію до приблизно 4 ГБ/с на лінію, досягаючи 64 ГБ/с у конфігураціях x16.

NVMe-oF (NVMe over Fabrics) розширює продуктивність NVMe через мережі, дозволяючи створювати дезагреговані архітектури зберігання, що зберігають майже локальні затримки. Навчальні кластери отримують доступ до спільних пулів NVMe сховищ без втрати переваг продуктивності безпосередньо підключених накопичувачів.

Об'єктне сховище для холодних даних

Об'єктне сховище забезпечує економічно ефективну ємність для петабайтних наборів даних, які допускають вищі затримки. Велика компанія електронної комерції зберігає сотні петабайтів навчальних даних в AWS S3, з робочими навантаженнями навчання ШІ/ML, розподіленими між кількома регіонами AWS та локальними центрами обробки даних.[^15]

Об'єктне сховище найкраще працює для патернів пакетного прийому, де навчальні завдання завантажують дані на швидші рівні перед початком інтенсивної обробки. Економіка сприяє об'єктному сховищу для архівів та резервних копій, тоді як продуктивні рівні обробляють активне введення-виведення навчання.

Попередня обробка в масштабі

Попередня обробка даних споживає значні обчислювальні ресурси і часто стає вузьким місцем, що перешкоджає повному використанню GPU. Досвід Meta показав, що CPU на навчальних вузлах не могли попередньо обробляти дані достатньо швидко для обслуговування GPU, що мотивувало створення розподіленої архітектури DPP.[^16]

Розподілені воркери попередньої обробки

Архітектура DPP масштабує воркери попередньої обробки незалежно від навчальних вузлів.[^17] Додавання потужності попередньої обробки вимагає лише додавання екземплярів воркерів, без модифікації навчальної інфраструктури. Це розділення дозволяє організаціям правильно розміряти обчислення попередньої обробки для конкретних наборів даних і складності трансформацій.

Екземпляри воркерів виконують операції трансформації, включаючи очищення, нормалізацію, токенізацію та вилучення ознак. Складні трансформації вимагають більше обчислень попередньої обробки на одиницю пропускної здатності навчання. Прості трансформації можуть встигати за навчанням з мінімальними ресурсами попередньої обробки.

Прискорена попередня обробка

Індустрія все частіше виконує операції трансформації попередньої обробки на прискорювачах, а не на CPU.[^18] NVIDIA DALI (Data Loading Library) переносить декодування зображень, аугментацію та конвертацію формату на GPU. Прискорена попередня обробка усуває вузькі місця CPU для конвеєрів навчання на зображеннях та відео.

Перенесення попередньої обробки на GPU вимагає ретельного проектування конвеєра, щоб уникнути створення нових вузьких місць. Пам'ять GPU, використана для попередньої обробки, зменшує пам'ять, доступну для параметрів моделі та активацій. Компроміс між прискоренням попередньої обробки та навчальною потужністю залежить від характеристик робочого навантаження.

Сховища ознак

Google рекомендує використовувати Vertex AI Feature Store для ознак, готових до онлайн-обслуговування.[^19] Сховища ознак попередньо обчислюють та кешують значення ознак, усуваючи повторні обчислення між навчальними запусками. Планування завдань feature engineering для регулярного обчислення нових значень ознак з необхідною періодичністю забезпечує свіжі дані без накладних витрат на попередню обробку в реальному часі.

Сховища ознак особливо цінні для рекомендаційних моделей, де складність обчислення ознак перевищує часові бюджети на запит. І навчання, і інференс можуть отримувати доступ до одних і тих же попередньо обчислених ознак, підтримуючи узгодженість між розробкою та виробництвом.

Мережева архітектура для конвеєрів даних

Високошвидкісні з'єднання забезпечують основу для дезагрегованих архітектур зберігання. InfiniBand та RoCE (RDMA over Converged Ethernet) забезпечують надзвичайно низьку затримку та високу пропускну здатність, необхідні для розподіленого навчання на кластерах GPU та швидкого доступу до наборів даних.[^20]

Проектування мережі зберігання

Мережі зберігання повинні відповідати сукупній пропускній здатності читання споживанню навчання GPU. Кластер з 1000 GPU H100, що навчає ресурсомістке робоче навантаження, може вимагати десятки гігабайтів на секунду стабільної пропускної здатності сховища. Мережева ємність між рівнями зберігання та обчислень повинна перевищувати цю вимогу з запасом для пікових патернів.

Топологія мережі впливає на досяжну пропускну здатність. Топології fat-tree забезпечують повну бісекційну пропускну здатність, але коштують дорожче, ніж дизайни з перепідпискою. Навчальні робочі навантаження з інтенсивним введенням-виведенням сховища виграють від неблокуючих фабрик, які усувають мережеву перевантаженість як вузьке місце.

Оптимізація передачі даних

Техніки оптимізації передачі даних, включаючи паралельне введення-виведення, попереднє завантаження, кешування, стиснення та оптимізацію локальності даних, забезпечують ефективне переміщення даних між системами зберігання та обчислювальними вузлами.[^21] Попереднє завантаження передбачає вимоги до даних і розміщує дані до того, як обчислювальні вузли їх запитають. Стиснення зменшує вимоги до пропускної здатності мережі за рахунок обчислювальних циклів.

Пакетування даних зменшує частоту транзакцій, амортизуючи накладні витрати на запит на більші передачі.[^22] Фільтрація даних мінімізує розмір семплів перед відправкою на GPU, зменшуючи як читання зі сховища, так і мережеві передачі. Комбінація технік може значно зменшити ефективні вимоги до пропускної здатності сховища.

Побудова конвеєрів даних у масштабі

Організації, що розгортають інфраструктуру навчання петабайтного масштабу, потребують інтегрованих підходів до зберігання, попередньої обробки та мережі, які відповідають обчислювальній потужності GPU.

Планування ємності

Планування ємності зберігання повинно враховувати зростання навчальних даних разом з масштабуванням моделей. Навчальні набори даних зростають, оскільки організації накопичують більше даних і прагнуть до більших моделей, що вимагають більше токенів. Вимоги до ємності зростають, оскільки організації зберігають кілька версій наборів даних для відтворюваності.

Планування пропускної здатності виявляється складнішим, ніж планування ємності. Співвідношення між розміром моделі, розміром батчу та вимогами до пропускної здатності даних варіюється залежно від архітектури та конфігурації навчання. Бенчмаркінг конкретних робочих навантажень на цільовій інфраструктурі надає найнадійніші вимоги до пропускної здатності.

Експертиза розгортання інфраструктури

Складність інфраструктури конвеєрів даних відповідає або перевищує складність обчислювальної інфраструктури. Системи зберігання, високошвидкісні мережі та служби попередньої обробки повинні безперешкодно інтегруватися з кластерами GPU. Помилки конфігурації в будь-якому компоненті створюють вузькі місця, що марнують інвестиції в GPU.

Мережа з 550 польових інженерів Introl спеціалізується на інтегрованих розгортаннях інфраструктури, яких вимагає масштабне навчання ШІ.[^23] Компанія посіла 14-те місце в рейтингу Inc. 5000 2025 року з 9 594% трирічним зростанням, що відображає попит на професійні інфраструктурні послуги.[^24] Організації, що будують навчальні кластери, виграють від експертизи розгортання, яка розглядає зберігання, мережу та обчислення як інтегровану систему.

Управління розгортаннями, що досягають 100 000 GPU з понад 40 000 миль волоконно-оптичної мережевої інфраструктури, вимагає операційного масштабу, що відповідає найбільшим навчальним ініціати

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ