Безпека GPU у багатокористувацькому середовищі: стратегії ізоляції для спільної інфраструктури

90% організацій впроваджують ШІ, але лише 5% впевнені у своїй готовності до забезпечення безпеки. 97% організацій, що зазнали витоку даних, не мали належного контролю доступу до ШІ. NVIDIA оприлюднила сім вразливостей безпеки...

Безпека GPU у багатокористувацькому середовищі: стратегії ізоляції для спільної інфраструктури

Безпека GPU у багатокористувацькому середовищі: стратегії ізоляції для спільної інфраструктури

Оновлено 11 грудня 2025 року

Оновлення за грудень 2025 року: 90% організацій впроваджують ШІ, але лише 5% впевнені у своїй готовності до забезпечення безпеки. 97% організацій, що зазнали витоку даних, не мали належного контролю доступу до ШІ. NVIDIA оприлюднила сім вразливостей безпеки (27 січня 2025 року), включаючи CVE-2025-23266, що дозволяє отримати root-доступ через обхід Container Toolkit. Ринок безпеки ШІ-інфраструктури США досяг $2,99 млрд (середньорічний темп зростання 22,8%).

Дев'яносто відсотків організацій впроваджують системи ШІ, проте лише 5% впевнені у своїй готовності до забезпечення безпеки.¹ Організації з автоматизацією безпеки, специфічною для ШІ, досягають економії $1,9 мільйона на кожен інцидент витоку даних та скорочують життєвий цикл інцидентів на 80 днів.² Водночас 97% організацій, що зазнали витоку даних, не мали належного контролю доступу до ШІ.³ Оскільки GPU-інфраструктура стає основою корпоративного ШІ, модель безпеки для спільних GPU-ресурсів визначає, чи зможуть організації безпечно консолідувати робочі навантаження, чи їм доведеться підтримувати дороге виділене обладнання для кожного орендаря.

Виклик виходить за межі традиційної безпеки віртуалізації. GPU обробляють конфіденційні дані, включаючи ваги моделей, навчальні дані та вхідні дані для інференсу, що становлять інтелектуальну власність організацій. Витік на рівні GPU може скомпрометувати «мозок» системи ШІ.⁴ Багатокористувацькі GPU-середовища створюють поверхні атак, які принципово відрізняються від віртуалізації на базі CPU, що вимагає стратегій безпеки, розроблених спеціально для архітектур GPU.

Ландшафт безпеки багатокористувацьких GPU

27 січня 2025 року NVIDIA оприлюднила сім нових вразливостей безпеки, що впливають на драйвери дисплеїв GPU та програмне забезпечення віртуальних GPU.⁵ Ці критичні недоліки впливають на мільйони систем — від корпоративної ШІ-інфраструктури до платформ хмарних обчислень. Вразливість NVIDIA Container Toolkit CVE-2025-23266 дозволяла зловмисникам обходити механізми ізоляції та отримувати root-доступ до хост-систем.⁶ Це оприлюднення виявило системні слабкості в програмних стеках GPU, які організації не можуть ігнорувати.

Ринок безпеки ШІ-інфраструктури США досяг $2,99 мільярда і розширюється із середньорічним темпом зростання 22,8%.⁷ Атаки з використанням ШІ становили 16% усіх витоків даних у 2025 році.⁸ Інвестиції відображають зростаюче визнання того, що GPU-інфраструктура потребує спеціалізованої уваги до безпеки, що виходить за межі загального захисту центрів обробки даних.

Безпека GPU принципово відрізняється від безпеки CPU. GPU тимчасово обробляють надзвичайно конфіденційні дані. На відміну від CPU, GPU не завжди мають надійну ізоляцію пам'яті, особливо в багатокористувацьких середовищах.⁹ Якщо пам'ять очищається неналежним чином після завершення процесу, зловмисник може отримати залишкові дані з робочого навантаження іншого користувача.¹⁰ Спільна архітектура сучасних GPU уможливлює побічні канали на основі конкуренції за ресурси, через які зловмисники можуть виводити конфіденційну інформацію, порушувати роботу суміжних навантажень або встановлювати приховані канали зв'язку.¹¹

Апаратна ізоляція з Multi-Instance GPU

Технологія Multi-Instance GPU від NVIDIA забезпечує ізоляцію на апаратному рівні, що дозволяє безпечну багатокористувацьку роботу на високоцінному GPU-обладнанні.¹² Починаючи з архітектури Ampere, MIG дозволяє розділяти один GPU на до семи окремих екземплярів для CUDA-застосунків.¹³ GPU Blackwell та Hopper розширюють можливості MIG багатокористувацькими, багатокористувачевими конфігураціями у віртуалізованих середовищах, захищаючи кожен екземпляр за допомогою конфіденційних обчислень на рівні апаратного забезпечення та гіпервізора.¹⁴

Архітектура забезпечує справжнє апаратне розділення. Процесори кожного MIG-розділу мають окремі та ізольовані шляхи через усю систему пам'яті.¹⁵ Порти комутатора на мікросхемі, банки кешу L2, контролери пам'яті та шини адрес DRAM отримують унікальне призначення для окремих екземплярів.¹⁶ Один орендар не може читати або перезаписувати GPU-пам'ять іншого орендаря. Ізоляція відмов запобігає впливу коду одного користувача, що вийшов з ладу, на весь GPU або на інших користувачів.¹⁷

MIG підтримує операційні системи Linux, контейнеризовані робочі навантаження з використанням Docker Engine, оркестрацію з Kubernetes та віртуалізовані середовища через гіпервізори, включаючи Red Hat Virtualization та VMware vSphere.¹⁸ Широка підтримка платформ дозволяє організаціям впроваджувати ізоляцію GPU в межах існуючої інфраструктури без повної зміни архітектури.

Обмеження MIG полягає в гранулярності. Розділення на 7 частин є максимальним поділом на поточному обладнанні. Організаціям, які потребують більш дрібнозернистого спільного використання або підтримують старіші покоління GPU, слід розглянути альтернативні підходи.

Альтернативи vGPU та розподілу часу

Програмне забезпечення віртуальних GPU від NVIDIA дозволяє кільком віртуальним машинам з повним захистом блоку керування введенням-виведенням пам'яті одночасно отримувати доступ до одного фізичного GPU.¹⁹ Окрім безпеки, vGPU забезпечує керування ВМ із живою міграцією та можливістю запускати змішані робочі навантаження VDI та обчислень.²⁰ Гіпервізор віртуалізує GPU та призначає слайси кільком ВМ, причому кожна ВМ сприймає віртуалізовану частину GPU для своїх робочих навантажень.

Розподіл часу забезпечує іншу модель спільного використання. Системний адміністратор визначає набір реплік для GPU, кожна з яких може бути незалежно передана поду, що виконує робочі навантаження в Kubernetes.²¹ На відміну від MIG, розподіл часу не забезпечує ізоляцію пам'яті або відмов між репліками.²² Якщо одне завдання виходить з ладу або поводиться некоректно, це може вплинути на інших, хто спільно використовує GPU.²³ Компроміс віддає перевагу доступу над ізоляцією: розподіл часу дозволяє спільне використання більшою кількістю користувачів та забезпечує доступ для старіших поколінь GPU, які не підтримують MIG.²⁴

Наслідки для безпеки вимагають чіткого розуміння. Розподіл часу працює для середовищ розробки, тестування та робочих навантажень, де орендарі довіряють один одному або де чутливість даних не вимагає апаратної ізоляції. Виробничі розгортання з вимогами багатокористувацької безпеки повинні надавати перевагу MIG або виділеним GPU над розподілом часу.

Гібридні підходи поєднують обидві технології. Організації можуть розділити GPU на MIG-екземпляри, що забезпечують групову ізоляцію, а потім запускати планувальники розподілу часу в межах кожного екземпляра.²⁵ У кластерах Kubernetes виділення MIG-слайсу на простір імен і розподіл часу завдань у межах кожного слайсу балансує безпеку з ефективністю витрат.²⁶

Конфіденційні обчислення на GPU

NVIDIA H100 Tensor Core GPU представив конфіденційні обчислення на GPU, використовуючи апаратне довірене середовище виконання, закріплене на апаратному корені довіри на кристалі.²⁷ До H100 функції конфіденційних обчислень існували лише в CPU від AMD та Intel.²⁸ H100 забезпечує захист даних для робочих навантажень навчання та інференсу ШІ, що включають конфіденційну інформацію.²⁹

Технічна архітектура базується на можливостях конфіденційних віртуальних машин CPU. GPU-рішення покладається на довірене середовище виконання конфіденційної ВМ, що забезпечується AMD SEV-SNP або Intel TDX на CPU.³⁰ Брандмауер PCIe блокує доступ CPU до більшості регістрів та всієї захищеної пам'яті GPU. Брандмауер NVLink блокує доступ однорангових GPU до захищеної пам'яті.³¹ Зв'язок між CVM та GPU використовує шифрування AES-GCM із сесійними ключами для захисту від хост-системи.³²

DMA-двигун H100 підтримує шифрування AES GCM 256 для передачі даних між CPU та GPU.³³ GPU у режимі конфіденційних обчислень блокує прямий доступ до внутрішньої пам'яті та вимикає лічильники продуктивності, які могли б уможливити атаки побічних каналів.³⁴ Архітектура еволюціонувала з попередніх функцій безпеки: автентифікація AES на прошивці з Volta, зашифрована прошивка та відкликання з Turing та Ampere, і тепер повне завантаження з вимірюванням та атестацією з апаратним коренем довіри в Hopper.³⁵

Microsoft Azure пропонує конфіденційні ВМ з GPU NVIDIA H100 у попередньому перегляді, що дозволяє навчання, тонке налаштування та обслуговування моделей, таких як Stable Diffusion та великі мовні моделі, із захистом конфіденційних обчислень.³⁶ Архітектура Blackwell просуває конфіденційний ШІ далі з майже ідентичною продуктивністю при запуску зашифрованих або незашифрованих моделей, навіть для LLM.³⁷

Міркування щодо безпеки GPU в Kubernetes

Ізоляція простору імен у Kubernetes не забезпечує достатньої безпеки для багатокористувацького планування GPU.³⁸ Організації, що запускають робочі навантаження ШІ на bare metal Kubernetes з GPU, повинні впроваджувати додаткові засоби контролю. NVIDIA GPU Operator дозволяє конфігурувати розподіл часу та MIG, але безпека залежить від правильної конфігурації та зміцнення.

Бюлетень безпеки NVIDIA Container Toolkit за вересень 2024 року спонукав до термінових оновлень. Організації повинні використовувати Container Toolkit v1.16.2 або вище, або GPU Operator v24.6.2 або вище.³⁹ Вразливості продемонстрували, що атаки втечі з контейнера можуть скомпрометувати ізоляцію GPU навіть при правильній конфігурації на вищих рівнях.

Сторонні рішення усувають прогалини в нативному керуванні GPU Kubernetes. Volcano надає хмарно-нативний пакетний планувальник із детальним контролем над пріоритетами та справедливістю для високопродуктивних робочих навантажень.⁴⁰ Run:ai, тепер частина NVIDIA, керує та оптимізує GPU-ресурси для робочих навантажень ШІ з функціями, розробленими для багатокористувацьких середовищ.⁴¹ vCluster Labs анонсувала свою Infrastructure Tenancy Platform для ШІ на KubeCon North America 2025, надаючи Kubernetes-нативні основи для GPU-інфраструктури NVIDIA.⁴²

Організації, що використовують vCluster, повідомляють про 40% покращення використання GPU та 60% скорочення витрат на інфраструктуру завдяки динамічній багатокористувацькій оркестрації.⁴³ Виграш в ефективності демонструє, що належні багатокористувацькі архітектури можуть покращити як безпеку, так і економіку порівняно з виділеними GPU-алокаціями.

Атаки побічних каналів та нові загрози

Атаки на пам'ять GPU експлуатують спільну архітектуру в багатокористувацьких середовищах для порушення конфіденційності даних та зниження продуктивності.⁴⁴ Зловмисники, що використовують побічні канали на основі конкуренції за ресурси, можуть виводити конфіденційну інформацію з суміжних робочих навантажень.⁴⁵ Атаки на пам'ять GPU націлені на спільну пам'ять для сприяння витоку інформації та прихованих каналів між орендарями.⁴⁶

Апаратна атака Rowhammer, раніше відома як така, що впливає на пам'ять CPU, компрометує GPU з пам'яттю GDDR та спричиняє серйозну втрату точності моделей ШІ.⁴⁷ Атака експлуатує паралелізм GPU для індукування бітових переворотів, створюючи особливі ризики в хмарних середовищах, де зловмисники можуть розміщуватися поруч із цільовими робочими навантаженнями.⁴⁸

Основним ризиком у віртуалізованих GPU-середовищах залишаються атаки між віртуальними машинами.⁴⁹ Кілька орендарів, що виконують робочі навантаження на одному фізичному GPU, створюють можливості для недоліків механізмів ізоляції, що уможливлюють підглядання. Це принципово порушує модель безпеки хмари та створює серйозні ризики для конфіденційності даних.⁵⁰

Стратегії пом'якшення включають сильну ізоляцію робочих навантажень, що уникає запуску чутливих і нечутливих навантажень на одному GPU, розділення кешу для зменшення впливу спільного кешу та рандомізоване планування для ускладнення атак на основі синхронізації.⁵¹ Технології віртуалізації Single Root I/O Virtualization або подібні з покращеною безпекою забезпечують додатковий захист.⁵² Конфіденційні GPU представляють наступний рубіж, розширюючи захист типу TEE на пам'ять GPU та потоки виконання.⁵³

Найкращі практики корпоративної безпеки

Організаціям, що розгортають спільну GPU-інфраструктуру, слід впроваджувати засоби безпеки, відповідні їхній толерантності до ризику та регуляторним вимогам.

Для чутливих робочих навантажень варіанти з одним орендарем, де GPU не спільно використовуються, зменшують ризик атак побічних каналів та відповідають вимогам комплаєнсу.⁵⁴ Деякі сертифікації вимагають виділеного обладнання для певних типів даних.⁵⁵ Додаткова вартість виділених GPU може бути виправдана вимогами безпеки.

Безпека драйверів та прошивки вимагає послідовних оновлень з найновішими патчами безпеки.⁵⁶ NVIDIA рекомендує щоквартальні оновлення прошивки та перевірки драйверів під час запланованих вікон обслуговування.⁵⁷ Оприлюднення вразливостей у січні 2025 року демонструє важливість своєчасного встановлення патчів.

Гігієна пам'яті між сесіями запобігає витоку даних. Обнулення пам'яті GPU між сесіями усуває значний клас атак з мінімальним впливом на продукт

Запросити пропозицію_

Розкажіть про ваш проект і ми відповімо протягом 72 годин.

> ПЕРЕДАЧА_ЗАВЕРШЕНА

Запит отримано_

Дякуємо за ваш запит. Наша команда розгляне його та відповість протягом 72 годин.

В ЧЕРЗІ НА ОБРОБКУ