Multi-tenant GPU-beveiliging: isolatiestrategieën voor gedeelde infrastructuur
Bijgewerkt op 11 december 2025
Update december 2025: 90% van de organisaties implementeert AI, slechts 5% voelt zich zeker over beveiligingsgereedheid. 97% van de getroffen organisaties mist adequate AI-toegangscontroles. NVIDIA onthult zeven beveiligingskwetsbaarheden (27 januari 2025), waaronder CVE-2025-23266 die root-toegang mogelijk maakt via Container Toolkit-bypass. De Amerikaanse markt voor AI-infrastructuurbeveiliging bereikt $2,99 miljard (22,8% CAGR).
Negentig procent van de organisaties implementeert AI-systemen, maar slechts 5% voelt zich zeker over hun beveiligingsgereedheid.¹ Organisaties met AI-specifieke beveiligingsautomatisering realiseren $1,9 miljoen aan besparingen per datalek en verkorten incidentcycli met 80 dagen.² Ondertussen miste 97% van de getroffen organisaties adequate AI-toegangscontroles.³ Naarmate GPU-infrastructuur de basis wordt van enterprise AI, bepaalt het beveiligingsmodel voor gedeelde GPU-resources of organisaties workloads veilig kunnen consolideren of dure dedicated hardware moeten onderhouden voor elke tenant.
De uitdaging reikt verder dan traditionele virtualisatiebeveiliging. GPU's verwerken gevoelige data inclusief modelgewichten, trainingsdata en inferentie-invoer die organisatorisch intellectueel eigendom vertegenwoordigen. Een inbreuk op GPU-niveau zou het "brein" van een AI-systeem kunnen compromitteren.⁴ Multi-tenant GPU-omgevingen introduceren aanvalsoppervlakken die fundamenteel verschillen van CPU-gebaseerde virtualisatie, wat beveiligingsstrategieën vereist die specifiek zijn ontworpen voor GPU-architecturen.
Het multi-tenant GPU-beveiligingslandschap
Op 27 januari 2025 onthulde NVIDIA zeven nieuwe beveiligingskwetsbaarheden die GPU-displaydrivers en virtuele GPU-software treffen.⁵ Deze kritieke fouten raken miljoenen systemen, van enterprise AI-infrastructuur tot cloud computing-platforms. De NVIDIA Container Toolkit-kwetsbaarheid CVE-2025-23266 stelde kwaadwillende actoren in staat isolatiemechanismen te omzeilen en root-toegang tot hostsystemen te verkrijgen.⁶ De onthulling belichtte systemische zwakheden in GPU-softwarestacks die organisaties niet kunnen negeren.
De Amerikaanse markt voor AI-infrastructuurbeveiliging bereikte $2,99 miljard en groeit met een samengesteld jaarlijks groeipercentage van 22,8%.⁷ AI-aangedreven aanvallen waren verantwoordelijk voor 16% van alle datalekken in 2025.⁸ De investering weerspiegelt groeiende erkenning dat GPU-infrastructuur gerichte beveiligingsaandacht vereist die verder gaat dan algemene datacenterbeveiliging.
GPU-beveiliging verschilt op fundamentele wijze van CPU-beveiliging. GPU's verwerken tijdelijk ongelooflijk gevoelige data tijdens verwerking. In tegenstelling tot CPU's hebben GPU's niet altijd robuuste geheugen-isolatie, vooral in multi-tenant omgevingen.⁹ Als geheugen niet correct wordt gewist wanneer een proces eindigt, zou een aanvaller overgebleven data van de workload van een andere gebruiker kunnen ophalen.¹⁰ De gedeelde architectuur van moderne GPU's maakt contentie-gebaseerde zijkanalen mogelijk waardoor aanvallers gevoelige informatie kunnen afleiden, co-located workloads kunnen verstoren, of verborgen communicatiekanalen kunnen opzetten.¹¹
Hardware-isolatie met Multi-Instance GPU
NVIDIA's Multi-Instance GPU-technologie biedt hardware-niveau isolatie die veilige multi-tenancy mogelijk maakt op hoogwaardige GPU-hardware.¹² Vanaf de Ampere-architectuur maakt MIG het partitioneren van een enkele GPU in maximaal zeven afzonderlijke instanties voor CUDA-applicaties mogelijk.¹³ Blackwell- en Hopper-GPU's breiden MIG-mogelijkheden uit met multi-tenant, multi-user configuraties in gevirtualiseerde omgevingen, waarbij elke instantie wordt beveiligd met confidential computing op hardware- en hypervisorniveau.¹⁴
De architectuur biedt echte hardwarematige scheiding. De processors van elke MIG-partitie hebben afzonderlijke en geïsoleerde paden door het gehele geheugensysteem.¹⁵ De on-chip crossbar-poorten, L2-cachebanken, geheugencontrollers en DRAM-adresbussen krijgen unieke toewijzing aan individuele instanties.¹⁶ Eén tenant kan het GPU-geheugen van een andere tenant niet lezen of overschrijven. Foutisolatie voorkomt dat de gecrashte code van één gebruiker de hele GPU beïnvloedt of anderen raakt.¹⁷
MIG ondersteunt Linux-besturingssystemen, gecontaineriseerde workloads met Docker Engine, orkestratie met Kubernetes, en gevirtualiseerde omgevingen via hypervisors waaronder Red Hat Virtualization en VMware vSphere.¹⁸ De brede platformondersteuning stelt organisaties in staat GPU-isolatie te implementeren binnen bestaande infrastructuur zonder grootschalige architectuurwijzigingen.
De beperking van MIG ligt in de granulariteit. Een 7-voudige partitie vertegenwoordigt de maximale onderverdeling op huidige hardware. Organisaties die fijnmaziger delen nodig hebben of oudere GPU-generaties ondersteunen, moeten alternatieve benaderingen overwegen.
vGPU en time-slicing alternatieven
NVIDIA virtual GPU-software maakt het mogelijk dat meerdere virtuele machines met volledige input-output memory management unit-bescherming tegelijkertijd toegang hebben tot een enkele fysieke GPU.¹⁹ Naast beveiliging maakt vGPU VM-beheer mogelijk met live migratie en de mogelijkheid om gemengde VDI- en compute-workloads te draaien.²⁰ De hypervisor virtualiseert de GPU en wijst slices toe aan meerdere VMs, waarbij elke VM een gevirtualiseerd deel van de GPU waarneemt voor zijn workloads.
Time-slicing biedt een ander deelmodel. Een systeembeheerder definieert een set replica's voor een GPU, die elk onafhankelijk kunnen worden uitgedeeld aan een pod die workloads draait in Kubernetes.²¹ In tegenstelling tot MIG biedt time-slicing geen geheugen- of foutisolatie tussen replica's.²² Als één taak crasht of zich misdraagt, kan dit anderen beïnvloeden die de GPU delen.²³ De afweging bevoordeelt toegang boven isolatie: time-slicing maakt delen door grotere aantallen gebruikers mogelijk en biedt toegang voor oudere GPU-generaties die MIG niet ondersteunen.²⁴
De beveiligingsimplicaties vereisen duidelijk begrip. Time-slicing werkt voor ontwikkelomgevingen, testen en workloads waar tenants elkaar vertrouwen of waar datagevoeligheid geen hardware-isolatie rechtvaardigt. Productie-implementaties met multi-tenant beveiligingseisen zouden MIG of dedicated GPU's moeten verkiezen boven time-slicing.
Hybride benaderingen combineren beide technologieën. Organisaties kunnen een GPU partitioneren in MIG-instanties die groepsisolatie garanderen, en vervolgens time-slicing schedulers draaien binnen elke instantie.²⁵ In Kubernetes-clusters balanceert het toewijzen van een MIG-slice per namespace en time-sharing van jobs binnen elke slice beveiliging met kostenefficiëntie.²⁶
Confidential computing op GPU's
De NVIDIA H100 Tensor Core GPU introduceerde confidential computing voor GPU's, gebruikmakend van een hardware-gebaseerde trusted execution environment verankerd in een on-die hardware root of trust.²⁷ Vóór de H100 bestonden confidential computing-functies alleen in CPU's van AMD en Intel.²⁸ De H100 biedt databescherming voor AI-training en inferentie-workloads met gevoelige informatie.²⁹
De technische architectuur bouwt voort op CPU confidential virtual machine-mogelijkheden. De GPU-oplossing vertrouwt op een confidential VM trusted execution environment mogelijk gemaakt door AMD SEV-SNP of Intel TDX op de CPU.³⁰ De PCIe-firewall blokkeert CPU-toegang tot de meeste registers en al het GPU-beveiligde geheugen. De NVLink-firewall blokkeert peer GPU-toegang tot beveiligd geheugen.³¹ Communicatie tussen CVM en GPU gebruikt AES-GCM-encryptie met sessiesleutels ter bescherming tegen het hostsysteem.³²
De DMA-engine van de H100 ondersteunt AES GCM 256-encryptie voor datatransfers tussen CPU en GPU.³³ Een GPU in confidential computing-modus blokkeert directe toegang tot intern geheugen en schakelt prestatietellers uit die zijkanaalaanvallen mogelijk zouden kunnen maken.³⁴ De architectuur evolueerde uit eerdere beveiligingsfuncties: AES-authenticatie op firmware sinds Volta, versleutelde firmware en intrekking sinds Turing en Ampere, en nu volledige gemeten en geattesteerde boot met hardware root of trust in Hopper.³⁵
Microsoft Azure biedt confidential VMs met NVIDIA H100 GPU's in preview, wat training, fine-tuning en serving van modellen zoals Stable Diffusion en grote taalmodellen mogelijk maakt met confidential computing-bescherming.³⁶ De Blackwell-architectuur brengt confidential AI verder met nagenoeg identieke prestaties ongeacht of modellen versleuteld of onversleuteld draaien, zelfs voor LLM's.³⁷
Kubernetes GPU-beveiligingsoverwegingen
Namespace-isolatie in Kubernetes biedt onvoldoende beveiliging voor multi-tenant GPU-scheduling.³⁸ Organisaties die AI-workloads draaien op bare metal Kubernetes met GPU's moeten aanvullende controles implementeren. De NVIDIA GPU Operator maakt time-slicing en MIG-configuratie mogelijk, maar beveiliging hangt af van juiste configuratie en hardening.
Het NVIDIA Container Toolkit-beveiligingsbulletin van september 2024 noopte tot urgente upgrades. Organisaties moeten Container Toolkit v1.16.2 of hoger draaien, of GPU Operator v24.6.2 of hoger.³⁹ De kwetsbaarheden toonden aan dat container escape-aanvallen GPU-isolatie konden compromitteren, zelfs wanneer correct geconfigureerd op hogere niveaus.
Third-party oplossingen adresseren hiaten in native Kubernetes GPU-beheer. Volcano biedt een cloud-native batch scheduler met fijnmazige controle over prioriteiten en eerlijkheid voor high-performance workloads.⁴⁰ Run:ai, nu onderdeel van NVIDIA, beheert en optimaliseert GPU-resources voor AI-workloads met functies ontworpen voor multi-tenant omgevingen.⁴¹ vCluster Labs kondigde zijn Infrastructure Tenancy Platform voor AI aan op KubeCon North America 2025, dat Kubernetes-native fundamenten levert voor NVIDIA GPU-infrastructuur.⁴²
Organisaties die vCluster gebruiken rapporteren 40% verbetering in GPU-benutting en 60% reductie in infrastructuurkosten door dynamische multi-tenant orkestratie.⁴³ De efficiëntiewinsten tonen aan dat juiste multi-tenant architecturen zowel beveiliging als economie kunnen verbeteren vergeleken met dedicated GPU-toewijzingen.
Zijkanaalaanvallen en opkomende bedreigingen
GPU-geheugenaanvallen exploiteren gedeelde architectuur in multi-tenant omgevingen om datavertrouwelijkheid te schenden en prestaties te degraderen.⁴⁴ Aanvallers die contentie-gebaseerde zijkanalen gebruiken kunnen gevoelige informatie afleiden uit co-located workloads.⁴⁵ GPU Memory Attacks richten zich op gedeeld geheugen om informatielekken en verborgen kanalen tussen tenants te faciliteren.⁴⁶
Een Rowhammer hardware-aanval, eerder bekend van het treffen van CPU-geheugen, compromitteert GPU's met GDDR-geheugen en veroorzaakt ernstig verlies van AI-modelnauwkeurigheid.⁴⁷ De aanval exploiteert GPU-parallellisme om bit flips te induceren, wat bijzondere risico's vormt in cloudomgevingen waar aanvallers kunnen co-locaten met doelworkloads.⁴⁸
Het primaire risico in gevirtualiseerde GPU-omgevingen blijft cross-virtual machine aanvallen.⁴⁹ Meerdere tenants die workloads draaien op dezelfde fysieke GPU creëren mogelijkheden voor isolatiemechanisme-fouten om snooping mogelijk te maken. Dit breekt fundamenteel het cloud-beveiligingsmodel en vormt serieuze risico's voor datavertrouwelijkheid.⁵⁰
Mitigatiestrategieën omvatten sterke workload-isolatie die vermijdt gevoelige en niet-gevoelige workloads op dezelfde GPU te draaien, cache-partitionering om gedeelde cache-blootstelling te verminderen, en gerandomiseerde scheduling om timing-gebaseerde aanvallen te compliceren.⁵¹ Single Root I/O Virtualization of vergelijkbare beveiligings-verbeterde virtualisatietechnologieën bieden aanvullende bescherming.⁵² Confidential GPU's vertegenwoordigen de volgende grens, waarbij TEE-achtige bescherming wordt uitgebreid naar GPU-geheugen en uitvoeringsstromen.⁵³
Enterprise beveiligingsbest practices
Organisaties die gedeelde GPU-infrastructuur implementeren moeten beveiligingscontroles implementeren die passen bij hun risicotolerantie en regelgevingsvereisten.
Voor gevoelige workloads verminderen single-tenant opties waarbij GPU's niet worden gedeeld het risico op zijkanaalaanvallen en sluiten aan bij compliancevereisten.⁵⁴ Sommige certificeringen vereisen dedicated hardware voor bepaalde datatypes.⁵⁵ De kostenpremie voor dedicated GPU's kan gerechtvaardigd zijn door beveiligingseisen.
Driver- en firmwarebeveiliging vereist consistente updates met de meest recente beveiligingspatches.⁵⁶ NVIDIA beveelt driemaandelijkse firmware-updates en drivervalidaties aan tijdens geplande onderhoudsvensters.⁵⁷ De kwetsbaarheidsonthulling van januari 2025 demonstreert het belang van tijdig patchen.
Geheugenhygiëne tussen sessies voorkomt datalekken. Het nullen van GPU-geheugen tussen sessies elimineert een belangrijke klasse van aanvallen met minimale prestatie