Multi-Tenant-GPU-Sicherheit: Isolationsstrategien für gemeinsam genutzte Infrastruktur

90% der Unternehmen setzen KI ein, nur 5% fühlen sich bei der Sicherheitsbereitschaft zuversichtlich. 97% der kompromittierten Organisationen ohne angemessene KI-Zugriffskontrollen. NVIDIA meldet sieben Sicherheitslücken...

Multi-Tenant-GPU-Sicherheit: Isolationsstrategien für gemeinsam genutzte Infrastruktur

Multi-Tenant-GPU-Sicherheit: Isolationsstrategien für gemeinsam genutzte Infrastruktur

Aktualisiert am 11. Dezember 2025

Update Dezember 2025: 90% der Unternehmen setzen KI ein, nur 5% fühlen sich bei der Sicherheitsbereitschaft zuversichtlich. 97% der kompromittierten Organisationen ohne angemessene KI-Zugriffskontrollen. NVIDIA meldet sieben Sicherheitslücken (27. Januar 2025), darunter CVE-2025-23266, die Root-Zugriff durch Container Toolkit-Umgehung ermöglicht. Der US-amerikanische Markt für KI-Infrastruktursicherheit erreicht 2,99 Mrd. USD (22,8% CAGR).

Neunzig Prozent der Unternehmen setzen KI-Systeme ein, doch nur 5% fühlen sich bei ihrer Sicherheitsbereitschaft zuversichtlich.¹ Organisationen mit KI-spezifischer Sicherheitsautomatisierung erzielen Einsparungen von 1,9 Millionen US-Dollar pro Sicherheitsvorfall und verkürzen die Vorfallslebenszyklen um 80 Tage.² Gleichzeitig fehlten 97% der kompromittierten Organisationen angemessene KI-Zugriffskontrollen.³ Da GPU-Infrastruktur zum Fundament der Unternehmens-KI wird, bestimmt das Sicherheitsmodell für gemeinsam genutzte GPU-Ressourcen, ob Organisationen Workloads sicher konsolidieren können oder teure dedizierte Hardware für jeden Mandanten vorhalten müssen.

Die Herausforderung geht über traditionelle Virtualisierungssicherheit hinaus. GPUs verarbeiten sensible Daten einschließlich Modellgewichte, Trainingsdaten und Inferenz-Eingaben, die das geistige Eigentum einer Organisation repräsentieren. Ein Sicherheitsvorfall auf GPU-Ebene könnte das „Gehirn" eines KI-Systems kompromittieren.⁴ Multi-Tenant-GPU-Umgebungen führen Angriffsflächen ein, die sich grundlegend von CPU-basierter Virtualisierung unterscheiden und Sicherheitsstrategien erfordern, die speziell für GPU-Architekturen entwickelt wurden.

Die Sicherheitslandschaft für Multi-Tenant-GPUs

Am 27. Januar 2025 veröffentlichte NVIDIA sieben neue Sicherheitslücken, die GPU-Anzeigetreiber und virtuelle GPU-Software betreffen.⁵ Diese kritischen Schwachstellen betreffen Millionen von Systemen von Unternehmens-KI-Infrastruktur bis hin zu Cloud-Computing-Plattformen. Die NVIDIA Container Toolkit-Schwachstelle CVE-2025-23266 ermöglichte es böswilligen Akteuren, Isolationsmechanismen zu umgehen und Root-Zugriff auf Host-Systeme zu erlangen.⁶ Die Offenlegung verdeutlichte systemische Schwächen in GPU-Software-Stacks, die Organisationen nicht ignorieren können.

Der US-amerikanische Markt für KI-Infrastruktursicherheit erreichte 2,99 Milliarden US-Dollar und wächst mit einer jährlichen Wachstumsrate von 22,8%.⁷ KI-gestützte Angriffe machten 2025 16% aller Sicherheitsvorfälle aus.⁸ Die Investition spiegelt die wachsende Erkenntnis wider, dass GPU-Infrastruktur dedizierte Sicherheitsaufmerksamkeit über allgemeine Rechenzentrumssicherung hinaus erfordert.

GPU-Sicherheit unterscheidet sich grundlegend von CPU-Sicherheit. GPUs verarbeiten während der Verarbeitung vorübergehend unglaublich sensible Daten. Im Gegensatz zu CPUs verfügen GPUs nicht immer über robuste Speicherisolation, insbesondere in Multi-Tenant-Umgebungen.⁹ Wenn der Speicher beim Beenden eines Prozesses nicht ordnungsgemäß gelöscht wird, könnte ein Angreifer übrig gebliebene Daten aus dem Workload eines anderen Benutzers abrufen.¹⁰ Die gemeinsam genutzte Architektur moderner GPUs ermöglicht konkurrenzbasierte Seitenkanäle, durch die Angreifer sensible Informationen ableiten, parallel laufende Workloads stören oder verdeckte Kommunikationskanäle einrichten können.¹¹

Hardware-Isolation mit Multi-Instance GPU

NVIDIAs Multi-Instance GPU-Technologie bietet Hardware-Isolation, die sichere Multi-Mandantenfähigkeit auf hochwertiger GPU-Hardware ermöglicht.¹² Ab der Ampere-Architektur ermöglicht MIG die Partitionierung einer einzelnen GPU in bis zu sieben separate Instanzen für CUDA-Anwendungen.¹³ Blackwell- und Hopper-GPUs erweitern die MIG-Fähigkeiten mit Multi-Tenant- und Multi-User-Konfigurationen in virtualisierten Umgebungen und sichern jede Instanz mit Confidential Computing auf Hardware- und Hypervisor-Ebene.¹⁴

Die Architektur bietet echte Hardware-Trennung. Die Prozessoren jeder MIG-Partition haben separate und isolierte Pfade durch das gesamte Speichersystem.¹⁵ Die On-Chip-Crossbar-Ports, L2-Cache-Bänke, Speichercontroller und DRAM-Adressbusse werden individuellen Instanzen eindeutig zugewiesen.¹⁶ Ein Mandant kann den GPU-Speicher eines anderen Mandanten nicht lesen oder überschreiben. Fehlerisolation verhindert, dass der abgestürzte Code eines Benutzers die gesamte GPU beeinflusst oder andere beeinträchtigt.¹⁷

MIG unterstützt Linux-Betriebssysteme, containerisierte Workloads mit Docker Engine, Orchestrierung mit Kubernetes und virtualisierte Umgebungen durch Hypervisoren einschließlich Red Hat Virtualization und VMware vSphere.¹⁸ Die breite Plattformunterstützung ermöglicht es Organisationen, GPU-Isolation innerhalb bestehender Infrastruktur zu implementieren, ohne grundlegende Architekturänderungen vorzunehmen.

Die Einschränkung von MIG liegt in der Granularität. Eine 7-fache Partition stellt die maximale Unterteilung auf aktueller Hardware dar. Organisationen, die feinere Freigabe benötigen oder ältere GPU-Generationen unterstützen, müssen alternative Ansätze in Betracht ziehen.

vGPU und Time-Slicing-Alternativen

NVIDIA Virtual GPU-Software ermöglicht es mehreren virtuellen Maschinen mit vollständigem Input-Output Memory Management Unit-Schutz, gleichzeitig auf eine einzelne physische GPU zuzugreifen.¹⁹ Über die Sicherheit hinaus ermöglicht vGPU VM-Management mit Live-Migration und die Möglichkeit, gemischte VDI- und Compute-Workloads auszuführen.²⁰ Der Hypervisor virtualisiert die GPU und weist Slices mehreren VMs zu, wobei jede VM einen virtualisierten Teil der GPU für ihre Workloads wahrnimmt.

Time-Slicing bietet ein anderes Freigabemodell. Ein Systemadministrator definiert einen Satz von Replikaten für eine GPU, von denen jedes unabhängig an einen Pod vergeben werden kann, der Workloads in Kubernetes ausführt.²¹ Im Gegensatz zu MIG bietet Time-Slicing keine Speicher- oder Fehlerisolation zwischen Replikaten.²² Wenn eine Aufgabe abstürzt oder sich fehlerhaft verhält, kann dies andere beeinflussen, die die GPU teilen.²³ Der Kompromiss begünstigt Zugang gegenüber Isolation: Time-Slicing ermöglicht die gemeinsame Nutzung durch eine größere Anzahl von Benutzern und bietet Zugang für ältere GPU-Generationen, die MIG nicht unterstützen.²⁴

Die Sicherheitsimplikationen erfordern ein klares Verständnis. Time-Slicing funktioniert für Entwicklungsumgebungen, Tests und Workloads, bei denen Mandanten einander vertrauen oder bei denen die Datensensibilität keine Hardware-Isolation rechtfertigt. Produktionsbereitstellungen mit Multi-Tenant-Sicherheitsanforderungen sollten MIG oder dedizierte GPUs dem Time-Slicing vorziehen.

Hybride Ansätze kombinieren beide Technologien. Organisationen können eine GPU in MIG-Instanzen partitionieren, die Gruppenisolation gewährleisten, und dann Time-Slicing-Scheduler innerhalb jeder Instanz ausführen.²⁵ In Kubernetes-Clustern balanciert die Zuweisung eines MIG-Slice pro Namespace und Time-Sharing von Jobs innerhalb jedes Slice Sicherheit mit Kosteneffizienz.²⁶

Confidential Computing auf GPUs

Die NVIDIA H100 Tensor Core GPU führte Confidential Computing auf GPUs ein und verwendet eine hardwarebasierte Trusted Execution Environment, die in einem On-Die-Hardware-Root-of-Trust verankert ist.²⁷ Vor der H100 existierten Confidential Computing-Funktionen nur in CPUs von AMD und Intel.²⁸ Die H100 bietet Datenschutz für KI-Trainings- und Inferenz-Workloads mit sensiblen Informationen.²⁹

Die technische Architektur baut auf CPU-Confidential-Virtual-Machine-Fähigkeiten auf. Die GPU-Lösung stützt sich auf eine durch AMD SEV-SNP oder Intel TDX auf der CPU aktivierte Confidential VM Trusted Execution Environment.³⁰ Die PCIe-Firewall blockiert CPU-Zugriff auf die meisten Register und den gesamten GPU-geschützten Speicher. Die NVLink-Firewall blockiert Peer-GPU-Zugriff auf geschützten Speicher.³¹ Die Kommunikation zwischen CVM und GPU verwendet AES-GCM-Verschlüsselung mit Sitzungsschlüsseln zum Schutz vor dem Host-System.³²

Die DMA-Engine der H100 unterstützt AES GCM 256-Verschlüsselung für Datenübertragungen zwischen CPU und GPU.³³ Eine GPU im Confidential Computing-Modus blockiert den direkten Zugriff auf den internen Speicher und deaktiviert Leistungszähler, die Seitenkanalangriffe ermöglichen könnten.³⁴ Die Architektur entwickelte sich aus früheren Sicherheitsfunktionen: AES-Authentifizierung auf Firmware seit Volta, verschlüsselte Firmware und Widerruf seit Turing und Ampere, und jetzt vollständig gemessener und attestierter Boot mit Hardware-Root-of-Trust in Hopper.³⁵

Microsoft Azure bietet Confidential VMs mit NVIDIA H100 GPUs in der Vorschau an und ermöglicht Training, Feinabstimmung und Bereitstellung von Modellen wie Stable Diffusion und Large Language Models mit Confidential Computing-Schutz.³⁶ Die Blackwell-Architektur bringt Confidential AI weiter voran mit nahezu identischer Leistung, ob verschlüsselte oder unverschlüsselte Modelle ausgeführt werden, selbst für LLMs.³⁷

Kubernetes GPU-Sicherheitsüberlegungen

Namespace-Isolation in Kubernetes bietet keine ausreichende Sicherheit für Multi-Tenant-GPU-Scheduling.³⁸ Organisationen, die KI-Workloads auf Bare-Metal-Kubernetes mit GPUs ausführen, müssen zusätzliche Kontrollen implementieren. Der NVIDIA GPU Operator ermöglicht Time-Slicing- und MIG-Konfiguration, aber die Sicherheit hängt von der richtigen Konfiguration und Härtung ab.

Das NVIDIA Container Toolkit-Sicherheitsbulletin vom September 2024 veranlasste dringende Upgrades. Organisationen sollten Container Toolkit v1.16.2 oder höher oder GPU Operator v24.6.2 oder höher ausführen.³⁹ Die Schwachstellen zeigten, dass Container-Escape-Angriffe die GPU-Isolation kompromittieren konnten, selbst wenn sie auf höheren Ebenen ordnungsgemäß konfiguriert war.

Drittanbieterlösungen beheben Lücken im nativen Kubernetes-GPU-Management. Volcano bietet einen Cloud-nativen Batch-Scheduler mit feingranularer Kontrolle über Prioritäten und Fairness für Hochleistungs-Workloads.⁴⁰ Run:ai, jetzt Teil von NVIDIA, verwaltet und optimiert GPU-Ressourcen für KI-Workloads mit Funktionen, die für Multi-Tenant-Umgebungen entwickelt wurden.⁴¹ vCluster Labs kündigte seine Infrastructure Tenancy Platform für KI auf der KubeCon North America 2025 an und liefert Kubernetes-native Grundlagen für NVIDIA GPU-Infrastruktur.⁴²

Organisationen, die vCluster nutzen, berichten von einer 40%igen Verbesserung der GPU-Auslastung und einer 60%igen Reduzierung der Infrastrukturkosten durch dynamische Multi-Tenant-Orchestrierung.⁴³ Die Effizienzgewinne zeigen, dass ordnungsgemäße Multi-Tenant-Architekturen sowohl Sicherheit als auch Wirtschaftlichkeit im Vergleich zu dedizierten GPU-Zuweisungen verbessern können.

Seitenkanalangriffe und aufkommende Bedrohungen

GPU-Speicherangriffe nutzen die gemeinsam genutzte Architektur in Multi-Tenant-Umgebungen aus, um die Datenvertraulichkeit zu verletzen und die Leistung zu beeinträchtigen.⁴⁴ Angreifer, die konkurrenzbasierte Seitenkanäle nutzen, können sensible Informationen aus parallel laufenden Workloads ableiten.⁴⁵ GPU Memory Attacks zielen auf gemeinsam genutzten Speicher ab, um Informationslecks und verdeckte Kanäle zwischen Mandanten zu ermöglichen.⁴⁶

Ein Rowhammer-Hardware-Angriff, der zuvor bekannt dafür war, CPU-Speicher zu beeinflussen, kompromittiert GPUs mit GDDR-Speicher und verursacht schwere Genauigkeitsverluste bei KI-Modellen.⁴⁷ Der Angriff nutzt GPU-Parallelismus aus, um Bit-Flips zu induzieren, was besondere Risiken in Cloud-Umgebungen birgt, in denen Angreifer möglicherweise zusammen mit Ziel-Workloads platziert werden.⁴⁸

Das Hauptrisiko in virtualisierten GPU-Umgebungen bleiben Cross-Virtual-Machine-Angriffe.⁴⁹ Mehrere Mandanten, die Workloads auf derselben physischen GPU ausführen, schaffen Möglichkeiten für Isolationsmechanismus-Fehler, die Ausspähung ermöglichen. Dies bricht grundlegend das Cloud-Sicherheitsmodell und birgt ernsthafte Risiken für die Datenvertraulichkeit.⁵⁰

Mitigationsstrategien umfassen starke Workload-Isolation, die das Ausführen sensibler und nicht-sensibler Workloads auf derselben GPU vermeidet, Cache-Partitionierung zur Reduzierung der gemeinsam genutzten Cache-Exposition und randomisierte Planung zur Erschwerung zeitbasierter Angriffe.⁵¹ Single Root I/O Virtualization oder ähnliche sicherheitsverbesserte Virtualisierungstechnologien bieten zusätzlichen Schutz.⁵² Confidential GPUs stellen die nächste Grenze dar und erweitern TEE-ähnlichen Schutz auf GPU-Speicher und Ausführungsabläufe.⁵³

Best Practices für Unternehmenssicherheit

Organisationen, die gemeinsam genutzte GPU-Infrastruktur bereitstellen, sollten Sicherheitskontrollen implementieren, die ihrer Risikotoleranz und ihren regulatorischen Anforderungen entsprechen.

Für sensible Workloads reduzieren Single-Tenant-Optionen, bei denen GPUs nicht geteilt werden, das Risiko von Seitenkanalangriffen und entsprechen Compliance-Anforderungen.⁵⁴ Einige Zertifizierungen erfordern dedizierte Hardware für bestimmte Datentypen.⁵⁵ Der Kostenaufschlag für dedizierte GPUs kann durch Sicherheitsanforderungen gerechtfertigt sein.

Treiber- und Firmware-Sicherheit erfordert konsistente Updates mit den neuesten Sicherheitspatches.⁵⁶ NVIDIA empfiehlt vierteljährliche Firmware-Updates und Treiber-Validierungen während geplanter Wartungsfenster.⁵⁷ Die Schwachstellenoffenlegung vom Januar 2025 demonstriert die Bedeutung zeitnaher Patches.

Speicherhygiene zwischen Sitzungen verhindert Datenlecks. Das Nullsetzen des GPU-Speichers zwischen Sitzungen eliminiert eine wichtige Angriffsklasse mit minimalem Leistungseinfluss.

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT