Keamanan GPU multi-tenant: strategi isolasi untuk infrastruktur bersama

90% organisasi menerapkan AI, hanya 5% yang merasa percaya diri dengan kesiapan keamanan. 97% organisasi yang mengalami pelanggaran tidak memiliki kontrol akses AI yang memadai. NVIDIA mengungkapkan tujuh kerentanan keamanan...

Keamanan GPU multi-tenant: strategi isolasi untuk infrastruktur bersama

Keamanan GPU multi-tenant: strategi isolasi untuk infrastruktur bersama

Diperbarui 11 Desember 2025

Pembaruan Desember 2025: 90% organisasi menerapkan AI, hanya 5% yang merasa percaya diri dengan kesiapan keamanan. 97% organisasi yang mengalami pelanggaran tidak memiliki kontrol akses AI yang memadai. NVIDIA mengungkapkan tujuh kerentanan keamanan (27 Januari 2025) termasuk CVE-2025-23266 yang memungkinkan akses root melalui bypass Container Toolkit. Pasar keamanan infrastruktur AI AS mencapai $2,99 miliar (CAGR 22,8%).

Sembilan puluh persen organisasi menerapkan sistem AI, namun hanya 5% yang merasa percaya diri dengan kesiapan keamanan mereka.¹ Organisasi dengan otomatisasi keamanan khusus AI mencapai penghematan $1,9 juta per pelanggaran dan mengurangi siklus insiden sebanyak 80 hari.² Sementara itu, 97% organisasi yang mengalami pelanggaran tidak memiliki kontrol akses AI yang memadai.³ Seiring infrastruktur GPU menjadi fondasi AI enterprise, model keamanan untuk sumber daya GPU bersama menentukan apakah organisasi dapat dengan aman mengkonsolidasikan beban kerja atau harus mempertahankan hardware khusus yang mahal untuk setiap tenant.

Tantangannya melampaui keamanan virtualisasi tradisional. GPU menangani data sensitif termasuk bobot model, data pelatihan, dan input inferensi yang merupakan kekayaan intelektual organisasi. Pelanggaran di tingkat GPU dapat membahayakan "otak" dari sistem AI.⁴ Lingkungan GPU multi-tenant memperkenalkan permukaan serangan yang secara fundamental berbeda dari virtualisasi berbasis CPU, memerlukan strategi keamanan yang dirancang khusus untuk arsitektur GPU.

Lanskap keamanan GPU multi-tenant

Pada 27 Januari 2025, NVIDIA mengungkapkan tujuh kerentanan keamanan baru yang memengaruhi driver display GPU dan software virtual GPU.⁵ Kelemahan kritis ini berdampak pada jutaan sistem dari infrastruktur AI enterprise hingga platform cloud computing. Kerentanan NVIDIA Container Toolkit CVE-2025-23266 memungkinkan aktor jahat melewati mekanisme isolasi dan mendapatkan akses root ke sistem host.⁶ Pengungkapan ini menyoroti kelemahan sistemik dalam stack software GPU yang tidak dapat diabaikan organisasi.

Pasar keamanan infrastruktur AI AS mencapai $2,99 miliar dan berkembang dengan tingkat pertumbuhan tahunan majemuk 22,8%.⁷ Serangan bertenaga AI menyumbang 16% dari semua pelanggaran pada 2025.⁸ Investasi ini mencerminkan pengakuan yang berkembang bahwa infrastruktur GPU memerlukan perhatian keamanan khusus di luar perlindungan data center umum.

Keamanan GPU berbeda dari keamanan CPU dalam cara-cara fundamental. GPU menangani data yang sangat sensitif secara sementara selama pemrosesan. Tidak seperti CPU, GPU tidak selalu memiliki isolasi memori yang kuat, terutama di lingkungan multi-tenant.⁹ Jika memori tidak dibersihkan dengan benar saat proses berakhir, penyerang dapat mengambil data sisa dari beban kerja pengguna lain.¹⁰ Arsitektur bersama GPU modern memungkinkan side channel berbasis pertentangan di mana penyerang dapat menyimpulkan informasi sensitif, mengganggu beban kerja yang berlokasi bersama, atau membangun saluran komunikasi tersembunyi.¹¹

Isolasi hardware dengan Multi-Instance GPU

Teknologi Multi-Instance GPU NVIDIA menyediakan isolasi tingkat hardware yang memungkinkan multi-tenancy aman pada hardware GPU bernilai tinggi.¹² Dimulai dengan arsitektur Ampere, MIG memungkinkan partisi satu GPU menjadi hingga tujuh instance terpisah untuk aplikasi CUDA.¹³ GPU Blackwell dan Hopper memperluas kemampuan MIG dengan konfigurasi multi-tenant, multi-user di lingkungan virtual, mengamankan setiap instance dengan confidential computing di tingkat hardware dan hypervisor.¹⁴

Arsitektur ini menyediakan pemisahan hardware yang genuine. Prosesor setiap partisi MIG memiliki jalur terpisah dan terisolasi melalui seluruh sistem memori.¹⁵ Port crossbar on-chip, bank cache L2, controller memori, dan bus alamat DRAM menerima penugasan unik ke instance individual.¹⁶ Satu tenant tidak dapat membaca atau menimpa memori GPU tenant lain. Isolasi kesalahan mencegah kode yang crash dari satu pengguna memengaruhi seluruh GPU atau berdampak pada pengguna lain.¹⁷

MIG mendukung sistem operasi Linux, beban kerja terkontainerisasi menggunakan Docker Engine, orkestrasi dengan Kubernetes, dan lingkungan virtual melalui hypervisor termasuk Red Hat Virtualization dan VMware vSphere.¹⁸ Dukungan platform yang luas memungkinkan organisasi mengimplementasikan isolasi GPU dalam infrastruktur yang ada tanpa perubahan arsitektur besar-besaran.

Keterbatasan MIG terletak pada granularitas. Partisi 7 arah merupakan subdivisi maksimum pada hardware saat ini. Organisasi yang memerlukan pembagian lebih halus atau mendukung generasi GPU yang lebih lama harus mempertimbangkan pendekatan alternatif.

Alternatif vGPU dan time-slicing

Software virtual GPU NVIDIA memungkinkan beberapa mesin virtual dengan perlindungan input-output memory management unit penuh untuk mengakses satu GPU fisik secara bersamaan.¹⁹ Di luar keamanan, vGPU memungkinkan manajemen VM dengan live migration dan kemampuan menjalankan beban kerja VDI dan compute campuran.²⁰ Hypervisor memvirtualisasi GPU dan menetapkan slice ke beberapa VM, dengan setiap VM mempersepsikan porsi virtual dari GPU untuk beban kerjanya.

Time-slicing menyediakan model pembagian yang berbeda. Administrator sistem mendefinisikan set replika untuk GPU, yang masing-masing dapat diberikan secara independen ke pod yang menjalankan beban kerja di Kubernetes.²¹ Tidak seperti MIG, time-slicing tidak menyediakan isolasi memori atau kesalahan antar replika.²² Jika satu tugas crash atau berperilaku buruk, dapat memengaruhi tugas lain yang berbagi GPU.²³ Pertukaran ini lebih mengutamakan akses daripada isolasi: time-slicing memungkinkan pembagian oleh jumlah pengguna yang lebih besar dan menyediakan akses untuk generasi GPU yang lebih lama yang tidak mendukung MIG.²⁴

Implikasi keamanan memerlukan pemahaman yang jelas. Time-slicing bekerja untuk lingkungan pengembangan, pengujian, dan beban kerja di mana tenant saling percaya atau di mana sensitivitas data tidak memerlukan isolasi hardware. Deployment produksi dengan persyaratan keamanan multi-tenant harus lebih memilih MIG atau GPU khusus daripada time-slicing.

Pendekatan hybrid menggabungkan kedua teknologi. Organisasi dapat mempartisi GPU menjadi instance MIG yang memastikan isolasi grup, kemudian menjalankan scheduler time-slicing dalam setiap instance.²⁵ Di cluster Kubernetes, mengalokasikan slice MIG per namespace dan time-sharing job dalam setiap slice menyeimbangkan keamanan dengan efisiensi biaya.²⁶

Confidential computing pada GPU

NVIDIA H100 Tensor Core GPU memperkenalkan confidential computing ke GPU, menggunakan trusted execution environment berbasis hardware yang berlabuh pada hardware root of trust on-die.²⁷ Sebelum H100, fitur confidential computing hanya ada di CPU dari AMD dan Intel.²⁸ H100 menyediakan perlindungan data untuk beban kerja pelatihan dan inferensi AI yang melibatkan informasi sensitif.²⁹

Arsitektur teknis dibangun di atas kemampuan confidential virtual machine CPU. Solusi GPU mengandalkan trusted execution environment confidential VM yang diaktifkan oleh AMD SEV-SNP atau Intel TDX pada CPU.³⁰ Firewall PCIe memblokir akses CPU ke sebagian besar register dan semua memori GPU yang dilindungi. Firewall NVLink memblokir akses GPU peer ke memori yang dilindungi.³¹ Komunikasi antara CVM dan GPU menggunakan enkripsi AES-GCM dengan session key untuk melindungi dari sistem host.³²

Mesin DMA H100 mendukung enkripsi AES GCM 256 untuk transfer data antara CPU dan GPU.³³ GPU dalam mode confidential computing memblokir akses langsung ke memori internal dan menonaktifkan performance counter yang dapat memungkinkan serangan side-channel.³⁴ Arsitektur ini berevolusi dari fitur keamanan sebelumnya: autentikasi AES pada firmware sejak Volta, firmware terenkripsi dan revokasi sejak Turing dan Ampere, dan sekarang measured and attested boot penuh dengan hardware root of trust di Hopper.³⁵

Microsoft Azure menawarkan confidential VM dengan GPU NVIDIA H100 dalam preview, memungkinkan pelatihan, fine-tuning, dan serving model seperti Stable Diffusion dan large language model dengan perlindungan confidential computing.³⁶ Arsitektur Blackwell memajukan confidential AI lebih jauh dengan performa yang hampir identik baik menjalankan model terenkripsi maupun tidak terenkripsi, bahkan untuk LLM.³⁷

Pertimbangan keamanan GPU Kubernetes

Isolasi namespace di Kubernetes tidak menyediakan keamanan yang memadai untuk penjadwalan GPU multi-tenant.³⁸ Organisasi yang menjalankan beban kerja AI pada bare metal Kubernetes dengan GPU harus mengimplementasikan kontrol tambahan. NVIDIA GPU Operator memungkinkan konfigurasi time-slicing dan MIG, tetapi keamanan bergantung pada konfigurasi dan hardening yang tepat.

Buletin keamanan NVIDIA Container Toolkit September 2024 mendorong upgrade mendesak. Organisasi harus menjalankan Container Toolkit v1.16.2 atau lebih tinggi, atau GPU Operator v24.6.2 atau lebih tinggi.³⁹ Kerentanan menunjukkan bahwa serangan container escape dapat membahayakan isolasi GPU bahkan ketika dikonfigurasi dengan benar di level yang lebih tinggi.

Solusi pihak ketiga mengatasi kesenjangan dalam manajemen GPU Kubernetes native. Volcano menyediakan batch scheduler cloud-native dengan kontrol halus atas prioritas dan fairness untuk beban kerja performa tinggi.⁴⁰ Run:ai, sekarang bagian dari NVIDIA, mengelola dan mengoptimalkan sumber daya GPU untuk beban kerja AI dengan fitur yang dirancang untuk lingkungan multi-tenant.⁴¹ vCluster Labs mengumumkan Infrastructure Tenancy Platform untuk AI di KubeCon North America 2025, memberikan fondasi Kubernetes-native untuk infrastruktur GPU NVIDIA.⁴²

Organisasi yang menggunakan vCluster melaporkan peningkatan 40% dalam utilisasi GPU dan pengurangan 60% dalam biaya infrastruktur melalui orkestrasi multi-tenant dinamis.⁴³ Peningkatan efisiensi menunjukkan bahwa arsitektur multi-tenant yang tepat dapat meningkatkan keamanan dan ekonomi dibandingkan dengan alokasi GPU khusus.

Serangan side-channel dan ancaman yang muncul

Serangan memori GPU mengeksploitasi arsitektur bersama di lingkungan multi-tenant untuk melanggar kerahasiaan data dan menurunkan performa.⁴⁴ Penyerang yang menggunakan side channel berbasis pertentangan dapat menyimpulkan informasi sensitif dari beban kerja yang berlokasi bersama.⁴⁵ GPU Memory Attacks menargetkan memori bersama untuk memfasilitasi kebocoran informasi dan saluran tersembunyi antar tenant.⁴⁶

Serangan hardware Rowhammer, yang sebelumnya diketahui memengaruhi memori CPU, membahayakan GPU dengan memori GDDR dan menyebabkan penurunan akurasi model AI yang parah.⁴⁷ Serangan ini mengeksploitasi paralelisme GPU untuk menginduksi bit flip, menimbulkan risiko khusus di lingkungan cloud di mana penyerang dapat berlokasi bersama dengan beban kerja target.⁴⁸

Risiko utama di lingkungan GPU virtual tetap serangan lintas mesin virtual.⁴⁹ Beberapa tenant yang menjalankan beban kerja pada GPU fisik yang sama menciptakan peluang bagi kelemahan mekanisme isolasi untuk memungkinkan pengintaian. Ini secara fundamental merusak model keamanan cloud dan menimbulkan risiko serius terhadap kerahasiaan data.⁵⁰

Strategi mitigasi termasuk isolasi beban kerja yang kuat yang menghindari menjalankan beban kerja sensitif dan tidak sensitif pada GPU yang sama, partisi cache untuk mengurangi paparan cache bersama, dan penjadwalan acak untuk mempersulit serangan berbasis timing.⁵¹ Single Root I/O Virtualization atau teknologi virtualisasi yang ditingkatkan keamanannya menyediakan perlindungan tambahan.⁵² Confidential GPU merupakan batas berikutnya, memperluas perlindungan seperti TEE ke memori dan alur eksekusi GPU.⁵³

Praktik terbaik keamanan enterprise

Organisasi yang menerapkan infrastruktur GPU bersama harus mengimplementasikan kontrol keamanan yang sesuai dengan toleransi risiko dan persyaratan regulasi mereka.

Untuk beban kerja sensitif, opsi single-tenant di mana GPU tidak dibagi mengurangi risiko serangan side-channel dan selaras dengan persyaratan kepatuhan.⁵⁴ Beberapa sertifikasi memerlukan hardware khusus untuk jenis data tertentu.⁵⁵ Premium biaya untuk GPU khusus mungkin dibenarkan oleh persyaratan keamanan.

Keamanan driver dan firmware memerlukan pembaruan konsisten dengan patch keamanan terbaru.⁵⁶ NVIDIA merekomendasikan pembaruan firmware triwulanan dan validasi driver selama jendela pemeliharaan terjadwal.⁵⁷ Pengungkapan kerentanan Januari 2025 menunjukkan pentingnya patching tepat waktu.

Kebersihan memori antar sesi mencegah kebocoran data. Mengosongkan memori GPU antar sesi menghilangkan kelas serangan utama dengan dampak performa minimal

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING