मल्टी-टेनेंट GPU सुरक्षा: साझा इंफ्रास्ट्रक्चर के लिए आइसोलेशन रणनीतियाँ
अपडेट 11 दिसंबर, 2025
दिसंबर 2025 अपडेट: 90% संगठन AI तैनात कर रहे हैं, लेकिन केवल 5% सुरक्षा तैयारी में आत्मविश्वास महसूस करते हैं। 97% उल्लंघन झेलने वाले संगठनों में उचित AI एक्सेस कंट्रोल का अभाव था। NVIDIA ने सात सुरक्षा कमजोरियों का खुलासा किया (27 जनवरी, 2025) जिसमें CVE-2025-23266 शामिल है जो Container Toolkit बायपास के माध्यम से रूट एक्सेस की अनुमति देता है। अमेरिकी AI इंफ्रास्ट्रक्चर सुरक्षा बाजार $2.99B तक पहुंच गया (22.8% CAGR)।
नब्बे प्रतिशत संगठन AI सिस्टम तैनात करते हैं, फिर भी केवल 5% अपनी सुरक्षा तैयारी में आत्मविश्वास महसूस करते हैं।¹ AI-विशिष्ट सुरक्षा ऑटोमेशन वाले संगठन प्रति उल्लंघन $1.9 मिलियन की बचत करते हैं और इंसिडेंट लाइफसाइकल को 80 दिन कम करते हैं।² इसी बीच, 97% उल्लंघन झेलने वाले संगठनों में उचित AI एक्सेस कंट्रोल का अभाव था।³ जैसे-जैसे GPU इंफ्रास्ट्रक्चर एंटरप्राइज AI की नींव बनता जा रहा है, साझा GPU संसाधनों के लिए सुरक्षा मॉडल यह निर्धारित करता है कि संगठन सुरक्षित रूप से वर्कलोड को समेकित कर सकते हैं या उन्हें हर टेनेंट के लिए महंगे डेडिकेटेड हार्डवेयर बनाए रखने होंगे।
चुनौती पारंपरिक वर्चुअलाइजेशन सुरक्षा से परे है। GPU संवेदनशील डेटा को संभालते हैं जिसमें मॉडल वेट्स, ट्रेनिंग डेटा, और इंफरेंस इनपुट शामिल हैं जो संगठनात्मक बौद्धिक संपदा का प्रतिनिधित्व करते हैं। GPU स्तर पर उल्लंघन AI सिस्टम के "मस्तिष्क" को खतरे में डाल सकता है।⁴ मल्टी-टेनेंट GPU वातावरण ऐसी अटैक सरफेस पेश करते हैं जो CPU-आधारित वर्चुअलाइजेशन से मूलभूत रूप से भिन्न हैं, जिसके लिए GPU आर्किटेक्चर के लिए विशेष रूप से डिज़ाइन की गई सुरक्षा रणनीतियों की आवश्यकता होती है।
मल्टी-टेनेंट GPU सुरक्षा परिदृश्य
27 जनवरी, 2025 को, NVIDIA ने GPU डिस्प्ले ड्राइवर और वर्चुअल GPU सॉफ्टवेयर को प्रभावित करने वाली सात नई सुरक्षा कमजोरियों का खुलासा किया।⁵ ये गंभीर खामियां एंटरप्राइज AI इंफ्रास्ट्रक्चर से लेकर क्लाउड कंप्यूटिंग प्लेटफॉर्म तक लाखों सिस्टम को प्रभावित करती हैं। NVIDIA Container Toolkit की कमजोरी CVE-2025-23266 ने दुर्भावनापूर्ण अभिनेताओं को आइसोलेशन मैकेनिज्म को बायपास करने और होस्ट सिस्टम तक रूट एक्सेस प्राप्त करने की अनुमति दी।⁶ इस खुलासे ने GPU सॉफ्टवेयर स्टैक में व्यवस्थागत कमजोरियों को उजागर किया जिन्हें संगठन नजरअंदाज नहीं कर सकते।
अमेरिकी AI इंफ्रास्ट्रक्चर सुरक्षा बाजार $2.99 बिलियन तक पहुंच गया और 22.8% चक्रवृद्धि वार्षिक वृद्धि दर से विस्तार कर रहा है।⁷ 2025 में सभी उल्लंघनों में से 16% AI-संचालित हमलों के कारण थे।⁸ निवेश बढ़ती मान्यता को दर्शाता है कि GPU इंफ्रास्ट्रक्चर को सामान्य डेटा सेंटर सुरक्षा से परे समर्पित सुरक्षा ध्यान की आवश्यकता है।
GPU सुरक्षा मूलभूत तरीकों से CPU सुरक्षा से भिन्न है। GPU प्रोसेसिंग के दौरान अस्थायी रूप से अत्यंत संवेदनशील डेटा को संभालते हैं। CPU के विपरीत, GPU में हमेशा मजबूत मेमोरी आइसोलेशन नहीं होता, विशेष रूप से मल्टी-टेनेंट वातावरण में।⁹ यदि प्रोसेस समाप्त होने पर मेमोरी ठीक से साफ नहीं होती, तो हमलावर किसी अन्य उपयोगकर्ता के वर्कलोड से बचा हुआ डेटा प्राप्त कर सकता है।¹⁰ आधुनिक GPU की साझा आर्किटेक्चर कंटेंशन-आधारित साइड चैनल को सक्षम बनाती है जिसके माध्यम से हमलावर संवेदनशील जानकारी का अनुमान लगा सकते हैं, सह-स्थित वर्कलोड को बाधित कर सकते हैं, या गुप्त संचार चैनल स्थापित कर सकते हैं।¹¹
Multi-Instance GPU के साथ हार्डवेयर आइसोलेशन
NVIDIA की Multi-Instance GPU तकनीक हार्डवेयर-स्तरीय आइसोलेशन प्रदान करती है जो उच्च-मूल्य GPU हार्डवेयर पर सुरक्षित मल्टी-टेनेंसी को सक्षम बनाती है।¹² Ampere आर्किटेक्चर से शुरू करके, MIG CUDA एप्लिकेशन के लिए एक GPU को सात अलग-अलग इंस्टेंस में विभाजित करने की अनुमति देता है।¹³ Blackwell और Hopper GPU वर्चुअलाइज्ड वातावरण में मल्टी-टेनेंट, मल्टी-यूजर कॉन्फ़िगरेशन के साथ MIG क्षमताओं का विस्तार करते हैं, हार्डवेयर और हाइपरवाइजर स्तर पर कॉन्फिडेंशियल कंप्यूटिंग के साथ प्रत्येक इंस्टेंस को सुरक्षित करते हैं।¹⁴
आर्किटेक्चर वास्तविक हार्डवेयर पृथक्करण प्रदान करता है। प्रत्येक MIG पार्टीशन के प्रोसेसर में संपूर्ण मेमोरी सिस्टम के माध्यम से अलग और पृथक पथ होते हैं।¹⁵ ऑन-चिप क्रॉसबार पोर्ट, L2 कैश बैंक, मेमोरी कंट्रोलर, और DRAM एड्रेस बस व्यक्तिगत इंस्टेंस को अद्वितीय असाइनमेंट प्राप्त करते हैं।¹⁶ एक टेनेंट दूसरे टेनेंट की GPU मेमोरी को पढ़ या ओवरराइट नहीं कर सकता। फॉल्ट आइसोलेशन एक उपयोगकर्ता के क्रैश हुए कोड को पूरे GPU को प्रभावित करने या दूसरों को प्रभावित करने से रोकता है।¹⁷
MIG Linux ऑपरेटिंग सिस्टम, Docker Engine का उपयोग करके कंटेनराइज्ड वर्कलोड, Kubernetes के साथ ऑर्केस्ट्रेशन, और Red Hat Virtualization और VMware vSphere सहित हाइपरवाइजर के माध्यम से वर्चुअलाइज्ड वातावरण का समर्थन करता है।¹⁸ व्यापक प्लेटफॉर्म समर्थन संगठनों को थोक आर्किटेक्चर परिवर्तनों के बिना मौजूदा इंफ्रास्ट्रक्चर के भीतर GPU आइसोलेशन लागू करने में सक्षम बनाता है।
MIG की सीमा ग्रैन्युलैरिटी में है। वर्तमान हार्डवेयर पर 7-तरफा विभाजन अधिकतम उपविभाजन का प्रतिनिधित्व करता है। अधिक बारीक साझाकरण की आवश्यकता वाले या पुरानी GPU पीढ़ियों का समर्थन करने वाले संगठनों को वैकल्पिक दृष्टिकोणों पर विचार करना चाहिए।
vGPU और टाइम-स्लाइसिंग विकल्प
NVIDIA वर्चुअल GPU सॉफ्टवेयर पूर्ण इनपुट-आउटपुट मेमोरी मैनेजमेंट यूनिट सुरक्षा के साथ कई वर्चुअल मशीनों को एक साथ एक भौतिक GPU तक पहुंचने में सक्षम बनाता है।¹⁹ सुरक्षा से परे, vGPU लाइव माइग्रेशन और मिश्रित VDI और कंप्यूट वर्कलोड चलाने की क्षमता के साथ VM प्रबंधन को सक्षम बनाता है।²⁰ हाइपरवाइजर GPU को वर्चुअलाइज करता है और कई VM को स्लाइस असाइन करता है, जिसमें प्रत्येक VM अपने वर्कलोड के लिए GPU के वर्चुअलाइज्ड हिस्से को देखता है।
टाइम-स्लाइसिंग एक अलग साझाकरण मॉडल प्रदान करता है। एक सिस्टम एडमिनिस्ट्रेटर GPU के लिए रेप्लिका का एक सेट परिभाषित करता है, जिनमें से प्रत्येक को Kubernetes में वर्कलोड चलाने वाले पॉड को स्वतंत्र रूप से सौंपा जा सकता है।²¹ MIG के विपरीत, टाइम-स्लाइसिंग रेप्लिका के बीच मेमोरी या फॉल्ट आइसोलेशन प्रदान नहीं करती।²² यदि एक टास्क क्रैश होता है या गलत व्यवहार करता है, तो यह GPU साझा करने वाले अन्य को प्रभावित कर सकता है।²³ ट्रेडऑफ आइसोलेशन पर एक्सेस को प्राथमिकता देता है: टाइम-स्लाइसिंग बड़ी संख्या में उपयोगकर्ताओं द्वारा साझाकरण को सक्षम बनाती है और पुरानी GPU पीढ़ियों के लिए एक्सेस प्रदान करती है जो MIG का समर्थन नहीं करती हैं।²⁴
सुरक्षा निहितार्थों के लिए स्पष्ट समझ की आवश्यकता होती है। टाइम-स्लाइसिंग विकास वातावरण, परीक्षण, और ऐसे वर्कलोड के लिए काम करती है जहां टेनेंट एक-दूसरे पर भरोसा करते हैं या जहां डेटा संवेदनशीलता हार्डवेयर आइसोलेशन की गारंटी नहीं देती। मल्टी-टेनेंट सुरक्षा आवश्यकताओं वाली प्रोडक्शन तैनाती को टाइम-स्लाइसिंग की तुलना में MIG या डेडिकेटेड GPU को प्राथमिकता देनी चाहिए।
हाइब्रिड दृष्टिकोण दोनों तकनीकों को जोड़ते हैं। संगठन GPU को MIG इंस्टेंस में विभाजित कर सकते हैं जो समूह आइसोलेशन सुनिश्चित करते हैं, फिर प्रत्येक इंस्टेंस के भीतर टाइम-स्लाइसिंग शेड्यूलर चला सकते हैं।²⁵ Kubernetes क्लस्टर में, प्रति नेमस्पेस एक MIG स्लाइस आवंटित करना और प्रत्येक स्लाइस के भीतर जॉब को टाइम-शेयर करना लागत दक्षता के साथ सुरक्षा को संतुलित करता है।²⁶
GPU पर कॉन्फिडेंशियल कंप्यूटिंग
NVIDIA H100 Tensor Core GPU ने GPU में कॉन्फिडेंशियल कंप्यूटिंग पेश की, ऑन-डाई हार्डवेयर रूट ऑफ ट्रस्ट में एंकर किए गए हार्डवेयर-आधारित ट्रस्टेड एक्जीक्यूशन एनवायरनमेंट का उपयोग करते हुए।²⁷ H100 से पहले, कॉन्फिडेंशियल कंप्यूटिंग फीचर केवल AMD और Intel के CPU में मौजूद थे।²⁸ H100 संवेदनशील जानकारी शामिल AI ट्रेनिंग और इंफरेंस वर्कलोड के लिए डेटा सुरक्षा प्रदान करता है।²⁹
तकनीकी आर्किटेक्चर CPU कॉन्फिडेंशियल वर्चुअल मशीन क्षमताओं पर बनी है। GPU समाधान CPU पर AMD SEV-SNP या Intel TDX द्वारा सक्षम कॉन्फिडेंशियल VM ट्रस्टेड एक्जीक्यूशन एनवायरनमेंट पर निर्भर करता है।³⁰ PCIe फायरवॉल अधिकांश रजिस्टरों और सभी GPU प्रोटेक्टेड मेमोरी तक CPU एक्सेस को ब्लॉक करता है। NVLink फायरवॉल प्रोटेक्टेड मेमोरी तक पीयर GPU एक्सेस को ब्लॉक करता है।³¹ CVM और GPU के बीच संचार होस्ट सिस्टम से सुरक्षा के लिए सेशन कुंजियों के साथ AES-GCM एन्क्रिप्शन का उपयोग करता है।³²
H100 का DMA इंजन CPU और GPU के बीच डेटा ट्रांसफर के लिए AES GCM 256 एन्क्रिप्शन का समर्थन करता है।³³ कॉन्फिडेंशियल कंप्यूटिंग मोड में एक GPU आंतरिक मेमोरी तक सीधी पहुंच को ब्लॉक करता है और परफॉर्मेंस काउंटर को अक्षम करता है जो साइड-चैनल हमलों को सक्षम कर सकते हैं।³⁴ आर्किटेक्चर पहले की सुरक्षा सुविधाओं से विकसित हुआ: Volta के बाद से फर्मवेयर पर AES प्रमाणीकरण, Turing और Ampere के बाद से एन्क्रिप्टेड फर्मवेयर और रिवोकेशन, और अब Hopper में हार्डवेयर रूट ऑफ ट्रस्ट के साथ पूर्ण मेजर्ड और अटेस्टेड बूट।³⁵
Microsoft Azure NVIDIA H100 GPU के साथ कॉन्फिडेंशियल VM प्रीव्यू में प्रदान करता है, जो कॉन्फिडेंशियल कंप्यूटिंग सुरक्षा के साथ Stable Diffusion और large language models जैसे मॉडलों की ट्रेनिंग, फाइन-ट्यूनिंग, और सर्विंग को सक्षम बनाता है।³⁶ Blackwell आर्किटेक्चर कॉन्फिडेंशियल AI को आगे बढ़ाता है जिसमें एन्क्रिप्टेड या अनएन्क्रिप्टेड मॉडल चलाते समय लगभग समान प्रदर्शन होता है, यहां तक कि LLM के लिए भी।³⁷
Kubernetes GPU सुरक्षा विचार
Kubernetes में नेमस्पेस आइसोलेशन मल्टी-टेनेंट GPU शेड्यूलिंग के लिए पर्याप्त सुरक्षा प्रदान नहीं करता।³⁸ GPU के साथ बेयर मेटल Kubernetes पर AI वर्कलोड चलाने वाले संगठनों को अतिरिक्त नियंत्रण लागू करने होंगे। NVIDIA GPU Operator टाइम-स्लाइसिंग और MIG कॉन्फ़िगरेशन को सक्षम बनाता है, लेकिन सुरक्षा उचित कॉन्फ़िगरेशन और हार्डनिंग पर निर्भर करती है।
सितंबर 2024 NVIDIA Container Toolkit सुरक्षा बुलेटिन ने तत्काल अपग्रेड को प्रेरित किया। संगठनों को Container Toolkit v1.16.2 या उच्चतर, या GPU Operator v24.6.2 या उच्चतर चलाना चाहिए।³⁹ कमजोरियों ने प्रदर्शित किया कि कंटेनर एस्केप हमले GPU आइसोलेशन को भी खतरे में डाल सकते हैं भले ही उच्च स्तरों पर ठीक से कॉन्फ़िगर किया गया हो।
थर्ड-पार्टी समाधान नेटिव Kubernetes GPU प्रबंधन में अंतराल को संबोधित करते हैं। Volcano उच्च-प्रदर्शन वर्कलोड के लिए प्राथमिकताओं और निष्पक्षता पर बारीक नियंत्रण के साथ एक क्लाउड-नेटिव बैच शेड्यूलर प्रदान करता है।⁴⁰ Run:ai, अब NVIDIA का हिस्सा, मल्टी-टेनेंट वातावरण के लिए डिज़ाइन की गई सुविधाओं के साथ AI वर्कलोड के लिए GPU संसाधनों का प्रबंधन और अनुकूलन करता है।⁴¹ vCluster Labs ने KubeCon North America 2025 में AI के लिए अपने Infrastructure Tenancy Platform की घोषणा की, NVIDIA GPU इंफ्रास्ट्रक्चर के लिए Kubernetes-नेटिव फाउंडेशन प्रदान करते हुए।⁴²
vCluster का उपयोग करने वाले संगठन डायनामिक मल्टी-टेनेंट ऑर्केस्ट्रेशन के माध्यम से GPU उपयोग में 40% सुधार और इंफ्रास्ट्रक्चर लागत में 60% कमी की रिपोर्ट करते हैं।⁴³ दक्षता लाभ प्रदर्शित करते हैं कि उचित मल्टी-टेनेंट आर्किटेक्चर डेडिकेटेड GPU आवंटन की तुलना में सुरक्षा और अर्थशास्त्र दोनों में सुधार कर सकते हैं।
साइड-चैनल हमले और उभरते खतरे
GPU मेमोरी हमले मल्टी-टेनेंट वातावरण में डेटा गोपनीयता का उल्लंघन करने और प्रदर्शन को कम करने के लिए साझा आर्किटेक्चर का शोषण करते हैं।⁴⁴ कंटेंशन-आधारित साइड चैनल का उपयोग करने वाले हमलावर सह-स्थित वर्कलोड से संवेदनशील जानकारी का अनुमान लगा सकते हैं।⁴⁵ GPU Memory Attacks टेनेंट के बीच सूचना रिसाव और गुप्त चैनलों को सुविधाजनक बनाने के लिए साझा मेमोरी को लक्षित करते हैं।⁴⁶
एक Rowhammer हार्डवेयर हमला, जो पहले CPU मेमोरी को प्रभावित करने के लिए जाना जाता था, GDDR मेमोरी वाले GPU को खतरे में डालता है और गंभीर AI मॉडल सटीकता हानि का कारण बनता है।⁴⁷ हमला बिट फ्लिप को प्रेरित करने के लिए GPU समानांतरता का शोषण करता है, क्लाउड वातावरण में विशेष जोखिम पैदा करता है जहां हमलावर लक्षित वर्कलोड के साथ सह-स्थित हो सकते हैं।⁴⁸
वर्चुअलाइज्ड GPU वातावरण में प्राथमिक जोखिम क्रॉस-वर्चुअल मशीन हमले बने हुए हैं।⁴⁹ एक ही भौतिक GPU पर वर्कलोड चलाने वाले कई टेनेंट आइसोलेशन मैकेनिज्म खामियों के लिए स्नूपिंग को सक्षम करने के अवसर पैदा करते हैं। यह मूलभूत रूप से क्लाउड सुरक्षा मॉडल को तोड़ता है और डेटा गोपनीयता के लिए गंभीर जोखिम पैदा करता है।⁵⁰
शमन रणनीतियों में मजबूत वर्कलोड आइसोलेशन शामिल है जो एक ही GPU पर संवेदनशील और गैर-संवेदनशील वर्कलोड चलाने से बचता है, साझा कैश एक्सपोजर को कम करने के लिए कैश पार्टीशनिंग, और टाइमिंग-आधारित हमलों को जटिल बनाने के लिए रैंडमाइज्ड शेड्यूलिंग।⁵¹ Single Root I/O Virtualization या समान सुरक्षा-संवर्धित वर्चुअलाइजेशन तकनीकें अतिरिक्त सुरक्षा प्रदान करती हैं।⁵² कॉन्फिडेंशियल GPU अगली सीमा का प्रतिनिधित्व करते हैं, GPU मेमोरी और एक्जीक्यूशन फ्लो तक TEE-जैसी सुरक्षा का विस्तार करते हैं।⁵³
एंटरप्राइज सुरक्षा सर्वोत्तम अभ्यास
साझा GPU इंफ्रास्ट्रक्चर तैनात करने वाले संगठनों को अपनी जोखिम सहनशीलता और नियामक आवश्यकताओं के अनुरूप सुरक्षा नियंत्रण लागू करने चाहिए।
संवेदनशील वर्कलोड के लिए, सिंगल-टेनेंट विकल्प जहां GPU साझा नहीं किए जाते हैं, साइड-चैनल हमलों के जोखिम को कम करते हैं और अनुपालन आवश्यकताओं के अनुरूप होते हैं।⁵⁴ कुछ प्रमाणपत्रों के लिए कुछ डेटा प्रकारों के लिए डेडिकेटेड हार्डवेयर की आवश्यकता होती है।⁵⁵ डेडिकेटेड GPU के लिए लागत प्रीमियम सुरक्षा आवश्यकताओं द्वारा उचित हो सकता है।
ड्राइवर और फर्मवेयर सुरक्षा के लिए सबसे हालिया सुरक्षा पैच के साथ लगातार अपडेट की आवश्यकता होती है।⁵⁶ NVIDIA निर्धारित रखरखाव विंडो के दौरान त्रैमासिक फर्मवेयर अपडेट और ड्राइवर वैलिडेशन की सिफारिश करता है।⁵⁷ जनवरी 2025 की कमजोरी के खुलासे ने समय पर पैचिंग के महत्व को प्रदर्शित किया।
सत्रों के बीच मेमोरी स्वच्छता डेटा रिसाव को रोकती है। सत्रों के बीच GPU मेमोरी को शून्य करना न्यूनतम प्रदर्शन प्रभाव के साथ हमलों की एक प्रमुख श्रेणी को समाप्त करता है
[अनुवाद के लिए सामग्री छोटी की गई]