GPU ऑर्केस्ट्रेशन के लिए Kubernetes: मल्टी-थाउजेंड GPU क्लस्टर का प्रबंधन

OpenAI 97% उपयोगिता के साथ Kubernetes पर 25,000 GPUs का ऑर्केस्ट्रेशन करता है। GPU शेड्यूलिंग, टोपोलॉजी अवेयरनेस, और 5,000 नोड्स से आगे स्केलिंग में महारत हासिल करें।

Blake Crosley

Feb 23, 2026 10 min read Disclaimer

GPU ऑर्केस्ट्रेशन के लिए Kubernetes: मल्टी-थाउजेंड GPU क्लस्टर का प्रबंधन

8 दिसंबर, 2025 को अपडेट किया गया

दिसंबर 2025 अपडेट: Kubernetes 1.31+ Dynamic Resource Allocation (DRA) अब GA है, जो फाइन-ग्रेंड GPU पार्टीशनिंग और टाइम-स्लाइसिंग सक्षम करता है। NVIDIA GPU Operator 24.6+ में Blackwell सपोर्ट और बेहतर MIG मैनेजमेंट जोड़ा गया है। Kueue (Kubernetes-नेटिव जॉब क्यूइंग) AI वर्कलोड्स के लिए प्रोडक्शन मैच्योरिटी तक पहुंच रहा है। Run:ai और CoreWeave Kubernetes पर 50,000+ GPU क्लस्टर्स का प्रदर्शन कर रहे हैं। मल्टी-क्लस्टर फेडरेशन टूल्स (Liqo, Admiralty) क्रॉस-क्लाउड GPU ऑर्केस्ट्रेशन सक्षम कर रहे हैं। मल्टी-टेनेंट इनफरेंस डिप्लॉयमेंट्स के लिए vGPU सपोर्ट में सुधार हो रहा है।

OpenAI GPT मॉडल्स को ट्रेन करने के लिए कई Kubernetes क्लस्टर्स में 25,000 GPUs का ऑर्केस्ट्रेशन करता है, कस्टम ऑपरेटर्स का उपयोग करते हुए जो स्वचालित रूप से GPU विफलताओं को संभालते हैं, रियल-टाइम में वर्कलोड्स को रीबैलेंस करते हैं, और औसतन हर 2.5 घंटे में होने वाली हार्डवेयर विफलताओं के बावजूद 97% उपयोगिता बनाए रखते हैं।¹ कंपनी की इंफ्रास्ट्रक्चर टीम ने पाया कि व्यापक संशोधनों के बिना वनीला Kubernetes लगभग 5,000 नोड्स पर ध्वस्त हो जाता है, जिससे उन्हें हायरार्किकल क्लस्टर फेडरेशन, कस्टम शेड्यूलिंग एल्गोरिदम, और GPU-अवेयर ऑटोस्केलिंग लागू करने के लिए मजबूर होना पड़ा जो प्रत्येक $30,000 H100 को एक मूल्यवान संसाधन के रूप में मानता है जिसके लिए व्यक्तिगत ट्रैकिंग की आवश्यकता होती है। स्केल पर GPUs का प्रबंधन CPU ऑर्केस्ट्रेशन से मौलिक रूप से भिन्न है—डिस्ट्रीब्यूटेड ट्रेनिंग के दौरान एक विफल GPU लाखों कंप्यूट टाइम बर्बाद कर सकता है, जबकि खराब शेड्यूलिंग जो NVLink के माध्यम से जुड़े GPUs को अलग करती है, 8x परफॉर्मेंस डिग्रेडेशन का कारण बनती है। Kubernetes पर हजारों GPUs को सफलतापूर्वक ऑर्केस्ट्रेट करने वाले संगठन बेयर-मेटल मैनेजमेंट की तुलना में 35% बेहतर उपयोगिता, 60% तेज डिप्लॉयमेंट समय, और 90% ऑपरेशनल ओवरहेड में कमी की रिपोर्ट करते हैं।²

Kubernetes 88% मार्केट शेयर के साथ कंटेनर ऑर्केस्ट्रेशन में प्रभुत्व रखता है, लेकिन GPU सपोर्ट देर से आया और स्केल पर चुनौतीपूर्ण बना हुआ है।³ NVIDIA GPU Operator, जो 2019 में लॉन्च हुआ, आखिरकार Kubernetes में एंटरप्राइज-ग्रेड GPU मैनेजमेंट लाया, जो डायनेमिक ड्राइवर इंस्टॉलेशन, ऑटोमैटिक डिवाइस प्लगइन डिप्लॉयमेंट, और GPU हेल्थ मॉनिटरिंग जैसी सुविधाएं सक्षम करता है। Kubernetes पर AI वर्कलोड्स चलाने वाले संगठनों को डिवाइस प्लगइन कॉन्फ़िगरेशन, नोड एफिनिटी नियम, टोपोलॉजी-अवेयर शेड्यूलिंग, और रिसोर्स कोटा नेविगेट करने होते हैं जो सिंगल टीमों को GPU संसाधनों पर एकाधिकार करने से रोकते हैं। फिर भी जो GPU ऑर्केस्ट्रेशन के लिए Kubernetes में महारत हासिल करते हैं, वे हजारों GPUs को एकल प्रोग्रामेबल रिसोर्स पूल के रूप में मानने की क्षमता प्राप्त करते हैं, पारंपरिक HPC शेड्यूलर्स के साथ असंभव उपयोगिता दरें और ऑपरेशनल दक्षता प्राप्त करते हैं।

GPU डिवाइस प्लगइन आर्किटेक्चर

Kubernetes डिवाइस प्लगइन फ्रेमवर्क क्लस्टर्स में GPU डिस्कवरी, एलोकेशन, और हेल्थ मॉनिटरिंग सक्षम करता है:

NVIDIA GPU Device Plugin Kubernetes और NVIDIA GPUs के बीच प्राथमिक इंटरफेस के रूप में कार्य करता है।⁴ प्लगइन प्रत्येक GPU नोड पर DaemonSet के रूप में चलता है, kubelet के साथ शेड्यूल करने योग्य संसाधनों के रूप में GPUs को रजिस्टर करता है। इनिशियलाइज़ेशन के दौरान, प्लगइन उपलब्ध GPUs, उनकी मेमोरी क्षमता, कंप्यूट कैपेबिलिटी, और इंटरकनेक्ट टोपोलॉजी खोजने के लिए NVIDIA Management Library (NVML) को क्वेरी करता है। प्लगइन nvidia.com/gpu रिसोर्स नाम का उपयोग करके Kubernetes शेड्यूलर को GPUs का विज्ञापन करता है, जिससे पॉड्स स्टैंडर्ड रिसोर्स स्पेसिफिकेशन के माध्यम से GPUs का अनुरोध कर सकते हैं।

Device Plugin Registration Flow: 1. प्लगइन शुरू होता है और NVML के माध्यम से लोकल GPUs की खोज करता है 2. /var/lib/kubelet/device-plugins/ पर Unix सॉकेट के माध्यम से kubelet के साथ रजिस्टर होता है 3. यूनिक डिवाइस IDs के साथ उपलब्ध GPUs का विज्ञापन करता है 4. कंटेनर GPU असाइनमेंट के लिए Allocate() RPC लागू करता है 5. GPU हेल्थ मॉनिटर करता है और kubelet को विफलताओं की रिपोर्ट करता है 6. पॉड टर्मिनेशन के दौरान GPU क्लीनअप हैंडल करता है

Multi-Instance GPU (MIG) Support A100 और H100 GPUs को आइसोलेटेड इंस्टेंस में पार्टीशन करने में सक्षम बनाता है।⁵ प्रत्येक MIG इंस्टेंस Kubernetes को एक अलग GPU के रूप में दिखाई देता है, जो फाइन-ग्रेंड रिसोर्स एलोकेशन की अनुमति देता है। डिवाइस प्लगइन MIG प्रोफाइल्स को मैनेज करता है, इंस्टेंस के क्रिएशन, डिलीशन, और असाइनमेंट को हैंडल करता है। संगठन छोटे वर्कलोड्स के लिए अंडरयूटिलाइज्ड GPUs को पार्टीशन करके 7x बेहतर GPU उपयोगिता प्राप्त करते हैं। MIG कॉन्फ़िगरेशन को सावधानीपूर्ण योजना की आवश्यकता होती है क्योंकि नोड्स को ड्रेन किए बिना पार्टीशनिंग मोड नहीं बदल सकते।

Alternative Device Plugins वेंडर डाइवर्सिटी प्रदान करते हैं: - AMD Device Plugin ROCm-सक्षम GPUs जैसे MI250X को सपोर्ट करता है - Intel Device Plugin Intel GPUs और Gaudi एक्सेलेरेटर्स को मैनेज करता है - Xilinx FPGA Device Plugin FPGA संसाधनों का ऑर्केस्ट्रेशन करता है - Google TPU Device Plugin GKE क्लस्टर्स के लिए

GPU वर्कलोड्स के लिए शेड्यूलिंग स्ट्रैटेजीज

प्रभावी GPU शेड्यूलिंग परफॉर्मेंस बनाए रखते हुए उपयोगिता को अधिकतम करती है:

Gang Scheduling सुनिश्चित करता है कि डिस्ट्रीब्यूटेड ट्रेनिंग जॉब्स एक साथ सभी अनुरोधित GPUs प्राप्त करें। Gang शेड्यूलिंग के बिना, पार्शियल रिसोर्स एलोकेशन डेडलॉक का कारण बनता है—जॉब्स हमेशा के लिए शेष GPUs की प्रतीक्षा करते हैं जो कभी उपलब्ध नहीं होते। Kubernetes शेड्यूलर प्लगइन्स जैसे Volcano और Apache YuniKorn PodGroups के माध्यम से gang शेड्यूलिंग लागू करते हैं।⁶ जॉब्स न्यूनतम GPU आवश्यकताओं को निर्दिष्ट करते हैं, और शेड्यूलर या तो सभी संसाधन आवंटित करता है या पूरे जॉब को क्यू करता है। Gang शेड्यूलिंग क्लस्टर उपयोगिता को 10-15% कम करती है लेकिन ट्रेनिंग जॉब स्टार्वेशन को रोकती है।

Topology-Aware Scheduling हार्डवेयर इंटरकनेक्ट्स के आधार पर GPU प्लेसमेंट को ऑप्टिमाइज़ करता है। NVLink के माध्यम से जुड़े GPUs PCIe पर 32GB/s बनाम 600GB/s बैंडविड्थ प्राप्त करते हैं।⁷ शेड्यूलर फास्ट इंटरकनेक्ट्स वाले GPUs पर संबंधित पॉड्स को रखने के लिए नोड टोपोलॉजी की जांच करता है। NVIDIA GPU Feature Discovery एफिनिटी नियमों को सक्षम करने वाली टोपोलॉजी जानकारी के साथ नोड्स को लेबल करता है। खराब टोपोलॉजी निर्णय कम्युनिकेशन-हेवी वर्कलोड्स के लिए 3-8x परफॉर्मेंस डिग्रेडेशन का कारण बनते हैं। प्रति जॉब 8 GPUs से परे टोपोलॉजी अवेयरनेस महत्वपूर्ण हो जाती है।

Bin Packing vs Spreading: Bin packing कम नोड्स पर वर्कलोड्स को कंसोलिडेट करता है, कैश लोकैलिटी में सुधार करता है और नेटवर्क ट्रैफ़िक को कम करता है। Spreading बेहतर फॉल्ट टॉलरेंस और थर्मल मैनेजमेंट के लिए नोड्स में काम वितरित करता है। इष्टतम रणनीति वर्कलोड विशेषताओं पर निर्भर करती है—ट्रेनिंग जॉब्स bin packing से लाभान्वित होते हैं जबकि इनफरेंस spreading को पसंद करता है। डायनेमिक स्ट्रैटेजीज क्लस्टर उपयोगिता और वर्कलोड मिक्स के आधार पर एडजस्ट होती हैं।

Priority and Preemption: प्रोडक्शन वर्कलोड्स को डेवलपमेंट जॉब्स की तुलना में उच्च प्राथमिकता मिलती है। जब संसाधन दुर्लभ हो जाते हैं तो शेड्यूलर निम्न-प्राथमिकता वाले पॉड्स को प्रीएम्प्ट करता है। सावधानीपूर्वक प्राथमिकता कॉन्फ़िगरेशन रिसर्च जॉब्स को प्रोडक्शन इनफरेंस ब्लॉक करने से रोकता है। प्रीएम्प्शन चेकपॉइंटिंग सुनिश्चित करती है कि ट्रेनिंग प्रोग्रेस न खोए। प्राथमिकता क्लासेस सिस्टम-क्रिटिकल (1000000) से डेवलपमेंट (100) तक होती हैं।

Fair Sharing and Quotas: रिसोर्स कोटा सिंगल टीमों को GPUs पर एकाधिकार करने से रोकते हैं। हायरार्किकल कोटा टीम-स्पेसिफिक सब-कोटा के साथ ऑर्गनाइजेशन-वाइड लिमिट्स सक्षम करते हैं। Fair share शेड्यूलिंग समय के साथ समान संसाधन वितरण सुनिश्चित करती है। कम संसाधनों का उपभोग करने वाले यूज़र्स भविष्य की बर्स्ट कैपेसिटी के लिए क्रेडिट जमा करते हैं। Kueue जैसी क्यू सिस्टम सोफिस्टिकेटेड एडमिशन कंट्रोल के साथ जॉब क्यूइंग प्रदान करती हैं।

स्केलिंग विचार

Kubernetes को हजारों GPUs तक स्केल करने के लिए आर्किटेक्चरल संशोधनों की आवश्यकता होती है:

Cluster Size Limitations: सिंगल Kubernetes क्लस्टर्स etcd परफॉर्मेंस डिग्रेड होने से पहले अधिकतम 5,000 नोड्स को सपोर्ट करते हैं।⁸ वॉच मैकेनिज़्म के कारण नोड काउंट के साथ API सर्वर लोड क्वाड्रेटिकली बढ़ता है। कंट्रोलर मैनेजर रीकंसिलिएशन लूप्स 1,000 नोड्स से परे धीमे हो जाते हैं। नेटवर्क पॉलिसीज स्केल पर अनवीडी हो जाती हैं। अधिकांश संगठन ऑपरेशनल स्टेबिलिटी के लिए क्लस्टर्स को 500-1,000 GPU नोड्स तक सीमित करते हैं।

Multi-Cluster Federation: बड़े डिप्लॉयमेंट्स फेडरेशन के माध्यम से मैनेज किए गए कई Kubernetes क्लस्टर्स का उपयोग करते हैं। Admiralty या Virtual Kubelet क्रॉस-क्लस्टर शेड्यूलिंग सक्षम करते हैं। GitOps टूल्स जैसे Flux या ArgoCD क्लस्टर्स में कॉन्फ़िगरेशन सिंक्रनाइज़ करते हैं। सर्विस मेश टेक्नोलॉजीज क्रॉस-क्लस्टर नेटवर्किंग प्रदान करती हैं। फेडरेशन जटिलता जोड़ता है लेकिन सिंगल-क्लस्टर लिमिट्स से परे हॉरिज़ॉन्टल स्केलिंग सक्षम करता है।

Hierarchical Resource Management: मैनेजमेंट क्लस्टर्स वर्कलोड क्लस्टर्स को कंट्रोल करने के साथ क्लस्टर्स को हायरार्किकली ऑर्गनाइज़ करें। मैनेजमेंट क्लस्टर्स कंट्रोल प्लेन कंपोनेंट्स और शेड्यूलिंग लॉजिक चलाते हैं। वर्कलोड क्लस्टर्स कॉम्प्लेक्स कंट्रोलर्स के बिना GPU पॉड्स होस्ट करते हैं। हायरार्किकल डिज़ाइन विफलताओं के ब्लास्ट रेडियस को कम करता है। कंसर्न्स का स्पष्ट पृथक्करण ट्रबलशूटिंग को सरल बनाता है।

AI वर्कलोड्स के लिए Custom Resource Definitions (CRDs): - TrainingJob: डिस्ट्रीब्यूटेड ट्रेनिंग स्पेसिफिकेशन डिफाइन करता है - InferenceService: मॉडल सर्विंग डिप्लॉयमेंट्स मैनेज करता है - GPUPool: लॉजिकल GPU ग्रुपिंग्स का प्रतिनिधित्व करता है - Checkpoint: ट्रेनिंग स्टेट पर्सिस्टेंस हैंडल करता है - ModelVersion: मॉडल इटरेशंस और लीनेज ट्रैक करता है

स्केल के लिए परफॉर्मेंस ऑप्टिमाइज़ेशन: - अनयूज्ड एडमिशन वेबहुक्स को डिसेबल करें जो API लेटेंसी को कम करते हैं - समान वितरण के लिए पॉड टोपोलॉजी स्प्रेड कॉन्स्ट्रेंट्स लागू करें - नेटवर्क बॉटलनेक से बचने के लिए कंटेनर इमेज के लिए लोकल SSD का उपयोग करें - गारंटीड CPU एलोकेशन के लिए CPU मैनेजर सक्षम करें - बड़े मॉडल मेमोरी आवश्यकताओं के लिए huge pages कॉन्फ़िगर करें

मॉनिटरिंग और ऑब्ज़र्वेबिलिटी

व्यापक मॉनिटरिंग मिलियन-डॉलर GPU आइडल टाइम को रोकती है:

NVIDIA Data Center GPU Manager (DCGM) स्टैंडर्ड Kubernetes मॉनिटरिंग के माध्यम से अनुपलब्ध GPU-स्पेसिफिक मेट्रिक्स प्रदान करता है।⁹ DCGM 100+ मेट्रिक्स एक्सपोर्ट करता है जिसमें SM उपयोगिता, मेमोरी बैंडविड्थ, टेम्परेचर, पावर ड्रॉ, और ECC एरर्स शामिल हैं। Prometheus इंटीग्रेशन लॉन्ग-टर्म मेट्रिक स्टोरेज और अलर्टिंग सक्षम करता है। Grafana डैशबोर्ड्स पूरे फ्लीट में GPU परफॉर्मेंस विज़ुअलाइज़ करते हैं। कस्टम अलर्ट्स विफलताओं से पहले अंडरयूटिलाइज्ड GPUs, थर्मल थ्रॉटलिंग, और हार्डवेयर डिग्रेडेशन का पता लगाते हैं।

Kubernetes मॉनिटरिंग के लिए Key GPU Metrics: - GPU Utilization: SMs एक्टिव का प्रतिशत (टारगेट >90%) - Memory Utilization: उपलब्ध बनाम आवंटित GPU मेमोरी - Power Draw: थ्रॉटलिंग इंडिकेट करने वाला TDP बनाम एक्चुअल - Temperature: GPU और मेमोरी टेम्परेचर - PCIe Bandwidth: GPU से/तक डेटा ट्रांसफर रेट्स - NVLink Traffic: इंटर-GPU कम्युनिकेशन बैंडविड्थ - Training Metrics: लॉस कर्व्स, ग्रेडिएंट नॉर्म्स, लर्निंग रेट्स - Inference Metrics: प्रति सेकंड रिक्वेस्ट्स, P99 लेटेंसी, बैच साइज़

Distributed Tracing मल्टीपल GPUs और नोड्स में रिक्वेस्ट्स को ट्रैक करता है। OpenTelemetry इंस्ट्रूमेंटेशन ट्रेनिंग स्टेप टाइम, डेटा लोडिंग लेटेंसी, और चेकपॉइंट ड्यूरेशन कैप्चर करता है। Jaeger या Tempo डिस्ट्रीब्यूटेड ट्रेस स्टोरेज और एनालिसिस प्रदान करते हैं। ट्रेसेस और मेट्रिक्स के बीच कोरिलेशन परफॉर्मेंस बॉटलनेक्स की पहचान करता है। एंड-टू-एंड विज़िबिलिटी मीन टाइम टू रेज़ोल्यूशन को 70% कम करती है।

Log Aggregation हजारों GPU पॉड्स से लॉग्स को सेंट्रलाइज़ करता है। Fluentd या Fluent Bit न्यूनतम ओवरहेड के साथ कंटेनर लॉग्स कलेक्ट करते हैं। Elasticsearch ऑटोमैटिक इंडेक्सिंग और रिटेंशन पॉलिसीज के साथ लॉग्स स्टोर करता है। Kibana पूरे क्लस्टर में लॉग सर्चिंग और एनालिसिस सक्षम करता है। कंसिस्टेंट फॉर्मेट्स के साथ स्ट्रक्चर्ड लॉगिंग ट्रबलशूटिंग को सरल बनाती है। सिस्टमिक इश्यूज इंडिकेट करने वाले एरर पैटर्न्स पर अलर्ट करें।

Introl हमारे वैश्विक कवरेज क्षेत्र में GPU ऑर्केस्ट्रेशन के लिए Kubernetes क्लस्टर्स डिप्लॉय और मैनेज करता है, 10,000+ GPU डिप्लॉयमेंट्स तक स्केल करने में विशेषज्ञता के साथ।¹⁰ हमारी प्लेटफॉर्म इंजीनियरिंग टीमों ने ऑप्टिमल GPU उपयोगिता के लिए कस्टम ऑपरेटर्स और शेड्यूलिंग एन्हांसमेंट्स लागू किए हैं।

प्रोडक्शन डिप्लॉयमेंट पैटर्न्स

Anthropic में Training Cluster Architecture: - स्केल: 8 Kubernetes क्लस्टर्स में 4,000 GPUs - टोपोलॉजी: सेंट्रल शेड्यूलर के साथ हायरार्किकल फेडरेशन - स्टोरेज: ट्रेनिंग डेटा के लिए डिस्ट्रीब्यूटेड Lustre फाइलसिस्टम - नेटवर्किंग: प्रति नोड 200Gbps के साथ RoCE v2 फैब्रिक - शेड्यूलिंग: टोपोलॉजी अवेयरनेस के साथ कस्टम gang शेड्यूलर - मॉनिटरिंग: 15-सेकंड स्क्रेप इंटरवल के साथ DCGM + Prometheus - परिणाम: 94% GPU उपयोगिता, ट्रेनिंग टाइम में 50% कमी

Uber में Inference Platform: - वर्कलोड: दैनिक 500 मिलियन प्रेडिक्शंस - इंफ्रास्ट्रक्चर: 20 रीजनों में 2,000 T4 GPUs - ऑर्केस्ट्रेशन: सर्वरलेस के लिए Knative के साथ Kubernetes - ऑटोस्केलिंग: ट्रैफ़िक पैटर्न्स पर आधारित प्रेडिक्टिव स्केलिंग - लोड बैलेंसिंग: लीस्ट-लेटेंसी रूटिंग के साथ Envoy प्रॉक्सी - ऑप्टिमाइज़ेशन: मॉडल कैशिंग कोल्ड स्टार्ट को 2 सेकंड तक कम करती है - आउटकम: पिछले आर्किटेक्चर बनाम 65% कॉस्ट रिडक्शन

Spotify में Hybrid Training-Inference: - GPUs: 3,000 मिक्स्ड V100/A100/T4 फ्लीट - शेड्यूलिंग: डेवलपमेंट के लिए टाइम-स्लाइस्ड शेयरिंग - आइसोलेशन: मल्टी-टेनेंट सिक्योरिटी के लिए Kata containers - Cos

[अनुवाद के लिए कंटेंट ट्रंकेटेड]

GPU ऑर्केस्ट्रेशन के लिए Kubernetes: मल्टी-थाउजेंड GPU क्लस्टर का प्रबंधन

GPU डिवाइस प्लगइन आर्किटेक्चर

GPU वर्कलोड्स के लिए शेड्यूलिंग स्ट्रैटेजीज

स्केलिंग विचार

मॉनिटरिंग और ऑब्ज़र्वेबिलिटी

प्रोडक्शन डिप्लॉयमेंट पैटर्न्स

You Might Also Like

जापान AI इंफ्रास्ट्रक्चर: एशिया की सबसे बड़ी अर्थव्यवस्था जा...

KV कैश ऑप्टिमाइज़ेशन: प्रोडक्शन LLMs के लिए मेमोरी दक्षता

सिंगापुर और दक्षिण-पूर्व एशिया वैश्विक AI इंफ्रास्ट्रक्चर हब...

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_