GPU क्लस्टर के लिए इंसिडेंट रिस्पॉन्स: सामान्य विफलता परिदृश्यों के लिए प्लेबुक
8 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: आधुनिक GPU क्लस्टर के लिए लिक्विड कूलिंग विफलताएं अब शीर्ष इंसिडेंट श्रेणी में हैं—CDU विफलताएं, लीक डिटेक्शन, कूलेंट गुणवत्ता मुद्दे। H100/H200 डाउनटाइम की लागत प्रति GPU-दिन $25-40K है जो तेज़ प्रतिक्रिया को महत्वपूर्ण बनाती है। AIOps प्लेटफॉर्म (PagerDuty, Datadog) GPU-विशिष्ट रनबुक को एकीकृत कर रहे हैं। इलास्टिक ट्रेनिंग फ्रेमवर्क GPU विफलताओं के ब्लास्ट रेडियस को कम कर रहे हैं। चेकपॉइंट फ्रीक्वेंसी ऑप्टिमाइज़ेशन (10-15 मिनट) इंसिडेंट से ट्रेनिंग लॉस को न्यूनतम कर रहा है।
जब एक महत्वपूर्ण ट्रेनिंग रन के दौरान 500 H100 GPU अचानक ऑफलाइन हो जाते हैं, तो हर सेकंड $1,200 की खोई हुई कंप्यूट टाइम की लागत आती है। जब 2MW GPU क्लस्टर में लिक्विड कूलिंग विफल हो जाती है, तो तापमान थर्मल शटडाउन की ओर हर 30 सेकंड में 1°C बढ़ता है। जब डिस्ट्रीब्यूटेड ट्रेनिंग के दौरान InfiniBand फैब्रिक पार्टीशन होता है, तो 10,000 GPU-घंटे की कंप्यूटेशन बेकार हो जाती है। इन परिदृश्यों में सटीक, अभ्यास की गई प्रतिक्रियाओं की आवश्यकता होती है जो नुकसान को कम करें और सेवा को तेज़ी से बहाल करें। यह गाइड GPU इंफ्रास्ट्रक्चर इंसिडेंट के लिए युद्ध-परीक्षित प्लेबुक प्रदान करती है।
इंसिडेंट वर्गीकरण और गंभीरता स्तर
GPU इंफ्रास्ट्रक्चर इंसिडेंट को पारंपरिक IT फ्रेमवर्क से परे विशेष गंभीरता वर्गीकरण की आवश्यकता होती है। गंभीरता 1 (क्रिटिकल) इंसिडेंट में पूर्ण क्लस्टर विफलता, डेटा लॉस का जोखिम, या सुरक्षा खतरे शामिल हैं जो 100 से अधिक GPU या $50,000 प्रति घंटा प्रभाव को प्रभावित करते हैं। ये तत्काल एग्जीक्यूटिव एस्केलेशन, वेंडर एंगेजमेंट, और 24/7 वॉर रूम एक्टिवेशन को ट्रिगर करते हैं। OpenAI की GPT-4 ट्रेनिंग ने छह महीनों में तीन गंभीरता 1 इंसिडेंट का अनुभव किया, प्रत्येक में $2 मिलियन दैनिक ट्रेनिंग लागत के कारण CEO की भागीदारी की आवश्यकता थी।
गंभीरता 2 (हाई) इंसिडेंट 20-100 GPU को प्रभावित करते हैं या बड़े क्लस्टर में 50% परफॉर्मेंस डिग्रेडेशन का कारण बनते हैं। रिस्पॉन्स टाइम का लक्ष्य 15 मिनट है और 2 घंटे के रेज़ोल्यूशन लक्ष्य के साथ। ये इंसिडेंट आमतौर पर आंशिक कूलिंग विफलताओं, पावर डिस्ट्रीब्यूशन मुद्दों, या नेटवर्क पार्टीशन इवेंट को शामिल करते हैं। Meta का इंफ्रास्ट्रक्चर गंभीरता 2 इवेंट के लिए स्वचालित रूप से ऑन-कॉल इंजीनियरों को पेज करता है, 30 मिनट बिना प्रगति के बाद सीनियर आर्किटेक्ट को एस्केलेशन के साथ।
गंभीरता 3 (मीडियम) इंसिडेंट 20 से कम GPU को प्रभावित करते हैं या 25% परफॉर्मेंस डिग्रेडेशन का कारण बनते हैं। इनमें व्यक्तिगत नोड विफलताएं, ड्राइवर मुद्दे, या स्थानीयकृत नेटवर्क समस्याएं शामिल हैं। रेज़ोल्यूशन लक्ष्य 4 घंटे तक बढ़ जाते हैं और अगले-व्यावसायिक-दिन फॉलो-अप स्वीकार्य है। स्वचालित सिस्टम सेल्फ-हीलिंग मैकेनिज्म के माध्यम से मानव हस्तक्षेप के बिना 70% गंभीरता 3 इंसिडेंट को संभालते हैं।
गंभीरता 4 (लो) इंसिडेंट में सिंगल GPU विफलताएं या 10% से कम मामूली परफॉर्मेंस भिन्नताएं शामिल हैं। ये 24 घंटे के रेज़ोल्यूशन लक्ष्यों के साथ मानक टिकटिंग वर्कफ्लो में प्रवेश करते हैं। Anthropic का इंफ्रास्ट्रक्चर स्वचालित रूप से प्रभावित संसाधनों को क्वारंटीन करता है, जिससे प्रोडक्शन वर्कलोड मेंटेनेंस विंडो के दौरान मरम्मत के दौरान जारी रह सकते हैं।
वित्तीय प्रभाव गणना गंभीरता असाइनमेंट को चलाती है। प्रत्येक H100 GPU $30,000 पूंजी निवेश का प्रतिनिधित्व करता है जिसकी $50 प्रति घंटा परिचालन लागत है। ट्रेनिंग रुकावटें लाखों की कीमत वाली दिनों की कंप्यूटेशन को अमान्य कर सकती हैं। Lambda Labs इंसिडेंट लागत की गणना इस प्रकार करता है: (प्रभावित GPU × प्रति घंटा दर × अपेक्षित अवधि) + (चेकपॉइंट रिकवरी समय × क्लस्टर लागत) + (SLA पेनल्टी)। इस फॉर्मूले ने $500,000 चेकपॉइंट रिकवरी लागत के कारण 50-GPU विफलता के लिए गंभीरता 1 वर्गीकरण को ट्रिगर किया।
पावर फेल्योर रिस्पॉन्स प्रोसीजर
पूर्ण पावर लॉस परिदृश्यों में रिकवरी के दौरान कैस्केड विफलताओं को रोकने के लिए तत्काल लोड शेडिंग की आवश्यकता होती है। GPU क्लस्टर को सपोर्ट करने वाले UPS सिस्टम आमतौर पर पूर्ण लोड पर 5-7 मिनट का रनटाइम प्रदान करते हैं। पहले 30 सेकंड इंसिडेंट ट्रैजेक्टरी निर्धारित करते हैं: ऑटोमैटिक ट्रांसफर स्विच को एंगेज होना चाहिए, जनरेटर को स्टार्ट होना चाहिए, और कूलिंग सिस्टम को ऑपरेशन बनाए रखना चाहिए। Microsoft की प्लेबुक पावर इवेंट डिटेक्शन के 10 सेकंड के भीतर स्वचालित वर्कलोड सस्पेंशन शुरू करती है।
फेज 1 (0-30 सेकंड) स्टेट प्रिजर्वेशन पर केंद्रित है। डिस्ट्रीब्यूटेड ट्रेनिंग जॉब को तुरंत चेकपॉइंट करना होगा, जिसके लिए पर्याप्त बैंडविड्थ के साथ प्री-कॉन्फिगर्ड चेकपॉइंट लोकेशन की आवश्यकता होती है। kubectl exec कमांड Kubernetes pods में इमरजेंसी चेकपॉइंटिंग को ट्रिगर करता है। स्टोरेज सिस्टम राइट-थ्रू मोड में स्विच करते हैं, डेटा पर्सिस्टेंस सुनिश्चित करते हुए। अलग UPS सिस्टम पर नेटवर्क उपकरण रिमोट मैनेजमेंट के लिए कनेक्टिविटी बनाए रखते हैं।
फेज 2 (30 सेकंड - 2 मिनट) में लोड प्रायोरिटाइज़ेशन शामिल है। नॉन-क्रिटिकल वर्कलोड pod प्रायोरिटी क्लास के आधार पर स्वचालित रूप से समाप्त हो जाते हैं। इन्फरेंस वर्कलोड कम क्षमता के साथ सर्व करना जारी रखते हैं। ट्रेनिंग जॉब स्टेट सेव करते हैं और ग्रेसफुली शटडाउन होते हैं। कूलिंग सिस्टम न्यूनतम व्यवहार्य ऑपरेशन तक कम हो जाते हैं, थर्मल लिमिट से नीचे तापमान बनाए रखते हुए। पावर मैनेजमेंट सिस्टम 40% लोड शेड करते हैं, UPS रनटाइम को 15 मिनट तक बढ़ाते हुए।
फेज 3 (2-5 मिनट) में जनरेटर सिंक्रोनाइज़ेशन की आवश्यकता होती है। ऑटोमैटिक ट्रांसफर स्विच लोड ट्रांसफर करने से पहले UPS सिस्टम के साथ जनरेटर आउटपुट को सिंक करते हैं। फेल्ड जनरेटर स्टार्ट मैनुअल स्टार्ट प्रोसीजर के साथ तत्काल एस्केलेशन को ट्रिगर करते हैं। फ्यूल सिस्टम स्टेटस वेरिफिकेशन 24 घंटे की रनटाइम क्षमता सुनिश्चित करता है। Google के डेटा सेंटर विस्तारित आउटेज के दौरान सक्रिय ऑटोमैटिक रीफ्यूलिंग कॉन्ट्रैक्ट के साथ 48 घंटे की फ्यूल सप्लाई बनाए रखते हैं।
रिकवरी प्रोसीजर स्थिर पावर रिटर्न होने के बाद शुरू होते हैं। फेज्ड रेस्टोरेशन एक साथ इनरश करंट को पावर सिस्टम को ओवरव्हेल्म करने से रोकता है। स्टोरेज सिस्टम पहले इनिशियलाइज़ होते हैं, उसके बाद नेटवर्क इंफ्रास्ट्रक्चर, फिर 10% इंक्रीमेंट में कंप्यूट नोड। GPU पावर लिमिट स्टेबिलाइज़ेशन के दौरान अस्थायी रूप से 80% तक कम हो जाते हैं। स्थिर ऑपरेशन के 30 मिनट के बाद पूर्ण क्षमता वापस आती है। CoreWeave का रिकवरी ऑटोमेशन पावर रेस्टोरेशन के बाद 45 मिनट में 1,000 GPU को प्रोडक्शन में रिस्टोर करता है।
कूलिंग सिस्टम फेल्योर रिस्पॉन्स
लिक्विड कूलिंग विफलताएं तेज़ी से बढ़ती हैं GPU तापमान बिना एक्टिव कूलिंग के प्रति मिनट 20°C बढ़ते हुए। तत्काल प्रतिक्रिया ऑटोमैटिक फ्रीक्वेंसी थ्रॉटलिंग को ट्रिगर करती है, हीट जनरेशन को 40% तक कम करते हुए। nvidia-smi -pl 400 कमांड H100 पावर को 700W से 400W तक काटता है, महत्वपूर्ण रिस्पॉन्स टाइम खरीदते हुए। रिपेयर क्रू मोबिलाइज़ होने के दौरान वर्कलोड माइग्रेशन अप्रभावित ज़ोन में स्वचालित रूप से शुरू होता है।
प्राइमरी लूप विफलताओं में परिचालन क्षेत्रों में फ्लो बनाए रखते हुए प्रभावित सेक्शन के आइसोलेशन की आवश्यकता होती है। बायपास वाल्व फेल्ड कंपोनेंट के आसपास फ्लो को रीडायरेक्ट करते हैं। रिडंडेंट पंप सक्रिय होते हैं, 60% फ्लो क्षमता बनाए रखते हुए। CDU (Coolant Distribution Unit) विफलताएं 30 सेकंड के भीतर बैकअप यूनिट में ऑटोमैटिक स्विचओवर को ट्रिगर करती हैं। Supermicro के RSD (Rack Scale Design) सिस्टम में व्यक्तिगत रैक तक विफलताओं को आइसोलेट करने वाले ऑटोमेटेड वाल्व कंट्रोल शामिल हैं।
CDU और कूलिंग टावर के बीच सेकेंडरी लूप विफलताएं पूरी फैसिलिटी को प्रभावित करती हैं। इमरजेंसी चिलर 2 मिनट के भीतर सक्रिय होते हैं, अस्थायी हीट रिजेक्शन प्रदान करते हुए। डेटा सेंटर कर्मी मैन्युअल रूप से इमरजेंसी वेंटिंग खोलते हैं, दक्षता हानि के बावजूद सीधे बाहर गर्म हवा निकालते हुए। पोर्टेबल कूलिंग यूनिट 30 मिनट के भीतर महत्वपूर्ण क्षेत्रों में तैनात होती हैं। Facebook की Prineville फैसिलिटी इमरजेंसी रिस्पॉन्स के लिए 2MW की पोर्टेबल कूलिंग क्षमता बनाए रखती है।
लीक डिटेक्शन तत्काल आइसोलेशन प्रोटोकॉल को ट्रिगर करता है। GPU रैक के नीचे वाटर सेंसर 500 मिलीसेकंड के भीतर सोलेनॉइड वाल्व को सक्रिय करते हैं, फ्लो रोकते हुए। प्रभावित रैक रिमोट डायग्नोसिस के लिए नेटवर्क कनेक्टिविटी बनाए रखते हुए स्वचालित रूप से पावर डाउन होते हैं। रिकवरी टीमें कोरोज़न रोकने के लिए एब्सॉर्बेंट मटेरियल और पोर्टेबल डीह्यूमिडिफायर तैनात करती हैं। Microsoft के सबमरीन डेटा सेंटर डाइलेक्ट्रिक कूलिंग फ्लूइड का उपयोग करते हैं, पानी के नुकसान के जोखिम को पूरी तरह समाप्त करते हुए।
एयर कूलिंग ऑग्मेंटेशन आंशिक विफलताओं के दौरान लिक्विड-कूल्ड सिस्टम को सपोर्ट करती है। CRAC (Computer Room Air Conditioning) यूनिट कम लिक्विड कूलिंग क्षमता की भरपाई के लिए आउटपुट 50% बढ़ाती हैं। हॉट आइल कंटेनमेंट सिस्टम सक्रिय होते हैं, कूलिंग एफिशिएंसी 20% बेहतर करते हुए। अस्थायी फैन महत्वपूर्ण क्षेत्रों में तैनात होते हैं, ओवरहीटिंग रैक के लिए स्पॉट कूलिंग प्रदान करते हुए। ये उपाय लिक्विड कूलिंग मरम्मत के लिए आवश्यक 4-6 घंटों के दौरान ऑपरेशन बनाए रखते हैं।
नेटवर्क पार्टीशन और कनेक्टिविटी लॉस
InfiniBand फैब्रिक पार्टीशन तुरंत डिस्ट्रीब्यूटेड ट्रेनिंग एफिशिएंसी को नष्ट कर देते हैं। ऑटोमैटिक डिटेक्शन सबनेट मैनेजर हार्टबीट का उपयोग करके 100 मिलीसेकंड के भीतर ट्रिगर होती है। प्रभावित नोड स्वचालित रूप से क्वारंटीन होते हैं, आंशिक अपडेट को मॉडल स्टेट को करप्ट करने से रोकते हुए। जॉब शेड्यूलर टोपोलॉजी अपडेट प्राप्त करते हैं, हेल्दी पार्टीशन में काम को रीशेड्यूल करते हुए। NCCL एरर हैंडलिंग प्रभावित कलेक्टिव ऑपरेशन को क्लीनली टर्मिनेट करती है।
रिकवरी में व्यवस्थित फैब्रिक रीकंस्ट्रक्शन की आवश्यकता होती है। opensm सबनेट मैनेजर रूटिंग टेबल को रीबिल्ड करता है, सर्वाइविंग पाथ को डिस्कवर करते हुए। मरम्मत के दौरान आंशिक फैब्रिक ऑपरेशन कम बैंडविड्थ पर जारी रहता है। 4x से 2x तक लिंक विड्थ डिग्रेडेशन 50% बैंडविड्थ रिडक्शन के साथ कनेक्टिविटी बनाए रखता है। Amazon का EFA (Elastic Fabric Adapter) इंफ्रास्ट्रक्चर स्वचालित रूप से विफलताओं के आसपास रूट करता है, सिंगल-स्विच विफलताओं के दौरान 85% एग्रीगेट बैंडविड्थ बनाए रखते हुए।
Ethernet नेटवर्क विफलताएं ट्रेनिंग और इन्फरेंस वर्कलोड दोनों को अलग-अलग तरीके से प्रभावित करती हैं। BGP (Border Gateway Protocol) रीकन्वर्जेंस रिडंडेंट पाथ के लिए 30 सेकंड के भीतर पूरा होता है। ECMP (Equal-Cost Multi-Path) रूटिंग सर्वाइविंग लिंक में ट्रैफिक को डिस्ट्रीब्यूट करती है। स्टोरेज ट्रैफिक प्रायोरिटाइज़ेशन कम बैंडविड्थ के बावजूद चेकपॉइंट ऑपरेशन पूरा होना सुनिश्चित करता है। Quality of Service पॉलिसी क्रिटिकल ऑपरेशन के लिए 40% बैंडविड्थ गारंटी करती हैं।
पूर्ण नेटवर्क आइसोलेशन ऑटोनॉमस ऑपरेशन मोड को ट्रिगर करता है। नोड रिजल्ट को बफर करते हुए लोकल कंप्यूटेशन जारी रखते हैं। डिस्ट्रीब्यूटेड ट्रेनिंग जॉब सिंक्रोनाइज़ेशन बैरियर पर पॉज़ होते हैं, स्टेट को प्रिजर्व करते हुए। लोकल NVMe स्टोरेज कनेक्टिविटी रेस्टोरेशन की प्रतीक्षा में 1TB तक चेकपॉइंट डेटा बफर करता है। नेटवर्क रिकवरी पर, बफर्ड डेटा स्वचालित रूप से सिंक्रोनाइज़ होता है, रीस्टार्ट के घंटों के बजाय मिनटों में ऑपरेशन फिर से शुरू करते हुए।
DNS और सर्विस डिस्कवरी विफलताएं फंक्शनल इंफ्रास्ट्रक्चर के बावजूद वर्कलोड शेड्यूलिंग को रोकती हैं। बैकअप DNS सर्वर 15-सेकंड TTL (Time To Live) वैल्यू के साथ स्वचालित रूप से सक्रिय होते हैं जो रैपिड अपडेट को सक्षम करते हैं। Kubernetes CoreDNS pods 30 सेकंड के भीतर अप्रभावित नोड पर रीस्टार्ट होते हैं। इमरजेंसी रनबुक में स्टैटिक IP कॉन्फिगरेशन क्रिटिकल मैनेजमेंट एक्सेस के लिए DNS को बायपास करते हैं। HashiCorp Consul सर्विस डिस्कवरी के लिए ऑटोमैटिक फेलओवर के साथ सर्विस मेश रेज़िलिएंस प्रदान करता है।
हार्डवेयर फेल्योर कैस्केड प्रिवेंशन
सिंगल GPU विफलताएं सैकड़ों डिवाइस को प्रभावित करने वाले डिस्ट्रीब्यूटेड ट्रेनिंग जॉब में कैस्केड हो सकती हैं। तत्काल आइसोलेशन एरर प्रोपेगेशन को रोकता है। nvidia-smi drain कमांड ग्रेसफुली GPU को रिसोर्स पूल से हटाता है। Kubernetes डिवाइस प्लगइन फेल्ड GPU को अनहेल्दी के रूप में मार्क करते हैं, नई पॉड शेड्यूलिंग को रोकते हुए। रनिंग वर्कलोड 2 मिनट के भीतर हेल्दी रिसोर्स में माइग्रेट होते हैं।
मेमोरी एरर गंभीरता के आधार पर प्रोग्रेसिव रिस्पॉन्स को ट्रिगर करते हैं। ECC द्वारा करेक्ट किए गए सिंगल-बिट एरर बढ़ी हुई मॉनिटरिंग फ्रीक्वेंसी के साथ ऑपरेट करना जारी रखते हैं। डबल-बिट एरर तत्काल वर्कलोड माइग्रेशन और GPU क्वारंटीन का कारण बनते हैं। पेज रिटायरमेंट एग्ज़ॉशन हार्डवेयर रिप्लेसमेंट शेड्यूलिंग को ट्रिगर करता है। ऑटोमेटेड ऑर्डरिंग सिस्टम रैपिड रिप्लेसमेंट के लिए 2% स्पेयर इन्वेंट्री बनाए रखते हैं।
रिडंडेंट कॉन्फिगरेशन में पावर सप्लाई विफलताएं कम क्षमता पर ऑपरेट करना जारी रखती हैं। N+1 कॉन्फिगरेशन रिडंडेंसी खो देते हैं लेकिन पूर्ण ऑपरेशन बनाए रखते हैं। लोड बैलेंसिंग सर्वाइविंग सप्लाई में पावर ड्रॉ को रीडिस्ट्रीब्यूट करती है। एफिशिएंसी 5-10% गिरती है जो हीट जनरेशन बढ़ाती है। रिप्लेसमेंट शेड्यूलिंग रिडंडेंसी रेस्टोरेशन के लिए 4-घंटे के रिस्पॉन्स को टारगेट करती है। Tesla के Dojo क्लस्टर 5-मिनट के रिप्लेसमेंट को सक्षम करने वाली हॉट-स्पेयर पावर सप्लाई बनाए रखते हैं।
मदरबोर्ड कंपोनेंट विफलताओं में रिपेयरेबल को टर्मिनल विफलताओं से अलग करने के लिए सावधानीपूर्वक डायग्नोसिस की आवश्यकता होती है। PCIe रीटाइमर को कभी-कभी रीसीटिंग की आवश्यकता होती है, रिप्लेसमेंट के बिना ऑपरेशन रिस्टोर करते हुए। VRM (Voltage Regulator Module) विफलताएं सिंगल GPU को प्रभावित कर सकती हैं जबकि अन्य ऑपरेट करना जारी रखते हैं। BIOS रिकवरी प्रोसीजर हार्डवेयर रिप्लेसमेंट के बिना करप्टेड फर्मवेयर को रिस्टोर करती हैं। Dell EMC के इंटीग्रेटेड डायग्नोस्टिक्स कंपोनेंट-लेवल विफलताओं की पहचान करते हैं जो टारगेटेड रिपेयर को सक्षम करते हैं।
थर्मल कैस्केड प्रिवेंशन के लिए आक्रामक इंटरवेंशन की आवश्यकता होती है। जब पड़ोसी विफल होते हैं तो एडजेसेंट GPU तापमान 5-10°C बढ़ जाता है। वर्कलोड रीडिस्ट्रीब्यूशन हॉट स्पॉट फॉर्मेशन को रोकता है। फेल्ड हार्डवेयर के बीच खाली रैक यूनिट एयरफ्लो में सुधार करती हैं। पोर्टेबल स्पॉट कूलर 15 मिनट के भीतर महत्वपूर्ण क्षेत्रों के लिए तैनात होते हैं। अस्थायी
[अनुवाद के लिए सामग्री काट दी गई]