AI वर्कलोड शेड्यूलिंग: टाइम ज़ोन में GPU उपयोग को अनुकूलित करना

OpenAI ने 6 महीने की जॉब बैकलॉग के बावजूद 43% बेकार GPUs पाए—$127M वार्षिक नुकसान। Google की follow-the-sun शेड्यूलिंग ने क्षमता 37% बढ़ाई। संपूर्ण गाइड।

Blake Crosley

Apr 09, 2026 10 min read Disclaimer

AI वर्कलोड शेड्यूलिंग: टाइम ज़ोन में GPU उपयोग को अनुकूलित करना

8 दिसंबर, 2025 को अपडेट किया गया

दिसंबर 2025 अपडेट: Run:ai, Determined AI, और Kueue के प्रोडक्शन स्केल पर पहुंचने के साथ GPU शेड्यूलिंग परिपक्वता बढ़ रही है। Kubernetes Dynamic Resource Allocation (DRA) अब fine-grained GPU पार्टीशनिंग के लिए GA है। MIG (Multi-Instance GPU) अपनाना multi-tenant शेड्यूलिंग के लिए बढ़ रहा है। Carbon-aware शेड्यूलिंग उभर रही है—वर्कलोड को स्वच्छ ग्रिड मिक्स वाले क्षेत्रों में शिफ्ट करना। GPU लागत ($25-40K प्रति H100) ROI के लिए उपयोग अनुकूलन को महत्वपूर्ण बना रही है।

OpenAI ने पाया कि उनके GPU क्लस्टर छह महीने की ट्रेनिंग जॉब बैकलॉग होने के बावजूद 43% समय बेकार बैठे रहते थे, जिससे कम उपयोग किए गए इंफ्रास्ट्रक्चर में सालाना $127 मिलियन का नुकसान हो रहा था। मूल कारण naive first-in-first-out शेड्यूलिंग थी जो भौगोलिक वितरण, टाइम ज़ोन पैटर्न और वर्कलोड विशेषताओं को अनदेखा करती थी। आधुनिक AI ऑपरेशंस वैश्विक टीमों में फैले हुए हैं जो इंटरैक्टिव डेवलपमेंट से लेकर हफ्ते भर की ट्रेनिंग जॉब्स तक विविध वर्कलोड चलाती हैं, जिसके लिए sophisticated शेड्यूलिंग की आवश्यकता होती है जो महंगे GPU संसाधनों को अधिकतम करे। यह व्यापक गाइड उन्नत शेड्यूलिंग रणनीतियों की जांच करती है जो वितरित AI इंफ्रास्ट्रक्चर में सेवा की गुणवत्ता बनाए रखते हुए 95% उपयोग प्राप्त करती हैं।

शेड्यूलिंग आर्किटेक्चर की मूल बातें

मल्टी-लेवल शेड्यूलिंग हायरार्की वैश्विक रिसोर्स पूल से लेकर व्यक्तिगत GPU असाइनमेंट तक वर्कलोड को ऑर्केस्ट्रेट करती है। ग्लोबल शेड्यूलर डेटा लोकैलिटी, लागत और क्षमता को ध्यान में रखते हुए जॉब्स को क्षेत्रों में वितरित करते हैं। रीजनल शेड्यूलर उपलब्धता और आवश्यकताओं के आधार पर डेटा सेंटर के भीतर संसाधन आवंटित करते हैं। क्लस्टर शेड्यूलर नेटवर्क टोपोलॉजी और GPU संगतता के लिए अनुकूलित करते हुए विशिष्ट नोड्स असाइन करते हैं। नोड शेड्यूलर GPU शेयरिंग, मेमोरी आवंटन और प्रोसेस प्राथमिकता का प्रबंधन करते हैं। इस हायरार्की ने Meta को 12 डेटा सेंटरों में 100,000 GPUs का समन्वय करने में सक्षम बनाया, जिससे 91% औसत उपयोग प्राप्त हुआ।

टाइम ज़ोन जागरूकता शेड्यूलिंग को स्थिर संसाधन आवंटन से सूर्य का अनुसरण करने वाले गतिशील अनुकूलन में बदल देती है। एशियाई टीमें अपने व्यावसायिक घंटों के दौरान GPUs का उपयोग करती हैं, छह घंटे बाद यूरोपीय टीमों के लिए क्षमता जारी करती हैं। अमेरिकी टीमें यूरोपीय काम समाप्त होने पर संसाधन प्राप्त करती हैं, जिससे स्वाभाविक हैंडऑफ बनते हैं। सप्ताहांत पैटर्न संस्कृति के अनुसार भिन्न होते हैं, मध्य पूर्वी टीमें रविवार-गुरुवार काम करती हैं। छुट्टियों के कैलेंडर विश्व स्तर पर भिन्न होते हैं जिसके लिए sophisticated टेम्पोरल मॉडलिंग की आवश्यकता होती है। Google की follow-the-sun शेड्यूलिंग ने बिना हार्डवेयर जोड़े प्रभावी क्षमता 37% बढ़ा दी।

वर्कलोड वर्गीकरण विभिन्न जॉब प्रकारों के लिए उपयुक्त शेड्यूलिंग रणनीतियों को सक्षम बनाता है। ट्रेनिंग जॉब्स दिनों तक चलती हैं जिनके लिए स्थिर आवंटन और चेकपॉइंट सपोर्ट की आवश्यकता होती है। इन्फरेंस रियल-टाइम अनुरोधों को सर्व करता है जिसके लिए कम लेटेंसी और उच्च उपलब्धता की आवश्यकता होती है। डेवलपमेंट वर्कलोड को संसाधन लचीलेपन के साथ इंटरैक्टिव प्रतिक्रिया की आवश्यकता होती है। बैच प्रोसेसिंग लेटेंसी पर थ्रूपुट को प्राथमिकता देते हुए देरी सहन करती है। हाइपरपैरामीटर ट्यूनिंग हजारों छोटे प्रयोग उत्पन्न करती है। Anthropic में वर्गीकरण ने संसाधन मिलान 45% बेहतर किया जिससे प्रतीक्षा समय और बेकार क्षमता दोनों कम हुए।

प्राथमिकता तंत्र प्रतिस्पर्धी मांगों को संतुलित करते हैं यह सुनिश्चित करते हुए कि महत्वपूर्ण वर्कलोड को आवश्यक संसाधन मिलें। व्यवसाय-महत्वपूर्ण प्रोडक्शन इन्फरेंस को गारंटीड क्षमता के साथ सर्वोच्च प्राथमिकता मिलती है। डेडलाइन-संचालित ट्रेनिंग जॉब्स नियत तारीखों के करीब आने पर प्राथमिकता बढ़ाती हैं। रिसर्च प्रयोग preemption संभव के साथ अतिरिक्त क्षमता का उपयोग करते हैं। डेवलपमेंट वर्कलोड को बर्स्ट क्षमता के साथ बेसलाइन गारंटी मिलती है। लागत-अनुकूलित बैच जॉब्स अप्रयुक्त संसाधन एकत्र करती हैं। Microsoft में प्राथमिकता-आधारित शेड्यूलिंग ने उपयोग में सुधार करते हुए प्रोडक्शन SLA उल्लंघन 78% कम किए।

निष्पक्षता एल्गोरिदम संगठनात्मक नीतियों का सम्मान करते हुए संसाधन एकाधिकार को रोकते हैं। Dominant resource fairness सबसे दुर्लभ संसाधन प्रकार के आधार पर आवंटित करता है। Weighted fair queuing पात्रताओं के आधार पर आनुपातिक पहुंच प्रदान करता है। Max-min fairness उपयोगकर्ताओं में न्यूनतम आवंटन को अधिकतम करता है। Lottery scheduling संभाव्य निष्पक्षता के लिए रैंडमाइजेशन का उपयोग करता है। Hierarchical fairness टीम, प्रोजेक्ट और उपयोगकर्ता स्तरों पर नीतियां लागू करती है। Uber में निष्पक्ष शेड्यूलिंग ने 89% उपयोग बनाए रखते हुए संसाधन की कमी को रोका।

वैश्विक संसाधन ऑर्केस्ट्रेशन

भौगोलिक वितरण रणनीतियां निरंतर उपयोग के लिए विश्वव्यापी इंफ्रास्ट्रक्चर का लाभ उठाती हैं। प्राथमिक क्षेत्र व्यावसायिक घंटों के दौरान स्थानीय वर्कलोड संभालते हैं। ओवरफ्लो क्षेत्र प्राथमिक क्षमता समाप्त होने पर अतिरिक्त मांग को अवशोषित करते हैं। आपदा रिकवरी क्षेत्र महत्वपूर्ण वर्कलोड के लिए फेलओवर प्रदान करते हैं। Edge लोकेशन लेटेंसी कम करते हुए उपयोगकर्ताओं के पास इन्फरेंस सर्व करते हैं। आर्काइव क्षेत्र चेकपॉइंट और डेटासेट को लागत-प्रभावी ढंग से स्टोर करते हैं। Amazon के वैश्विक ऑर्केस्ट्रेशन ने 26 क्षेत्रों में 24/7 उपयोग प्राप्त किया।

डेटा लोकैलिटी अनुकूलन लचीलापन बनाए रखते हुए महंगे क्रॉस-रीजन ट्रांसफर को कम करता है। Affinity नियम जॉब्स को उनके डेटासेट के पास रखते हैं जिससे egress लागत कम होती है। रेप्लिकेशन रणनीतियां क्षेत्रों में लोकप्रिय डेटा को कैश करती हैं। Prefetching जॉब कतारों के आधार पर डेटा जरूरतों का अनुमान लगाता है। Compression अनिवार्य मूवमेंट के लिए ट्रांसफर वॉल्यूम कम करता है। Incremental synchronization केवल बदले हुए डेटा को अपडेट करता है। Netflix में लोकैलिटी अनुकूलन ने डेटा ट्रांसफर लागत में सालाना $18 मिलियन बचाए।

लेटेंसी-संवेदनशील शेड्यूलिंग नेटवर्क दूरी और गुणवत्ता को ध्यान में रखते हुए वर्कलोड रखती है। रियल-टाइम इन्फरेंस उपयोगकर्ताओं के पास चलता है जिससे 100ms से कम प्रतिक्रिया मिलती है। इंटरैक्टिव डेवलपमेंट को GPU संसाधनों के लिए कम लेटेंसी की आवश्यकता होती है। डिस्ट्रिब्यूटेड ट्रेनिंग को उच्च-बैंडविड्थ, कम-लेटेंसी इंटरकनेक्ट की आवश्यकता होती है। बैच वर्कलोड लागत बचत के लिए उच्च लेटेंसी सहन करते हैं। Geo-routing अनुरोधों को इष्टतम स्थानों पर निर्देशित करता है। Discord में लेटेंसी-जागरूक शेड्यूलिंग ने AI सुविधाओं के लिए उपयोगकर्ता अनुभव 40% बेहतर किया।

लागत आर्बिट्राज क्षेत्रों और इंस्टेंस प्रकारों में मूल्य अंतर का लाभ उठाता है। Spot instances इंटरप्टिबल वर्कलोड के लिए 70% छूट प्रदान करते हैं। Reserved capacity प्रतिबद्धताओं के साथ 40% बचत प्रदान करती है। समान संसाधनों के लिए क्षेत्रीय मूल्य निर्धारण 30% भिन्न होता है। Off-peak rates लचीले वर्कलोड के लिए लागत 25% कम करती हैं। Carbon-aware शेड्यूलिंग नवीकरणीय ऊर्जा उपलब्धता का लाभ उठाती है। Spotify में लागत अनुकूलन ने बुद्धिमान प्लेसमेंट के माध्यम से इंफ्रास्ट्रक्चर खर्च 42% कम किया।

नियामक अनुपालन बाधाएं डेटा संप्रभुता के लिए वर्कलोड प्लेसमेंट को सीमित करती हैं। GDPR को EU सीमाओं के भीतर यूरोपीय डेटा प्रोसेसिंग की आवश्यकता होती है। चीनी नियम नागरिक डेटा के लिए स्थानीय प्रोसेसिंग अनिवार्य करते हैं। हेल्थकेयर वर्कलोड को क्षेत्रीय गोपनीयता कानूनों का पालन करना होगा। वित्तीय सेवाओं को डेटा निवास आवश्यकताओं का सामना करना पड़ता है। सरकारी अनुबंध सुरक्षा मंजूरी क्षेत्र निर्दिष्ट करते हैं। SAP में अनुपालन-जागरूक शेड्यूलिंग ने 100% नियामक उल्लंघनों को रोका।

कतार प्रबंधन रणनीतियां

मल्टी-कतार आर्किटेक्चर विशेषताओं के आधार पर वर्कलोड को अलग करते हैं जिससे अनुकूलित हैंडलिंग संभव होती है। Express कतारें न्यूनतम प्रतीक्षा समय के साथ छोटी जॉब्स सर्व करती हैं। Standard कतारें संतुलित प्राथमिकताओं के साथ नियमित वर्कलोड संभालती हैं। Batch कतारें कुशल प्रोसेसिंग के लिए बड़ी जॉब्स जमा करती हैं। Preemptible कतारें इंटरप्शन संभव के साथ संसाधन प्रदान करती हैं। Reserved कतारें महत्वपूर्ण वर्कलोड के लिए संसाधनों की गारंटी देती हैं। LinkedIn में कतार पृथक्करण ने औसत प्रतीक्षा समय 65% कम किया।

Backfilling एल्गोरिदम कतारबद्ध जॉब्स में देरी किए बिना उपयोग में सुधार करते हुए शेड्यूल में अंतराल का उपयोग करते हैं। EASY backfilling छोटी जॉब्स को आगे कूदने की अनुमति देता है यदि वे दूसरों में देरी नहीं करती हैं। Conservative backfilling जॉब स्टार्ट समय पर मजबूत गारंटी प्रदान करता है। Selective backfilling कई मानदंडों के आधार पर जॉब्स चुनता है। List scheduling प्राथमिकता-क्रमित जॉब सूचियों का उपयोग करके backfill करता है। Adaptive backfilling वर्कलोड पैटर्न के आधार पर रणनीतियों को समायोजित करता है। Adobe में Backfilling ने उपयोग 67% से 84% तक बढ़ाया।

जॉब पैकिंग अनुकूलन संसाधन विखंडन को कम करते हुए वर्कलोड व्यवस्थित करता है। Bin packing एल्गोरिदम उपयोग किए गए नोड्स की संख्या को कम करते हैं। Strip packing निरंतर संसाधन आयामों में प्लेसमेंट को अनुकूलित करता है। Best-fit एल्गोरिदम सबसे छोटे पर्याप्त संसाधन आवंटन का चयन करते हैं। First-fit एल्गोरिदम सरल प्लेसमेंट के साथ शेड्यूलिंग ओवरहेड कम करते हैं। Tetris-जैसी पैकिंग बहु-आयामी संसाधन आवश्यकताओं को संभालती है। Pinterest में कुशल पैकिंग ने संसाधन बर्बादी 38% कम की।

Starvation रोकथाम सुनिश्चित करती है कि सभी जॉब्स अंततः प्राथमिकताओं के बावजूद संसाधन प्राप्त करें। Aging तंत्र समय के साथ प्राथमिकता बढ़ाते हैं जिससे अनिश्चितकालीन देरी रुकती है। Resource reservation प्रति उपयोगकर्ता या टीम न्यूनतम आवंटन की गारंटी देता है। Deadline scheduling सुनिश्चित करता है कि समय-संवेदनशील जॉब्स पूरी हों। Fair-share policies समय विंडो में आनुपातिक पहुंच प्रदान करती हैं। Starvation detection आपातकालीन आवंटन ट्रिगर करता है। Twitter में रोकथाम तंत्र ने SLAs के भीतर 100% जॉब पूर्णता सुनिश्चित की।

Admission control सेवा की गुणवत्ता बनाए रखते हुए सिस्टम ओवरलोड को रोकता है। Capacity planning मॉडल संसाधन उपलब्धता की भविष्यवाणी करते हैं। Workload characterization जॉब आवश्यकताओं का सटीक अनुमान लगाता है। Rejection policies उपलब्ध क्षमता से अधिक जॉब्स को अस्वीकार करती हैं। Degradation policies थ्रूपुट बनाए रखते हुए संसाधन आवंटन कम करती हैं। Queue limits असीमित संचय को रोकती हैं। Salesforce में Admission control ने मांग स्पाइक के दौरान 99.9% SLA अनुपालन बनाए रखा।

बुद्धिमान शेड्यूलिंग एल्गोरिदम

मशीन लर्निंग प्रेडिक्शन मॉडल जॉब विशेषताओं का पूर्वानुमान लगाते हैं जिससे शेड्यूलिंग निर्णय बेहतर होते हैं। Duration prediction ऐतिहासिक पैटर्न के आधार पर रनटाइम का अनुमान लगाता है। Resource requirement prediction ओवर या अंडर-आवंटन को रोकता है। Failure prediction जल्दी विफल होने वाली जॉब्स की पहचान करता है। Queue time estimation उपयोगकर्ताओं को सबमिशन की योजना बनाने में मदद करता है। Performance modeling विभिन्न शेड्यूल के तहत थ्रूपुट की भविष्यवाणी करता है। DeepMind में ML-आधारित शेड्यूलिंग ने जॉब पूर्णता समय 31% कम किया।

Genetic algorithms पुनरावृत्त सुधार के माध्यम से इष्टतम शेड्यूल विकसित करते हैं। Population initialization विविध शेड्यूल उम्मीदवार बनाता है। Fitness evaluation कई उद्देश्यों पर शेड्यूल को स्कोर करता है। Selection पुनरुत्पादन के लिए श्रेष्ठ शेड्यूल की पहचान करता है। Crossover सफल शेड्यूलिंग रणनीतियों को जोड़ता है। Mutation स्थानीय ऑप्टिमा को रोकते हुए विविधता पेश करता है। IBM में Evolutionary scheduling ने 12 प्रतिस्पर्धी उद्देश्यों के लिए एक साथ अनुकूलन किया।

Reinforcement learning अनुभव के माध्यम से शेड्यूलिंग नीतियों को अनुकूलित करता है। State representation वर्तमान सिस्टम स्थिति और कतारों को कैप्चर करता है। Action spaces संभावित शेड्यूलिंग निर्णयों को परिभाषित करते हैं। Reward functions उपयोग, लेटेंसी और निष्पक्षता को संतुलित करते हैं। Policy networks इष्टतम एक्शन चयन सीखते हैं। Experience replay नमूना दक्षता में सुधार करता है। OpenAI में RL scheduling ने लेटेंसी कम करते हुए थ्रूपुट 27% बढ़ाया।

Constraint satisfaction जटिल आवश्यकताओं के साथ शेड्यूलिंग को अनुकूलन के रूप में तैयार करता है। Hard constraints डेडलाइन जैसे अनुल्लंघनीय नियम लागू करते हैं। Soft constraints डेटा लोकैलिटी जैसी प्राथमिकताएं व्यक्त करते हैं। Multi-objective optimization प्रतिस्पर्धी लक्ष्यों को संतुलित करता है। Integer programming इष्टतम discrete असाइनमेंट खोजता है। Constraint relaxation over-constrained समस्याओं को संभालता है। Airbnb में CSP scheduling ने 95% उपयोगकर्ता प्राथमिकताओं को संतुष्ट किया।

Heuristic दृष्टिकोण रियल-टाइम निर्णयों के लिए तेज, पर्याप्त-अच्छे समाधान प्रदान करते हैं। Greedy algorithms जल्दी से स्थानीय रूप से इष्टतम विकल्प बनाते हैं। Hill climbing पुनरावृत्त रूप से प्रारंभिक समाधानों में सुधार करता है। Simulated annealing नियंत्रित रैंडमनेस के माध्यम से स्थानीय ऑप्टिमा से बचता है। Tabu search हाल के समाधानों के माध्यम से साइक्लिंग को रोकता है। Hybrid approaches कई heuristics को जोड़ते हैं। Lyft में Heuristic scheduling ने 10,000 जॉब्स के लिए मिलीसेकंड निर्णय समय प्राप्त किया।

टाइम ज़ोन अनुकूलन पैटर्न

Follow-the-sun वर्कफ्लो वैश्विक टीमों में इंफ्रास्ट्रक्चर उपयोग को अधिकतम करते हैं। एशियाई टीमें अपनी सुबह के दौरान ट्रेनिंग रन शुरू करती हैं। यूरोपीय टीमें निगरानी और समायोजन के लिए जॉब्स प्राप्त करती हैं। अमेरिकी टीमें रन पूरा करती हैं और अगली पुनरावृत्तियां तैयार करती हैं। रात्रि प्रोसेसिंग बैच वर्कलोड के लिए बेकार समय का लाभ उठाती है। सप्ताहांत के अंतराल स्वचालित प्रयोगों से भरे जाते हैं। Samsung में निरंतर वर्कफ्लो ने टाइम ज़ोन में 94% उपयोग प्राप्त किया।

Peak shaving रणनीतियां संसाधन थकान को रोकते हुए मांग स्पाइक को सुचारू करती हैं। Predictive scaling नियमित पैटर्न का अनुमान लगाते हुए क्षमता जोड़ता है। Load shifting लचीले वर्कलोड को off-peak अवधि में देरी करता है। Graceful degradation उपलब्धता बनाए रखते हुए सेवा स्तर कम करता है। Burst capacity क्लाउड का उपयोग करके अस्थायी स्पाइक संभालती है।

[अनुवाद के लिए सामग्री काटी गई]

AI वर्कलोड शेड्यूलिंग: टाइम ज़ोन में GPU उपयोग को अनुकूलित करना

शेड्यूलिंग आर्किटेक्चर की मूल बातें

वैश्विक संसाधन ऑर्केस्ट्रेशन

कतार प्रबंधन रणनीतियां

बुद्धिमान शेड्यूलिंग एल्गोरिदम

टाइम ज़ोन अनुकूलन पैटर्न

You Might Also Like

GPU Orchestration के लिए Kubernetes: Multi-Thousand GPU Clus...

GPU से आगे AI Accelerators: TPU, Trainium, Gaudi, Groq, Cere...

स्वायत्त वाहन AI अवसंरचना: Edge-से-Cloud GPU आवश्यकताएं

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_