स्पॉट इंस्टेंस और प्रीएम्प्टिबल GPU: AI लागत में 70% की कटौती
अपडेट: 8 दिसंबर, 2025
दिसंबर 2025 अपडेट: आपूर्ति की कमी कम होने के साथ स्पॉट और ऑन-डिमांड GPU कीमतें काफी हद तक समान हो गई हैं। AWS ने जून 2025 में ऑन-डिमांड H100 कीमतों में 44% की कटौती की (~$3.90/घंटा), जिससे स्पॉट प्रीमियम का फायदा कम हो गया। Hyperbolic जैसे बजट प्रदाता H100 $1.49/घंटा और H200 $2.15/घंटा पर प्रदान करते हैं, जो अक्सर पारंपरिक स्पॉट प्राइसिंग से प्रतिस्पर्धी है। GPU रेंटल मार्केट $3.34B से $33.9B (2023-2032) तक बढ़ रहा है। जबकि स्पॉट इंस्टेंस अभी भी इंटरप्टिबल वर्कलोड के लिए बचत प्रदान करते हैं, गणना बदल गई है—ऑन-डिमांड अब अधिक उपयोग मामलों के लिए समझदारी है, और नए बजट क्लाउड प्रदाताओं ने पारंपरिक स्पॉट इकोनॉमिक्स को बाधित कर दिया है।
Spotify ने अपने संपूर्ण रेकमेंडेशन इंजन ट्रेनिंग पाइपलाइन को AWS Spot इंस्टेंस के आसपास आर्किटेक्ट करके अपनी मशीन लर्निंग इंफ्रास्ट्रक्चर लागत को सालाना $8.2 मिलियन से घटाकर $2.4 मिलियन कर दिया, यह साबित करते हुए कि इंटरप्टिबल GPU प्रोडक्शन AI वर्कलोड को पावर कर सकते हैं।¹ पकड़ यह है: जब भी AWS को क्षमता वापस चाहिए, उनके p4d.24xlarge इंस्टेंस 2 मिनट की चेतावनी के साथ गायब हो जाते हैं, जिससे टीम को हर 5 मिनट में चेकपॉइंट करना और क्रिटिकल जॉब्स के लिए ट्रिपल रिडंडेंसी बनाए रखना पड़ता है। स्पॉट इंस्टेंस ऑर्केस्ट्रेशन में महारत हासिल करने वाले संगठन ऑन-डिमांड प्राइसिंग की तुलना में 70-91% लागत में कमी हासिल करते हैं, लेकिन जो बिना सोचे-समझे डिप्लॉय करते हैं वे अप्रत्याशित टर्मिनेशन के कारण हफ्तों की ट्रेनिंग प्रगति खो देते हैं।²
AWS Spot, Google Cloud Preemptible VMs, और Azure Spot VMs समान हार्डवेयर भारी छूट पर प्रदान करते हैं क्योंकि क्लाउड प्रदाता अतिरिक्त क्षमता बेचते हैं जो किसी भी क्षण गायब हो सकती है।³ 8 H100 GPU वाला p5.48xlarge इंस्टेंस ऑन-डिमांड पर $98.32 प्रति घंटा है लेकिन Spot पर औसतन $19.66—80% छूट जो AI अर्थशास्त्र को बदल देती है।⁴ मॉडल काम करता है क्योंकि क्लाउड प्रदाता मेंटेनेंस, फेलियर और डिमांड स्पाइक के लिए 15-30% अतिरिक्त क्षमता बनाए रखते हैं, अन्यथा निष्क्रिय संसाधनों का मुद्रीकरण करते हुए उन्हें तुरंत पुनः प्राप्त करने का अधिकार बनाए रखते हैं।
इंटरप्टिबल GPU क्षमता की अर्थव्यवस्था
क्लाउड प्रदाता निरंतर नीलामी के माध्यम से स्पॉट इंस्टेंस की कीमत तय करते हैं जहां आपूर्ति और मांग के आधार पर कीमतें उतार-चढ़ाव करती हैं। GPU इंस्टेंस के लिए AWS Spot की कीमतें ऑन-डिमांड दरों से 70% से 91% कम हैं, ml.p4d.24xlarge इंस्टेंस $32.77 ऑन-डिमांड मूल्य के विरुद्ध $3.90 से $29.49 प्रति घंटे की रेंज में हैं।⁵ Google Preemptible GPUs 60-80% की निश्चित छूट प्रदान करते हैं लेकिन मांग की परवाह किए बिना अधिकतम 24 घंटे बाद समाप्त हो जाते हैं।⁶ Azure Spot कॉन्फ़िगर करने योग्य अधिकतम कीमतों के साथ समान 60-90% छूट प्रदान करता है जो बिल शॉक को रोकते हैं।
कम लोकप्रिय क्षेत्रों और पुरानी GPU पीढ़ियों में सबसे गहरी छूट दिखाई देती है। मांग एकाग्रता के कारण US-West-2 स्पॉट कीमतें US-East-2 से 20% अधिक हैं। V100 इंस्टेंस 91% छूट प्राप्त करते हैं जबकि नए H100 शायद ही कभी 75% छूट से अधिक होते हैं। रात और सप्ताहांत की अवधि 10-15% अतिरिक्त बचत प्रदान करती है क्योंकि एंटरप्राइज वर्कलोड कम हो जाते हैं। स्मार्ट ऑर्केस्ट्रेशन इन पैटर्न का फायदा उठाता है, लागत कम करने के लिए वर्कलोड को क्षेत्रों और समय क्षेत्रों में माइग्रेट करता है।
इंटरप्शन दरें इंस्टेंस प्रकार, क्षेत्र और समय के अनुसार नाटकीय रूप से भिन्न होती हैं। 10 मिलियन स्पॉट इंस्टेंस घंटों के विश्लेषण से पता चलता है:⁷ - A100 इंस्टेंस: 2.3% प्रति घंटा इंटरप्शन दर - V100 इंस्टेंस: 0.8% प्रति घंटा इंटरप्शन दर - H100 इंस्टेंस: 4.1% प्रति घंटा इंटरप्शन दर - सप्ताहांत इंटरप्शन दरें: कार्यदिवसों से 40% कम - US-East-1: US-West-2 से 3 गुना अधिक इंटरप्शन दर
स्पॉट इंस्टेंस पर फलने-फूलने वाले वर्कलोड पैटर्न
कुछ AI वर्कलोड स्वाभाविक रूप से स्पॉट इंस्टेंस मॉडल में फिट होते हैं:
हाइपरपैरामीटर ट्यूनिंग: पैरामीटर स्पेस की समानांतर खोज व्यक्तिगत जॉब विफलताओं को सहन करती है। प्रत्येक प्रयोग स्वतंत्र रूप से चलता है, इसलिए इंटरप्शन केवल एकल कॉन्फ़िगरेशन को प्रभावित करते हैं। Optuna और Ray Tune स्वचालित रूप से स्पॉट इंस्टेंस विफलताओं को संभालते हैं, नए इंस्टेंस पर समाप्त जॉब्स को पुनः आरंभ करते हैं।⁸ संगठन विशेष रूप से स्पॉट इंस्टेंस का उपयोग करके हाइपरपैरामीटर खोजों के लिए 75% लागत बचत की रिपोर्ट करते हैं।
बैच इंफरेंस: लाखों इमेज या डॉक्यूमेंट की प्रोसेसिंग कई इंस्टेंस में वितरित होती है। वर्क क्यू पूर्ण बनाम लंबित आइटम को ट्रैक करते हैं। इंटरप्शन बस अधूरे काम को क्यू में वापस कर देते हैं। ऑटोस्केलिंग ग्रुप स्वचालित रूप से रिप्लेसमेंट इंस्टेंस लॉन्च करते हैं। Netflix स्पॉट इंस्टेंस का उपयोग करके प्रतिदिन 100 मिलियन थंबनेल प्रोसेस करता है, सालाना $3.2 मिलियन बचाता है।⁹
डेटा प्रीप्रोसेसिंग: ट्रेनिंग डेटा के लिए ETL पाइपलाइन स्पॉट क्षमता से लाभान्वित होती हैं। Apache Spark जैसे फ्रेमवर्क स्वचालित रूप से प्रगति को चेकपॉइंट करते हैं। बाधित कार्य नए इंस्टेंस पर चेकपॉइंट से फिर से शुरू होते हैं। अधिकांश प्रीप्रोसेसिंग की स्टेटलेस प्रकृति स्पॉट इंस्टेंस को आदर्श बनाती है। Uber की फीचर इंजीनियरिंग पाइपलाइन 90% स्पॉट इंस्टेंस पर चलती है।¹⁰
डेवलपमेंट और टेस्टिंग: नॉन-प्रोडक्शन एनवायरनमेंट इंटरप्शन को सुचारू रूप से सहन करते हैं। डेवलपर्स प्रयोग के दौरान कभी-कभी व्यवधान की उम्मीद करते हैं। लागत बचत बड़े डेवलपमेंट क्लस्टर को सक्षम करती है। CI/CD पाइपलाइन स्वचालित रूप से विफल जॉब्स को रीट्राई करती हैं। GitHub Actions स्पॉट रनर के लिए 70% कम प्राइसिंग प्रदान करता है।¹¹
चेकपॉइंटिंग के साथ डिस्ट्रीब्यूटेड ट्रेनिंग: उचित चेकपॉइंटिंग रणनीतियों के साथ बड़े मॉडल ट्रेनिंग संभव हो जाती है। हर 10-30 मिनट में मॉडल स्टेट को ड्यूरेबल स्टोरेज में सेव करें। इंस्टेंस उतार-चढ़ाव के दौरान प्रभावी बैच साइज बनाए रखने के लिए ग्रेडिएंट एक्यूमुलेशन का उपयोग करें। इलास्टिक ट्रेनिंग लागू करें जो उपलब्ध इंस्टेंस के अनुसार समायोजित हो। OpenAI ने 60% स्पॉट इंस्टेंस का उपयोग करके शुरुआती GPT मॉडल को ट्रेन किया।¹²
इंटरप्शन हैंडलिंग रणनीतियाँ
सफल स्पॉट इंस्टेंस उपयोग के लिए परिष्कृत इंटरप्शन प्रबंधन की आवश्यकता होती है:
चेकपॉइंटिंग फ्रेमवर्क: नियमित अंतराल पर स्वचालित चेकपॉइंटिंग लागू करें। PyTorch Lightning कॉन्फ़िगर करने योग्य चेकपॉइंट फ्रीक्वेंसी के साथ बिल्ट-इन स्पॉट इंस्टेंस सपोर्ट प्रदान करता है।¹³ मॉडल वेट के साथ ऑप्टिमाइज़र स्टेट, लर्निंग रेट शेड्यूल और रैंडम सीड्स सेव करें। ड्यूरेबिलिटी के लिए ऑब्जेक्ट स्टोरेज में चेकपॉइंट स्टोर करें। नए इंस्टेंस पर निर्बाध रूप से ट्रेनिंग फिर से शुरू करें।
इंस्टेंस डाइवर्सिफिकेशन: वर्कलोड को कई इंस्टेंस प्रकारों, अवेलेबिलिटी ज़ोन और रीजन में फैलाएं। AWS Spot Fleet स्वचालित रूप से विविध क्षमता पूल का प्रबंधन करता है।¹⁴ बेहतर उपलब्धता के लिए 10-15 विभिन्न इंस्टेंस प्रकार कॉन्फ़िगर करें। बेहतर उपलब्धता के लिए थोड़े सबऑप्टिमल इंस्टेंस स्वीकार करें। सुचारू ट्रांज़िशन के लिए 20% क्षमता बफर बनाए रखें।
ग्रेसफुल शटडाउन हैंडलर: AWS इंस्टेंस मेटाडेटा सर्विस के माध्यम से 2-मिनट टर्मिनेशन नोटिस प्रदान करता है। Google 30-सेकंड Preemptible चेतावनी देता है। सिग्नल हैंडलर लागू करें जो टर्मिनेशन नोटिस पर तत्काल चेकपॉइंटिंग ट्रिगर करें। शटडाउन से पहले लॉग और मेट्रिक्स फ्लश करें। ऑर्फन्ड कॉस्ट को रोकने के लिए अस्थायी संसाधनों को साफ करें।
हाइब्रिड आर्किटेक्चर: क्रिटिकल कंपोनेंट के लिए स्पॉट इंस्टेंस को ऑन-डिमांड क्षमता के साथ जोड़ें। पैरामीटर सर्वर ऑन-डिमांड पर चलाएं जबकि वर्कर स्पॉट का उपयोग करें। स्थिर इंस्टेंस पर न्यूनतम व्यवहार्य क्षमता बनाए रखें। अतिरिक्त थ्रूपुट के लिए स्पॉट पर बर्स्ट करें। प्राइस और अवेलेबिलिटी सिग्नल के आधार पर स्पॉट क्षमता स्केल करें।
क्यू-बेस्ड आर्किटेक्चर: मैसेज क्यू का उपयोग करके वर्क शेड्यूलिंग को एक्ज़ीक्यूशन से डिकपल करें। Amazon SQS या Apache Kafka पेंडिंग वर्क को ट्रैक करते हैं। वर्कर उपलब्ध होने पर टास्क पुल करते हैं। पूर्ण किया गया काम पर्सिस्टेंट स्टोरेज को अपडेट करता है। विफल टास्क रीट्राई के लिए क्यू में वापस आते हैं।
प्रोडक्शन सिस्टम के लिए इम्प्लीमेंटेशन पैटर्न
प्रोडक्शन-ग्रेड स्पॉट इंस्टेंस डिप्लॉयमेंट सिद्ध पैटर्न का पालन करते हैं:
मल्टी-रीजन ऑर्केस्ट्रेशन:
# Kubernetes Spot Instance Configuration
apiVersion: v1
kind: NodePool
spec:
spotInstances:
enabled: true
maxPrice: 0.50 # Maximum hourly price
regions:
- us-east-1
- us-west-2
- eu-west-1
instanceTypes:
- g5.xlarge
- g5.2xlarge
- g4dn.xlarge
diversificationStrategy: lowestPrice
onDemandBaseCapacity: 2
spotInstancePools: 10
चेकपॉइंट मैनेजमेंट:
class SpotTraining:
def __init__(self):
self.checkpoint_frequency = 600 # 10 minutes
self.s3_bucket = "checkpoints"
def train(self):
if self.detect_termination_notice():
self.emergency_checkpoint()
self.graceful_shutdown()
if time.time() - self.last_checkpoint > self.checkpoint_frequency:
self.save_checkpoint()
कॉस्ट मॉनिटरिंग डैशबोर्ड: ऑन-डिमांड बेसलाइन के विरुद्ध स्पॉट बचत ट्रैक करें। इंस्टेंस प्रकार और क्षेत्र के अनुसार इंटरप्शन दरों की निगरानी करें। जब स्पॉट की कीमतें थ्रेशोल्ड से अधिक हों तो अलर्ट करें। प्रति ट्रेनिंग एपॉक प्रभावी लागत की गणना करें। उपयोग पैटर्न के आधार पर मासिक बचत प्रोजेक्ट करें।
Introl संगठनों को हमारे ग्लोबल कवरेज एरिया में स्पॉट इंस्टेंस रणनीतियों को लागू करने में मदद करता है, 100,000 से अधिक GPU डिप्लॉयमेंट के लिए लागत अनुकूलन में विशेषज्ञता के साथ।¹⁵ हमारे ऑटोमेशन फ्रेमवर्क ट्रेनिंग प्रगति और इंफरेंस उपलब्धता बनाए रखते हुए इंटरप्शन को निर्बाध रूप से संभालते हैं।
वास्तविक दुनिया के स्पॉट इंस्टेंस आर्किटेक्चर
Pinterest - रेकमेंडेशन मॉडल ट्रेनिंग: - वर्कलोड: 2 बिलियन पिन पर रेकमेंडेशन मॉडल ट्रेनिंग - आर्किटेक्चर: 200 V100 GPU, 80% स्पॉट इंस्टेंस पर - चेकपॉइंटिंग: S3 पर हर 15 मिनट - इंटरप्शन दर: 1.2% दैनिक औसत - लागत बचत: सालाना $4.8 मिलियन (72% कमी) - मुख्य तकनीक: 5 मिनट के भीतर रीजनल फेलओवर
Snap - कंप्यूटर विज़न पाइपलाइन: - वर्कलोड: प्रतिदिन 500 मिलियन इमेज प्रोसेसिंग - आर्किटेक्चर: 6 रीजन में 1,000 T4 GPU - स्पॉट प्रतिशत: बैच प्रोसेसिंग के लिए 90% - रिकवरी टाइम: औसतन 30 सेकंड - लागत बचत: सालाना $6.2 मिलियन (78% कमी) - मुख्य तकनीक: वर्क-स्टीलिंग क्यू आर्किटेक्चर
DoorDash - डिमांड फोरकास्टिंग: - वर्कलोड: रियल-टाइम डिलीवरी डिमांड प्रेडिक्शन - आर्किटेक्चर: 30% ऑन-डिमांड बेसलाइन के साथ हाइब्रिड - स्पॉट उपयोग: ट्रेनिंग के लिए 70%, इंफरेंस के लिए 0% - इंटरप्शन हैंडलिंग: ऑन-डिमांड पर ऑटोमैटिक फेलओवर - लागत बचत: सालाना $2.1 मिलियन (65% कमी) - मुख्य तकनीक: स्पॉट प्राइस के आधार पर प्रेडिक्टिव स्केलिंग
स्पॉट इंस्टेंस से कब बचें
कुछ परिदृश्य स्पॉट इंस्टेंस को अनुपयुक्त बनाते हैं:
लेटेंसी-सेंसिटिव इंफरेंस: कस्टमर-फेसिंग API अचानक क्षमता हानि को सहन नहीं कर सकते। मॉडल सर्विंग के लिए सुसंगत उपलब्धता आवश्यक है। इंटरप्शन अस्वीकार्य यूज़र एक्सपीरियंस डिग्रेडेशन का कारण बनते हैं। प्रोडक्शन इंफरेंस के लिए रिज़र्व्ड क्षमता या ऑन-डिमांड का उपयोग करें।
लॉन्ग-रनिंग सिंगल जॉब्स: चेकपॉइंटिंग के बिना 24 घंटे से अधिक चलने वाली ट्रेनिंग रन को Google Preemptible पर गारंटीड इंटरप्शन का सामना करना पड़ता है। जो जॉब्स चेकपॉइंट से फिर से शुरू नहीं हो सकते वे पूरी रन बर्बाद कर देते हैं। जटिल स्टेट रिस्टोरेशन वाले वर्कलोड को स्पॉट से बचना चाहिए।
रेगुलेटेड वर्कलोड: हेल्थकेयर और फाइनेंशियल सर्विसेज को कंप्लायंस के लिए गारंटीड क्षमता की आवश्यकता हो सकती है। ऑडिट आवश्यकताएं इंफ्रास्ट्रक्चर अनिश्चितता को प्रतिबंधित कर सकती हैं। डेटा रेज़िडेंसी नियम मल्टी-रीजन फेलओवर रणनीतियों को रोक सकते हैं।
टाइम-क्रिटिकल डेडलाइन: प्रोडक्ट लॉन्च या टाइम-सेंसिटिव रिसर्च इंटरप्शन का जोखिम नहीं उठा सकते। कॉन्फ्रेंस डेडलाइन या कस्टमर कमिटमेंट के लिए गारंटीड कंप्लीशन की आवश्यकता होती है। जब शेड्यूल लागत से अधिक महत्वपूर्ण हो तो ऑन-डिमांड का उपयोग करें।
एडवांस्ड ऑप्टिमाइज़ेशन तकनीकें
स्पॉट प्राइस प्रेडिक्शन: मशीन लर्निंग मॉडल ऐतिहासिक पैटर्न के आधार पर भविष्य के स्पॉट प्राइस की भविष्यवाणी करते हैं। टाइम सीरीज़ एनालिसिस आवर्ती उपलब्धता विंडो की पहचान करता है। प्रोएक्टिव बिडिंग रणनीतियाँ प्राइस स्पाइक से पहले क्षमता सुरक्षित करती हैं। अकादमिक रिसर्च प्राइस प्रेडिक्शन के माध्यम से 15% अतिरिक्त बचत दिखाता है।¹⁶
एडैप्टिव चेकपॉइंटिंग: इंटरप्शन प्रोबेबिलिटी के आधार पर चेकपॉइंट फ्रीक्वेंसी समायोजित करें। जब कीमतें इंटरप्शन थ्रेशोल्ड के करीब पहुंचें तो फ्रीक्वेंसी बढ़ाएं। ओवरहेड कम करने के लिए स्थिर अवधि के दौरान फ्रीक्वेंसी कम करें। डायनामिक रणनीतियाँ रिकवरी स्पीड बनाए रखते हुए स्टोरेज कॉस्ट पर 20% बचाती हैं।
क्रॉस-क्लाउड आर्बिट्राज: सबसे कम कीमतों के लिए AWS, Google और Azure पर एक साथ बिड करें। यूनिफाइड ऑर्केस्ट्रेशन लेयर प्रोवाइडर अंतरों को एब्स्ट्रैक्ट करती हैं। सबसे सस्ती उपलब्ध क्षमता पर वर्कलोड मूव करें। मल्टी-क्लाउड रणनीतियाँ सिंगल-क्लाउड की तुलना में 10-15% बेहतर प्राइसिंग हासिल करती हैं।
स्पॉट-नेटिव आर्किटेक्चर: शुरू से इंटरप्शन मानकर सिस्टम डिज़ाइन करें। जहां भी संभव हो स्टेटलेस कंपोनेंट लागू करें। सभी पर्सिस्टेंट डेटा के लिए एक्सटर्नल स्टेट स्टोर का उपयोग करें। हर प्रोसेसिंग स्टेज में रिज़्यूमेबिलिटी बिल्ड करें।
कॉस्ट कम्पेरिज़न कैलकुलेटर
अपनी संभावित बचत की गणना करें:
``` वर्तमान ऑन-डिमांड
[अनुवाद के लिए सामग्री काट दी गई]