AI-अनुकूलित स्टोरेज: GPU क्लस्टर्स को फीड करने वाला टेक्नोलॉजी स्टैक
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: AI स्टोरेज बाजार 2025 में $36B से 2035 तक $322B तक बढ़ रहा है। DDN EXAScaler NVIDIA Eos सुपरकंप्यूटर को 4TB/s डिलीवर कर रहा है। GPUDirect Storage 40+ GB/s डायरेक्ट ट्रांसफर सक्षम कर रहा है; NVIDIA की नवंबर 2025 SCADA टेक्नोलॉजी अंतिम CPU संलिप्तता को भी समाप्त करती है। NVMe-oF 27.8% CAGR से बढ़ रहा है क्योंकि संगठन नेटवर्क पर PCIe-स्तरीय लेटेंसी का विस्तार कर रहे हैं।
स्टोरेज बॉटलनेक GPU को आइडल करते हैं। एक DDN EXAScaler इम्प्लीमेंटेशन NVIDIA के Eos सुपरकंप्यूटर को चार टेराबाइट प्रति सेकंड डिलीवर करता है, जो 576 DGX H100 सिस्टम से 18.4 एक्साफ्लॉप्स AI परफॉर्मेंस फीड करता है।¹ जब GPU की कीमत दसियों हजार डॉलर प्रति यूनिट होती है और ट्रेनिंग क्लस्टर हजारों एक्सेलेरेटर तक पहुंचते हैं, तो स्टोरेज इंफ्रास्ट्रक्चर जो डेटा थ्रूपुट बनाए नहीं रख सकता, लाखों कंप्यूट संसाधन बर्बाद करता है। AI-संचालित स्टोरेज बाजार इस तात्कालिकता को दर्शाता है, जो 2025 में $36.28 बिलियन से 2035 तक 24.4% चक्रवृद्धि वार्षिक वृद्धि दर पर $321.93 बिलियन तक पहुंचने का अनुमान है।²
आधुनिक AI वर्कलोड पारंपरिक एंटरप्राइज एप्लिकेशन से मौलिक रूप से भिन्न स्टोरेज परफॉर्मेंस विशेषताओं की मांग करते हैं। पेटाबाइट में मापे जाने वाले ट्रेनिंग डेटासेट को निरंतर सीक्वेंशियल थ्रूपुट की आवश्यकता होती है। चेकपॉइंटिंग ऑपरेशन को ट्रेनिंग बाधा को कम करने के लिए सेकंडों में पूरा होना चाहिए। इंफरेंस वर्कलोड छोटे रैंडम रीड्स को बर्स्ट राइट्स के साथ मिलाते हुए अप्रत्याशित I/O पैटर्न उत्पन्न करते हैं। बड़े पैमाने पर AI इंफ्रास्ट्रक्चर तैनात करने वाले संगठन अब पारंपरिक IOPS बेंचमार्क के बजाय GPU उपयोग मेट्रिक्स के आधार पर स्टोरेज सिस्टम का मूल्यांकन करते हैं।
NVMe-oF नेटवर्क पर फ्लैश परफॉर्मेंस का विस्तार करता है
NVMe over Fabrics (NVMe-oF) हाई-परफॉर्मेंस Ethernet या InfiniBand फैब्रिक्स पर NVMe SSD की लो-लेटेंसी शेयरिंग प्रदान करके बड़े पैमाने पर हाई-परफॉर्मेंस वर्कलोड सक्षम करता है।³ यह प्रोटोकॉल लोकली अटैच्ड NVMe SSD के समान परफॉर्मेंस देता है जबकि संगठनों को कंप्यूट, GPU और मेमोरी आवंटन से स्वतंत्र रूप से स्टोरेज संसाधनों को स्केल करने की अनुमति देता है।⁴
पारंपरिक स्टोरेज प्रोटोकॉल स्पिनिंग डिस्क के लिए अनुकूलित सॉफ्टवेयर स्टैक के माध्यम से मिलीसेकंड की लेटेंसी जोड़ते हैं। NVMe-oF इन परतों को समाप्त करता है, RDMA ट्रांसपोर्ट का उपयोग करते समय हजारों नोड्स तक स्केल करने पर भी दसियों माइक्रोसेकंड में लेटेंसी प्राप्त करता है।⁵ TCP ट्रांसपोर्ट कमोडिटी Ethernet पर डिप्लॉयमेंट सक्षम करते हैं जबकि लेगेसी NFS या iSCSI प्रोटोकॉल की तुलना में पर्याप्त परफॉर्मेंस सुधार देते हैं।⁶
AI इंफ्रास्ट्रक्चर के लिए, NVMe-oF वहां मायने रखता है जहां हर माइक्रोसेकंड महत्वपूर्ण है: ट्रेनिंग पाइपलाइन जहां GPU डेटा की प्रतीक्षा में आइडल रहते हैं, चेकपॉइंट ऑपरेशन जो सख्त समय विंडो के भीतर पूरे होने चाहिए, और इंफरेंस वर्कलोड जिन्हें सब-मिलीसेकंड रिस्पॉन्स टाइम की आवश्यकता होती है।⁷ प्रकाशित बेंचमार्क GPUDirect Storage इंटीग्रेशन के साथ 351 GiB प्रति सेकंड सीक्वेंशियल रीड दिखाते हैं, जिसमें I/O बाउंड कॉन्फ़िगरेशन में प्रभावी GPU उपयोग को 2 से 3 गुना तक बढ़ाने की लेटेंसी कमी अपेक्षित है।⁸
उद्योग अपनाना 2025 के माध्यम से तेज हो रहा है। Western Digital और Ingrasys ने मई 2025 में NVMe-oF और फैब्रिक-अटैच्ड स्टोरेज क्षमताओं के साथ GPU सर्वर विशेषज्ञता को जोड़ते हुए एक साझेदारी स्थापित की।⁹ Hitachi Vantara ने नवंबर 2025 में Virtual Storage Platform One Block High End लॉन्च किया, मिशन-क्रिटिकल और AI वर्कलोड के लिए डिज़ाइन किया गया अगली पीढ़ी का ऑल-फ्लैश NVMe ब्लॉक स्टोरेज सॉल्यूशन।¹⁰ NVMe-oF सिस्टम 27.80% चक्रवृद्धि वार्षिक वृद्धि दर का पूर्वानुमान लगाते हैं क्योंकि संगठन वितरित AI क्लस्टर में GPU उपयोग को बढ़ावा देने के लिए नेटवर्क पर PCIe-स्तरीय लेटेंसी का विस्तार करते हैं।¹¹
GPUDirect Storage CPU बॉटलनेक को समाप्त करता है
NVIDIA का GPUDirect Storage CPU और सिस्टम मेमोरी के माध्यम से रूटिंग किए बिना स्टोरेज से GPU मेमोरी में सीधे डेटा ट्रांसफर सक्षम करता है।¹² यह टेक्नोलॉजी AI ट्रेनिंग पाइपलाइन में एक मौलिक परफॉर्मेंस बाधा को हटाती है जहां बड़े डेटासेट को प्रोसेसिंग के लिए GPU मेमोरी में निरंतर प्रवाहित होना चाहिए।
डीप लर्निंग ट्रेनिंग में बार-बार चेकपॉइंटिंग ऑपरेशन शामिल होते हैं जहां प्रशिक्षित नेटवर्क वेट विभिन्न ट्रेनिंग चरणों में डिस्क पर सेव होते हैं। परिभाषा के अनुसार, चेकपॉइंटिंग क्रिटिकल I/O पथ में बैठती है।¹³ एक 100-बिलियन पैरामीटर मॉडल प्रति चेकपॉइंट लगभग 800GB से 1.6TB उत्पन्न करता है, और 16,000 एक्सेलेरेटर के साथ बड़े पैमाने पर ट्रेनिंग के लिए प्रतिदिन 155 चेकपॉइंट की आवश्यकता होती है।¹⁴ ओवरहेड को 5% से नीचे बनाए रखने के लिए, उस पैमाने पर चेकपॉइंट ऑपरेशन 28 सेकंड से कम में पूरे होने चाहिए, जो 100,000-एक्सेलेरेटर क्लस्टर के लिए 4.4 सेकंड तक सिकुड़ जाते हैं।¹⁵
GPUDirect Storage स्टोरेज से GPU मेमोरी में 40+ GBps डायरेक्ट ट्रांसफर दरों को सक्षम करके इन आवश्यकताओं को पूरा करता है।¹⁶ Lenovo/NVIDIA रेफरेंस आर्किटेक्चर लीनियर स्केलिंग क्षमताओं के साथ प्रति नोड 20 GBps डिलीवर करता है, जो LLM ट्रेनिंग, इंफरेंस और चेकपॉइंटिंग फंक्शन्स को सपोर्ट करता है।¹⁷ NVIDIA की नवंबर 2025 SCADA टेक्नोलॉजी स्टोरेज कंट्रोल पथ को भी GPU पर ऑफलोड करके GPUDirect को और आगे ले जाती है, स्टोरेज ऑपरेशन में अंतिम CPU संलिप्तता को समाप्त करती है।¹⁸
हार्डवेयर इम्प्लीमेंटेशन पूरे इकोसिस्टम में फैल रहे हैं। HighPoint Rocker 7638D अडैप्टर 64 GB/s तक बैंडविड्थ और प्रेडिक्टेबल लेटेंसी के साथ GPUDirect Storage वर्कफ्लो सक्षम करता है, जो विशेष रूप से बड़े पैमाने पर ट्रेनिंग डेटासेट के लिए उपयोगी है।¹⁹ DDN, Pure Storage, WEKA, और VAST Data सहित स्टोरेज वेंडर NVIDIA DGX और HGX सिस्टम के साथ GPUDirect इंटीग्रेशन के लिए अपने प्लेटफॉर्म को सर्टिफाई करते हैं।
समानांतर फाइल सिस्टम एक्सास्केल AI को शक्ति प्रदान करते हैं
समानांतर फाइल सिस्टम डेटा और मेटाडेटा को कई सर्वरों में वितरित करते हैं, जो स्टोरेज नोड काउंट के साथ स्केल होने वाले एग्रीगेट थ्रूपुट को सक्षम करते हैं। तीन प्लेटफॉर्म AI और HPC डिप्लॉयमेंट में हावी हैं: Lustre, IBM Storage Scale (पूर्व में GPFS), और WekaFS।
Lustre समानांतर फाइल सिस्टम में 41% बाजार हिस्सेदारी रखता है, इसके बाद IBM Storage Scale 17% पर और WEKA 6% पर है।²⁰ प्रत्येक आर्किटेक्चर अलग-अलग वर्कलोड विशेषताओं के लिए अनुकूलित है।
Lustre वैज्ञानिक सिमुलेशन और वीडियो रेंडरिंग पाइपलाइन सहित बड़े सीक्वेंशियल ऑपरेशन द्वारा प्रभुत्व वाले वातावरण में उत्कृष्ट है।²¹ आर्किटेक्चर छोटी फाइल हैंडलिंग पर निरंतर बैंडविड्थ को प्राथमिकता देता है, बैंडविड्थ-इंटेंसिव वर्कलोड के लिए अतिरिक्त Object Storage Servers (OSS) के साथ लगभग-लीनियर परफॉर्मेंस स्केलिंग प्राप्त करता है।²² Lustre InfiniBand फैब्रिक्स के साथ सबसे अच्छा प्रदर्शन करता है और दुनिया के अधिकांश सुपरकंप्यूटरों को शक्ति प्रदान करता है। DDN का EXAScaler प्रोडक्ट परफॉर्मेंस ऑप्टिमाइजेशन और एंटरप्राइज मैनेजमेंट क्षमताओं के साथ Lustre को पैकेज करता है।
IBM Storage Scale मेटाडेटा-इंटेंसिव ऑपरेशन में बेहतर परफॉर्मेंस प्रदान करता है।²³ वितरित मेटाडेटा दृष्टिकोण Lustre के केंद्रीकृत मेटाडेटा सर्वर आर्किटेक्चर की तुलना में छोटी फाइलें बनाता है, एट्रिब्यूट्स को संशोधित करता है, और जटिल डायरेक्टरी को अधिक कुशलता से स्ट्रक्चर करता है।²⁴ Storage Scale विभिन्न I/O पैटर्न में लगातार परफॉर्मेंस देता है और GPUDirect सपोर्ट के साथ NVIDIA DGX SuperPOD रेफरेंस आर्किटेक्चर में इंटीग्रेट होता है।²⁵
WekaFS विशेष रूप से AI/ML वर्कलोड को लक्षित करता है, शुरू से NVMe SSD के लिए डिज़ाइन किया गया है बजाय स्पिनिंग डिस्क आर्किटेक्चर से रेट्रोफिट किए जाने के।²⁶ WEKA का वितरित मेटाडेटा उस मेटाडेटा सर्वर बॉटलनेक को समाप्त करता है जो लेगेसी समानांतर फाइल सिस्टम को बाधित करता है।²⁷ बेंचमार्क दिखाते हैं कि WekaFS समान क्षमताओं पर FSx for Lustre को 300% या उससे अधिक से आउटपरफॉर्म करता है, जिसमें I/O लेटेंसी कभी-कभी प्रतिस्पर्धी समाधानों के 30% से कम होती है।²⁸ WekaFS pNFS, SMB, और S3 प्रोटोकॉल को सपोर्ट करता है, जो AI पाइपलाइन में सामान्य मल्टीप्रोटोकॉल एक्सेस पैटर्न को सक्षम करता है।
DDN, Pure Storage, और VAST Data वेंडर लैंडस्केप में अग्रणी हैं
तीन स्टोरेज वेंडर विशेष रूप से GPU क्लस्टर वर्कलोड के लिए आर्किटेक्ट किए गए प्रोडक्ट्स के साथ AI इंफ्रास्ट्रक्चर डिप्लॉयमेंट में हावी हैं।
DDN सबसे हाई-प्रोफाइल AI सुपरकंप्यूटरों को शक्ति प्रदान करता है। NVIDIA का Eos सिस्टम 576 DGX H100 सिस्टम को 48 DDN A³I अप्लायंसेज के साथ शामिल करता है जो केवल 100 kW बिजली का उपयोग करते हुए तीन रैक से कम में चार टेराबाइट प्रति सेकंड थ्रूपुट पर 12 पेटाबाइट स्टोरेज डिलीवर करते हैं।²⁹ DDN ने मार्च 2025 में Blackwell सर्टिफिकेशन की घोषणा की, DGX GB200 और DGX B200 सिस्टम के साथ DGX SuperPOD के लिए EXAScaler और Infinia 2.0 को ऑप्टिमाइज करते हुए।³⁰ एक DDN AI400X2-Turbo DGX B200 के साथ पेयर होने पर रीड और राइट दोनों ऑपरेशन के लिए 1 GBps/GPU की न्यूनतम आवश्यकता से 10x प्राप्त करता है, 96% तक नेटवर्क उपयोग डिलीवर करता है।³¹ भारत की सॉवरेन AI पहल के लिए Yotta के साथ DDN की साझेदारी ने 8,000 NVIDIA B200 GPU को पावर करने वाले EXAScaler AI400X3 सिस्टम तैनात किए।³²
Pure Storage ने मार्च 2025 में FlashBlade//EXA पेश किया, जो एकल नेमस्पेस में 10 टेराबाइट प्रति सेकंड से अधिक रीड परफॉर्मेंस का अनुमान लगाता है।³³ प्लेटफॉर्म एक से लेकर दसियों हजार GPU के बीच चलाने वाले ग्राहकों को लक्षित करता है जिन्हें 1 TB/sec से 50 TB/sec स्टोरेज थ्रूपुट की आवश्यकता है।³⁴ FlashBlade//EXA का डिसएग्रीगेटेड आर्किटेक्चर थर्ड-पार्टी डेटा नोड्स का उपयोग करके डेटा और मेटाडेटा को स्वतंत्र रूप से स्केल करता है, जो मैसिव पैरेलल परफॉर्मेंस को सक्षम करता है।³⁵ Pure Storage ने NVIDIA DGX SuperPOD के साथ FlashBlade//S500 सर्टिफिकेशन प्राप्त किया, GPUDirect Storage सपोर्ट के साथ NVIDIA AI Data Platform रेफरेंस डिज़ाइन को इंटीग्रेट करते हुए।³⁶
VAST Data मई 2025 तक क्यूमुलेटिव सॉफ्टवेयर बुकिंग में $2 बिलियन तक पहुंच गया।³⁷ DASE (Distributed and Shared Everything) आर्किटेक्चर AI डेटा बॉटलनेक को समाप्त करते हुए टेराबाइट प्रति सेकंड पर 100k+ GPU क्लस्टर के लिए ब्रेकथ्रू पैरेललिज्म डिलीवर करता है।³⁸ VAST रेडिकल एफिशिएंसी के माध्यम से मांग वाले AI वर्कलोड के लिए 50% से अधिक कम कुल स्वामित्व लागत का दावा करता है।³⁹ प्लेटफॉर्म इंडस्ट्री-स्टैंडर्ड NFS, SMB, S3, और Kubernetes CSI एक्सेस के साथ ऑल-फ्लैश स्टोरेज के एक्साबाइट्स को सपोर्ट करता है।⁴⁰ Microsoft Azure ने GPU-एक्सेलरेटेड क्लाउड इंफ्रास्ट्रक्चर में ऑन-प्रेमिसेस AI पाइपलाइन को विस्तारित करने के लिए नवंबर 2025 में VAST के AI Operating System के साथ इंटीग्रेशन की घोषणा की।⁴¹
चेकपॉइंटिंग आर्किटेक्चर गति और विश्वसनीयता को संतुलित करते हैं
मॉडल चेकपॉइंटिंग AI ट्रेनिंग में सबसे मांग वाली स्टोरेज आवश्यकताएं बनाती है। चेकपॉइंट आकार पैरामीटर काउंट के साथ स्केल होते हैं: मिक्स्ड-प्रिसिशन ट्रेनिंग के लिए लगभग 8 से 12 बाइट प्रति पैरामीटर का मतलब है कि 100-बिलियन पैरामीटर मॉडल प्रति चेकपॉइंट 800GB से 1.2TB उत्पन्न करता है।⁴² फ्रीक्वेंसी आवश्यकताएं क्लस्टर स्केल के साथ तीव्र होती हैं, 100,000-एक्सेलरेटर डिप्लॉयमेंट के लिए हर 1.5 मिनट में चेकपॉइंट तक पहुंचती हैं।⁴³
आधुनिक ट्रेनिंग सिस्टम टियर्ड चेकपॉइंटिंग आर्किटेक्चर का उपयोग करते हैं। फास्ट-टियर चेकपॉइंट हर कुछ मिनटों में नोड-लोकल NVMe स्टोरेज में लिखते हैं। मिड-टियर चेकपॉइंट हर 30 मिनट में शेयर्ड फाइल सिस्टम में प्रसारित होते हैं। ड्यूरेबल चेकपॉइंट केवल हर कुछ घंटों में Amazon S3 जैसे ऑब्जेक्ट स्टोरेज तक पहुंचते हैं।⁴⁴ एसिंक्रोनस चेकपॉइंटिंग ट्रेनिंग को जारी रखने की अनुमति देती है जबकि बैकग्राउंड प्रोसेस लोकल स्टोरेज को ग्लोबल टियर में ड्रेन करते हैं।⁴⁵
ग्लोबल चेकपॉइंट बैंडविड्थ आवश्यकताएं बड़े पैमाने पर भी आश्चर्यजनक रूप से मामूली रहती हैं। वास्तविक-दुनिया प्रणालियों में 85,000 चेकपॉइंट के विश्लेषण में ट्रिलियन-पैरामीटर मॉडल के लिए भी बैंडविड्थ आमतौर पर 1 TB/s से काफी नीचे पाई गई।⁴⁶ चेकपॉइंट बैंडविड्थ प्रति GPU मॉडल आकार बढ़ने के साथ घटती है क्योंकि कुल क्लस्टर आकार की परवाह किए बिना चेकपॉइंटिंग के दौरान केवल एक डेटा-पैरेलल रेप्लिका लिखता है।⁴⁷
रिपोर्ट किया गया थ्रूपुट इम्प्लीमेंटेशन में महत्वपूर्ण रूप से भिन्न होता है। Gemini 3.13 GB/s चेकपॉइंट थ्रूपुट रिपोर्ट करता है। Microsoft का Nebula (DeepSpeed) 1-4 GB/s प्राप्त करता है। ये आंकड़े चेकपॉइंट फ्रीक्वेंसी, स्टोरेज टियर और स्वीकार्य ट्रेनिंग ओवरहेड के बीच आर्किटेक्चरल ट्रेडऑफ को दर्शाते हैं।⁴⁸
कम्प्यूटेशनल स्टोरेज प्रोसेसिंग को डेटा में ले जाता है
कम्प्यूटेशनल स्टोरेज डिवाइस (CSD) स्टोरेज हार्डवेयर के भीतर कंप्यूट फंक्शन एम्बेड करते हैं, I/O बैंडविड्थ आवश्यकताओं को कम करने के लिए ट्रांसफर से पहले डेटा प्रोसेस करते हैं।⁴⁹ आर्किटेक्चर सीमित कंप्यूटेशनल संसाधनों, सख्त पावर बजट और रियल-टाइम लेटेंसी आवश्यकताओं का सामना करने वाले एज AI डिप्लॉयमेंट के लिए विशेष रूप से मूल्यवान साबित होता है।⁵⁰
उन्नत CSD एप्लिकेशन में सीधे स्टोरेज डिवाइस पर डेटाबेस, मशीन लर्निंग मॉडल और एनालिटिक्स चलाना शामिल है। कुछ इम्प्लीमेंटेशन पूर्ण Linux ऑपरेटिंग सिस्टम को सपोर्ट करते हैं, जो ड्राइव पर ही AI/ML इंफरेंस सक्षम करते हैं।⁵¹ एज डिप्लॉयमेंट स्टोरेज लेयर पर प्रारंभिक प्रोसेसिंग से लाभान्वित होते हैं, मुख्य प्रोसेसर को ट्रांसमिशन से पहले परिणामों को फिल्टर करते हैं।⁵²
टेक्नोलॉजी एज AI की अनूठी बाधाओं को संबोधित करती है। इंफरेंस चलाना एक्सेसिबिलिटी, कस्टमाइजेबिलिटी और एफिशिएंसी को बढ़ाने के लिए तेजी से एज डिवाइस पर शिफ्ट हो रहा है।⁵³ Cisco ने नवंबर 2025 में Unified Edge लॉन्च किया, एक इंटीग्रेटेड कंप्यूटिंग प्लेटफॉर्म जो रियल-टाइम AI के लिए कंप्यूट, नेटवर्किंग, स्टोरेज और सिक्योरिटी को एक साथ लाता है
[अनुवाद के लिए सामग्री छोटी की गई]