AI डेटा पाइपलाइन आर्किटेक्चर: 100GB/s पर पेटाबाइट-स्केल ट्रेनिंग को फीड करना
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: Meta की Data PreProcessing Service (DPP) अब एक्साबाइट-स्केल ट्रेनिंग क्लस्टर में डेटा स्टॉल को समाप्त करती है। WEKApod 8 स्टोरेज नोड्स से 720GB/s थ्रूपुट हासिल कर रहा है जो 768 H100 GPUs को पावर दे रहे हैं। PCIe Gen5 NVMe SSDs 14GB/s से अधिक sequential reads के साथ ट्रेनिंग टियर स्टोरेज के लिए मानक बन रहे हैं। Feature stores और tiered caching आर्किटेक्चर cold data access latency को 10x तक कम कर रहे हैं।
Meta ने खोजा कि 56% GPU cycles ट्रेनिंग डेटा की प्रतीक्षा में स्टॉल होकर बैठे रहते थे।[^1] कंपनी Tectonic में एक्साबाइट्स ट्रेनिंग डेटा स्टोर करती है, उनका distributed file system, लेकिन पेटाबाइट-स्केल डेटासेट को ट्रेनिंग हार्डवेयर के पास लोकल रखने के लिए स्टोरेज क्षमता की कमी थी।[^2] समाधान के लिए एक Data PreProcessing Service (DPP) बनाने की आवश्यकता थी जो डेटा स्टॉल को पूरी तरह समाप्त करने के लिए स्केल हो सके। बड़े मॉडल ट्रेन करने वाले संगठनों को वही मूलभूत चुनौती का सामना करना पड़ता है: सबसे शक्तिशाली GPUs इनपुट डेटा की प्रतीक्षा करते हुए कुछ भी हासिल नहीं करते।
AI ट्रेनिंग को फीड करने वाला स्टोरेज यह निर्धारित करता है कि GPU निवेश अपेक्षित रिटर्न देगा या नहीं। WEKApod 720GB/s से अधिक थ्रूपुट और 18 मिलियन IOPS sub-150 माइक्रोसेकंड latencies के साथ हासिल करता है, केवल 8 स्टोरेज नोड्स से 768 H100 GPUs को पावर देता है।[^3] Meta का RSC सुपरकंप्यूटर GPUs को फीड रखने के लिए 46 पेटाबाइट्स कैश स्टोरेज का उपयोग करता है।[^4] GPT-4 को ट्रेन करने के लिए लगभग 25,000 A100 GPUs की आवश्यकता थी जो 90-100 दिनों में 13 ट्रिलियन टोकन प्रोसेस कर रहे थे।[^5] स्केल पर, डेटा पाइपलाइन आर्किटेक्चर कंप्यूट आर्किटेक्चर जितना ही महत्वपूर्ण हो जाता है।
डेटा पाइपलाइन चुनौती
Large language models को पेटाबाइट्स उच्च-गुणवत्ता, प्रीप्रोसेस्ड डेटा तक पहुंच की आवश्यकता होती है। तेज, विश्वसनीय स्टोरेज के बिना, सबसे शक्तिशाली GPUs भी इनपुट की प्रतीक्षा में बेकार बैठे रहते हैं।[^6] स्टोरेज इंफ्रास्ट्रक्चर का performance tier कंप्यूट-इंटेंसिव पाइपलाइन स्टेज के माध्यम से डेटा के निर्बाध प्रवाह को सक्षम बनाता है: normalization, tokenization, और training।
एक typical machine learning pipeline में CPUs द्वारा प्रबंधित data preprocessing, GPUs पर offload किया गया model training, और CPUs पर वापस लौटा post-processing शामिल होता है।[^7] CPU RAM और GPU DRAM के बीच डेटा ट्रांसफर करते समय बॉटलनेक होते हैं। स्टोरेज थ्रूपुट, नेटवर्क बैंडविड्थ, preprocessing compute, और GPU consumption के बीच का मिसमैच स्टॉल बनाता है जो महंगी accelerator क्षमता बर्बाद करता है।
Meta का डेटा स्टोरेज और इंजेस्शन आर्किटेक्चर
Meta की end-to-end DSI पाइपलाइन में distributed storage पर निर्मित एक central data warehouse और एक Data PreProcessing Service शामिल है जो preprocessing को training compute से स्वतंत्र रूप से स्केल करती है।[^8] आर्किटेक्चर स्टोरेज, preprocessing, और training को अलग-अलग स्केलेबल टियर में विभाजित करता है।
Tectonic Meta के एक्साबाइट-स्केल distributed file system के रूप में काम करता है, AI training models के लिए disaggregated storage infrastructure प्रदान करता है।[^9] कंपनी टेराबाइट- से पेटाबाइट-स्केल डेटासेट पर मॉडल ट्रेन करती है बिना उन स्केल से मेल खाने वाली लोकल स्टोरेज क्षमता के। Disaggregated storage लचीले resource allocation को सक्षम बनाता है लेकिन स्टोरेज को compute से जोड़ने वाले high-bandwidth networks की आवश्यकता होती है।
DPP Master session specifications प्राप्त करता है जिसमें dataset tables, partitions, required features, और transformation operations शामिल होते हैं।[^10] Master पेटाबाइट्स डेटा पर preprocessing workloads को स्वतंत्र, self-contained work items में तोड़ता है जिन्हें splits कहा जाता है। DPP Workers Master से splits का अनुरोध करते हैं और preprocessing transformations निष्पादित करते हैं, preprocessing throughput को training node CPU capacity से अलग करते हुए।
स्टोरेज हायरार्की और कैशिंग
Meta HDDs और SSDs को मिलाकर tiered storage solutions की ओर बढ़ रहा है, SSDs high-reuse features के लिए caching tiers के रूप में काम कर रहे हैं।[^11] सभी ट्रेनिंग डेटा को समान access patterns की आवश्यकता नहीं होती: frequently accessed features को flash storage से लाभ होता है जबकि cold data capacity-optimized media पर रहता है।
Caching strategy training throughput का त्याग किए बिना storage costs को कम करती है। Fast tiers में रहने वाला hot data अधिकांश reads को serve करता है जबकि cold data initial epochs के दौरान capacity storage से stream होता है। Data access patterns को समझना intelligent tiering decisions को सक्षम बनाता है जो cost को performance के विरुद्ध संतुलित करता है।
AI ट्रेनिंग के लिए स्टोरेज टेक्नोलॉजी
विभिन्न स्टोरेज टेक्नोलॉजी AI data pipelines में अलग-अलग भूमिकाएं निभाती हैं। चुनाव access patterns, capacity requirements, और budget constraints पर निर्भर करता है।
Parallel file systems
Lustre और GPFS जैसे Parallel file systems massive concurrency के साथ extreme performance प्रदान करते हैं, जो उन्हें synchronous I/O-intensive AI workloads के लिए आदर्श बनाता है।[^12] ये systems कई storage servers में data stripe करते हैं, aggregate bandwidth प्रदान करते हैं जो server count के साथ scale करती है।
Google Cloud Cloud Storage के ऊपर high-performance cache के रूप में Managed Lustre प्रदान करता है, extremely high throughput और low-latency I/O operations की आवश्यकता वाले AI workloads को accelerate करता है।[^13] Organizations Managed Lustre और Cloud Storage के बीच data import और export करते हैं, parallel file system का उपयोग active training के लिए performance tier के रूप में करते हुए durability के लिए object storage में data maintain करते हैं।
NVMe स्टोरेज
PCIe Gen5 NVMe SSDs 14 GB/s से अधिक sequential read throughput और millions of random read IOPS handle करते हैं।[^14] यह technology tens of terabytes data पर AI models train करते समय storage को bottleneck के रूप में समाप्त करती है। 2024-2025 में PCIe Gen5 adoption ने per-lane throughput को लगभग 4 GB/s per lane तक दोगुना कर दिया, x16 configurations में 64 GB/s तक पहुंच गया।
NVMe-oF (NVMe over Fabrics) NVMe performance को networks में extend करता है, disaggregated storage architectures को enable करता है जो near-local latencies maintain करते हैं। Training clusters shared NVMe storage pools को direct-attached drives के performance advantages का त्याग किए बिना access करते हैं।
Cold data के लिए Object storage
Object storage पेटाबाइट-स्केल datasets के लिए cost-effective capacity प्रदान करता है जो higher latencies tolerate कर सकते हैं। एक बड़ी e-commerce company hundreds of petabytes training data AWS S3 में store करती है, AI/ML training workloads multiple AWS regions और on-premises data centers में distributed हैं।[^15]
Object storage batch ingestion patterns के लिए सबसे अच्छा काम करता है जहां training jobs intensive processing शुरू करने से पहले data को faster tiers में load करते हैं। Economics archive और backup के लिए object storage का पक्ष लेती है जबकि performance tiers active training I/O handle करते हैं।
स्केल पर Preprocessing
Data preprocessing significant compute resources consume करती है और अक्सर bottleneck बन जाती है जो full GPU utilization को रोकती है। Meta के अनुभव ने दिखाया कि trainer nodes पर CPUs GPUs को serve करने के लिए पर्याप्त तेजी से data preprocess नहीं कर सकते थे, जिसने distributed DPP architecture को प्रेरित किया।[^16]
Distributed preprocessing workers
DPP architecture preprocessing workers को training nodes से स्वतंत्र रूप से scale करता है।[^17] Preprocessing capacity जोड़ने के लिए केवल worker instances जोड़ने की आवश्यकता है, training infrastructure को modify करने की नहीं। यह separation organizations को specific datasets और transformation complexity के लिए preprocessing compute को right-size करने में सक्षम बनाता है।
Worker instances transformation operations execute करते हैं जिसमें cleaning, normalization, tokenization, और feature extraction शामिल हैं। Complex transformations को per training throughput unit अधिक preprocessing compute की आवश्यकता होती है। Simple transformations minimal preprocessing resources का उपयोग करके training के साथ pace रख सकते हैं।
Accelerated preprocessing
Industry efforts तेजी से CPUs के बजाय accelerators पर preprocessing transformation operations execute कर रहे हैं।[^18] NVIDIA DALI (Data Loading Library) image decoding, augmentation, और format conversion को GPUs पर offload करती है। Accelerated preprocessing image और video training pipelines के लिए CPU bottlenecks को समाप्त करती है।
Preprocessing को GPUs पर move करने के लिए careful pipeline design की आवश्यकता होती है ताकि new bottlenecks न बनें। Preprocessing के लिए उपयोग की गई GPU memory model parameters और activations के लिए उपलब्ध memory को कम करती है। Preprocessing acceleration और training capacity के बीच tradeoff workload characteristics पर निर्भर करता है।
Feature stores
Google online serving के लिए तैयार features के लिए Vertex AI Feature Store उपयोग करने की सिफारिश करता है।[^19] Feature stores feature values को precompute और cache करते हैं, training runs में repeated computation को eliminate करते हैं। Required cadence पर regularly नए feature values compute करने के लिए feature engineering jobs schedule करना real-time preprocessing overhead के बिना fresh data ensure करता है।
Feature stores विशेष रूप से recommendation models के लिए valuable साबित होते हैं जहां feature computation complexity per-request time budgets से अधिक होती है। Training और inference दोनों समान precomputed features access कर सकते हैं, development और production के बीच consistency maintain करते हुए।
Data pipelines के लिए Network architecture
High-bandwidth interconnects disaggregated storage architectures के लिए foundation प्रदान करते हैं। InfiniBand और RoCE (RDMA over Converged Ethernet) ultra-low latency और high throughput deliver करते हैं जो GPU clusters में distributed training और rapid dataset access के लिए essential हैं।[^20]
Storage network design
Storage networks को aggregate read throughput को GPU training consumption से match करना होगा। 1,000 H100 GPUs का cluster data-hungry workload train करते हुए tens of gigabytes per second sustained storage throughput की आवश्यकता हो सकती है। Storage और compute tiers के बीच network capacity को burst patterns के लिए headroom के साथ इस requirement से exceed करना होगा।
Network topology achievable throughput को affect करती है। Fat-tree topologies full bisection bandwidth प्रदान करती हैं लेकिन oversubscribed designs से अधिक cost आती है। Heavy storage I/O वाले training workloads को non-blocking fabrics से लाभ होता है जो network congestion को bottleneck के रूप में eliminate करते हैं।
Data transfer optimization
Data transfer optimization techniques जिसमें parallel I/O, prefetching, caching, compression, और data locality optimization शामिल हैं, storage systems और compute nodes के बीच efficient data movement ensure करती हैं।[^21] Prefetching data requirements को anticipate करती है और compute nodes द्वारा request करने से पहले data stage करती है। Compression compute cycles की cost पर network bandwidth requirements को reduce करती है।
Data को batch करना transaction frequency को reduce करता है, larger transfers में per-request overhead को amortize करता है।[^22] Data filter करना GPUs को भेजने से पहले sample size minimize करता है, storage reads और network transfers दोनों को reduce करता है। Techniques का combination effective storage bandwidth requirements को significantly reduce कर सकता है।
स्केल पर data pipelines बनाना
पेटाबाइट-स्केल training infrastructure deploy करने वाले organizations को storage, preprocessing, और networking के integrated approaches की आवश्यकता होती है जो GPU compute capacity से match करें।
Capacity planning
Storage capacity planning को model scaling के साथ training data growth का account रखना होगा। Training datasets बढ़ते हैं जैसे-जैसे organizations अधिक data accumulate करते हैं और अधिक tokens की आवश्यकता वाले larger models pursue करते हैं। Capacity requirements compound होती हैं जैसे-जैसे organizations reproducibility के लिए multiple dataset versions retain करते हैं।
Throughput planning capacity planning से अधिक challenging साबित होती है। Model size, batch size, और data throughput requirements के बीच relationship architecture और training configuration से vary करता है। Target infrastructure पर specific workloads benchmark करना सबसे reliable throughput requirements प्रदान करता है।
Infrastructure deployment expertise
Data pipeline infrastructure complexity compute infrastructure complexity से match करती है या exceed करती है। Storage systems, high-speed networks, और preprocessing services को GPU clusters के साथ seamlessly integrate होना चाहिए। किसी भी component में configuration errors bottlenecks create करती हैं जो GPU investment waste करती हैं।
Introl के 550 field engineers का network large-scale AI training के लिए आवश्यक integrated infrastructure deployments में specialize करता है।[^23] Company 9,594% three-year growth के साथ 2025 Inc. 5000 पर #14 rank करती है, professional infrastructure services की demand को reflect करते हुए।[^24] Training clusters build करने वाले organizations को deployment expertise से लाभ होता है जो storage, networking, और compute को एक integrated system के रूप में address करती है।
100,000 GPUs तक पहुंचने वाले deployments को 40,000 miles से अधिक fiber optic network infrastructure के साथ manage करने के लिए operational scale की आवश्यकता होती है जो largest training initiati
[अनुवाद के लिए content truncated किया गया]