AI के लिए डिसएग्रीगेटेड कंप्यूटिंग: कंपोज़ेबल इंफ्रास्ट्रक्चर आर्किटेक्चर
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: CXL मेमोरी पूलिंग LLM inference के लिए 200G RDMA की तुलना में 3.8x स्पीडअप और 100G RDMA की तुलना में 6.5x स्पीडअप हासिल कर रहा है। Jensen Huang: "जब आप डेटासेंटर में कहीं भी accelerators रख सकते हैं और विशिष्ट workloads के लिए compose और reconfigure कर सकते हैं—यह एक क्रांति है।" कंपोज़ेबल इंफ्रास्ट्रक्चर fixed server ratios को तोड़कर AI workload requirements को dynamically मैच कर रहा है।
CXL मेमोरी पूलिंग large language model inference चलाने वाले GPU servers में मेमोरी share करते समय 200G RDMA की तुलना में 3.8x स्पीडअप और 100G RDMA की तुलना में 6.5x स्पीडअप हासिल करता है।[^1] इस demonstration में OPT-6.7B मॉडल चलाने वाले NVIDIA H100 GPUs के साथ दो servers का उपयोग किया गया, जो दिखाता है कि shared CXL मेमोरी AI workloads को traditional networking से परे कैसे accelerate करती है। जैसा कि NVIDIA के Jensen Huang ने कहा: "जब आप converged server को disaggregate कर सकते हैं, जब आप डेटासेंटर में कहीं भी accelerators रख सकते हैं और फिर उस डेटासेंटर को इस विशिष्ट workload के लिए compose और reconfigure कर सकते हैं—यह एक क्रांति है।"[^2]
कंपोज़ेबल इंफ्रास्ट्रक्चर एक architectural approach को represent करता है जहां compute, storage, और networking resources software-defined control planes के माध्यम से स्वतंत्र रूप से managed abstracted pools के रूप में exist करते हैं।[^3] CPU, मेमोरी, storage, और networking को specific servers से couple करने वाले traditional architectures के विपरीत, कंपोज़ेबल इंफ्रास्ट्रक्चर hardware resources को flexible pools के रूप में treat करता है जो workloads में dynamically allocate होते हैं। यह approach AI इंफ्रास्ट्रक्चर के लिए resource utilization और deployment flexibility में dramatic improvements का वादा करता है।
Server boundary को तोड़ना
Traditional servers CPU, मेमोरी, GPU, और storage के fixed ratios को package करते हैं। AI workloads इन fixed ratios से शायद ही कभी match करते हैं। Training jobs को relatively modest CPU requirements के साथ maximum GPU density की जरूरत होती है। Inference workloads को standard configurations की तुलना में प्रति GPU अधिक मेमोरी की आवश्यकता हो सकती है। Preprocessing pipelines को GPUs के बिना CPU और storage capacity की जरूरत होती है।
कंपोज़ेबल इंफ्रास्ट्रक्चर server boundary को तोड़ता है, जिससे organizations exact workload requirements से match करने वाले virtual systems assemble कर सकते हैं।[^4] एक training workload को 8 GPUs, minimal CPU, और high-bandwidth storage का composition मिलता है। एक inference workload को expanded मेमोरी के साथ 2 GPUs मिलते हैं। वही physical resources hardware reconfiguration के बिना अलग-अलग समय पर दोनों workloads को serve करते हैं।
Disaggregation मॉडल
Disaggregated architectures physical nodes को dedicated resource types में separate करते हैं: compute nodes, memory nodes, GPU nodes, और storage nodes।[^5] High-speed fabrics nodes को connect करते हैं, जिससे software distributed physical resources से logical systems compose कर सकता है। Composition software में physical recabling के बिना होता है।
Resources अब specific workloads के लिए idle नहीं बैठते। एक GPU node peak hours में training jobs serve करता है और रात को inference jobs। Memory nodes हर server को over-provisioning किए बिना memory-intensive workloads के लिए capacity expand करते हैं। यह flexibility total hardware requirements को reduce करते हुए utilization improve करती है।
CXL मेमोरी पूलिंग enable करता है
Compute Express Link (CXL) cache-coherent interconnect provide करता है जो practical memory disaggregation enable करता है।[^6] CXL 200-500 nanosecond range में latency के साथ memory-semantic access offer करता है, NVMe के लिए approximately 100 microseconds और storage-based memory sharing के लिए 10 milliseconds से अधिक की तुलना में।[^7] यह latency improvement compute nodes में truly dynamic, fine-grained memory sharing enable करता है।
CXL मेमोरी पूलिंग कैसे काम करती है
CXL मेमोरी pools high-speed, disaggregated मेमोरी का एक नया tier create करते हैं जो यह reshape करता है कि organizations AI इंफ्रास्ट्रक्चर कैसे build करते हैं।[^8] CPU nodes pooled मेमोरी को locally attached की तरह access करते हैं, CXL fabric coherency और data movement को transparently handle करता है। Applications बिना modification के expanded मेमोरी capacity देखते हैं।
CXL Memory Box multiple GPU servers में मेमोरी पूलिंग enable करता है, जिससे individual servers की तुलना में larger memory pools तक access मिलता है।[^9] Local मेमोरी capacity से अधिक datasets process करने वाले AI workloads को traditional remote memory access की performance penalties के बिना pooled मेमोरी से benefit मिलता है। यह approach individual servers upgrade किए बिना larger batch sizes और longer context windows enable करता है।
मेमोरी से परे: full resource pooling
CXL मेमोरी पूलिंग से अधिक enable करता है। यह standard CPUs, memory buffers, और accelerators के बीच composable connections support करता है।[^10] GPUs, FPGAs, DPUs, और अन्य accelerators workloads में dynamic allocation के लिए CXL fabric के माध्यम से connect होते हैं।
Vision complete resource disaggregation तक extend होता है जहां कोई resource किसी अन्य से permanently bind नहीं होता। Organizations per-workload peak demand की बजाय aggregate demand के लिए sized resource pools build करते हैं। Software orchestration real-time में प्रत्येक workload के लिए appropriate resources compose करता है।
Industry solutions
कई vendors AI workload requirements को address करने वाले composable infrastructure solutions offer करते हैं।
Liqid composable platform
Liqid ने 100 TB तक disaggregated composable मेमोरी support करने वाले CXL 2.0 मेमोरी पूलिंग के साथ composable GPU servers release किए।[^11] Platform में NVIDIA H200, RTX Pro 6000, और Intel Gaudi 3 accelerators सहित 600W GPUs support करने वाला EX-5410P 10-slot GPU box शामिल है। Matrix software hardware platform में resource composition orchestrate करता है।
Liqid approach composability को integrated solutions में package करता है बजाय customers को components से disaggregated systems architect करने की requirement के। Organizations composable systems design और orchestration software development में expertise build किए बिना composability benefits gain करते हैं।
IBM Research composable systems
IBM Research high-speed, low-latency fabric के माध्यम से fully composable systems build करने के लिए CXL standards explore कर रहा है।[^12] उनके architecture में, resources servers में statically grouped होने की बजाय network fabric के माध्यम से connected large pools के part के रूप में exist करते हैं। Composable resources specific workload requirements से match करने वाले server abstractions recreate करने के लिए एक साथ group होते हैं।
Research program fabric topology design, latency optimization, और composable AI infrastructure के लिए software orchestration सहित challenges address करता है। यह work production-scale composable systems कैसे operate करने चाहिए इसकी understanding advance करता है।
GigaIO और Microchip collaboration
GigaIO और Microchip ने PCIe और CXL technologies को combine करते हुए cloud-class composable disaggregated infrastructure develop किया।[^13] यह approach उन data centers को target करता है जिन्हें direct-attached hardware की performance characteristics के साथ composable resources की flexibility चाहिए।
Architectural considerations
Composable infrastructure implement करने के लिए fabric design, orchestration software, और workload management spanning architectural decisions की जरूरत होती है।
Fabric topology
Interconnect fabric disaggregated resources के बीच achievable latency और bandwidth determine करता है। CXL fabrics को acceptable bounds के भीतर latency maintain करते हुए memory-speed access patterns के लिए sufficient bandwidth provide करना चाहिए। Fabric topology performance और cost दोनों को affect करती है।
Switch-based topologies flexibility offer करती हैं लेकिन direct connections की तुलना में latency add करती हैं। Topology complexity और latency budget के बीच tradeoff specific workload requirements पर depend करता है। Memory-intensive workloads storage-intensive workloads की तुलना में lower latency demand करते हैं।
Orchestration requirements
Software orchestration resource composition manage करता है, allocation requests handle करता है, resource state track करता है, और compositions के बीच isolation maintain करता है। Orchestration layer को bottleneck बने बिना dynamic workload changes support करने के लिए पर्याप्त quickly respond करना चाहिए।
Kubernetes integration familiar orchestration primitives का उपयोग करके composable resources को containerized AI workloads serve करने enable करता है। GPU Operator और similar extensions accelerator resources manage करते हैं, composability extensions dynamic GPU pool allocation enable करती हैं।
Failure domain considerations
Disaggregation failure domain characteristics change करता है। एक failed memory node single server की बजाय उस मेमोरी का उपयोग करने वाले सभी compositions को affect करता है। Component failures का blast radius converged server architectures की तुलना में expand होता है।
Redundancy strategies को disaggregated failure modes account करना चाहिए। Memory pools को physical nodes में redundancy की जरूरत होती है। Composition policies को shared resources पर critical workloads concentrate करने से avoid करना चाहिए। Monitoring को individual servers की बजाय fabric में health track करना चाहिए।
Infrastructure deployment expertise
Composable infrastructure complexity traditional server deployment से exceed करती है। Fabric installation, performance validation, और orchestration configuration को specialized expertise की जरूरत होती है जो most organizations के पास internally नहीं होती।
Introl के 550 field engineers composable और disaggregated systems सहित advanced infrastructure architectures implement करने वाले organizations को support करते हैं।[^14] Company ने 9,594% three-year growth के साथ 2025 Inc. 5000 पर #14 rank किया, जो professional infrastructure services की demand reflect करता है।[^15] Composable deployments को high-speed fabric installation और validation के experience से benefit मिलता है।
257 global locations में infrastructure deploy करने के लिए geography के बावजूद consistent practices की जरूरत होती है।[^16] Introl 40,000 miles से अधिक fiber optic network infrastructure के साथ 100,000 GPUs तक पहुंचने वाले deployments manage करता है, जो composable AI infrastructure build करने वाले organizations के लिए operational scale provide करता है।[^17]
Composable future
Disaggregated, resource-sharing architectures AI, machine learning, और अन्य data-intensive technologies के लिए आवश्यक petabytes of data process करने के लिए infrastructure enable करेंगे।[^18] Standard mature होने और vendor solutions proliferate होने के साथ CXL adoption accelerate होगा।
AI infrastructure investments plan करने वाले organizations को ऐसे deployments के लिए composable architectures evaluate करने चाहिए जहां workload variability fixed-ratio servers को inefficient बनाती है। Flexibility benefits scale के साथ compound होते हैं: larger deployments resource pooling से better utilization improvements achieve करते हैं।
Converged से composable infrastructure में transition data center architecture में एक fundamental shift represent करता है। Composable deployment master करने वाले organizations flexibility advantages gain करते हैं जो cost efficiency और deployment agility में translate होते हैं। Jensen Huang द्वारा described revolution यह समझने से शुरू होती है कि disaggregation infrastructure economics को कैसे change करता है।
Key takeaways
Infrastructure architects के लिए: - CXL मेमोरी पूलिंग LLM inference workloads के लिए 200G RDMA की तुलना में 3.8x स्पीडअप और 100G RDMA की तुलना में 6.5x स्पीडअप achieve करती है - CXL latency: 200-500ns memory-semantic access vs ~100μs NVMe vs >10ms storage-based sharing - Disaggregation enable करता है: training के लिए 8 GPU composition, inference के लिए 2 GPU + expanded memory, same hardware pool से
Procurement teams के लिए: - Liqid EX-5410P: 100TB CXL मेमोरी पूलिंग के साथ 600W GPUs (H200, RTX Pro 6000, Gaudi 3) support करने वाला 10-slot GPU box - Traditional fixed-ratio servers resources waste करते हैं: training को modest CPU के साथ max GPU चाहिए; inference को प्रति GPU अधिक memory चाहिए - Composable workloads में resources pool करके total hardware reduce करता है; GPU nodes दिन में training serve करते हैं, रात में inference
Platform engineers के लिए: - IBM Research high-speed, low-latency fabric के माध्यम से fully composable systems के लिए CXL explore कर रहा है - GigaIO/Microchip collaboration: PCIe और CXL technologies combine करते हुए cloud-class composable - GPU Operator extensions के माध्यम से Kubernetes integration familiar orchestration के साथ composable resources enable करता है
Operations teams के लिए: - Failure domain change होता है: failed memory node converged architecture में single server की बजाय इसका उपयोग करने वाले सभी compositions को affect करता है - Redundancy strategies को disaggregated failure modes account करना चाहिए; shared resources पर workloads concentrate करने से avoid करें - Fabric health monitoring individual server monitoring replace करती है; composition policies preve
[Content truncated for translation]