CXL 4.0 इंफ्रास्ट्रक्चर प्लानिंग गाइड: स्केल पर AI के लिए मेमोरी पूलिंग
13 दिसंबर, 2025
दिसंबर 2025 अपडेट: CXL Consortium ने 18 नवंबर, 2025 को CXL 4.0 रिलीज़ किया, जो PCIe 7.0 के माध्यम से bandwidth को 128 GT/s तक दोगुना करता है और 1.5 TB/s connections के लिए bundled ports प्रस्तुत करता है। यह गाइड उन संगठनों के लिए deployment planning को कवर करती है जो अपने AI infrastructure में CXL-आधारित memory pooling को implement करने की तैयारी कर रहे हैं।
TL;DR
CXL 4.0 अभूतपूर्व scale पर memory pooling को सक्षम बनाता है, जो AI inference workloads को multiple racks में cache coherency के साथ 100+ terabytes shared memory तक पहुंच प्रदान करता है। specification के bundled ports 1.5 TB/s bandwidth प्रदान करने वाले single logical attachments में multiple physical connections को aggregate करते हैं। Infrastructure planners के लिए, मुख्य निर्णयों में यह समझना शामिल है कि CXL को कब अपनाना है (production के लिए 2026-2027), अभी कौन से products का मूल्यांकन करना है (CXL 2.0/3.0 switches shipping), और कैसे CXL NVLink और UALink को replace करने के बजाय complement करता है। यह गाइड CXL deployments की योजना बनाने के लिए आवश्यक technical depth और decision frameworks प्रदान करती है।
Memory Wall समस्या
Large language models एक मौलिक बाधा से टकराते हैं: GPU memory capacity। आधुनिक AI inference workloads नियमित रूप से प्रति GPU 80-120 GB से अधिक होते हैं, और key-value (KV) cache context length के साथ बढ़ता है।1 128K context window के साथ एक single inference request केवल KV cache storage के लिए दसियों gigabytes का उपभोग कर सकती है।
समस्या scale पर तेज हो जाती है। Frontier LLMs के लिए model weights सैकड़ों gigabytes का उपभोग करते हैं। KV cache requirements batch size और sequence length दोनों के साथ linearly बढ़ती हैं। GPU VRAM 80GB (H100) या 192GB (B200) पर fixed रहता है।2
पारंपरिक समाधान कम पड़ते हैं:
| Approach | Limitation |
|---|---|
| अधिक GPUs जोड़ना | Linear cost increase, memory अभी भी प्रति GPU isolated |
| NVMe offloading | ~100 μs latency, DRAM से 100x धीमी |
| RDMA-based sharing | अभी भी 10-20 μs latency, जटिल networking |
| बड़ी GPU memory | Supply-constrained, महंगी |
CXL data center में DRAM-like latency (200-500 ns) के साथ memory pooling को सक्षम करके इस equation को बदलता है।3
CXL 4.0 Technical Deep Dive
CXL 1.0 से 4.0 तक का विकास
CXL अपने 2019 introduction के बाद से तेज़ी से mature हुआ है। प्रत्येक generation ने capabilities का विस्तार किया:
| Generation | Release | PCIe Base | Speed | Key Advancement |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Basic coherent memory attach |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric support, peer-to-peer, 4,096 nodes |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Bundled ports, multi-rack, enhanced RAS |
CXL 2.0 ने memory pooling की मूलभूत अवधारणा को प्रस्तुत किया। Multiple Type 3 memory devices एक switch से connect होते हैं, एक shared pool बनाते हैं जिससे switch dynamically विभिन्न hosts को resources allocate करता है।4 यह memory utilization improvements को typical 50-60% से cluster में 85%+ तक सक्षम बनाता है।
CXL 3.0 ने fabric capabilities जोड़ीं जो multi-level switching और port-based routing (PBR) के साथ 4,096 nodes तक का समर्थन करती हैं।5 256-byte FLITs और PCIe 6.0 के 64 GT/s में shift ने available bandwidth को दोगुना कर दिया।
CXL 4.0 bandwidth को फिर से दोगुना करता है जबकि multi-rack AI deployments के लिए critical features को प्रस्तुत करता है।
Bundled Ports Architecture
CXL 4.0 की high-performance computing के लिए सबसे महत्वपूर्ण feature: bundled ports multiple physical CXL device ports को एक single logical entity में aggregate करते हैं।6
Bundled ports कैसे काम करते हैं:
- एक host और Type 1/2 device multiple physical ports को combine करते हैं
- System software multiple physical connections के बावजूद एक single device देखता है
- Bandwidth सभी bundled ports में aggregate होती है
- 256-byte FLIT mode के लिए optimized, legacy overhead को eliminate करता है
Bandwidth calculations:
| Configuration | Direction | Bandwidth |
|---|---|---|
| Single x16 port @ 128 GT/s | Unidirectional | 256 GB/s |
| Single x16 port @ 128 GT/s | Bidirectional | 512 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Unidirectional | 768 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Bidirectional | 1,536 GB/s |
Context के लिए, H200 पर HBM3e memory 4.8 TB/s bandwidth प्रदान करती है।7 1.5 TB/s पर एक bundled CXL 4.0 connection उस bandwidth का लगभग 30% represents करता है—कई memory expansion use cases के लिए पर्याप्त जहाँ capacity peak bandwidth से अधिक महत्वपूर्ण है।
PCIe 7.0 Foundation
CXL 4.0 PCIe 7.0 की physical layer improvements पर आधारित है:8
- 128 GT/s transfer rate: PCIe 6.0 के 64 GT/s का double
- PAM4 signaling: PCIe 6.0 के समान encoding scheme
- Improved FEC: Signal integrity के लिए forward error correction
- Optical support: Longer reach connections को enable करता है
Specification CXL 3.x से 256-byte FLIT format को retain करती है जबकि time-sensitive operations के लिए एक latency-optimized variant जोड़ती है।9
Multi-Rack Fabric Capabilities
CXL 4.0 दो mechanisms के माध्यम से reach को extend करता है:
चार retimers supported: पिछली generations दो retimers की अनुमति देती थीं। चार retimers signal degradation के बिना multiple racks तक फैले longer physical connections को enable करते हैं।10
Native x2 width: पहले एक degraded fallback mode, x2 links अब full performance पर operate करते हैं। यह higher fan-out configurations को enable करता है जहाँ कई lower-bandwidth connections अधिक endpoints की सेवा करते हैं।11
ये features "multi-rack memory pooling" को enable करने के लिए combine होते हैं—एक capability जो CXL Consortium explicitly 2026-2027 के अंत में production deployment के लिए target करता है।12
AI Infrastructure के लिए CXL Use Cases
LLM Inference के लिए KV Cache Offloading
सबसे अधिक प्रभाव वाला near-term use case: GPU VRAM से CXL-attached memory में KV cache को offload करना।
समस्या: Long contexts के साथ LLM inference massive KV caches generate करता है। 128K context और batch size 32 के साथ एक 70B parameter model केवल KV cache के लिए 150+ GB की आवश्यकता हो सकती है।13 यह H100 VRAM से अधिक है, जो महंगे batch size reductions या multiple GPUs को मजबूर करता है।
CXL समाधान: GPU VRAM में hot layers रखते हुए pooled CXL memory में KV cache store करना। XConn और MemVerge ने SC25 और OCP 2025 में इसका demonstration किया:14
- दो H100 GPUs (प्रत्येक 80GB) OPT-6.7B चला रहे हैं
- KV cache को shared CXL memory pool में offload किया गया
- 200G RDMA vs 3.8x speedup
- 100G RDMA vs 6.5x speedup
- SSD-based KV cache vs >5x improvement
Academia से research opportunity की पुष्टि करता है। PNM-KV (Processing-Near-Memory for KV cache) CXL memory के भीतर accelerators में token page selection को offload करके 21.9x तक throughput improvement प्राप्त करता है।15
Training के लिए Memory Expansion
Training workloads निम्नलिखित के लिए expanded memory capacity से लाभान्वित होते हैं:
- बड़े batch sizes: Gradient accumulation के बिना प्रति iteration अधिक samples
- Activation checkpointing reduction: Recomputation vs memory में अधिक activations store करना
- Optimizer state: Adam optimizer को momentum/variance के लिए 2x parameters की आवश्यकता होती है
CXL memory expansion उन training configurations को enable करता है जिन्हें पहले multi-node distribution की आवश्यकता थी single nodes पर चलाने के लिए, communication overhead को कम करता है।
Scientific और HPC Workloads
PNNL का Crete project scientific simulations में compute nodes में high-throughput memory sharing के लिए CXL pools का उपयोग करता है।16 Use cases में शामिल हैं:
- बड़ी neighbor lists के साथ molecular dynamics
- Trillion-edge datasets पर graph analytics
- Single-server capacity से अधिक in-memory databases
Interconnect Landscape
CXL vs NVLink vs UALink
CXL कहाँ fit करता है यह समझने के लिए यह पहचानना आवश्यक है कि ये technologies अलग-अलग purposes serve करती हैं:
| Standard | Primary Purpose | Best For |
|---|---|---|
| CXL | Memory coherency + pooling | CPU-memory expansion, shared memory pools |
| NVLink | GPU-to-GPU scaling | Within-node GPU communication |
| UALink | Accelerator interconnect | NVLink का open standard alternative |
| Ultra Ethernet | Scale-out networking | Multi-rack, 10,000+ endpoints |
CXL PCIe SerDes पर चलता है: lower error rate, lower latency, लेकिन NVLink/UALink के Ethernet-style SerDes से lower bandwidth।17 NVLink 5 प्रति GPU 1.8 TB/s प्रदान करता है—CXL 4.0 के प्रति x16 port 512 GB/s से कहीं अधिक।18
Technologies compete करने के बजाय complement करती हैं:
- GPU node के भीतर: NVLink GPUs को connect करता है
- Nodes के बीच: UALink या InfiniBand/Ethernet
- Memory expansion: CXL CPUs और accelerators में capacity जोड़ता है
- Fabric-wide memory pools: CXL switches hosts में sharing को enable करते हैं
Panmnesia "CXL-over-XLink" architectures प्रस्तुत करता है जो तीनों को integrate करती हैं, PCIe/RDMA baselines vs 5.3x faster AI training और 6x inference latency reduction की report करती हैं।19
Decision Framework: कब क्या उपयोग करें
| Scenario | Recommended Interconnect | Rationale |
|---|---|---|
| Server के भीतर multi-GPU training | NVLink | Highest bandwidth, lowest latency |
| Multi-GPU inference pod (non-NVIDIA) | UALink | Open standard, high bandwidth |
| VRAM से आगे memory expand करना | CXL | Cache coherency, DRAM-like latency |
| Multi-rack GPU cluster | InfiniBand या Ultra Ethernet | Scale-out के लिए designed |
| Servers में shared memory pool | CXL switches | Coherency के साथ memory pooling |
| China/restricted markets | UB-Mesh पर विचार करें | Western IP dependencies से बचता है |
CXL Ecosystem: Vendors और Products
Memory Expanders
तीनों प्रमुख DRAM manufacturers CXL memory expanders ship करते हैं:
| Vendor | Product | Capacity | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Mass production 202520 |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Mass production late 202421 |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling22 |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Announced23 |
SK Hynix का CMS (Computational Memory Solution) memory module में directly compute capabilities जोड़ता है—CXL के लिए processing-near-memory का एक early implementation।
Switch Vendors
CXL switches multiple hosts में memory pooling को enable करते हैं:
| Vendor | Product | Generation | Status | Key Feature |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Shipping | 256-lane switch, first to market24 |
| XConn | Apollo | CXL 2.0 | Shipping | SC25 में memory pooling demonstrations25 |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov 2025 | First PBR implementation26 |
| Astera Labs | Leo | CXL 2.0 | Shipping | Smart memory controller27 |
| Microchip | SMC 2000 | CXL 2.0 | Shipping | Memory expansion controller28 |
Panmnesia का CXL 3.2 Fabric Switch एक generation leap represents करता है: 4,096 nodes तक के true fabric architectures के लिए port-based routing implement करने वाली first silicon।29
Controller Vendors
CXL memory controllers CXL protocol और DRAM के बीच translate करते हैं:
| Vendor | Role | Key Products |
|---|---|---|
| Marvell | Controller | Structera CXL controllers30 |
| Montage | Controller | CXL memory buffer chips |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | SMC 2000 series |
Marvell के Structera ने Intel और AMD दोनों platforms पर सभी तीन major memory suppliers (Samsung, Micron, SK Hynix) के साथ interoperability testing complete की।31
Deployment Planning Guide
Timeline
| Period | CXL Generation | Expected Capability | Recommendation |
|---|---|---|---|
| Now-Q2 2026 | CXL 2.0 | Memory expansion, basic pooling | Production evaluation |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K nodes | AI के लिए early adoption |
| 2027+ | CXL 4.0 | Multi-rack pooling, 1.5 TB/s | Planning अभी शुरू होती है |
ABI Research को उम्मीद है कि CXL 3.0/3.1 solutions पर्याप्त software support के साथ 2027 तक commercial adoption के लिए तैयार होंगे।32
अभी क्या evaluate करें
Immediate (2025): 1. मौजूदा Intel Sapphire Rapids या AMD EPYC Genoa servers पर CXL 2.0 memory expanders को test करें 2. Memory pooling के लिए XConn या Astera Labs switches का evaluation करें
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩
-
Context reference ↩