UALink और CXL 4.0: GPU क्लस्टर आर्किटेक्चर को नया रूप देने वाले ओपन स्टैंडर्ड्स
अप्रैल 2025 में प्रकाशित UALink 1.0 स्पेसिफिकेशन एक सिंगल फैब्रिक पर 1,024 एक्सेलेरेटर्स तक स्केलिंग को सक्षम बनाता है, जो सीधे Nvidia के प्रोप्राइटरी NVLink और NVSwitch इकोसिस्टम को चुनौती देता है। सात महीने बाद, CXL Consortium ने 18 नवंबर, 2025 को CXL 4.0 जारी किया, जिसने बैंडविड्थ को दोगुना कर 128 GT/s किया और मल्टी-रैक मेमोरी पूलिंग को सक्षम बनाया। मिलकर, ये ओपन स्टैंडर्ड्स 2016 में कंपनी द्वारा NVLink पेश करने के बाद से Nvidia के इंटरकनेक्ट वर्चस्व के लिए सबसे बड़ी चुनौती का प्रतिनिधित्व करते हैं।
संक्षेप में
UALink 1.0 प्रति लेन 200 GT/s डिलीवर करता है जिसमें 1,024 एक्सेलेरेटर्स तक सपोर्ट है, जबकि NVLink की अधिकतम क्षमता 576-GPU है। CXL 4.0 मेमोरी बैंडविड्थ को दोगुना कर 128 GT/s करता है और टेराबाइट-स्केल शेयर्ड मेमोरी की आवश्यकता वाले AI वर्कलोड्स के लिए बंडल्ड पोर्ट्स पेश करता है। UALink को सपोर्ट करने वाला हार्डवेयर 2026 के अंत में AMD, Intel, और Astera Labs से आएगा, जबकि CXL 4.0 मल्टी-रैक डिप्लॉयमेंट 2027 को टारगेट करते हैं। नेक्स्ट-जनरेशन GPU क्लस्टर्स की योजना बनाने वाली इंफ्रास्ट्रक्चर टीमों के लिए, ये स्पेसिफिकेशंस वेंडर-न्यूट्रल आर्किटेक्चर की ओर शिफ्ट का संकेत देते हैं जो लॉक-इन को कम करते हुए अभूतपूर्व स्केल को सक्षम बनाते हैं।
2025 में इंटरकनेक्ट लैंडस्केप
GPU इंटरकनेक्ट्स निर्धारित करते हैं कि AI क्लस्टर्स कितने प्रभावी ढंग से स्केल होते हैं। एक्सेलेरेटर्स जितनी तेजी से डेटा का आदान-प्रदान कर सकते हैं, उतने बड़े मॉडल्स को वे ट्रेन कर सकते हैं और इंफरेंस रिक्वेस्ट्स को उतनी ही कुशलता से सर्व कर सकते हैं।
वर्तमान इंटरकनेक्ट टेक्नोलॉजीज
| टेक्नोलॉजी | मालिक | बैंडविड्थ | अधिकतम स्केल | स्टेटस |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1.8 TB/s प्रति GPU | 576 GPUs | प्रोडक्शन (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s प्रति GPU | 256 GPUs | प्रोडक्शन (Hopper) |
| Infinity Fabric | AMD | ~1.075 TB/s प्रति कार्ड | 8 GPUs (डायरेक्ट मेश) | प्रोडक्शन (MI300X) |
| UALink 1.0 | कंसोर्टियम | 800 GB/s (4 लेन) | 1,024 एक्सेलेरेटर्स | स्पेक प्रकाशित अप्रैल 2025 |
| CXL 4.0 | कंसोर्टियम | 128 GT/s | मल्टी-रैक | स्पेक प्रकाशित नवंबर 2025 |
Nvidia का NVLink प्रोडक्शन डिप्लॉयमेंट्स में हावी है, लेकिन GB200 NVL72 सिस्टम इसकी शक्ति और इसकी सीमाओं दोनों का उदाहरण है: 72 Blackwell GPUs 130 TB/s एग्रीगेट बैंडविड्थ के साथ इंटरकनेक्टेड, लेकिन विशेष रूप से Nvidia के प्रोप्राइटरी इकोसिस्टम के भीतर।
UALink 1.0: वेंडर लॉक को तोड़ना
कंसोर्टियम गठन
Ultra Accelerator Link Consortium अक्टूबर 2024 में AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta, और Microsoft के संस्थापक सदस्यों के साथ निगमित हुआ। यह प्रयास AMD और Broadcom द्वारा दिसंबर 2023 में घोषित कार्य पर आधारित है।
जनवरी 2025 तक, Alibaba Cloud, Apple, और Synopsys बोर्ड स्तर पर शामिल हुए, जिससे कुल सदस्यता 75 संगठनों तक पहुंच गई।
तकनीकी स्पेसिफिकेशंस
UALink 200G 1.0 Specification AI कंप्यूटिंग पॉड्स में एक्सेलेरेटर्स और स्विचों के बीच संचार के लिए एक लो-लेटेंसी, हाई-बैंडविड्थ इंटरकनेक्ट को परिभाषित करता है।
| स्पेसिफिकेशन | UALink 1.0 |
|---|---|
| प्रति-लेन डेटा रेट | 200 GT/s बाइडायरेक्शनल |
| सिग्नलिंग रेट | 212.5 GT/s (FEC ओवरहेड के साथ) |
| लिंक विड्थ्स | x1, x2, x4 |
| अधिकतम बैंडविड्थ | 800 GB/s (x4 कॉन्फिग) |
| अधिकतम स्केल | 1,024 एक्सेलेरेटर्स |
| केबल लंबाई | <4 मीटर ऑप्टिमाइज़्ड |
| लेटेंसी टारगेट | <1 µs राउंड-ट्रिप (64B/640B पेलोड्स) |
UALink स्विचेज प्रति एक्सेलेरेटर एक पोर्ट असाइन करते हैं और फैब्रिक में सटीक राउटिंग के लिए 10-बिट यूनिक आइडेंटिफायर्स का उपयोग करते हैं।
UALink बनाम NVLink: आमने-सामने
| मेट्रिक | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| प्रति-GPU बैंडविड्थ | 800 GB/s | 900 GB/s | 1.8 TB/s |
| प्रति GPU लिंक्स | 4 | 18 | 18 |
| अधिकतम GPUs | 1,024 | 256 | 576 |
| वेंडर लॉक-इन | ओपन स्टैंडर्ड | केवल Nvidia | केवल Nvidia |
| हार्डवेयर उपलब्धता | 2026/2027 के अंत में | प्रोडक्शन | प्रोडक्शन |
NVLink 5.0 UALink 1.0 की तुलना में 3x से अधिक प्रति-कनेक्शन बैंडविड्थ डिलीवर करता है (2,538 GB/s बनाम 800 GB/s)। हालांकि, UALink लगभग 2x अधिकतम क्लस्टर साइज (1,024 बनाम 576 GPUs) को सपोर्ट करता है और कई वेंडर्स में काम करता है।
डिज़ाइन फिलॉसफी में अंतर
NVLink डेंस, होमोजीनियस GPU क्लस्टर्स के लिए ऑप्टिमाइज़ करता है जहां बारीकी से पैक्ड एक्सेलेरेटर्स के बीच अधिकतम बैंडविड्थ सबसे ज्यादा मायने रखती है। यह टेक्नोलॉजी DGX सिस्टम्स और NVL72 रैक्स में उत्कृष्ट है जहां सभी कंपोनेंट्स Nvidia से आते हैं।
UALink मॉड्यूलर रैक-स्केल आर्किटेक्चर को टारगेट करता है जहां संगठन विभिन्न वेंडर्स के एक्सेलेरेटर्स को मिक्स करते हैं या बड़े लॉजिकल क्लस्टर्स की आवश्यकता होती है। ओपन स्टैंडर्ड AMD MI-सीरीज, Intel Gaudi, और भविष्य के एक्सेलेरेटर्स को एक कॉमन फैब्रिक के माध्यम से कम्युनिकेट करने में सक्षम बनाता है।
AMD की वर्तमान स्थिति
AMD का Infinity Fabric आठ MI300X या MI355X GPUs को एक पूरी तरह से कनेक्टेड मेश में जोड़ता है। प्रत्येक MI300X सात Infinity Fabric लिंक्स कैरी करता है जिसमें प्रति लिंक 16 लेन होते हैं, जो लगभग 1.075 TB/s पीयर-टू-पीयर बैंडविड्थ डिलीवर करता है।
सीमा: 8 GPUs से आगे स्केलिंग के लिए Ethernet नेटवर्किंग की आवश्यकता होती है। AMD के रोडमैप में PCIe Gen7 लिंक्स पर काम करने वाला AFL (Accelerated Fabric Link) और मल्टी-वेंडर इंटरऑपरेबिलिटी के लिए UALink एडॉप्शन शामिल है।
CXL 4.0: सीमाओं के बिना मेमोरी
मेमोरी वॉल प्रॉब्लम
AI वर्कलोड्स तेजी से कंप्यूट लिमिट्स से पहले मेमोरी बॉटलनेक्स से टकराते हैं। Large language models को इंफरेंस के दौरान KV कैश के लिए टेराबाइट्स मेमोरी की आवश्यकता होती है, जबकि ट्रेनिंग रन्स को एक्टिवेशंस और ऑप्टिमाइज़र स्टेट्स के लिए और भी अधिक की आवश्यकता होती है।
ट्रेडिशनल सर्वर आर्किटेक्चर मेमोरी को सीधे CPUs से अटैच करते हैं, जिससे वर्कलोड्स के भिन्न होने पर स्ट्रैंडेड कैपेसिटी बनती है। CXL मेमोरी को कंप्यूट से डिकपल करता है, जिससे नोड्स में डायनामिक एलोकेशन सक्षम होता है।
CXL 4.0 स्पेसिफिकेशंस
CXL Consortium ने 18 नवंबर, 2025 को Supercomputing 2025 में CXL 4.0 जारी किया।
| स्पेसिफिकेशन | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| सिग्नलिंग रेट | 64 GT/s | 128 GT/s |
| PCIe जनरेशन | PCIe 6.0 | PCIe 7.0 |
| बैंडविड्थ | 256 GB/s (x16) | 512 GB/s (x16) |
| रीटाइमर्स | 2 | 4 |
| लिंक विड्थ्स | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| टोपोलॉजी | सिंगल-रैक | मल्टी-रैक |
प्रमुख CXL 4.0 फीचर्स
बंडल्ड पोर्ट्स: CXL 4.0 पोर्ट एग्रीगेशन पेश करता है जो होस्ट्स और डिवाइसेज को कई फिजिकल पोर्ट्स को एक सिंगल लॉजिकल कनेक्शन में कंबाइन करने की अनुमति देता है। यह सिंपल सॉफ्टवेयर मॉडल बनाए रखते हुए हायर बैंडविड्थ डिलीवर करता है जहां सिस्टम एक डिवाइस देखता है।
एक्सटेंडेड रीच: चार रीटाइमर्स सिग्नल क्वालिटी का त्याग किए बिना मल्टी-रैक कॉन्फिगरेशंस को सक्षम बनाते हैं। CXL 3.x ने डिप्लॉयमेंट्स को सिंगल-रैक टोपोलॉजी तक सीमित किया; CXL 4.0 डेटा सेंटर के आइल्स में मेमोरी पूलिंग को एक्सटेंड करता है।
मेमोरी कैपेसिटी: CXL मेमोरी पूलिंग एक सिंगल CPU से अटैच्ड 100+ टेराबाइट्स मेमोरी को सक्षम बनाता है, जो बड़े डेटासेट्स माइनिंग या मेमोरी-इंटेंसिव AI वर्कलोड्स चलाने वाले संगठनों के लिए मूल्यवान है।
नेटिव x2 लिंक्स: नया x2 लिंक विड्थ ऑप्शन मॉडरेट बैंडविड्थ की आवश्यकता वाले एप्लिकेशंस के लिए कॉस्ट कम करता है, एज डिप्लॉयमेंट्स के लिए CXL इकोनॉमिक्स में सुधार करता है।
CXL मेमोरी पूलिंग परफॉर्मेंस
CXL DevCon 2025 में डेमोंस्ट्रेशंस ने NVIDIA H100 GPUs के साथ OPT-6.7B मॉडल चलाने वाले दो सर्वर दिखाए:
| कॉन्फिगरेशन | परफॉर्मेंस |
|---|---|
| CXL मेमोरी पूल | बेसलाइन |
| 200G RDMA | 3.8x धीमा |
| 100G RDMA | 6.5x धीमा |
CXL 200-500 ns रेंज में लेटेंसी के साथ मेमोरी-सेमांटिक एक्सेस प्रदान करता है, जबकि NVMe के लिए ~100 µs और स्टोरेज-बेस्ड मेमोरी शेयरिंग के लिए >10 ms की तुलना में।
पावर और एफिशिएंसी गेन्स
रिसर्च दिखाता है कि CXL [मेमोरी पावर कंजम्पशन को 20-30% तक कम](https://computeexpresslink.org/blog/over
[अनुवाद के लिए कंटेंट ट्रंकेटेड]