UALink और CXL 4.0: GPU क्लस्टर आर्किटेक्चर को नया रूप देने वाले ओपन स्टैंडर्ड्स

UALink 1.0 ने 1,024-GPU स्केलिंग के साथ NVLink को चुनौती दी। CXL 4.0 ने बैंडविड्थ को दोगुना कर 128 GT/s किया। AI इंफ्रास्ट्रक्चर के लिए ओपन इंटरकनेक्ट स्टैंडर्ड्स की तकनीकी गाइड।

Blake Crosley

Feb 06, 2026 6 min read Disclaimer

UALink और CXL 4.0: GPU क्लस्टर आर्किटेक्चर को नया रूप देने वाले ओपन स्टैंडर्ड्स

अप्रैल 2025 में प्रकाशित UALink 1.0 स्पेसिफिकेशन एक सिंगल फैब्रिक पर 1,024 एक्सेलेरेटर्स तक स्केलिंग को सक्षम बनाता है, जो सीधे Nvidia के प्रोप्राइटरी NVLink और NVSwitch इकोसिस्टम को चुनौती देता है। सात महीने बाद, CXL Consortium ने 18 नवंबर, 2025 को CXL 4.0 जारी किया, जिसने बैंडविड्थ को दोगुना कर 128 GT/s किया और मल्टी-रैक मेमोरी पूलिंग को सक्षम बनाया। मिलकर, ये ओपन स्टैंडर्ड्स 2016 में कंपनी द्वारा NVLink पेश करने के बाद से Nvidia के इंटरकनेक्ट वर्चस्व के लिए सबसे बड़ी चुनौती का प्रतिनिधित्व करते हैं।

संक्षेप में

UALink 1.0 प्रति लेन 200 GT/s डिलीवर करता है जिसमें 1,024 एक्सेलेरेटर्स तक सपोर्ट है, जबकि NVLink की अधिकतम क्षमता 576-GPU है। CXL 4.0 मेमोरी बैंडविड्थ को दोगुना कर 128 GT/s करता है और टेराबाइट-स्केल शेयर्ड मेमोरी की आवश्यकता वाले AI वर्कलोड्स के लिए बंडल्ड पोर्ट्स पेश करता है। UALink को सपोर्ट करने वाला हार्डवेयर 2026 के अंत में AMD, Intel, और Astera Labs से आएगा, जबकि CXL 4.0 मल्टी-रैक डिप्लॉयमेंट 2027 को टारगेट करते हैं। नेक्स्ट-जनरेशन GPU क्लस्टर्स की योजना बनाने वाली इंफ्रास्ट्रक्चर टीमों के लिए, ये स्पेसिफिकेशंस वेंडर-न्यूट्रल आर्किटेक्चर की ओर शिफ्ट का संकेत देते हैं जो लॉक-इन को कम करते हुए अभूतपूर्व स्केल को सक्षम बनाते हैं।

2025 में इंटरकनेक्ट लैंडस्केप

GPU इंटरकनेक्ट्स निर्धारित करते हैं कि AI क्लस्टर्स कितने प्रभावी ढंग से स्केल होते हैं। एक्सेलेरेटर्स जितनी तेजी से डेटा का आदान-प्रदान कर सकते हैं, उतने बड़े मॉडल्स को वे ट्रेन कर सकते हैं और इंफरेंस रिक्वेस्ट्स को उतनी ही कुशलता से सर्व कर सकते हैं।

वर्तमान इंटरकनेक्ट टेक्नोलॉजीज

टेक्नोलॉजी	मालिक	बैंडविड्थ	अधिकतम स्केल	स्टेटस
NVLink 5.0	Nvidia	1.8 TB/s प्रति GPU	576 GPUs	प्रोडक्शन (Blackwell)
NVLink 4.0	Nvidia	900 GB/s प्रति GPU	256 GPUs	प्रोडक्शन (Hopper)
Infinity Fabric	AMD	~1.075 TB/s प्रति कार्ड	8 GPUs (डायरेक्ट मेश)	प्रोडक्शन (MI300X)
UALink 1.0	कंसोर्टियम	800 GB/s (4 लेन)	1,024 एक्सेलेरेटर्स	स्पेक प्रकाशित अप्रैल 2025
CXL 4.0	कंसोर्टियम	128 GT/s	मल्टी-रैक	स्पेक प्रकाशित नवंबर 2025

Nvidia का NVLink प्रोडक्शन डिप्लॉयमेंट्स में हावी है, लेकिन GB200 NVL72 सिस्टम इसकी शक्ति और इसकी सीमाओं दोनों का उदाहरण है: 72 Blackwell GPUs 130 TB/s एग्रीगेट बैंडविड्थ के साथ इंटरकनेक्टेड, लेकिन विशेष रूप से Nvidia के प्रोप्राइटरी इकोसिस्टम के भीतर।

UALink 1.0: वेंडर लॉक को तोड़ना

कंसोर्टियम गठन

Ultra Accelerator Link Consortium अक्टूबर 2024 में AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta, और Microsoft के संस्थापक सदस्यों के साथ निगमित हुआ। यह प्रयास AMD और Broadcom द्वारा दिसंबर 2023 में घोषित कार्य पर आधारित है।

जनवरी 2025 तक, Alibaba Cloud, Apple, और Synopsys बोर्ड स्तर पर शामिल हुए, जिससे कुल सदस्यता 75 संगठनों तक पहुंच गई।

तकनीकी स्पेसिफिकेशंस

UALink 200G 1.0 Specification AI कंप्यूटिंग पॉड्स में एक्सेलेरेटर्स और स्विचों के बीच संचार के लिए एक लो-लेटेंसी, हाई-बैंडविड्थ इंटरकनेक्ट को परिभाषित करता है।

स्पेसिफिकेशन	UALink 1.0
प्रति-लेन डेटा रेट	200 GT/s बाइडायरेक्शनल
सिग्नलिंग रेट	212.5 GT/s (FEC ओवरहेड के साथ)
लिंक विड्थ्स	x1, x2, x4
अधिकतम बैंडविड्थ	800 GB/s (x4 कॉन्फिग)
अधिकतम स्केल	1,024 एक्सेलेरेटर्स
केबल लंबाई	<4 मीटर ऑप्टिमाइज़्ड
लेटेंसी टारगेट	<1 µs राउंड-ट्रिप (64B/640B पेलोड्स)

UALink स्विचेज प्रति एक्सेलेरेटर एक पोर्ट असाइन करते हैं और फैब्रिक में सटीक राउटिंग के लिए 10-बिट यूनिक आइडेंटिफायर्स का उपयोग करते हैं।

UALink बनाम NVLink: आमने-सामने

मेट्रिक	UALink 1.0	NVLink 4.0 (Hopper)	NVLink 5.0 (Blackwell)
प्रति-GPU बैंडविड्थ	800 GB/s	900 GB/s	1.8 TB/s
प्रति GPU लिंक्स	4	18	18
अधिकतम GPUs	1,024	256	576
वेंडर लॉक-इन	ओपन स्टैंडर्ड	केवल Nvidia	केवल Nvidia
हार्डवेयर उपलब्धता	2026/2027 के अंत में	प्रोडक्शन	प्रोडक्शन

NVLink 5.0 UALink 1.0 की तुलना में 3x से अधिक प्रति-कनेक्शन बैंडविड्थ डिलीवर करता है (2,538 GB/s बनाम 800 GB/s)। हालांकि, UALink लगभग 2x अधिकतम क्लस्टर साइज (1,024 बनाम 576 GPUs) को सपोर्ट करता है और कई वेंडर्स में काम करता है।

डिज़ाइन फिलॉसफी में अंतर

NVLink डेंस, होमोजीनियस GPU क्लस्टर्स के लिए ऑप्टिमाइज़ करता है जहां बारीकी से पैक्ड एक्सेलेरेटर्स के बीच अधिकतम बैंडविड्थ सबसे ज्यादा मायने रखती है। यह टेक्नोलॉजी DGX सिस्टम्स और NVL72 रैक्स में उत्कृष्ट है जहां सभी कंपोनेंट्स Nvidia से आते हैं।

UALink मॉड्यूलर रैक-स्केल आर्किटेक्चर को टारगेट करता है जहां संगठन विभिन्न वेंडर्स के एक्सेलेरेटर्स को मिक्स करते हैं या बड़े लॉजिकल क्लस्टर्स की आवश्यकता होती है। ओपन स्टैंडर्ड AMD MI-सीरीज, Intel Gaudi, और भविष्य के एक्सेलेरेटर्स को एक कॉमन फैब्रिक के माध्यम से कम्युनिकेट करने में सक्षम बनाता है।

AMD की वर्तमान स्थिति

AMD का Infinity Fabric आठ MI300X या MI355X GPUs को एक पूरी तरह से कनेक्टेड मेश में जोड़ता है। प्रत्येक MI300X सात Infinity Fabric लिंक्स कैरी करता है जिसमें प्रति लिंक 16 लेन होते हैं, जो लगभग 1.075 TB/s पीयर-टू-पीयर बैंडविड्थ डिलीवर करता है।

सीमा: 8 GPUs से आगे स्केलिंग के लिए Ethernet नेटवर्किंग की आवश्यकता होती है। AMD के रोडमैप में PCIe Gen7 लिंक्स पर काम करने वाला AFL (Accelerated Fabric Link) और मल्टी-वेंडर इंटरऑपरेबिलिटी के लिए UALink एडॉप्शन शामिल है।

CXL 4.0: सीमाओं के बिना मेमोरी

मेमोरी वॉल प्रॉब्लम

AI वर्कलोड्स तेजी से कंप्यूट लिमिट्स से पहले मेमोरी बॉटलनेक्स से टकराते हैं। Large language models को इंफरेंस के दौरान KV कैश के लिए टेराबाइट्स मेमोरी की आवश्यकता होती है, जबकि ट्रेनिंग रन्स को एक्टिवेशंस और ऑप्टिमाइज़र स्टेट्स के लिए और भी अधिक की आवश्यकता होती है।

ट्रेडिशनल सर्वर आर्किटेक्चर मेमोरी को सीधे CPUs से अटैच करते हैं, जिससे वर्कलोड्स के भिन्न होने पर स्ट्रैंडेड कैपेसिटी बनती है। CXL मेमोरी को कंप्यूट से डिकपल करता है, जिससे नोड्स में डायनामिक एलोकेशन सक्षम होता है।

CXL 4.0 स्पेसिफिकेशंस

CXL Consortium ने 18 नवंबर, 2025 को Supercomputing 2025 में CXL 4.0 जारी किया।

स्पेसिफिकेशन	CXL 3.0/3.1	CXL 4.0
सिग्नलिंग रेट	64 GT/s	128 GT/s
PCIe जनरेशन	PCIe 6.0	PCIe 7.0
बैंडविड्थ	256 GB/s (x16)	512 GB/s (x16)
रीटाइमर्स	2	4
लिंक विड्थ्स	x16, x8, x4, x1	x16, x8, x4, x2, x1
टोपोलॉजी	सिंगल-रैक	मल्टी-रैक

प्रमुख CXL 4.0 फीचर्स

बंडल्ड पोर्ट्स: CXL 4.0 पोर्ट एग्रीगेशन पेश करता है जो होस्ट्स और डिवाइसेज को कई फिजिकल पोर्ट्स को एक सिंगल लॉजिकल कनेक्शन में कंबाइन करने की अनुमति देता है। यह सिंपल सॉफ्टवेयर मॉडल बनाए रखते हुए हायर बैंडविड्थ डिलीवर करता है जहां सिस्टम एक डिवाइस देखता है।

एक्सटेंडेड रीच: चार रीटाइमर्स सिग्नल क्वालिटी का त्याग किए बिना मल्टी-रैक कॉन्फिगरेशंस को सक्षम बनाते हैं। CXL 3.x ने डिप्लॉयमेंट्स को सिंगल-रैक टोपोलॉजी तक सीमित किया; CXL 4.0 डेटा सेंटर के आइल्स में मेमोरी पूलिंग को एक्सटेंड करता है।

मेमोरी कैपेसिटी: CXL मेमोरी पूलिंग एक सिंगल CPU से अटैच्ड 100+ टेराबाइट्स मेमोरी को सक्षम बनाता है, जो बड़े डेटासेट्स माइनिंग या मेमोरी-इंटेंसिव AI वर्कलोड्स चलाने वाले संगठनों के लिए मूल्यवान है।

नेटिव x2 लिंक्स: नया x2 लिंक विड्थ ऑप्शन मॉडरेट बैंडविड्थ की आवश्यकता वाले एप्लिकेशंस के लिए कॉस्ट कम करता है, एज डिप्लॉयमेंट्स के लिए CXL इकोनॉमिक्स में सुधार करता है।

CXL मेमोरी पूलिंग परफॉर्मेंस

CXL DevCon 2025 में डेमोंस्ट्रेशंस ने NVIDIA H100 GPUs के साथ OPT-6.7B मॉडल चलाने वाले दो सर्वर दिखाए:

कॉन्फिगरेशन	परफॉर्मेंस
CXL मेमोरी पूल	बेसलाइन
200G RDMA	3.8x धीमा
100G RDMA	6.5x धीमा

CXL 200-500 ns रेंज में लेटेंसी के साथ मेमोरी-सेमांटिक एक्सेस प्रदान करता है, जबकि NVMe के लिए ~100 µs और स्टोरेज-बेस्ड मेमोरी शेयरिंग के लिए >10 ms की तुलना में।

पावर और एफिशिएंसी गेन्स

रिसर्च दिखाता है कि CXL [मेमोरी पावर कंजम्पशन को 20-30% तक कम](https://computeexpresslink.org/blog/over

[अनुवाद के लिए कंटेंट ट्रंकेटेड]

UALink और CXL 4.0: GPU क्लस्टर आर्किटेक्चर को नया रूप देने वाले ओपन स्टैंडर्ड्स

संक्षेप में

2025 में इंटरकनेक्ट लैंडस्केप

वर्तमान इंटरकनेक्ट टेक्नोलॉजीज

UALink 1.0: वेंडर लॉक को तोड़ना

कंसोर्टियम गठन

तकनीकी स्पेसिफिकेशंस

UALink बनाम NVLink: आमने-सामने

डिज़ाइन फिलॉसफी में अंतर

AMD की वर्तमान स्थिति

CXL 4.0: सीमाओं के बिना मेमोरी

मेमोरी वॉल प्रॉब्लम

CXL 4.0 स्पेसिफिकेशंस

प्रमुख CXL 4.0 फीचर्स

CXL मेमोरी पूलिंग परफॉर्मेंस

पावर और एफिशिएंसी गेन्स

You Might Also Like

इमर्शन कूलिंग ROI कैलकुलेटर: AI वर्कलोड के लिए 2-4 साल में प...

UK AI Corridor: लंदन का उभरता हुआ कंप्यूट हब

जल उपयोग दक्षता: संकट के बिना AI डेटा सेंटर कूलिंग

कोटेशन का अनुरोध करें_

अनुरोध प्राप्त हुआ_