इन्फिनीबैंड स्विच: NVIDIA Quantum-X800 और AI सुपरकंप्यूटर को शक्ति देने वाली XDR पीढ़ी
11 दिसंबर, 2025 को अपडेट किया गया
दिसंबर 2025 अपडेट: इन्फिनीबैंड बाजार 2025 में $25.7B तक पहुंचा, 2030 तक $127B का अनुमान (38% CAGR)। Quantum-X800 144 पोर्ट्स पर 800Gbps XDR और 14.4 TFLOPS इन-नेटवर्क कंप्यूट (NDR से 9x) प्रदान करता है। 100ns से कम पोर्ट-टू-पोर्ट लेटेंसी। Stargate के 64,000 GB200s और Oracle का 131,000-GPU zetta-scale सुपरक्लस्टर इन्फिनीबैंड पर चल रहे हैं।
NVIDIA के Blackwell Ultra प्लेटफॉर्म ने 800Gbps नेटवर्किंग की मांग को बढ़ावा देने के साथ Q2 2025 में इन्फिनीबैंड स्विच की बिक्री में उछाल आया।¹ इन्फिनीबैंड बाजार, जिसका 2025 में मूल्य $25.74 बिलियन था, 37.60% चक्रवृद्धि वार्षिक वृद्धि दर पर 2030 तक $126.99 बिलियन तक पहुंचने का अनुमान है।² जबकि ईथरनेट AI बैक-एंड नेटवर्क के लिए समग्र बाजार में अग्रणी बना हुआ है, इन्फिनीबैंड उच्चतम-प्रदर्शन वाले डिप्लॉयमेंट में हावी है जहां सैकड़ों नैनोसेकंड में मापी गई लेटेंसी ट्रेनिंग दक्षता निर्धारित करती है।
Quantum-X800 प्लेटफॉर्म ट्रिलियन-पैरामीटर मॉडल की आवश्यकताओं के लिए NVIDIA का जवाब है। 800Gbps कनेक्टिविटी के 144 पोर्ट्स, SHARP v4 के माध्यम से 14.4 टेराफ्लॉप्स इन-नेटवर्क कंप्यूटिंग, और 100 नैनोसेकंड से कम पोर्ट-टू-पोर्ट लेटेंसी के साथ, XDR पीढ़ी बैंडविड्थ को दोगुना करते हुए पिछले NDR प्लेटफॉर्म की तुलना में 9x अधिक इन-नेटवर्क कंप्यूट प्रदान करती है।³ Stargate के 64,000 GB200 सिस्टम और Oracle के 131,000 GPU zetta-scale सुपरक्लस्टर सहित प्रमुख इंस्टॉलेशन, वितरित AI ट्रेनिंग के लिए आवश्यक कड़े सिंक्रोनाइज़ेशन को बनाए रखने के लिए NVIDIA इन्फिनीबैंड पर निर्भर हैं।⁴
NDR से XDR तक का विकास
इन्फिनीबैंड पीढ़ियां मानकीकृत गति वृद्धि के माध्यम से आगे बढ़ती हैं: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps), और अब XDR (800Gbps)।⁵ प्रत्येक पीढ़ी प्रति-पोर्ट बैंडविड्थ को दोगुना करती है जबकि कम लेटेंसी और हार्डवेयर-स्तरीय विश्वसनीयता बनाए रखती है जो इन्फिनीबैंड को ईथरनेट विकल्पों से अलग करती है।
2021 में पेश किया गया NDR (Next Data Rate) 51.6 GHz पर चलने वाले PAM-4 एन्कोडेड SerDes की चार लेन का उपयोग करके 400Gbps पोर्ट प्रदान करता है।⁶ NDR स्विच को पावर देने वाले Quantum-2 ASIC 256 SerDes लेन प्रदान करते हैं जिनमें 25.6Tbps यूनिडायरेक्शनल बैंडविड्थ है, जो 400Gbps कनेक्टिविटी के 64 पोर्ट्स पर प्रति सेकंड 66.5 बिलियन पैकेट प्रोसेस करते हैं।⁷ NDR ने इन्फिनीबैंड में OSFP कनेक्टर लाए, जो 2x (NDR200) या 4x (NDR400) कॉन्फ़िगरेशन में एक या दो लिंक सक्षम करते हैं।⁸
इन्फिनीबैंड ट्रेड एसोसिएशन द्वारा अक्टूबर 2023 में जारी XDR (eXtreme Data Rate) स्पेसिफिकेशन AI और HPC डेटा सेंटर की मांगों को पूरा करने के लिए बैंडविड्थ को दोगुना करती है।⁹ प्रति लेन 200Gbps पर SerDes सपोर्ट 800Gbps पोर्ट सक्षम करता है, जिसमें स्विच-टू-स्विच कनेक्शन 1.6Tbps तक पहुंचते हैं।¹⁰ XDR चौथी पीढ़ी का SHARP, अल्ट्रा-लो लेटेंसी सुधार, सेल्फ-हीलिंग क्षमताएं, और सिलिकॉन फोटोनिक्स इंटीग्रेशन पेश करता है।¹¹
रोडमैप GDR (Giga Data Rate) तकनीक की ओर जारी है जो भविष्य की पीढ़ियों के लिए प्रति पोर्ट 1.6Tbps प्रदान करेगी, यह सुनिश्चित करते हुए कि इन्फिनीबैंड अपनी प्रदर्शन नेतृत्व स्थिति बनाए रखे।¹²
NVIDIA Quantum-X800 प्लेटफॉर्म आर्किटेक्चर
Quantum-X800 प्लेटफॉर्म पहला XDR इन्फिनीबैंड इम्प्लीमेंटेशन प्रदान करता है, जो ट्रिलियन-पैरामीटर-स्केल AI मॉडल के लिए विशेष रूप से बनाया गया है।¹³ Q3400-RA 4U स्विच 200Gbps-प्रति-लेन SerDes तकनीक का लाभ उठाता है, जो इस स्पीड ग्रेड को प्राप्त करने वाला पहला स्विच सिलिकॉन है।¹⁴
पोर्ट डेंसिटी में काफी वृद्धि होती है। स्विच 72 OSFP केज में वितरित 800Gbps कनेक्टिविटी के 144 पोर्ट प्रदान करता है।¹⁵ हाई रेडिक्स कुशल फैब्रिक टोपोलॉजी सक्षम करता है, जिसमें दो-स्तरीय फैट-ट्री न्यूनतम लेटेंसी और इष्टतम जॉब लोकैलिटी के साथ 10,368 ConnectX-8 NIC तक कनेक्ट करने में सक्षम है।¹⁶
प्रदर्शन स्पेसिफिकेशन सबसे मांग वाले AI वर्कलोड को लक्षित करते हैं। पोर्ट-टू-पोर्ट लेटेंसी 100 नैनोसेकंड से कम मापी जाती है।¹⁷ अडैप्टिव राउटिंग ट्रैफिक को उपलब्ध पथों में गतिशील रूप से वितरित करती है। टेलीमेट्री-आधारित कंजेशन कंट्रोल GPU उपयोग को प्रभावित करने से पहले नेटवर्क संतृप्ति को रोकता है।¹⁸
Q3200-RA जैसे मॉडल में डुअल-स्विच एन्क्लोज़र 1.6Tbps एग्रीगेटेड स्विच-टू-स्विच बैंडविड्थ पर 800Gbps के 72 पोर्ट प्रदान करते हैं, जो बड़े AI क्लस्टर के लिए आवश्यक स्पाइन-लीफ टोपोलॉजी सक्षम करते हैं।¹⁹ वैकल्पिक राउटर क्षमताएं कई साइटों पर इन्फिनीबैंड क्लस्टर के विस्तार की सुविधा प्रदान करती हैं, जो भौगोलिक स्थानों में फैले वितरित ट्रेनिंग वातावरण का समर्थन करती हैं।²⁰
SHARP इन-नेटवर्क कंप्यूटिंग बॉटलनेक को समाप्त करती है
NVIDIA का Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) ईथरनेट विकल्पों पर इन्फिनीबैंड के निर्णायक तकनीकी लाभ का प्रतिनिधित्व करता है। all-reduce और broadcast जैसे सामूहिक ऑपरेशन को नेटवर्क स्विच पर ऑफलोड करके, SHARP डेटा ट्रांसफर वॉल्यूम को काफी कम करता है और वितरित ट्रेनिंग के दौरान सर्वर जिटर को न्यूनतम करता है।²¹
चार पीढ़ियों के माध्यम से विकास ने SHARP क्षमताओं का उत्तरोत्तर विस्तार किया:
SHARPv1 वैज्ञानिक कंप्यूटिंग के लिए छोटे-संदेश रिडक्शन ऑपरेशन पर केंद्रित था, जिसने अग्रणी MPI लाइब्रेरी द्वारा अपनाए गए पर्याप्त प्रदर्शन सुधार प्रदर्शित किए।²²
SHARPv2 HDR 200Gbps Quantum स्विच के साथ पेश किया गया और इसमें बड़े संदेश रिडक्शन ऑपरेशन सहित AI वर्कलोड सपोर्ट जोड़ा गया। बेंचमार्क ने BERT ट्रेनिंग प्रदर्शन में 17% सुधार प्रदर्शित किया।²³
SHARPv3 ने मल्टी-टेनेंट इन-नेटवर्क कंप्यूटिंग सक्षम की, जिससे कई AI वर्कलोड एक साथ SHARP क्षमताओं का लाभ उठा सकते हैं। Microsoft Azure ने इस पीढ़ी का उपयोग करके AllReduce लेटेंसी के लिए लगभग एक परिमाण का प्रदर्शन लाभ प्रदर्शित किया।²⁴
SHARPv4 Quantum-X800 और Quantum-X Photonics स्विच के साथ मानक के रूप में आता है, जो GPU-टू-GPU संचार ओवरहेड को न्यूनतम करने वाला इन-नेटवर्क एग्रीगेशन और रिडक्शन सक्षम करता है।²⁵ FP8 प्रिसिजन सपोर्ट के साथ मिलाकर, SHARP v4 बैंडविड्थ और कंप्यूट दोनों मांगों को कम करके ट्रिलियन-पैरामीटर मॉडल की ट्रेनिंग को तेज करता है, तेज कन्वर्जेंस और उच्च थ्रूपुट प्रदान करता है।²⁶
तकनीक NVIDIA Collective Communication Library (NCCL) के साथ एकीकृत होती है, जो वितरित AI ट्रेनिंग फ्रेमवर्क को स्वचालित रूप से SHARP का लाभ उठाने में सक्षम बनाती है। सेवा प्रदाता SHARP एकीकरण के माध्यम से AI वर्कलोड के लिए 10-20% प्रदर्शन सुधार रिपोर्ट करते हैं।²⁷ नेटवर्क स्विच सीधे एग्रीगेशन और रिडक्शन करते हैं, इन कार्यों के लिए CPU और GPU को बायपास करते हुए गैर-SHARP कॉन्फ़िगरेशन की तुलना में AllReduce बैंडविड्थ को दोगुना करते हैं।²⁸
ConnectX-8 SuperNIC 800Gbps एंडपॉइंट प्रदान करता है
Quantum-X800 प्लेटफॉर्म एंड-टू-एंड 800Gbps थ्रूपुट प्राप्त करने के लिए ConnectX-8 SuperNIC एडेप्टर के साथ जोड़ा जाता है।²⁹ C8180 NVIDIA का पहला 800Gbps डुअल-प्रोटोकॉल SuperNIC है जो इन्फिनीबैंड और ईथरनेट दोनों को सपोर्ट करता है, जो AI हाई-परफॉर्मेंस कंप्यूटिंग क्लस्टर, सुपरकंप्यूटिंग नेटवर्क और अगली पीढ़ी के डेटा सेंटर आर्किटेक्चर के लिए डिज़ाइन किया गया है।³⁰
तकनीकी स्पेसिफिकेशन एडेप्टर क्षमताओं को काफी आगे बढ़ाते हैं। सिंगल-पोर्ट OSFP इंटरफेस 800Gbps XDR इन्फिनीबैंड या 400Gbps ईथरनेट के दो पोर्ट प्रदान करता है।³¹ PCIe Gen6 x16 कनेक्टिविटी नेटवर्क स्पीड से मेल खाता होस्ट इंटरफेस बैंडविड्थ प्रदान करती है।³² ऑटो-नेगोशिएशन XDR, NDR, NDR200, HDR, HDR100, EDR, FDR, और SDR इन्फिनीबैंड स्पीड में बैकवर्ड कम्पैटिबिलिटी सपोर्ट करता है।³³
आर्किटेक्चर इनोवेशन रॉ बैंडविड्थ से परे विस्तारित होते हैं। ConnectX-8 ऑन-बोर्ड PCIe स्विचिंग फैब्रिक के साथ नेटिव PCIe Gen6 सपोर्ट एकीकृत करता है, जो बाहरी PCIe स्विच आवश्यकताओं को समाप्त करता है।³⁴ एडेप्टर में x16 कनेक्टर इंटरफेस के पीछे PCIe Gen6 की 48 लेन हैं।³⁵ नेटिव SHARP सपोर्ट एडेप्टर हार्डवेयर में सीधे एग्रीगेशन और रिडक्शन ऑपरेशन को तेज करता है।³⁶
Socket Direct तकनीक डुअल-सॉकेट सर्वर आर्किटेक्चर को संबोधित करती है। समर्पित PCIe इंटरफेस के माध्यम से प्रत्येक CPU से नेटवर्क तक सीधी पहुंच उन सिस्टम में प्रदर्शन में सुधार करती है जहां CPU-टू-नेटवर्क टोपोलॉजी लेटेंसी को प्रभावित करती है।³⁷ GB300 NVL72 PCIe Gen6 SuperNIC क्षमता का पहला डिप्लॉयमेंट है, जो Grace CPU से Gen5 स्पीड पर कनेक्ट करते हुए B300 GPU के लिए Gen6 लिंक बनाए रखता है।³⁸
Unified Fabric Manager स्केल पर ऑर्केस्ट्रेट करता है
UFM प्लेटफॉर्म रीयल-टाइम नेटवर्क टेलीमेट्री को AI-पावर्ड एनालिटिक्स के साथ जोड़कर इन्फिनीबैंड फैब्रिक प्रबंधन में क्रांति लाता है।³⁹ होस्ट-आधारित समाधान फैब्रिक प्रबंधन, राउटिंग, प्रोविजनिंग और ट्रबलशूटिंग पर पूर्ण दृश्यता प्रदान करता है।
UFM आर्किटेक्चर कई कंपोनेंट में फैला है। UFM Server पूर्ण फैब्रिक दृश्यता बनाए रखता है और सभी डिवाइस में राउटिंग प्रबंधित करता है। Managed Switching Devices में UFM कंट्रोल के तहत फैब्रिक स्विच, गेटवे और राउटर शामिल हैं। कंप्यूट नोड्स पर वैकल्पिक UFM Host Agents स्थानीय होस्ट डेटा और डिवाइस प्रबंधन कार्यक्षमता प्रदान करते हैं।⁴⁰
तीन प्लेटफॉर्म टियर विभिन्न परिचालन आवश्यकताओं को संबोधित करते हैं:
UFM Telemetry प्रति पोर्ट 120 से अधिक अद्वितीय काउंटर एकत्र करता है जिसमें बिट एरर रेट, तापमान, हिस्टोग्राम और रीट्रांसमिशन शामिल हैं।⁴¹ डेटा प्रोडक्शन वर्कलोड को प्रभावित करने से पहले मार्जिनल केबल की भविष्यवाणी को सक्षम बनाता है।
UFM Enterprise नेटवर्क मॉनिटरिंग, प्रबंधन, वर्कलोड ऑप्टिमाइज़ेशन और आवधिक कॉन्फ़िगरेशन वैलिडेशन जोड़ता है।⁴² Slurm और Platform LSF के साथ जॉब शेड्यूलर इंटीग्रेशन वर्कलोड शेड्यूलिंग के साथ संरेखित स्वचालित नेटवर्क प्रोविजनिंग सक्षम करता है। OpenStack और Azure इंटीग्रेशन क्लाउड डिप्लॉयमेंट मॉडल सपोर्ट करते हैं।⁴³
UFM Cyber-AI सुपरकंप्यूटिंग परिचालन लागत को कम करने के लिए प्रिवेंटिव मेंटेनेंस और साइबरसिक्योरिटी क्षमताएं प्रदान करता है।⁴⁴ समर्पित अप्लायंस डिप्लॉयमेंट ऑन-प्रिमाइसेस AI-पावर्ड फैब्रिक एनालिसिस सक्षम करता है।
UFM SDK REST API एक्सेस के माध्यम से Grafana, FluentD, Zabbix, और Slurm प्लग-इन सहित व्यापक थर्ड-पार्टी इंटीग्रेशन प्रदान करता है।⁴⁵ ओपन-सोर्स प्रोजेक्ट जॉब कंप्यूट नोड्स में नेटवर्क बैंडविड्थ, कंजेशन, एरर और रिसोर्स यूटिलाइज़ेशन की निगरानी के लिए SLURM इंटीग्रेशन सक्षम करते हैं।
प्रमुख सुपरकंप्यूटर डिप्लॉयमेंट प्लेटफॉर्म को मान्य करते हैं
दुनिया के सबसे बड़े AI सिस्टम NVIDIA इन्फिनीबैंड नेटवर्किंग पर मानकीकृत हैं। वर्तमान और नियोजित डिप्लॉयमेंट स्केल पर Quantum प्लेटफॉर्म क्षमताओं को प्रदर्शित करते हैं।
Stargate AI Data Center ने मार्च 2025 में 64,000 GB200 सिस्टम इंस्टॉल करना शुरू किया, जो मल्टी-एक्साफ्लॉप AI सेवाओं के लिए 800Gbps इन्फिनीबैंड द्वारा इंटरकनेक्टेड हैं।⁴⁶ यह डिप्लॉयमेंट पहले बड़े पैमाने के XDR इम्प्लीमेंटेशन में से एक है।
xAI Colossus Quantum-2 स्विच का उपयोग करके 100,000 H100 GPU संचालित करता है, तीन नेटवर्क टियर में 850-नैनोसेकंड वर्स्ट-केस लेटेंसी बनाए रखता है।⁴⁷ Memphis क्लस्टर xAI के Grok फैमिली के लार्ज लैंग्वेज मॉडल को ट्रेन करता है।
Oracle Zetta-scale Supercluster Quantum इन्फिनीबैंड फैब्रिक से जुड़े 131,000 GB200 GPU की योजना बनाता है, जो अधिकतम-प्रदर्शन AI इंफ्रास्ट्रक्चर के लिए क्लाउड प्रोवाइडर की इन्फिनीबैंड के प्रति प्रतिबद्धता प्रदर्शित करता है।⁴⁸
Lawrence Livermore National Laboratory में El Capitan 200Gbps इन्फिनीबैंड का उपयोग करके 2 एक्साफ्लॉप्स से अधिक होगा, जो वैज्ञानिक कंप्यूटिंग के लिए NDR-क्लास नेटवर्किंग की निरंतर प्रासंगिकता प्रदर्शित करता है।⁴⁹
यूरोप में JUPITER (EUR 250 मिलियन) और Blue Lion (EUR 250 मिलियन) ने सख्त ऊर्जा-दक्षता आवश्यकताओं को पूरा करते हुए वैज्ञानिक वर्कलोड की मांग के प्रदर्शन को प्रदान करने वाले Quantum-2 फैब्रिक का चयन किया।⁵⁰
NVIDIA नेटवर्किंग रेवेन्यू वार्षिक $10 बिलियन तक पहुंच गया, जो लगभग पूरी तरह से कमर्शियल AI क्लाउड को पावर देने वाले इन्फिनीबैंड फैब्रिक से जुड़ा है।⁵¹ Microsoft Azure और Oracle Cloud Infrastructure हाइपरस्केल प्रोवाइडर्स में प्रारंभिक Quantum इन्फिनीबैंड अडॉप्टर्स का प्रतिनिधित्व करते हैं।⁵²
इन्फिनीबैंड बनाम ईथरनेट पोजिशनिंग
बाजार गतिशीलता प्रत्येक तकनीक के लिए विशिष्ट पोजिशनिंग को दर्शाती है। जब Dell'Oro Group ने 2023 के अंत में AI बैक-एंड नेटवर्क कवरेज शुरू किया, इन्फिनीबैंड के पास 80% से अधिक बाजार हिस्सेदारी थी।⁵³ ईथरनेट ने तब से हाइपरस्केलर अडॉप्शन और लागत लाभों के माध्यम से जमीन हासिल की है, 2025 में समग्र बाजार नेतृत्व बनाए रखते हुए।⁵⁴
प्रदर्शन विशेषताएं तकनीकों को अलग करती हैं। इन्फिनीबैंड हार्डवेयर-एक्सेलरेटेड RDMA और इन-नेटवर्क कंप्यूटिंग के माध्यम से सब-माइक्रोसेकंड लेटेंसी प्रदान करता है। ईथरनेट RoCE के साथ ठीक से कॉन्फ़िगर होने पर प्रतिस्पर्धी थ्रूपुट प्राप्त करता है, लेकिन सावधानीपूर्ण लॉसलेस नेटवर्क कॉन्फ़िगरेशन की आवश्यकता होती है और समकक्ष इन-नेटवर्क कंप्यूट क्षमताओं का अभाव है।
लागत संरचनाएं कई डिप्लॉयमेंट के लिए ईथरनेट का पक्ष लेती हैं। 256-1,024 GPU क्लस्टर डिप्लॉय करने वाली टियर 2 और टियर 3 कंपनियां आमतौर पर पाती हैं कि RoCE के साथ ईथरनेट लगभग आधी नेटवर्किंग लागत पर स्वीकार्य प्रदर्शन प्रदान करता है।⁵⁵ इन्फिनीबैंड का मूल्य प्रस्ताव बड़े पैमाने पर मजबूत होता है जहां SHARP इन-नेटवर्क कंप्यूटिंग और सख्त लेटेंसी बाउंड्स अनुवाद करते हैं
[अनुवाद के लिए सामग्री काट-छांट की गई]