NVLink और स्केल-अप नेटवर्किंग: जब 800G Ethernet पर्याप्त नहीं है
अपडेटेड 11 दिसंबर, 2025
दिसंबर 2025 अपडेट: NVLink 5 प्रति GPU 1.8TB/s डिलीवर कर रहा है (18 लिंक × 100GB/s)—PCIe Gen5 बैंडविड्थ से 14 गुना अधिक। GB200 NVL72 72 GPUs को 130TB/s एग्रीगेट के साथ कनेक्ट कर रहा है। NVSwitch 1PB/s कुल बैंडविड्थ के साथ नॉन-ब्लॉकिंग फैब्रिक में 576 GPUs को सक्षम कर रहा है। पांचवीं पीढ़ी का NVLink पहली पीढ़ी (2014) की तुलना में 12 गुना बैंडविड्थ प्राप्त कर रहा है। स्केल-अप नेटवर्किंग ऐसी क्षमताएं बनाती है जो स्केल-आउट नेटवर्क मैच नहीं कर सकते।
एक NVIDIA Blackwell GPU 100 गीगाबाइट प्रति सेकंड पर 18 NVLink कनेक्शन तक सपोर्ट करता है, जो 1.8 टेराबाइट प्रति सेकंड की कुल बैंडविड्थ प्रदान करता है—PCIe Gen5 की बैंडविड्थ से 14 गुना।¹ GB200 NVL72 सिस्टम 72 GPUs को 130 टेराबाइट प्रति सेकंड एग्रीगेट बैंडविड्थ के साथ एक NVLink डोमेन में कनेक्ट करता है।² NVIDIA का NVLink Switch 1 पेटाबाइट प्रति सेकंड से अधिक कुल बैंडविड्थ के साथ नॉन-ब्लॉकिंग कंप्यूट फैब्रिक में 576 GPUs को सक्षम करता है।³ स्केल-अप नेटवर्किंग ऐसी इंफ्रास्ट्रक्चर क्षमताएं बनाती है जो स्केल-आउट Ethernet और InfiniBand नेटवर्क मैच नहीं कर सकते।
स्केल-अप और स्केल-आउट नेटवर्किंग के बीच का अंतर आधुनिक AI इंफ्रास्ट्रक्चर आर्किटेक्चर को परिभाषित करता है। NVLink और NVSwitch नोड्स और रैक के भीतर कम्युनिकेशन को हैंडल करते हैं, बड़े मॉडल्स में टेंसर पैरेललिज्म के लिए आवश्यक बैंडविड्थ और लेटेंसी प्रदान करते हैं। InfiniBand और Ethernet रैक के बीच कम्युनिकेशन को हैंडल करते हैं, हजारों GPUs में डेटा पैरेललिज्म के लिए आवश्यक रीच प्रदान करते हैं। यह समझना कि प्रत्येक तकनीक कब लागू होती है, यह निर्धारित करता है कि इंफ्रास्ट्रक्चर निवेश अपेक्षित प्रदर्शन प्रदान करता है या नहीं।
पांचवीं पीढ़ी NVLink विनिर्देश
पांचवीं पीढ़ी का NVLink पिछली पीढ़ी की तुलना में बैंडविड्थ को दोगुना करता है।⁴ प्रत्येक लिंक 100 गीगाबाइट प्रति सेकंड बाइडायरेक्शनल पर ऑपरेट करता है, प्रति Blackwell GPU 18 लिंक के साथ 1.8 टेराबाइट प्रति सेकंड एग्रीगेट बैंडविड्थ प्रदान करता है।⁵ यह सुधार PCIe Gen5 बैंडविड्थ से 14 गुना से अधिक है।⁶
पीढ़ियों में विकास ट्रैजेक्टरी प्रदर्शित करता है:
| पीढ़ी | आर्किटेक्चर | लिंक्स | प्रति-GPU बैंडविड्थ |
|---|---|---|---|
| पहली (2018) | Volta V100 | 6 | 300 GB/s |
| दूसरी (2020) | Ampere A100 | 12 | 600 GB/s |
| तीसरी (2022) | Hopper H100 | 18 | 900 GB/s |
| चौथी (2024) | Blackwell B200 | 18 | 1.8 TB/s |
पांचवीं पीढ़ी का NVLink 2014 में पेश किए गए पहली पीढ़ी के NVLink की तुलना में 12 गुना बैंडविड्थ प्राप्त करता है।⁷ Hopper से Blackwell तक का दोगुना होना ट्रिलियन-पैरामीटर मॉडल्स की बढ़ती बैंडविड्थ आवश्यकताओं को दर्शाता है।
NVLink 4 में 50 गीगाबाइट प्रति सेकंड से NVLink 5 में 100 गीगाबाइट प्रति सेकंड की प्रति-लिंक बैंडविड्थ वृद्धि समान 18-लिंक कॉन्फ़िगरेशन को कुल थ्रूपुट दोगुना करने में सक्षम बनाती है।⁸ आर्किटेक्चर सिग्नलिंग रेट्स में सुधार करते हुए लिंक काउंट बनाए रखता है।
NVSwitch आर्किटेक्चर विकास
NVIDIA ने 2018 में DGX-2 सिस्टम के साथ NVSwitch पेश किया ताकि एक सिस्टम के भीतर GPUs के बीच पूर्ण इंटरकनेक्टिविटी सक्षम हो सके।⁹ NVSwitch NVLink ट्रैफिक के लिए हाई-स्पीड, नॉन-ब्लॉकिंग क्रॉसबार स्विच के रूप में कार्य करता है, जिससे सिस्टम में प्रत्येक GPU पूर्ण गति से हर दूसरे GPU के साथ संवाद कर सकता है।¹⁰
DGX-2 में पहली पीढ़ी के NVSwitch के माध्यम से कनेक्टेड 16 V100 GPUs थे।¹¹ प्रत्येक NVSwitch चिप ने 900 गीगाबाइट प्रति सेकंड एग्रीगेट स्विचिंग क्षमता के साथ 18 NVLink पोर्ट प्रदान किए।¹² TSMC 12nm पर फैब्रिकेटेड 100-वाट चिप में 2 बिलियन ट्रांजिस्टर थे।¹³
दूसरी पीढ़ी का NVSwitch 2020 में DGX A100 के साथ आया, जो प्रति GPU 600 गीगाबाइट प्रति सेकंड पर NVLink 3.0 को सपोर्ट करता था।¹⁴ छह NVSwitch चिप्स ने आठ A100 GPUs के लिए पूरी तरह से कनेक्टेड नेटवर्क टोपोलॉजी बनाई।¹⁵
Hopper के लिए तीसरी पीढ़ी का NVSwitch प्रति चिप 25.6 टेराबिट प्रति सेकंड कुल बाइडायरेक्शनल बैंडविड्थ तक बढ़ा।¹⁶ प्रत्येक HGX H100 और HGX H200 सिस्टम में चार NVSwitch चिप्स आठ GPUs में 3.6 टेराबाइट प्रति सेकंड बाइडायरेक्शनल नेटवर्क बैंडविड्थ प्रदान करते हैं।¹⁷ तीसरी पीढ़ी के NVSwitch ने इन-नेटवर्क कंप्यूटेशन के लिए SHARP फंक्शनलिटी पेश की, जो व्यक्तिगत GPUs के राउंड ट्रिप्स की आवश्यकता के बिना कई GPU यूनिट्स में परिणामों को एग्रीगेट और अपडेट करती है।¹⁸
Blackwell के लिए चौथी पीढ़ी का NVSwitch प्रति चिप 72 NVLink 5.0 पोर्ट्स फीचर करता है।¹⁹ NVLink 5 Switch 14.4 टेराबाइट प्रति सेकंड नॉन-ब्लॉकिंग स्विचिंग क्षमता के साथ 144 NVLink पोर्ट प्रदान करता है।²⁰ इस पीढ़ी ने रैक-लेवल स्विचिंग पेश की, NVSwitch को सर्वर से डेडिकेटेड स्विच ट्रे में मूव किया।
GB200 NVL72 स्केल-अप आर्किटेक्चर
GB200 NVL72 रैक-स्केल, लिक्विड-कूल्ड डिज़ाइन में 36 Grace CPUs और 72 Blackwell GPUs को कनेक्ट करता है।²¹ 72-GPU NVLink डोमेन एक सिंगल, मैसिव GPU के रूप में कार्य करता है और पिछली पीढ़ियों की तुलना में 30 गुना तेज रियल-टाइम ट्रिलियन-पैरामीटर लार्ज लैंग्वेज मॉडल इंफरेंस प्रदान करता है।²²
फिजिकल आर्किटेक्चर कंप्यूट ट्रे और स्विच ट्रे में कंपोनेंट्स को डिस्ट्रीब्यूट करता है।²³ प्रत्येक कंप्यूट ट्रे में दो GB200 Superchips होते हैं, प्रत्येक Superchip में दो B200 GPUs और एक Grace CPU होता है।²⁴ सिस्टम में कुल 72 GPUs के साथ 18 कंप्यूट ट्रे होते हैं।
नौ NVLink स्विच ट्रे फुल-मेश कनेक्टिविटी प्रदान करते हैं।²⁵ प्रत्येक स्विच ट्रे में कुल 144 NVLink पोर्ट्स के साथ दो NVLink Switch चिप्स होते हैं।²⁶ नौ स्विच प्रत्येक Blackwell GPU पर प्रत्येक 18 NVLink पोर्ट्स को पूरी तरह से कनेक्ट करते हैं।²⁷
सिंगल सर्वर या कंप्यूट ट्रे के भीतर कोई डायरेक्ट GPU-टू-GPU कनेक्टिविटी नहीं है।²⁸ सभी कम्युनिकेशन एक्सटर्नल NVSwitch फैब्रिक के माध्यम से रूट होता है।²⁹ यह आर्किटेक्चर कनेक्टिविटी के दृष्टिकोण से सभी 72 GPUs को समतुल्य बनाता है—कोई भी GPU समान बैंडविड्थ और लेटेंसी पर किसी भी अन्य के साथ संवाद कर सकता है।³⁰
130 टेराबाइट प्रति सेकंड एग्रीगेट NVLink बैंडविड्थ सभी 72 GPUs में टेंसर पैरेललिज्म सक्षम करती है।³¹ सिंगल-GPU मेमोरी क्षमता से अधिक बड़े मॉडल न्यूनतम कम्युनिकेशन ओवरहेड के साथ पूरे डोमेन में टेंसर्स डिस्ट्रीब्यूट कर सकते हैं। आर्किटेक्चर स्केल-अप वर्कलोड्स के लिए सर्वर और रैक नेटवर्किंग के बीच पारंपरिक सीमा को समाप्त करता है।
स्केल-अप बनाम स्केल-आउट नेटवर्किंग
स्केल-अप नेटवर्किंग (NVLink) और स्केल-आउट नेटवर्किंग (InfiniBand और Ethernet) AI इंफ्रास्ट्रक्चर में मौलिक रूप से अलग-अलग उद्देश्यों की सेवा करते हैं।³²
NVLink एक सिंगल डोमेन के भीतर GPUs के बीच तेज कम्युनिकेशन में उत्कृष्ट है—InfiniBand से कहीं अधिक तेज, लोकल कनेक्शन के लिए टेराबाइट प्रति सेकंड के क्रम में बैंडविड्थ।³³ कम लेटेंसी और हाई बैंडविड्थ टेंसर पैरेललिज्म को सपोर्ट करती है, जहां मॉडल वेट्स GPUs में डिस्ट्रीब्यूट होते हैं और हर लेयर पर सिंक्रोनाइज होने चाहिए। NVLink की 1.8 टेराबाइट प्रति सेकंड प्रति GPU इस सिंक्रोनाइजेशन को बॉटलनेक बने बिना सक्षम करती है।
एक बार कम्युनिकेशन नोड बाउंड्रीज को पार कर लेता है तो NVLink मदद नहीं करता।³⁴ इंटर-नोड नेटवर्किंग के लिए इंट्रा-नोड NVLink क्षमता के बावजूद InfiniBand या Ethernet की आवश्यकता होती है। ये तकनीकें हायरार्की की विभिन्न लेयर्स पर ऑपरेट करती हैं।
InfiniBand हजारों सर्वर नोड्स को कनेक्ट करने के लिए इंडस्ट्री स्टैंडर्ड प्रदान करता है।³⁵ Remote Direct Memory Access (RDMA) सर्वर को CPU और OS ओवरहेड को बायपास करते हुए सीधे मेमोरी स्पेस के बीच डेटा एक्सचेंज करने की अनुमति देता है।³⁶ यह फीचर डेटा पैरेललिज्म का उपयोग करने वाली लार्ज-स्केल डिस्ट्रीब्यूटेड ट्रेनिंग के लिए आवश्यक साबित होता है, जहां प्रत्येक नोड अलग-अलग बैच प्रोसेस करता है और ग्रेडिएंट्स सिंक्रोनाइज करता है।
InfiniBand स्केल पर AI ट्रेनिंग के लिए गोल्ड स्टैंडर्ड बना हुआ है, दुनिया के 270 से अधिक टॉप सुपरकंप्यूटर को कनेक्ट करता है।³⁷ एडैप्टिव रूटिंग, कंजेशन कंट्रोल और RDMA क्षमताएं विशेष रूप से सिंक्रोनस, हाई-परफॉर्मेंस कंप्यूटिंग के लिए डिज़ाइन की गई थीं।
स्केल-आउट डिप्लॉयमेंट के लिए Ethernet InfiniBand से आगे निकल रहा है।³⁸ NVIDIA का Spectrum-X InfiniBand इनोवेशन को Ethernet में लाता है, जिसमें टेलीमेट्री-ड्रिवन कंजेशन कंट्रोल, एडैप्टिव लोड बैलेंसिंग और डायरेक्ट डेटा प्लेसमेंट शामिल है।³⁹ Spectrum-X के साथ लार्ज-स्केल सिस्टम ने शून्य एप्लिकेशन लेटेंसी डिग्रेडेशन के साथ 95% डेटा थ्रूपुट हासिल किया है, जबकि स्टैंडर्ड Ethernet फैब्रिक से केवल 60% थ्रूपुट।⁴⁰
हायरार्किकल मॉडल इन तकनीकों को उचित रूप से संयोजित करता है। NVLink रैक के भीतर स्केल-अप को हैंडल करता है, स्केल-आउट नेटवर्किंग की तुलना में लगभग 18 गुना बैंडविड्थ प्रदान करता है।⁴¹ InfiniBand या Ethernet रैक के बीच स्केल-आउट को हैंडल करता है, हजारों नोड्स में रीच प्रदान करता है। GB200 NVL72 सिस्टम में प्रत्येक GPU ट्रे में इंटर-रैक कम्युनिकेशन के लिए 800 गीगाबिट प्रति सेकंड RDMA NICs शामिल हैं।⁴²
576-GPU डोमेन और SuperPOD आर्किटेक्चर
NVLink Switch नॉन-ब्लॉकिंग कंप्यूट फैब्रिक में 576 पूर्णतः कनेक्टेड GPUs को सक्षम करता है।⁴³ आठ GB200 NVL72 रैक एक SuperPOD बनाते हैं, जो 1 पेटाबाइट प्रति सेकंड से अधिक कुल बैंडविड्थ और 240 टेराबाइट फास्ट मेमोरी के साथ 576 GPUs का सुपरनोड बनाता है।⁴⁴
DGX SuperPOD स्केलेबल यूनिट्स (SU) पर बनाया गया है, प्रत्येक में आठ DGX GB200 सिस्टम होते हैं।⁴⁵ मॉड्यूलर डिज़ाइन किसी भी स्केल पर SuperPODs की रैपिड डिप्लॉयमेंट सक्षम करता है। रेफरेंस आर्किटेक्चर में InfiniBand, NVLink नेटवर्क, Ethernet फैब्रिक टोपोलॉजीज, स्टोरेज सिस्टम, रैक लेआउट और वायरिंग के लिए स्पेसिफिकेशन शामिल हैं।⁴⁶
576-GPU डोमेन SuperPOD में सभी रैक में पूर्णतः कनेक्टेड NVLink टोपोलॉजी बनाए रखता है।⁴⁷ कोई भी GPU स्केल-आउट नेटवर्किंग को ट्रैवर्स किए बिना 1.8 टेराबाइट प्रति सेकंड पर किसी भी अन्य के साथ संवाद कर सकता है।⁴⁸ डोमेन साइज वर्तमान में ट्रेनिंग में सबसे बड़े फाउंडेशन मॉडल्स की आवश्यकताओं से मेल खाता है।
SuperPOD डिप्लॉयमेंट के लिए ऑन-प्रिमाइसेस इंस्टॉलेशन की आवश्यकता होती है।⁴⁹ कस्टमर अपने डेटा सेंटर या को-लोकेटेड कमर्शियल फैसिलिटीज के भीतर हार्डवेयर के मालिक होते हैं और उसे मैनेज करते हैं। आर्किटेक्चर NVIDIA के इंटरनल रिसर्च और डेवलपमेंट सिस्टम को मिरर करता है, जिसका मतलब है कि इंफ्रास्ट्रक्चर सॉफ्टवेयर, एप्लिकेशन और सपोर्ट समान कॉन्फ़िगरेशन पर टेस्ट किए जाते हैं।⁵⁰
क्लाउड प्रोवाइडर Microsoft Azure, Oracle Cloud और CoreWeave ने 2025 में उपलब्ध होने पर X800 आर्किटेक्चर को सपोर्ट करने की प्रतिबद्धता जताई।⁵¹ क्लाउड डिप्लॉयमेंट SuperPOD क्षमताओं को उन ऑर्गनाइजेशन तक विस्तारित करते हैं जो डेडिकेटेड ऑन-प्रिमाइसेस इंफ्रास्ट्रक्चर को जस्टिफाई नहीं कर सकते।
एंटरप्राइज Kubernetes डिप्लॉयमेंट
Multi-Node NVLink (MNNVL) सिस्टम को स्पेशलाइज्ड Kubernetes कॉन्फ़िगरेशन की आवश्यकता होती है।⁵² Kubernetes नेटिवली NVIDIA के MNNVL आर्किटेक्चर को नहीं पहचानता, जिससे वर्कलोड मैनेजमेंट और शेड्यूलिंग स्टैंडर्ड GPU डिप्लॉयमेंट की तुलना में अधिक जटिल हो जाती है।⁵³
डिप्लॉयमेंट आवश्यकताओं में Kubernetes 1.32 या बाद का और NVIDIA GPU Operator वर्जन 25.3 या उससे ऊपर शामिल है।⁵⁴ GPU Operator वर्जन में Dynamic Resource Allocation (DRA) ड्राइवर शामिल होना चाहिए, जो GB200 एक्सेलरेटेड नेटवर्किंग रिसोर्सेज और ComputeDomain फीचर के लिए सपोर्ट प्रदान करता है।⁵⁵ NVIDIA Network Operator नेटवर्क कॉन्फ़िगरेशन को हैंडल करता है।
IMEX सर्विस NVLink मल्टी-नोड डिप्लॉयमेंट में OS डोमेन में GPU मेमोरी एक्सपोर्ट और इंपोर्ट को सपोर्ट करती है।⁵⁶ यह सर्विस डोमेन में NVLink पीयर-टू-पीयर कम्युनिकेशन और शेयर्ड मेमोरी ऑपरेशन सक्षम करती है।
जब डिस्ट्रीब्यूटेड वर्कलोड MNNVL नोड पूल्स को टार्गेट करते हैं, तो प्लेटफॉर्म NVLink डोमेन असाइनमेंट मैनेज करने के लिए ComputeDomain Custom Resource Definition (CRD) बनाता है।⁵⁷ ComputeDomain का रेफरेंस ऑटोमैटिकली रिसोर्स क्लेम के रूप में वर्कलोड स्पेसिफिकेशन से अटैच होता है, जिससे शेड्यूलर वर्कलोड को विशिष्ट NVLink डोमेन से बाइंड कर सकता है।⁵⁸
Pod affinity rules MNNVL लेबल की (nvidia.com/gpu.clique) को टोपोलॉजी की के रूप में उपयोग करते हैं।⁵⁹ कॉन्फ़िगरेशन सुनिश्चित करता है कि डिस्ट्रीब्यूटेड वर्कलोड के भीतर pods NVLink इंटरकनेक्ट वाले नोड्स पर लैंड करें, परफॉर्मेंस के लिए आवश्यक टोपोलॉजी बनाए रखें।⁶⁰
इंफ्रास्ट्रक्चर प्लानिंग विचार
NVLink इंफ्रास्ट्रक्चर का मूल्यांकन करने वाले ऑर्गनाइजेशन को पहले वर्कलोड विशेषताओं पर विचार करना चाहिए। बड़े मॉडल्स में टेंसर पैरेललिज्म सीधे NVLink बैंडविड्थ से लाभान्वित होता है। कई छोटे मॉडल्स में डेटा पैरेललिज्म को NVLink की क्षमताओं की आवश्यकता नहीं हो सकती और यह अकेले स्केल-आउट नेटवर्किंग के साथ पर्याप्त प्रदर्शन प्राप्त कर सकता है।
GB200 NVL72 एक महत्वपूर्ण इंफ्रास्ट्रक्चर प्रतिबद्धता का प्रतिनिधित्व करता है। लिक्विड कूलिंग आवश्यकताएं, रैक-स्केल इंटीग्रेशन और स्पेशलाइज्ड नेटवर्किंग एयर-कूल्ड, सर्वर-सेंट्रिक आर्किटेक्चर की जटिलता से अधिक है। ऑर्गनाइजेशन को कमिट करने से पहले वैलिडेट करना चाहिए कि वर्कलोड को इन क्षमताओं की आवश्यकता है।
पावर और कूलिंग इंफ्रास्ट्रक्चर को प्रारंभिक डिप्लॉयमेंट से लिक्विड कूलिंग को अकोमोडेट करना चाहिए। GB200 NVL72 एयर कूलिंग के साथ ऑपरेट नहीं कर सकता। डिप्लॉयमेंट के बाद लिक्विड कूलिंग के लिए फैसिलिटीज को रेट्रोफिट करना महंगा और विघटनकारी है।
नेटवर्क प्लानिंग को स्केल-अप और स्केल-आउट दोनों आवश्यकताओं को संबोधित करना चाहिए। NVLink फैब्रिक इंट्रा-रैक कम्युनिकेशन को हैंडल करता है, लेकिन इंटर
[अनुवाद के लिए सामग्री काट दी गई]