DPUs और SmartNICs: डेटा सेंटर कंप्यूटिंग का तीसरा स्तंभ

DPU SmartNIC बाजार 2024 में $1.11B तक पहुंचा, 2034 तक $4.44B का अनुमान (15% CAGR)। 50% क्लाउड प्रदाता अब DPUs का उपयोग कर रहे हैं; 35% AI प्रशिक्षण DPUs पर ऑफलोड किया गया। BlueField-3 सेवा ऑफलोड में 300 CPU कोर के बराबर प्रदर्शन दे रहा है। BlueField-4 की घोषणा 800Gbps और 6x कंप्यूट के साथ। AMD Pensando Elba P4 प्रोग्रामेबिलिटी के साथ ड्यूअल 200GbE शिपिंग।

DPUs और SmartNICs: डेटा सेंटर कंप्यूटिंग का तीसरा स्तंभ

DPUs और SmartNICs: डेटा सेंटर कंप्यूटिंग का तीसरा स्तंभ

11 दिसंबर, 2025 को अपडेट किया गया

दिसंबर 2025 अपडेट: DPU SmartNIC बाजार 2024 में $1.11B तक पहुंचा, 2034 तक $4.44B का अनुमान (15% CAGR)। 50% क्लाउड प्रदाता अब DPUs का उपयोग कर रहे हैं; 35% AI प्रशिक्षण DPUs पर ऑफलोड किया गया। BlueField-3 सेवा ऑफलोड में 300 CPU कोर के बराबर प्रदर्शन दे रहा है। BlueField-4 की घोषणा 800Gbps और 6x कंप्यूट के साथ। AMD Pensando Elba P4 प्रोग्रामेबिलिटी के साथ ड्यूअल 200GbE शिपिंग।

DPU SmartNIC बाजार 2024 में $1.11 बिलियन तक पहुंचा और 14.89% चक्रवृद्धि वार्षिक वृद्धि दर पर 2034 तक $4.44 बिलियन तक बढ़ेगा।¹ लगभग 50% क्लाउड सेवा प्रदाता अब वर्कलोड अनुकूलन के लिए DPUs पर निर्भर हैं।² लगभग 35% AI मॉडल प्रशिक्षण कार्य बेहतर दक्षता और प्रदर्शन के लिए DPUs पर ऑफलोड किए जाते हैं।³ उद्योग के अग्रणी तेजी से DPUs को CPUs और GPUs के साथ कंप्यूटिंग का तीसरा स्तंभ मान रहे हैं—वे समर्पित प्रोसेसर जो इंफ्रास्ट्रक्चर में डेटा को सुरक्षित रूप से स्थानांतरित करते हैं।⁴

AI क्लस्टर्स ने डेटा सेंटर के भीतर ट्रैफिक पैटर्न को बदल दिया है। अधिकांश ट्रैफिक अब मॉडल प्रशिक्षण और चेकपॉइंटिंग के दौरान GPUs के बीच पूर्व-पश्चिम बहता है, न कि एप्लिकेशन और इंटरनेट के बीच उत्तर-दक्षिण।⁵ DPU एक वैकल्पिक एक्सेलेरेटर से आवश्यक इंफ्रास्ट्रक्चर में विकसित हुआ है जो CPU बॉटलनेक को GPU उपयोग को बाधित करने से रोकता है।⁶ AI इंफ्रास्ट्रक्चर बनाने वाले संगठनों को DPU चयन का मूल्यांकन GPU और CPU विकल्पों की तरह ही सावधानी से करना चाहिए।

NVIDIA BlueField-3: इंफ्रास्ट्रक्चर मानक

NVIDIA BlueField-3 तीसरी पीढ़ी के डेटा सेंटर इंफ्रास्ट्रक्चर-ऑन-ए-चिप का प्रतिनिधित्व करता है, जो संगठनों को क्लाउड से कोर डेटा सेंटर से एज तक सॉफ्टवेयर-परिभाषित, हार्डवेयर-त्वरित IT इंफ्रास्ट्रक्चर बनाने में सक्षम बनाता है।⁷ 22-बिलियन ट्रांजिस्टर DPU सॉफ्टवेयर-परिभाषित नेटवर्किंग, स्टोरेज, सुरक्षा और प्रबंधन कार्यों को ऑफलोड, त्वरित और अलग करता है।⁸

नेटवर्क कनेक्टिविटी Ethernet या NDR InfiniBand के माध्यम से 400 गीगाबिट्स प्रति सेकंड तक पहुंचती है।⁹ पोर्ट कॉन्फ़िगरेशन विभिन्न बैंडविड्थ संयोजनों के विकल्पों के साथ 1, 2, या 4 पोर्ट तक फैला हुआ है।¹⁰ ऑन-बोर्ड मेमोरी में हाफ-हाइट हाफ-लेंथ और फुल-हाइट हाफ-लेंथ PCIe कार्ड सहित फॉर्म फैक्टर विकल्पों के साथ 16 गीगाबाइट DDR5 शामिल है।¹¹

BlueField-3 पिछली पीढ़ी की तुलना में 10 गुना त्वरित कंप्यूट पावर प्रदान करता है।¹² प्रोसेसर कॉम्प्लेक्स में BlueField-2 की तुलना में 4 गुना क्रिप्टोग्राफी त्वरण के साथ 16 ARM A78 कोर हैं।¹³ नेटवर्क बैंडविड्थ दोगुनी हुई जबकि कंप्यूट पावर चार गुना और मेमोरी बैंडविड्थ लगभग 5 गुना बढ़ी।¹⁴

प्रदर्शन समतुल्यता कहानी बताती है। एक BlueField-3 DPU 300 CPU कोर तक के समकक्ष डेटा सेंटर सेवाएं प्रदान करता है, व्यापार-महत्वपूर्ण एप्लिकेशन के लिए मूल्यवान CPU साइकिल मुक्त करता है।¹⁵ ऑफलोड अनुपात उन संगठनों के लिए DPU निवेश को उचित ठहराता है जहां CPU क्षमता वर्कलोड डिप्लॉयमेंट को बाधित करती है।

BlueField-3 पांचवीं पीढ़ी के PCIe का समर्थन करने और समय-समन्वयित डेटा सेंटर त्वरण प्रदान करने वाला पहला DPU है।¹⁶ अधिकतम बिजली खपत 150 वाट से अधिक नहीं है।¹⁷

उपयोग के मामले पूर्ण इंफ्रास्ट्रक्चर स्टैक में फैले हैं: स्टोरेज के लिए एन्क्रिप्शन, डेटा इंटीग्रिटी, डीडुप्लिकेशन, डीकंप्रेशन और इरेजर कोडिंग के साथ हाइपरकन्वर्ज्ड इंफ्रास्ट्रक्चर; सुरक्षा के लिए वितरित फायरवॉल, IDS/IPS, रूट ऑफ ट्रस्ट, माइक्रोसेगमेंटेशन और DDoS रोकथाम; HPC/AI के लिए मल्टी-टेनेंसी और संचार त्वरण के साथ क्लाउड-नेटिव सुपरकंप्यूटिंग; और टेलीकॉम और एज एप्लिकेशन के लिए Cloud RAN, वर्चुअलाइज्ड एज गेटवे और VNF त्वरण।¹⁸

NVIDIA ने उत्तराधिकारी के रूप में BlueField-4 की घोषणा की—नेटवर्किंग, डेटा स्टोरेज और साइबर सुरक्षा के लिए त्वरण के साथ BlueField-3 की 6 गुना कंप्यूट प्रदान करने वाला गीगास्केल AI फैक्ट्रियों के लिए 800 गीगाबिट्स प्रति सेकंड इंफ्रास्ट्रक्चर प्लेटफॉर्म।¹⁹

AMD Pensando: हाइपरस्केलर की पसंद

AMD ने 2022 में Pensando Systems का अधिग्रहण किया, P4-प्रोग्रामेबल DPU तकनीक को AMD के डेटा सेंटर पोर्टफोलियो में लाया।²⁰ Pensando DPUs को कुछ सबसे बड़े हाइपरस्केल डेटा सेंटर में फ्रंट-एंड नेटवर्किंग समाधान के रूप में व्यापक रूप से अपनाया, मान्य और परीक्षण किया गया है।²¹

दूसरी पीढ़ी का AMD Pensando Elba DPU पूरी तरह से P4 प्रोग्रामेबल है और ड्यूअल 200 गीगाबिट्स प्रति सेकंड लाइन रेट पर नेटवर्किंग, स्टोरेज और सुरक्षा सेवाओं के उन्नत ऑफलोड के लिए अनुकूलित है।²²

Elba SoC में 16 ARM Cortex-A72 कोर, ड्यूअल DDR4/DDR5 मेमोरी कंट्रोलर, PCIe Gen3 या Gen4 कनेक्टिविटी की 32 लेन, ड्यूअल 200GbE या क्वाड 100GbE नेटवर्किंग तक, और स्टोरेज और क्रिप्टो ऑफलोडिंग क्षमताएं हैं।²³

आर्किटेक्चर Match-Processing Units (MPUs) पर केंद्रित है जहां software-in-silicon निष्पादित होता है और त्वरित फास्ट-पाथ सेवाएं प्रदान करता है।²⁴ सिस्टम मेमोरी सामान्य-उद्देश्य ARM कोर और डोमेन-विशिष्ट MPUs दोनों से जुड़ती है।²⁵ P4 पाइपलाइन प्रदर्शन से समझौता किए बिना नेटवर्किंग, स्टोरेज, टेलीमेट्री, SDN, सुरक्षा, कंजेशन प्रबंधन और RDMA को एक साथ संभालती है।²⁶

प्रोग्रामेबल पाइपलाइन लाइन रेट पर VxLAN टनल एनकैप्सुलेशन और डीकैप्सुलेशन, IPv4/v6 रूटिंग, स्टेटलेस और स्टेटफुल सुरक्षा नियम, नेटवर्क एड्रेस ट्रांसलेशन, सर्वर लोड बैलेंसिंग, एन्क्रिप्शन सेवाएं, VLAN से VPC मैपिंग और VPC पीयरिंग प्रदान करती है।²⁷

AMD Pensando DPUs पर SONiC OS चलाने वाली SAI (Switch Abstraction Interface) संदर्भ पाइपलाइन प्रदान करता है।²⁸ एकीकरण SSDK के माध्यम से पूर्ण DPU क्षमताओं का लाभ उठाते हुए रूटिंग स्टैक, प्रबंधन इंटरफेस और मॉनिटरिंग सहित SONiC-प्रदत्त सेवाओं को सक्षम करता है।²⁹

AMD ने Pensando Salina को 400G उत्तराधिकारी के रूप में पेश किया जो फ्रंट-एंड नेटवर्क एप्लिकेशन में सीधे NVIDIA BlueField-3 से प्रतिस्पर्धा करने के लिए डिज़ाइन किया गया है।³⁰ Pensando Pollara 400 AI NIC 2025 की पहली छमाही में व्यावसायिक रूप से उपलब्ध हुआ, RDMA और कंजेशन कंट्रोल सहित उन्नत क्षमताओं के माध्यम से AI और HPC नेटवर्किंग को अनुकूलित करता है।³¹

नया Giglio DPU Elba पर सोर्स-कोड संगतता के साथ निर्मित है, जो मौजूदा ग्राहकों को न्यूनतम सॉफ्टवेयर परिवर्तनों के साथ नए प्लेटफॉर्म को अपनाने में सक्षम बनाता है।³²

VMware चलाने वाले उद्यमों के लिए, व्यावहारिक विकल्प NVIDIA BlueField-2 या AMD Pensando DSC2 तक सीमित हो जाते हैं।³³ VMware इकोसिस्टम सपोर्ट उस वर्चुअलाइजेशन प्लेटफॉर्म के लिए प्रतिबद्ध संगठनों के विकल्पों को सीमित करता है।

Intel IPU E2100: क्लाउड-नेटिव दृष्टिकोण

Intel का Infrastructure Processing Unit (IPU) Adapter E2100 इंफ्रास्ट्रक्चर त्वरण, वर्चुअल स्टोरेज सक्षमता और बढ़ी हुई सुरक्षा सुविधाएं प्रदान करता है।³⁴ E2100 SoC पावर, प्रदर्शन और स्केल के लिए अनुकूलित इंफ्रास्ट्रक्चर त्वरण प्लेटफॉर्म है।³⁵

हार्डवेयर में 200GbE बैंडविड्थ के साथ एक समृद्ध पैकेट-प्रोसेसिंग पाइपलाइन है और इसमें NVMe, कंप्रेशन और क्रिप्टो एक्सेलेरेटर शामिल हैं।³⁶ ARM Neoverse N1 कंप्यूट कॉम्प्लेक्स ग्राहक-प्रदत्त सॉफ्टवेयर को जटिल पैकेट-प्रोसेसिंग पाइपलाइन से लेकर स्टोरेज ट्रांसपोर्ट, डिवाइस प्रबंधन और टेलीमेट्री तक सुविधाओं को निष्पादित करने की अनुमति देता है।³⁷

E2100 में 32 मेगाबाइट कैश और कुल 48 गीगाबाइट के लिए 16GB LPDDR4x मेमोरी के 3 चैनलों के साथ 16 ARM Neoverse N1 कोर हैं।³⁸

मॉडल वेरिएंट विभिन्न डिप्लॉयमेंट आवश्यकताओं को संबोधित करते हैं। E2100-CCQDA2 Q1 2024 में 150W TDP के साथ ड्यूअल-पोर्ट कॉन्फ़िगरेशन में लॉन्च हुआ जो हाफ-लेंथ, फुल-हाइट, सिंगल-स्लॉट फॉर्म फैक्टर में PCIe 4.0 पर 200/100/50/25/10GbE डेटा रेट का समर्थन करता है।³⁹ E2100-CCQDA2HL Q4 2024 में समान ड्यूअल-पोर्ट कॉन्फ़िगरेशन में कम 75W TDP के साथ लॉन्च हुआ।⁴⁰

कनेक्टिविटी DAC, ऑप्टिक्स और AOC केबल का समर्थन करने वाले QSFP56 पोर्ट का उपयोग करती है।⁴¹ वर्चुअलाइजेशन सपोर्ट में Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV और RoCEv2/RDMA शामिल हैं।⁴²

Intel IPU वंशावली Mt Evans प्रोजेक्ट से जुड़ी है जो विशेष रूप से Google Cloud के लिए AWS Nitro की तरह कार्य करने के लिए डिज़ाइन किया गया था, NVMe over Fabric और नेटवर्क सुरक्षा को ऑफलोड करता है।⁴³ E2100 गैर-Google ग्राहकों के लिए उपलब्ध पहला संस्करण है।⁴⁴

उपयोग के मामलों में इंफ्रास्ट्रक्चर वर्कलोड का पृथक्करण और अलगाव, वर्चुअलाइज्ड नेटवर्क को IPU पर ऑफलोड करना जहां एक्सेलेरेटर कार्यों को अधिक कुशलता से प्रोसेस करते हैं, और स्थानीय डिस्क स्टोरेज को डिटैच्ड वर्चुअलाइज्ड स्टोरेज से बदलना शामिल है।⁴⁵

बाजार गतिशीलता और अपनाने के पैटर्न

DPU बाजार अलग-अलग उपयोग के मामले खंडों में विभाजित है। डेटा सेंटर ऑफलोड अग्रणी है, जो हाइपरस्केल डेटा सेंटर विस्तार और जटिल, डेटा-भारी कंप्यूटिंग वर्कलोड की बढ़ती मांगों से प्रेरित है।⁴⁶ उत्तरी अमेरिका सबसे बड़ा राजस्व हिस्सा रखता है, जो बढ़ते साइबर सुरक्षा खतरों, जीरो-ट्रस्ट सुरक्षा फ्रेमवर्क के बढ़ते अपनाने और AI और मशीन लर्निंग इंफ्रास्ट्रक्चर में महत्वपूर्ण निवेश से प्रेरित है।⁴⁷

अपनाने के पैटर्न स्पष्ट वर्कलोड संरेखण दिखाते हैं। लगभग 30% डिप्लॉयमेंट AI वर्कलोड पर केंद्रित हैं जबकि 20% जीरो-ट्रस्ट सुरक्षा आर्किटेक्चर को लक्षित करते हैं।⁴⁸ हार्डवेयर-आधारित सुरक्षा त्वरण वाले DPUs में 30% वृद्धि देखी गई है, जो जीरो-ट्रस्ट सिद्धांतों पर उद्योग की प्राथमिकता को दर्शाती है।⁴⁹

AI ट्रैफिक पैटर्न DPU की आवश्यकता को चलाते हैं। प्रशिक्षण के दौरान GPUs के बीच पूर्व-पश्चिम ट्रैफिक आधुनिक AI क्लस्टर संचार पर हावी है।⁵⁰ होस्ट CPU बॉटलनेक बने बिना लाइन रेट पर इस ट्रैफिक को प्रोसेस नहीं कर सकता। DPUs नेटवर्क प्रोसेसिंग को संभालते हैं जो अन्यथा ऑर्केस्ट्रेशन और कंट्रोल प्लेन फंक्शन के लिए आवश्यक CPU साइकिल को खपत करेगी।

प्रतिस्पर्धी परिदृश्य में अलग-अलग स्थिति के साथ तीन प्राथमिक विक्रेता हैं। NVIDIA अपने व्यापक AI इंफ्रास्ट्रक्चर इकोसिस्टम में BlueField एकीकरण और सबसे मजबूत InfiniBand सपोर्ट के साथ अग्रणी है।⁵¹ AMD Pensando सिद्ध उत्पादन स्केल और P4 प्रोग्रामेबिलिटी के साथ हाइपरस्केलर डिप्लॉयमेंट पर हावी है।⁵² Intel Nitro-प्रेरित IPU डिज़ाइन के साथ क्लाउड-नेटिव आर्किटेक्चर को लक्षित करता है।⁵³

Marvell का OCTEON 10 अगली पीढ़ी के चैलेंजर का प्रतिनिधित्व करता है—ARM Neoverse N2 कोर के साथ उद्योग का पहला 5nm DPU जो पिछली पीढ़ियों की तुलना में 3 गुना उच्च कंप्यूटिंग प्रदर्शन और 50% कम बिजली खपत प्रदान करता है।⁵⁴ इनलाइन ML/AI के लिए नवीन हार्डवेयर एक्सेलेरेटर सॉफ्टवेयर-आधारित इनफरेंस पर 100 गुना प्रदर्शन बूस्ट प्रदान करते हैं।⁵⁵

जीरो-ट्रस्ट सुरक्षा कार्यान्वयन

DPUs होस्ट CPUs को शामिल किए बिना नेटवर्क एज पर जीरो-ट्रस्ट सुरक्षा प्रवर्तन सक्षम करते हैं।⁵⁶ आर्किटेक्चर नेटवर्क एग्रीगेशन पॉइंट के बजाय डेटा स्रोत पर पॉलिसी प्रवर्तन रखता है।

L4 फायरवॉल सीधे DPU पर चलते हैं, ट्रैफिक के होस्ट तक पहुंचने से पहले पॉलिसी लागू करते हैं।⁵⁷ NVIDIA का BlueField DPU माइक्रोसेगमेंटेशन का समर्थन करता है, जो ऑपरेटरों को होस्ट CPU भागीदारी के बिना GPU वर्कलोड पर जीरो-ट्रस्ट सिद्धांत लागू करने की अनुमति देता है।⁵⁸

सुरक्षा मॉडल विशेष रूप से मल्टी-टेनेंट AI इंफ्रास्ट्रक्चर के लिए महत्वपूर्ण है। जब कई ग्राहक GPU क्लस्टर साझा करते हैं, तो DPU नेटवर्क स्तर पर टेनेंट के बीच अलगाव लागू करता है।⁵⁹ होस्ट ऑपरेटिंग सिस्टम कभी भी अन्य टेनेंट के लिए निर्धारित ट्रैफिक नहीं देखता, जिससे अटैक सरफेस कम होता है।

रूट ऑफ ट्रस्ट इंफ्रास्ट्रक्चर घटकों का क्रिप्टोग्राफिक सत्यापन स्थापित करता है।⁶⁰ DPU नेटवर्क एक्सेस की अनुमति देने से पहले फर्मवेयर, ऑपरेटिंग सिस्टम और एप्लिकेशन को मान्य करता है। समझौता किए गए होस्ट DPU-प्रवर्तित सत्यापन पास किए बिना नेटवर्क पर संवाद नहीं कर सकते।

DPUs क्लाउड और एज इंस्टेंस में अत्यधिक वितरित जीरो-ट्रस्ट वातावरण में नेटवर्क मॉनिटरिंग, टेलीमेट्री और ऑब्जर्वेबिलिटी फंक्शन सक्षम करते हैं।⁶¹ सॉफ्टवेयर-आधारित डिक्रिप्शन के प्रदर्शन पेनल्टी के बिना हार्डवेयर-त्वरित TLS इंस्पेक्शन के माध्यम से एन्क्रिप्टेड ट्रैफिक तक दृश्यता फैली हुई है।

AI इंफ्रास्ट्रक्चर एकीकरण

AI क्लस्टर विशिष्ट DPU आवश्यकताएं प्रस्तुत करते हैं जो सामान्य डेटा सेंटर वर्कलोड से भिन्न हैं। वितरित प्रशिक्षण के दौरान GPUs के बीच पूर्व-पश्चिम ट्रैफिक पैटर्न निरंतर बैंडविड्थ मांग बनाता है जिसे पारंपरिक NICs CPU सहायता के बिना नहीं संभाल सकते।⁶²

सामूहिक संचालन—all-reduce, all-gather और broadcast—वितरित प्रशिक्षण की संचार रीढ़ बनाते हैं।⁶³ DPUs हार्डवेयर ऑफलोड के माध्यम से इन संचालनों को त्वरित कर सकते हैं, विलंबता को कम करते हैं और वास्तविक मॉडल निष्पादन के लिए GPU कंप्यूट को मुक्त करते हैं।

RDMA सपोर्ट AI वर्कलोड के लिए आवश्यक साबित होता है। DPUs RoCEv2 (RDMA over Converged Ethernet) या InfiniBand RDMA प्रोसेसिंग को हार्डवेयर में संभालते हैं, होस्ट नेटवर्क स्टैक को पूरी तरह से बायपास करते हैं।⁶⁴ GPU मेमोरी और नेटवर्क के बीच जीरो-कॉपी डेटा ट्रांसफर विलंबता को न्यूनतम और बैंडविड्थ उपयोग को अधिकतम करता है।

कंजेशन कंट्रोल AI क्लस्टर स्केल पर महत्वपूर्ण हो जाता है। DPUs DCQCN (Data Center Quantized Congestion Notificati

[अनुवाद के लिए सामग्री काटी गई]

कोटेशन का अनुरोध करें_

अपने प्रोजेक्ट के बारे में बताएं और हम 72 घंटों के भीतर जवाب देंगे।

> TRANSMISSION_COMPLETE

अनुरोध प्राप्त हुआ_

आपकी पूछताछ के लिए धन्यवाद। हमारी टीम आपके अनुरोध की समीक्षा करेगी और 72 घंटों के भीतर उत्तर देगी।

QUEUED FOR PROCESSING