DPU และ SmartNIC: เสาหลักที่สามของการประมวลผลในดาต้าเซ็นเตอร์

ตลาด DPU SmartNIC มีมูลค่าถึง 1.11 พันล้านดอลลาร์ในปี 2024 คาดการณ์ว่าจะเติบโตเป็น 4.44 พันล้านดอลลาร์ภายในปี 2034 (CAGR 15%) ผู้ให้บริการคลาวด์ 50% ใช้งาน DPU แล้ว; 35% ของการฝึกสอน AI ถูกถ่ายโอนไปยัง DPU BlueField-3 ให้ประสิทธิภาพเทียบเท่า CPU 300 คอร์ในการ offload บริการต่างๆ BlueField-4 ประกาศเปิดตัวพร้อม 800Gbps และพลังประมวลผล 6 เท่า AMD Pensando Elba เริ่มจำหน่ายพร้อม dual 200GbE และความสามารถในการโปรแกรม P4

DPU และ SmartNIC: เสาหลักที่สามของการประมวลผลในดาต้าเซ็นเตอร์

DPU และ SmartNIC: เสาหลักที่สามของการประมวลผลในดาต้าเซ็นเตอร์

อัปเดต 11 ธันวาคม 2025

อัปเดตธันวาคม 2025: ตลาด DPU SmartNIC มีมูลค่าถึง 1.11 พันล้านดอลลาร์ในปี 2024 คาดการณ์ว่าจะเติบโตเป็น 4.44 พันล้านดอลลาร์ภายในปี 2034 ด้วยอัตราการเติบโตเฉลี่ยต่อปี (CAGR) 14.89%¹ ผู้ให้บริการคลาวด์เกือบ 50% พึ่งพา DPU ในการเพิ่มประสิทธิภาพ workload² ประมาณ 35% ของงานฝึกสอนโมเดล AI ถูกถ่ายโอนไปยัง DPU เพื่อประสิทธิภาพที่ดีขึ้น³ ผู้นำในอุตสาหกรรมมองว่า DPU เป็นเสาหลักที่สามของการประมวลผลควบคู่ไปกับ CPU และ GPU—โปรเซสเซอร์เฉพาะทางที่ย้ายข้อมูลข้ามโครงสร้างพื้นฐานอย่างปลอดภัย⁴

คลัสเตอร์ AI เปลี่ยนแปลงรูปแบบทราฟฟิกภายในดาต้าเซ็นเตอร์ ทราฟฟิกส่วนใหญ่ในปัจจุบันไหลแบบ east-west ระหว่าง GPU ระหว่างการฝึกสอนโมเดลและการทำ checkpointing แทนที่จะเป็นแบบ north-south ระหว่างแอปพลิเคชันและอินเทอร์เน็ต⁵ DPU วิวัฒนาการจาก accelerator ที่เป็นทางเลือกมาเป็นโครงสร้างพื้นฐานที่จำเป็น ซึ่งป้องกันไม่ให้คอขวดของ CPU จำกัดการใช้งาน GPU⁶ องค์กรที่สร้างโครงสร้างพื้นฐาน AI ต้องประเมินการเลือก DPU อย่างรอบคอบเท่ากับการเลือก GPU และ CPU

NVIDIA BlueField-3: มาตรฐานของโครงสร้างพื้นฐาน

NVIDIA BlueField-3 เป็น data center infrastructure-on-a-chip รุ่นที่สาม ช่วยให้องค์กรสามารถสร้างโครงสร้างพื้นฐาน IT แบบ software-defined และ hardware-accelerated ตั้งแต่คลาวด์ไปจนถึงดาต้าเซ็นเตอร์หลักและ edge⁷ DPU ที่มีทรานซิสเตอร์ 22 พันล้านตัวนี้ offload, accelerate และแยกฟังก์ชัน software-defined networking, storage, security และ management⁸

การเชื่อมต่อเครือข่ายมีความเร็วสูงสุด 400 กิกะบิตต่อวินาทีผ่าน Ethernet หรือ NDR InfiniBand⁹ การกำหนดค่าพอร์ตครอบคลุม 1, 2 หรือ 4 พอร์ต พร้อมตัวเลือกสำหรับการรวม bandwidth ต่างๆ¹⁰ หน่วยความจำออนบอร์ดประกอบด้วย DDR5 16 กิกะไบต์ พร้อมตัวเลือก form factor รวมถึง half-height half-length และ full-height half-length PCIe cards¹¹

BlueField-3 ให้พลังประมวลผลแบบ accelerated มากกว่ารุ่นก่อนหน้า 10 เท่า¹² processor complex มี ARM A78 จำนวน 16 คอร์ พร้อม cryptography acceleration มากกว่า BlueField-2 ถึง 4 เท่า¹³ bandwidth ของเครือข่ายเพิ่มเป็นสองเท่า ในขณะที่พลังประมวลผลเพิ่มขึ้น 4 เท่าและ memory bandwidth เพิ่มขึ้นเกือบ 5 เท่า¹⁴

ความเทียบเท่าด้านประสิทธิภาพบอกเล่าเรื่องราว DPU BlueField-3 หนึ่งตัวให้บริการดาต้าเซ็นเตอร์เทียบเท่ากับ CPU cores สูงสุด 300 คอร์ ปลดปล่อย CPU cycles ที่มีค่าสำหรับแอปพลิเคชันที่สำคัญต่อธุรกิจ¹⁵ อัตราส่วนการ offload นี้ทำให้การลงทุนใน DPU คุ้มค่าสำหรับองค์กรที่ความจุ CPU จำกัดการ deploy workload

BlueField-3 เป็น DPU ตัวแรกที่รองรับ PCIe รุ่นที่ห้าและมี time-synchronized data center acceleration¹⁶ การใช้พลังงานสูงสุดไม่เกิน 150 วัตต์¹⁷

use case ครอบคลุมทั้ง infrastructure stack: hyperconverged infrastructure พร้อม encryption, data integrity, deduplication, decompression และ erasure coding สำหรับ storage; distributed firewalls, IDS/IPS, root of trust, microsegmentation และ DDoS prevention สำหรับ security; cloud-native supercomputing พร้อม multi-tenancy และ communication acceleration สำหรับ HPC/AI; และ Cloud RAN, virtualized edge gateways และ VNF acceleration สำหรับ telco และ edge applications¹⁸

NVIDIA ประกาศ BlueField-4 เป็นรุ่นต่อ—แพลตฟอร์มโครงสร้างพื้นฐาน 800 กิกะบิตต่อวินาทีสำหรับ AI factories ระดับ gigascale ให้พลังประมวลผล 6 เท่าของ BlueField-3 พร้อม accelerations สำหรับ networking, data storage และ cybersecurity¹⁹

AMD Pensando: ตัวเลือกของ hyperscaler

AMD เข้าซื้อกิจการ Pensando Systems ในปี 2022 นำเทคโนโลยี DPU ที่โปรแกรมได้ด้วย P4 เข้าสู่ portfolio ดาต้าเซ็นเตอร์ของ AMD²⁰ Pensando DPUs ได้รับการนำไปใช้อย่างกว้างขวาง ผ่านการตรวจสอบและทดสอบในฐานะโซลูชัน front-end networking ในดาต้าเซ็นเตอร์ hyperscale ที่ใหญ่ที่สุดบางแห่ง²¹

AMD Pensando Elba DPU รุ่นที่สองสามารถโปรแกรมด้วย P4 ได้อย่างเต็มที่และปรับให้เหมาะสมสำหรับ throughput สูง ช่วยให้สามารถ offload ขั้นสูงของบริการ networking, storage และ security ที่ความเร็ว dual 200 กิกะบิตต่อวินาที line rate²²

Elba SoC ประกอบด้วย ARM Cortex-A72 จำนวน 16 คอร์, dual DDR4/DDR5 memory controllers, PCIe Gen3 หรือ Gen4 connectivity 32 lanes, networking สูงสุด dual 200GbE หรือ quad 100GbE และความสามารถ storage และ crypto offloading²³

สถาปัตยกรรมศูนย์กลางอยู่ที่ Match-Processing Units (MPUs) ที่ software-in-silicon ทำงานและให้บริการ accelerated fast-path²⁴ System memory เชื่อมต่อกับทั้ง ARM cores วัตถุประสงค์ทั่วไปและ MPUs เฉพาะโดเมน²⁵ P4 pipeline จัดการ networking, storage, telemetry, SDN, security, congestion management และ RDMA พร้อมกันโดยไม่กระทบประสิทธิภาพ²⁶

programmable pipeline ให้ VxLAN tunnel encapsulation และ decapsulation, IPv4/v6 routing, stateless และ stateful security rules, network address translation, server load balancing, encryption services, VLAN to VPC mapping และ VPC peering ที่ line rate²⁷

AMD นำเสนอ SAI (Switch Abstraction Interface) reference pipeline ที่รัน SONiC OS บน Pensando DPUs²⁸ การผสานรวมช่วยให้บริการที่ SONiC ให้รวมถึง routing stack, management interface และ monitoring ขณะใช้ประโยชน์จากความสามารถ DPU เต็มที่ผ่าน SSDK²⁹

AMD เปิดตัว Pensando Salina เป็นรุ่นต่อ 400G ที่ออกแบบมาเพื่อแข่งขันโดยตรงกับ NVIDIA BlueField-3 ใน front-end network applications³⁰ Pensando Pollara 400 AI NIC เริ่มจำหน่ายในครึ่งแรกของปี 2025 ปรับให้เหมาะสมสำหรับ AI และ HPC networking ผ่านความสามารถขั้นสูงรวมถึง RDMA และ congestion control³¹

Giglio DPU รุ่นใหม่กว่าสร้างบน Elba พร้อม source-code compatibility ช่วยให้ลูกค้าที่มีอยู่นำแพลตฟอร์มใหม่มาใช้โดยมีการเปลี่ยนแปลงซอฟต์แวร์น้อยที่สุด³²

สำหรับองค์กรที่ใช้ VMware ตัวเลือกในทางปฏิบัติจำกัดอยู่ที่ NVIDIA BlueField-2 หรือ AMD Pensando DSC2³³ การสนับสนุน ecosystem ของ VMware จำกัดตัวเลือกสำหรับองค์กรที่มุ่งมั่นกับแพลตฟอร์ม virtualization นั้น

Intel IPU E2100: แนวทาง cloud-native

Intel Infrastructure Processing Unit (IPU) Adapter E2100 ให้ infrastructure acceleration, virtual storage enablement และฟีเจอร์ security ที่เพิ่มขึ้น³⁴ E2100 SoC เป็นแพลตฟอร์ม infrastructure acceleration ที่ปรับให้เหมาะสมสำหรับพลังงาน ประสิทธิภาพ และ scale³⁵

ฮาร์ดแวร์มี rich packet-processing pipeline พร้อม bandwidth 200GbE และรวม NVMe, compression และ crypto accelerators³⁶ ARM Neoverse N1 compute complex อนุญาตให้ซอฟต์แวร์ที่ลูกค้าจัดหาทำงานฟีเจอร์ตั้งแต่ complex packet-processing pipelines ไปจนถึง storage transport, device management และ telemetry³⁷

E2100 ประกอบด้วย ARM Neoverse N1 จำนวน 16 คอร์ พร้อม cache 32 เมกะไบต์และ LPDDR4x memory 3 channels ขนาด 16GB รวม 48 กิกะไบต์³⁸

รุ่นต่างๆ ตอบสนองความต้องการ deployment ที่แตกต่างกัน E2100-CCQDA2 เปิดตัวใน Q1 2024 พร้อม TDP 150W ในการกำหนดค่า dual-port รองรับ data rates 200/100/50/25/10GbE ผ่าน PCIe 4.0 ใน form factor half-length, full-height, single-slot³⁹ E2100-CCQDA2HL เปิดตัวใน Q4 2024 พร้อม TDP ที่ลดลงเหลือ 75W ในการกำหนดค่า dual-port เดียวกัน⁴⁰

การเชื่อมต่อใช้พอร์ต QSFP56 รองรับ DAC, optics และ AOC cables⁴¹ การสนับสนุน virtualization รวมถึง Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV และ RoCEv2/RDMA⁴²

เชื้อสาย Intel IPU ย้อนไปถึงโครงการ Mt Evans ที่ออกแบบมาให้ทำงานเหมือน AWS Nitro โดยเฉพาะสำหรับ Google Cloud, offloading NVMe over Fabric และ network security⁴³ E2100 เป็น iteration แรกที่ให้บริการลูกค้าที่ไม่ใช่ Google⁴⁴

use case รวมถึงการแยกและแยกตัว infrastructure workloads, offloading virtualized networks ไปยัง IPU ที่ accelerators ประมวลผลงานได้อย่างมีประสิทธิภาพมากขึ้น และการแทนที่ local disk storage ด้วย detached virtualized storage⁴⁵

พลวัตของตลาดและรูปแบบการนำไปใช้

ตลาด DPU แบ่งออกเป็นกลุ่ม use case ที่ชัดเจน การ offload ดาต้าเซ็นเตอร์เป็นผู้นำ ขับเคลื่อนโดยการขยายตัวของ hyperscale data center และความต้องการที่เพิ่มขึ้นของ computing workloads ที่ซับซ้อนและใช้ข้อมูลหนัก⁴⁶ อเมริกาเหนือมีส่วนแบ่งรายได้มากที่สุด ขับเคลื่อนโดยภัยคุกคาม cybersecurity ที่เพิ่มขึ้น การนำ zero-trust security frameworks มาใช้มากขึ้น และการลงทุนอย่างมากใน AI และ machine learning infrastructure⁴⁷

รูปแบบการนำไปใช้แสดงการจัดตำแหน่ง workload ที่ชัดเจน ประมาณ 30% ของการ deploy มุ่งเน้นไปที่ AI workloads ในขณะที่ 20% มุ่งเป้าไปที่ zero-trust security architecture⁴⁸ DPUs ที่มี hardware-based security acceleration เห็นการนำไปใช้เพิ่มขึ้น 30% สะท้อนถึงความสำคัญของอุตสาหกรรมต่อหลักการ zero-trust⁴⁹

รูปแบบทราฟฟิก AI ผลักดันความจำเป็นของ DPU ทราฟฟิก East-west ระหว่าง GPUs ระหว่างการ training ครองการสื่อสารของ AI cluster สมัยใหม่⁵⁰ host CPU ไม่สามารถประมวลผลทราฟฟิกนี้ที่ line rate ได้โดยไม่กลายเป็นคอขวด DPUs จัดการ network processing ที่จะใช้ CPU cycles ที่จำเป็นสำหรับ orchestration และ control plane functions

ภูมิทัศน์การแข่งขันมีผู้จำหน่ายหลักสามรายพร้อมตำแหน่งที่ชัดเจน NVIDIA เป็นผู้นำด้วยการผสานรวม BlueField เข้ากับ AI infrastructure ecosystem ที่กว้างขึ้นและการสนับสนุน InfiniBand ที่แข็งแกร่งที่สุด⁵¹ AMD Pensando ครอง hyperscaler deployments ด้วย production scale ที่พิสูจน์แล้วและความสามารถในการโปรแกรม P4⁵² Intel มุ่งเป้าไปที่ cloud-native architectures ด้วยการออกแบบ IPU ที่ได้รับแรงบันดาลใจจาก Nitro⁵³

Marvell's OCTEON 10 เป็นผู้ท้าชิงรุ่นถัดไป—DPU ระดับ 5nm ตัวแรกในอุตสาหกรรมพร้อม ARM Neoverse N2 cores ให้ประสิทธิภาพการประมวลผลสูงกว่า 3 เท่าและใช้พลังงานน้อยกว่า 50% เมื่อเทียบกับรุ่นก่อนหน้า⁵⁴ hardware accelerators นวัตกรรมสำหรับ inline ML/AI ให้ performance boost 100 เท่าเมื่อเทียบกับ software-based inference⁵⁵

การนำ Zero-trust security ไปใช้

DPUs ช่วยให้สามารถบังคับใช้ zero-trust security ที่ network edge โดยไม่ต้องใช้ host CPUs⁵⁶ สถาปัตยกรรมวางการบังคับใช้นโยบายที่แหล่งข้อมูลแทนที่จะเป็นจุดรวม network

L4 firewalls ทำงานโดยตรงบน DPU บังคับใช้นโยบายก่อนที่ทราฟฟิกจะถึง host⁵⁷ NVIDIA's BlueField DPU รองรับ microsegmentation อนุญาตให้ผู้ดำเนินการใช้หลักการ zero-trust กับ GPU workloads โดยไม่ต้องใช้ host CPU⁵⁸

โมเดล security มีความสำคัญโดยเฉพาะสำหรับ multi-tenant AI infrastructure เมื่อลูกค้าหลายรายใช้ GPU clusters ร่วมกัน DPU บังคับใช้การแยกตัวระหว่าง tenants ที่ระดับเครือข่าย⁵⁹ host operating system ไม่เห็นทราฟฟิกที่กำหนดไปยัง tenants อื่น ลดพื้นผิวการโจมตี

Root of trust สร้างการยืนยัน cryptographic ของส่วนประกอบโครงสร้างพื้นฐาน⁶⁰ DPU ตรวจสอบ firmware, operating systems และ applications ก่อนอนุญาต network access hosts ที่ถูกบุกรุกไม่สามารถสื่อสารบนเครือข่ายได้หากไม่ผ่านการยืนยันที่บังคับใช้โดย DPU

DPUs ช่วยให้ network monitoring, telemetry และ observability functions ในสภาพแวดล้อม zero-trust แบบกระจายสูงข้าม cloud และ edge instances⁶¹ การมองเห็นขยายไปถึงทราฟฟิกที่เข้ารหัสผ่าน hardware-accelerated TLS inspection โดยไม่มี performance penalty ของ software-based decryption

การผสานรวมโครงสร้างพื้นฐาน AI

AI clusters มีข้อกำหนด DPU เฉพาะที่แตกต่างจาก data center workloads ทั่วไป รูปแบบทราฟฟิก east-west ระหว่าง GPUs ระหว่าง distributed training สร้างความต้องการ bandwidth อย่างต่อเนื่องที่ NICs แบบดั้งเดิมไม่สามารถจัดการได้โดยไม่ต้องใช้ความช่วยเหลือจาก CPU⁶²

Collective operations—all-reduce, all-gather และ broadcast—ก่อตัวเป็นกระดูกสันหลังการสื่อสารของ distributed training⁶³ DPUs สามารถเร่ง operations เหล่านี้ผ่าน hardware offload ลด latency และปลดปล่อย GPU compute สำหรับการทำงานของโมเดลจริง

การสนับสนุน RDMA พิสูจน์แล้วว่าจำเป็นสำหรับ AI workloads DPUs จัดการ RoCEv2 (RDMA over Converged Ethernet) หรือ InfiniBand RDMA processing ในฮาร์ดแวร์ ข้าม host network stack ทั้งหมด⁶⁴ การถ่ายโอนข้อมูลแบบ zero-copy ระหว่าง GPU memory และเครือข่ายลด latency และเพิ่มการใช้ bandwidth ให้สูงสุด

Congestion control กลายเป็นสิ่งสำคัญที่ scale ของ AI cluster DPUs นำ DCQCN (Data Center Quantized Congestion Notificati

[เนื้อหาถูกตัดสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING