DPU与SmartNIC:数据中心计算的第三支柱
更新于2025年12月11日
2025年12月更新: DPU SmartNIC市场2024年达到11.1亿美元,预计到2034年将增长至44.4亿美元(年复合增长率14.89%)。近50%的云服务提供商现已采用DPU进行工作负载优化;约35%的AI模型训练任务卸载至DPU处理。BlueField-3提供相当于300个CPU核心的服务卸载能力。BlueField-4已发布,支持800Gbps带宽和6倍计算性能。AMD Pensando Elba已出货,配备双200GbE接口并支持P4可编程性。
DPU SmartNIC市场2024年达到11.1亿美元,预计到2034年将以14.89%的年复合增长率增长至44.4亿美元。¹ 近50%的云服务提供商现已依赖DPU进行工作负载优化。² 约35%的AI模型训练任务卸载至DPU以获得更高的效率和性能。³ 行业领导者越来越将DPU视为与CPU和GPU并列的计算第三支柱——专门用于在基础设施中安全移动数据的专用处理器。⁴
AI集群改变了数据中心内部的流量模式。现在大部分流量在模型训练和检查点期间在GPU之间东西向流动,而非在应用程序和互联网之间南北向流动。⁵ DPU已从可选的加速器演变为必要的基础设施,防止CPU瓶颈限制GPU利用率。⁶ 构建AI基础设施的组织必须像评估GPU和CPU一样认真评估DPU的选择。
NVIDIA BlueField-3:基础设施标准
NVIDIA BlueField-3代表了第三代数据中心基础设施芯片,使组织能够从云端到核心数据中心再到边缘构建软件定义、硬件加速的IT基础设施。⁷ 这款220亿晶体管的DPU可卸载、加速和隔离软件定义的网络、存储、安全和管理功能。⁸
网络连接通过以太网或NDR InfiniBand达到每秒400千兆位。⁹ 端口配置涵盖1、2或4个端口,并提供各种带宽组合选项。¹⁰ 板载内存包括16GB DDR5,外形规格选项包括半高半长和全高半长PCIe卡。¹¹
BlueField-3的加速计算能力是上一代的10倍。¹² 处理器复合体配备16个ARM A78核心,加密加速能力是BlueField-2的4倍。¹³ 网络带宽翻倍,计算能力提升4倍,内存带宽增加近5倍。¹⁴
性能等效性说明了一切。一块BlueField-3 DPU可提供相当于多达300个CPU核心的数据中心服务,为业务关键型应用程序释放宝贵的CPU周期。¹⁵ 对于CPU容量限制工作负载部署的组织而言,这一卸载比率证明了DPU投资的合理性。
BlueField-3是首款支持第五代PCIe并提供时间同步数据中心加速的DPU。¹⁶ 最大功耗不超过150瓦。¹⁷
用例涵盖整个基础设施堆栈:具有加密、数据完整性、重复数据删除、解压缩和纠删码功能的超融合基础设施用于存储;分布式防火墙、IDS/IPS、信任根、微分段和DDoS防护用于安全;具有多租户和通信加速功能的云原生超级计算用于HPC/AI;以及Cloud RAN、虚拟化边缘网关和VNF加速用于电信和边缘应用。¹⁸
NVIDIA宣布BlueField-4为后续产品——这是一款800千兆位每秒的基础设施平台,专为千兆级AI工厂设计,提供BlueField-3的6倍计算能力,并具有网络、数据存储和网络安全加速功能。¹⁹
AMD Pensando:超大规模用户的选择
AMD于2022年收购了Pensando Systems,将P4可编程DPU技术纳入AMD的数据中心产品组合。²⁰ Pensando DPU已被广泛采用、验证和测试,成为一些最大型超大规模数据中心的前端网络解决方案。²¹
第二代AMD Pensando Elba DPU完全支持P4可编程,并针对高吞吐量进行了优化,能够以双200千兆位每秒线速实现网络、存储和安全服务的高级卸载。²²
Elba SoC包含16个ARM Cortex-A72核心、双DDR4/DDR5内存控制器、32通道PCIe Gen3或Gen4连接、最高双200GbE或四100GbE网络,以及存储和加密卸载能力。²³
该架构以匹配处理单元(MPU)为核心,软件在硅片中执行并提供加速的快速路径服务。²⁴ 系统内存同时连接到通用ARM核心和特定领域的MPU。²⁵ P4流水线同时处理网络、存储、遥测、SDN、安全、拥塞管理和RDMA,而不会影响性能。²⁶
可编程流水线以线速提供VxLAN隧道封装和解封装、IPv4/v6路由、无状态和有状态安全规则、网络地址转换、服务器负载均衡、加密服务、VLAN到VPC映射和VPC对等互联。²⁷
AMD提供在Pensando DPU上运行SONiC操作系统的SAI(交换机抽象接口)参考流水线。²⁸ 该集成支持SONiC提供的服务,包括路由堆栈、管理接口和监控,同时通过SSDK充分利用DPU的全部功能。²⁹
AMD推出Pensando Salina作为400G后续产品,旨在在前端网络应用中直接与NVIDIA BlueField-3竞争。³⁰ Pensando Pollara 400 AI NIC于2025年上半年商用,通过RDMA和拥塞控制等高级功能优化AI和HPC网络。³¹
更新的Giglio DPU基于Elba构建,具有源代码兼容性,使现有客户能够以最小的软件更改采用新平台。³²
对于运行VMware的企业,实际选择仅限于NVIDIA BlueField-2或AMD Pensando DSC2。³³ VMware生态系统支持限制了致力于该虚拟化平台的组织的选择。
Intel IPU E2100:云原生方法
Intel的基础设施处理单元(IPU)适配器E2100提供基础设施加速、虚拟存储支持和增强的安全功能。³⁴ E2100 SoC是一个针对功耗、性能和规模优化的基础设施加速平台。³⁵
硬件具有丰富的数据包处理流水线,带宽达200GbE,包括NVMe、压缩和加密加速器。³⁶ ARM Neoverse N1计算复合体允许客户提供的软件执行从复杂数据包处理流水线到存储传输、设备管理和遥测的各种功能。³⁷
E2100包含16个ARM Neoverse N1核心,配备32MB缓存和3通道16GB LPDDR4x内存,共计48GB。³⁸
不同型号针对不同的部署需求。E2100-CCQDA2于2024年第一季度推出,TDP为150W,采用双端口配置,通过PCIe 4.0支持200/100/50/25/10GbE数据速率,外形为半长、全高、单槽。³⁹ E2100-CCQDA2HL于2024年第四季度推出,TDP降低至75W,采用相同的双端口配置。⁴⁰
连接使用QSFP56端口,支持DAC、光模块和AOC线缆。⁴¹ 虚拟化支持包括虚拟机设备队列(VMDq)、PCI-SIG SR-IOV和RoCEv2/RDMA。⁴²
Intel IPU的血统可追溯到Mt Evans项目,该项目旨在像AWS Nitro一样专门为Google Cloud服务,卸载NVMe over Fabric和网络安全。⁴³ E2100是首个面向非Google客户的版本。⁴⁴
用例包括基础设施工作负载的分离和隔离、将虚拟化网络卸载到IPU(加速器可更高效地处理任务),以及用分离的虚拟化存储替换本地磁盘存储。⁴⁵
市场动态和采用模式
DPU市场分为不同的用例细分。数据中心卸载处于领先地位,受超大规模数据中心扩张和复杂、数据密集型计算工作负载日益增长的需求推动。⁴⁶ 北美占据最大的收入份额,这得益于网络安全威胁的升级、零信任安全框架的日益采用,以及对AI和机器学习基础设施的大量投资。⁴⁷
采用模式显示出明确的工作负载对齐。约30%的部署专注于AI工作负载,而20%针对零信任安全架构。⁴⁸ 具有硬件安全加速功能的DPU采用率增加了30%,反映了行业对零信任原则的重视。⁴⁹
AI流量模式推动了DPU的必要性。训练期间GPU之间的东西向流量主导着现代AI集群通信。⁵⁰ 主机CPU无法以线速处理此流量而不成为瓶颈。DPU处理原本会消耗编排和控制平面功能所需CPU周期的网络处理。
竞争格局以三家主要供应商为特征,各有不同定位。NVIDIA凭借BlueField与其更广泛AI基础设施生态系统的集成以及最强的InfiniBand支持处于领先地位。⁵¹ AMD Pensando凭借经过验证的生产规模和P4可编程性主导超大规模部署。⁵² Intel以Nitro启发的IPU设计瞄准云原生架构。⁵³
Marvell的OCTEON 10代表了下一代挑战者——业界首款5nm DPU,采用ARM Neoverse N2核心,计算性能提高3倍,功耗比上一代降低50%。⁵⁴ 用于内联ML/AI的创新硬件加速器比基于软件的推理性能提升100倍。⁵⁵
零信任安全实施
DPU能够在网络边缘执行零信任安全策略,无需主机CPU参与。⁵⁶ 该架构将策略执行置于数据源而非网络汇聚点。
L4防火墙直接在DPU上运行,在流量到达主机之前执行策略。⁵⁷ NVIDIA的BlueField DPU支持微分段,允许运营商在不涉及主机CPU的情况下对GPU工作负载应用零信任原则。⁵⁸
安全模型对多租户AI基础设施尤为重要。当多个客户共享GPU集群时,DPU在网络层面强制实施租户之间的隔离。⁵⁹ 主机操作系统永远看不到发往其他租户的流量,从而减少了攻击面。
信任根建立基础设施组件的加密验证。⁶⁰ DPU在允许网络访问之前验证固件、操作系统和应用程序。被入侵的主机在未通过DPU强制验证的情况下无法在网络上通信。
DPU能够在跨云和边缘实例的高度分布式零信任环境中实现网络监控、遥测和可观测性功能。⁶¹ 通过硬件加速的TLS检查,可见性扩展到加密流量,而无需承受基于软件解密的性能损失。
AI基础设施集成
AI集群提出了与一般数据中心工作负载不同的特定DPU需求。分布式训练期间GPU之间的东西向流量模式产生了持续的带宽需求,传统NIC在没有CPU协助的情况下无法处理。⁶²
集合操作——all-reduce、all-gather和broadcast——构成了分布式训练的通信骨干。⁶³ DPU可以通过硬件卸载加速这些操作,降低延迟并释放GPU计算资源用于实际模型执行。
RDMA支持对AI工作负载至关重要。DPU在硬件中处理RoCEv2(融合以太网上的RDMA)或InfiniBand RDMA处理,完全绕过主机网络堆栈。⁶⁴ GPU内存和网络之间的零拷贝数据传输最大限度地减少延迟并最大化带宽利用率。
拥塞控制在AI集群规模下变得至关重要。DPU实现DCQCN(数据中心量化拥塞通知
[内容因翻译需要而截断]