DPU và SmartNIC: trụ cột thứ ba của điện toán trung tâm dữ liệu
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12/2025: Thị trường DPU SmartNIC đạt 1,11 tỷ USD năm 2024, dự kiến 4,44 tỷ USD vào năm 2034 (tốc độ tăng trưởng kép hàng năm 14,89%). Gần 50% nhà cung cấp dịch vụ đám mây hiện đang sử dụng DPU để tối ưu hóa khối lượng công việc.² Khoảng 35% tác vụ huấn luyện mô hình AI được chuyển sang DPU để có hiệu suất và hiệu quả tốt hơn.³ Các nhà lãnh đạo ngành ngày càng coi DPU là trụ cột thứ ba của điện toán bên cạnh CPU và GPU—những bộ xử lý chuyên dụng di chuyển dữ liệu an toàn trên toàn bộ cơ sở hạ tầng.⁴
Các cụm AI đã thay đổi mô hình lưu lượng trong trung tâm dữ liệu. Phần lớn lưu lượng hiện nay chảy theo hướng đông-tây giữa các GPU trong quá trình huấn luyện mô hình và lưu điểm kiểm tra thay vì hướng bắc-nam giữa các ứng dụng và internet.⁵ DPU đã phát triển từ một bộ tăng tốc tùy chọn thành cơ sở hạ tầng cần thiết ngăn chặn tắc nghẽn CPU khỏi việc hạn chế mức sử dụng GPU.⁶ Các tổ chức xây dựng cơ sở hạ tầng AI phải đánh giá việc lựa chọn DPU cẩn thận như việc lựa chọn GPU và CPU.
NVIDIA BlueField-3: tiêu chuẩn cơ sở hạ tầng
NVIDIA BlueField-3 đại diện cho thế hệ thứ ba của chip cơ sở hạ tầng trung tâm dữ liệu, cho phép các tổ chức xây dựng cơ sở hạ tầng CNTT được định nghĩa bằng phần mềm, tăng tốc bằng phần cứng từ đám mây đến trung tâm dữ liệu cốt lõi đến biên.⁷ DPU 22 tỷ transistor này giảm tải, tăng tốc và cô lập các chức năng mạng, lưu trữ, bảo mật và quản lý được định nghĩa bằng phần mềm.⁸
Kết nối mạng đạt 400 gigabit mỗi giây qua Ethernet hoặc NDR InfiniBand.⁹ Cấu hình cổng bao gồm 1, 2 hoặc 4 cổng với các tùy chọn cho nhiều tổ hợp băng thông khác nhau.¹⁰ Bộ nhớ tích hợp bao gồm 16 gigabyte DDR5 với các tùy chọn form factor bao gồm card PCIe nửa chiều cao nửa chiều dài và chiều cao đầy đủ nửa chiều dài.¹¹
BlueField-3 mang lại sức mạnh tính toán tăng tốc gấp 10 lần so với thế hệ trước.¹² Phức hợp bộ xử lý có 16 lõi ARM A78 với khả năng tăng tốc mã hóa gấp 4 lần so với BlueField-2.¹³ Băng thông mạng tăng gấp đôi trong khi sức mạnh tính toán tăng gấp 4 và băng thông bộ nhớ tăng gần 5 lần.¹⁴
Sự tương đương hiệu suất kể lên câu chuyện. Một DPU BlueField-3 cung cấp dịch vụ trung tâm dữ liệu tương đương với tới 300 lõi CPU, giải phóng các chu kỳ CPU quý giá cho các ứng dụng quan trọng của doanh nghiệp.¹⁵ Tỷ lệ giảm tải biện minh cho việc đầu tư DPU đối với các tổ chức mà dung lượng CPU hạn chế việc triển khai khối lượng công việc.
BlueField-3 là DPU đầu tiên hỗ trợ PCIe thế hệ thứ năm và cung cấp tăng tốc trung tâm dữ liệu đồng bộ thời gian.¹⁶ Mức tiêu thụ điện tối đa không vượt quá 150 watt.¹⁷
Các trường hợp sử dụng trải dài toàn bộ ngăn xếp cơ sở hạ tầng: cơ sở hạ tầng siêu hội tụ với mã hóa, toàn vẹn dữ liệu, loại bỏ trùng lặp, giải nén và mã hóa xóa cho lưu trữ; tường lửa phân tán, IDS/IPS, gốc tin cậy, phân đoạn vi mô và ngăn chặn DDoS cho bảo mật; siêu máy tính cloud-native với đa thuê bao và tăng tốc giao tiếp cho HPC/AI; và Cloud RAN, cổng biên ảo hóa và tăng tốc VNF cho các ứng dụng viễn thông và biên.¹⁸
NVIDIA đã công bố BlueField-4 là phiên bản kế nhiệm—một nền tảng cơ sở hạ tầng 800 gigabit mỗi giây cho các nhà máy AI quy mô giga, cung cấp sức mạnh tính toán gấp 6 lần BlueField-3 với các khả năng tăng tốc cho mạng, lưu trữ dữ liệu và an ninh mạng.¹⁹
AMD Pensando: sự lựa chọn của hyperscaler
AMD mua lại Pensando Systems vào năm 2022, đưa công nghệ DPU có thể lập trình P4 vào danh mục trung tâm dữ liệu của AMD.²⁰ Các DPU Pensando đã được áp dụng rộng rãi, xác nhận và thử nghiệm như giải pháp mạng front-end trong một số trung tâm dữ liệu hyperscale lớn nhất.²¹
DPU AMD Pensando Elba thế hệ thứ hai hoàn toàn có thể lập trình P4 và được tối ưu hóa cho thông lượng cao, cho phép giảm tải nâng cao các dịch vụ mạng, lưu trữ và bảo mật ở tốc độ dây kép 200 gigabit mỗi giây.²²
SoC Elba chứa 16 lõi ARM Cortex-A72, bộ điều khiển bộ nhớ DDR4/DDR5 kép, 32 làn kết nối PCIe Gen3 hoặc Gen4, lên đến kép 200GbE hoặc bốn 100GbE mạng, và khả năng giảm tải lưu trữ và mã hóa.²³
Kiến trúc tập trung vào Match-Processing Units (MPUs) nơi phần mềm-trong-silicon thực thi và cung cấp các dịch vụ fast-path được tăng tốc.²⁴ Bộ nhớ hệ thống kết nối với cả các lõi ARM đa năng và các MPU chuyên biệt theo miền.²⁵ Pipeline P4 xử lý mạng, lưu trữ, telemetry, SDN, bảo mật, quản lý tắc nghẽn và RDMA đồng thời mà không ảnh hưởng đến hiệu suất.²⁶
Pipeline có thể lập trình cung cấp đóng gói và giải đóng gói tunnel VxLAN, định tuyến IPv4/v6, quy tắc bảo mật có trạng thái và không trạng thái, chuyển đổi địa chỉ mạng, cân bằng tải máy chủ, dịch vụ mã hóa, ánh xạ VLAN sang VPC và VPC peering ở tốc độ dây.²⁷
AMD cung cấp một pipeline tham chiếu SAI (Switch Abstraction Interface) chạy SONiC OS trên DPU Pensando.²⁸ Sự tích hợp cho phép các dịch vụ do SONiC cung cấp bao gồm ngăn xếp định tuyến, giao diện quản lý và giám sát trong khi tận dụng đầy đủ các khả năng DPU thông qua SSDK.²⁹
AMD giới thiệu Pensando Salina là phiên bản kế nhiệm 400G được thiết kế để cạnh tranh trực tiếp với NVIDIA BlueField-3 trong các ứng dụng mạng front-end.³⁰ Pensando Pollara 400 AI NIC đã có sẵn thương mại trong nửa đầu năm 2025, tối ưu hóa mạng AI và HPC thông qua các khả năng tiên tiến bao gồm RDMA và kiểm soát tắc nghẽn.³¹
DPU Giglio mới hơn được xây dựng dựa trên Elba với khả năng tương thích mã nguồn, cho phép khách hàng hiện tại áp dụng nền tảng mới hơn với những thay đổi phần mềm tối thiểu.³²
Đối với các doanh nghiệp chạy VMware, các lựa chọn thực tế thu hẹp xuống còn NVIDIA BlueField-2 hoặc AMD Pensando DSC2.³³ Hỗ trợ hệ sinh thái VMware hạn chế các tùy chọn cho các tổ chức cam kết với nền tảng ảo hóa đó.
Intel IPU E2100: phương pháp cloud-native
Intel Infrastructure Processing Unit (IPU) Adapter E2100 cung cấp tăng tốc cơ sở hạ tầng, kích hoạt lưu trữ ảo và các tính năng bảo mật nâng cao.³⁴ SoC E2100 là một nền tảng tăng tốc cơ sở hạ tầng được tối ưu hóa cho điện năng, hiệu suất và quy mô.³⁵
Phần cứng có một pipeline xử lý gói phong phú với băng thông 200GbE và bao gồm các bộ tăng tốc NVMe, nén và mã hóa.³⁶ Phức hợp tính toán ARM Neoverse N1 cho phép phần mềm do khách hàng cung cấp thực thi các tính năng từ các pipeline xử lý gói phức tạp đến vận chuyển lưu trữ, quản lý thiết bị và telemetry.³⁷
E2100 chứa 16 lõi ARM Neoverse N1 với 32 megabyte cache và 3 kênh bộ nhớ LPDDR4x 16GB tổng cộng 48 gigabyte.³⁸
Các biến thể model đáp ứng các yêu cầu triển khai khác nhau. E2100-CCQDA2 ra mắt vào Q1 2024 với TDP 150W trong cấu hình cổng kép hỗ trợ tốc độ dữ liệu 200/100/50/25/10GbE qua PCIe 4.0 trong form factor nửa chiều dài, chiều cao đầy đủ, một khe.³⁹ E2100-CCQDA2HL ra mắt vào Q4 2024 với TDP giảm còn 75W trong cùng cấu hình cổng kép.⁴⁰
Kết nối sử dụng cổng QSFP56 hỗ trợ cáp DAC, quang học và AOC.⁴¹ Hỗ trợ ảo hóa bao gồm Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV và RoCEv2/RDMA.⁴²
Dòng Intel IPU bắt nguồn từ dự án Mt Evans được thiết kế để hoạt động như AWS Nitro đặc biệt cho Google Cloud, giảm tải NVMe over Fabric và bảo mật mạng.⁴³ E2100 đại diện cho phiên bản đầu tiên có sẵn cho khách hàng không phải Google.⁴⁴
Các trường hợp sử dụng bao gồm tách biệt và cô lập các khối lượng công việc cơ sở hạ tầng, giảm tải mạng ảo hóa sang IPU nơi các bộ tăng tốc xử lý tác vụ hiệu quả hơn, và thay thế lưu trữ đĩa cục bộ bằng lưu trữ ảo hóa tách rời.⁴⁵
Động lực thị trường và mô hình áp dụng
Thị trường DPU chia thành các phân khúc trường hợp sử dụng riêng biệt. Giảm tải trung tâm dữ liệu dẫn đầu, được thúc đẩy bởi sự mở rộng trung tâm dữ liệu hyperscale và nhu cầu ngày càng tăng của các khối lượng công việc tính toán phức tạp, dữ liệu nặng.⁴⁶ Bắc Mỹ giữ thị phần doanh thu lớn nhất, được thúc đẩy bởi các mối đe dọa an ninh mạng leo thang, việc áp dụng ngày càng tăng các framework bảo mật zero-trust, và các khoản đầu tư đáng kể vào cơ sở hạ tầng AI và machine learning.⁴⁷
Các mô hình áp dụng cho thấy sự liên kết rõ ràng với khối lượng công việc. Khoảng 30% triển khai tập trung vào khối lượng công việc AI trong khi 20% nhắm vào kiến trúc bảo mật zero-trust.⁴⁸ DPU với tăng tốc bảo mật dựa trên phần cứng thấy mức tăng 30% trong việc áp dụng, phản ánh ưu tiên của ngành về các nguyên tắc zero-trust.⁴⁹
Các mô hình lưu lượng AI thúc đẩy sự cần thiết của DPU. Lưu lượng đông-tây giữa các GPU trong quá trình huấn luyện chiếm ưu thế trong giao tiếp cụm AI hiện đại.⁵⁰ CPU host không thể xử lý lưu lượng này ở tốc độ dây mà không trở thành nút cổ chai. DPU xử lý việc xử lý mạng mà nếu không sẽ tiêu thụ các chu kỳ CPU cần thiết cho các chức năng điều phối và mặt phẳng điều khiển.
Bối cảnh cạnh tranh có ba nhà cung cấp chính với định vị riêng biệt. NVIDIA dẫn đầu với tích hợp BlueField vào hệ sinh thái cơ sở hạ tầng AI rộng hơn của họ và hỗ trợ InfiniBand mạnh nhất.⁵¹ AMD Pensando thống trị các triển khai hyperscaler với quy mô sản xuất đã được chứng minh và khả năng lập trình P4.⁵² Intel nhắm vào các kiến trúc cloud-native với thiết kế IPU lấy cảm hứng từ Nitro.⁵³
OCTEON 10 của Marvell đại diện cho đối thủ thế hệ tiếp theo—DPU 5nm đầu tiên của ngành với lõi ARM Neoverse N2 cung cấp hiệu suất tính toán cao hơn 3 lần và tiêu thụ điện năng thấp hơn 50% so với các thế hệ trước.⁵⁴ Các bộ tăng tốc phần cứng sáng tạo cho ML/AI inline cung cấp hiệu suất tăng 100 lần so với suy luận dựa trên phần mềm.⁵⁵
Triển khai bảo mật zero-trust
DPU cho phép thực thi bảo mật zero-trust tại biên mạng mà không liên quan đến CPU host.⁵⁶ Kiến trúc đặt việc thực thi chính sách tại nguồn dữ liệu thay vì tại các điểm tập hợp mạng.
Tường lửa L4 chạy trực tiếp trên DPU, thực thi chính sách trước khi lưu lượng đến host.⁵⁷ DPU BlueField của NVIDIA hỗ trợ phân đoạn vi mô, cho phép các operator áp dụng các nguyên tắc zero-trust cho các khối lượng công việc GPU mà không cần sự tham gia của CPU host.⁵⁸
Mô hình bảo mật đặc biệt quan trọng đối với cơ sở hạ tầng AI đa thuê bao. Khi nhiều khách hàng chia sẻ các cụm GPU, DPU thực thi cách ly giữa các thuê bao ở cấp độ mạng.⁵⁹ Hệ điều hành host không bao giờ nhìn thấy lưu lượng dành cho các thuê bao khác, giảm bề mặt tấn công.
Gốc tin cậy thiết lập xác minh mã hóa của các thành phần cơ sở hạ tầng.⁶⁰ DPU xác nhận firmware, hệ điều hành và ứng dụng trước khi cho phép truy cập mạng. Các host bị xâm phạm không thể giao tiếp trên mạng mà không vượt qua xác minh do DPU thực thi.
DPU cho phép các chức năng giám sát mạng, telemetry và khả năng quan sát trong các môi trường zero-trust phân tán cao trên các instance đám mây và biên.⁶¹ Khả năng hiển thị mở rộng đến lưu lượng được mã hóa thông qua kiểm tra TLS được tăng tốc phần cứng mà không có hình phạt hiệu suất của giải mã dựa trên phần mềm.
Tích hợp cơ sở hạ tầng AI
Các cụm AI đặt ra các yêu cầu DPU cụ thể khác với các khối lượng công việc trung tâm dữ liệu chung. Mô hình lưu lượng đông-tây giữa các GPU trong quá trình huấn luyện phân tán tạo ra nhu cầu băng thông bền vững mà các NIC truyền thống không thể xử lý mà không cần sự hỗ trợ của CPU.⁶²
Các hoạt động tập thể—all-reduce, all-gather và broadcast—hình thành xương sống giao tiếp của huấn luyện phân tán.⁶³ DPU có thể tăng tốc các hoạt động này thông qua giảm tải phần cứng, giảm độ trễ và giải phóng tính toán GPU cho việc thực thi mô hình thực tế.
Hỗ trợ RDMA chứng tỏ là thiết yếu cho các khối lượng công việc AI. DPU xử lý RoCEv2 (RDMA over Converged Ethernet) hoặc InfiniBand RDMA trong phần cứng, bỏ qua hoàn toàn ngăn xếp mạng host.⁶⁴ Truyền dữ liệu zero-copy giữa bộ nhớ GPU và mạng giảm thiểu độ trễ và tối đa hóa việc sử dụng băng thông.
Kiểm soát tắc nghẽn trở nên quan trọng ở quy mô cụm AI. DPU triển khai DCQCN (Data Center Quantized Congestion Notificati
[Nội dung bị cắt ngắn cho bản dịch]