DPU와 SmartNIC: 데이터센터 컴퓨팅의 세 번째 기둥

DPU SmartNIC 시장이 2024년 11.1억 달러에 도달했으며, 2034년까지 44.4억 달러로 성장 전망(연평균 15% 성장률). 현재 클라우드 공급업체의 50%가 DPU를 사용 중이며, AI 학습의 35%가 DPU로 오프로드됨. BlueField-3는 서비스 오프로드에서 300개 CPU 코어에 해당하는 성능 제공. 800Gbps와 6배 컴퓨팅 성능의 BlueField-4 발표. AMD Pensando Elba는 P4 프로그래밍이 가능한 듀얼 200GbE로 출하 중.

DPU와 SmartNIC: 데이터센터 컴퓨팅의 세 번째 기둥

DPU와 SmartNIC: 데이터센터 컴퓨팅의 세 번째 기둥

2025년 12월 11일 업데이트

2025년 12월 업데이트: DPU SmartNIC 시장이 2024년 11.1억 달러에 도달했으며, 2034년까지 44.4억 달러로 성장할 것으로 예상됩니다(연평균 14.89% 성장률). 클라우드 서비스 공급업체의 약 50%가 현재 워크로드 최적화를 위해 DPU에 의존하고 있습니다. AI 모델 학습 작업의 약 35%가 더 나은 효율성과 성능을 위해 DPU로 오프로드되고 있습니다. 업계 리더들은 DPU를 CPU, GPU와 함께 컴퓨팅의 세 번째 기둥으로 점점 더 인식하고 있습니다—인프라 전반에서 데이터를 안전하게 이동시키는 전용 프로세서입니다.

AI 클러스터가 데이터센터 내 트래픽 패턴을 변화시켰습니다. 이제 대부분의 트래픽은 애플리케이션과 인터넷 간의 남북 방향이 아닌 모델 학습과 체크포인팅 중 GPU 간의 동서 방향으로 흐릅니다. DPU는 선택적 가속기에서 CPU 병목 현상이 GPU 활용을 제약하는 것을 방지하는 필수 인프라로 진화했습니다. AI 인프라를 구축하는 조직은 GPU 및 CPU 선택만큼 신중하게 DPU 선택을 평가해야 합니다.

NVIDIA BlueField-3: 인프라 표준

NVIDIA BlueField-3는 3세대 데이터센터 인프라 온 칩으로, 조직이 클라우드에서 코어 데이터센터, 엣지까지 소프트웨어 정의, 하드웨어 가속 IT 인프라를 구축할 수 있게 합니다. 220억 개의 트랜지스터를 탑재한 이 DPU는 소프트웨어 정의 네트워킹, 스토리지, 보안 및 관리 기능을 오프로드, 가속화, 격리합니다.

네트워크 연결은 이더넷 또는 NDR InfiniBand를 통해 초당 400기가비트에 도달합니다. 포트 구성은 다양한 대역폭 조합 옵션과 함께 1, 2 또는 4포트로 제공됩니다. 온보드 메모리는 16기가바이트 DDR5를 포함하며, 폼팩터 옵션으로는 하프 하이트 하프 렝스(HHHL) 및 풀 하이트 하프 렝스(FHHL) PCIe 카드가 있습니다.

BlueField-3는 이전 세대보다 10배 높은 가속 컴퓨팅 성능을 제공합니다. 프로세서 컴플렉스는 BlueField-2보다 4배 향상된 암호화 가속과 함께 16개의 ARM A78 코어를 탑재하고 있습니다. 네트워크 대역폭은 2배, 컴퓨팅 성능은 4배, 메모리 대역폭은 거의 5배 증가했습니다.

성능 등가 수치가 이야기를 말해줍니다. 하나의 BlueField-3 DPU는 최대 300개 CPU 코어에 해당하는 데이터센터 서비스를 제공하여, 비즈니스 크리티컬 애플리케이션을 위한 귀중한 CPU 사이클을 확보합니다. 이 오프로드 비율은 CPU 용량이 워크로드 배포를 제약하는 조직에 DPU 투자를 정당화합니다.

BlueField-3는 5세대 PCIe를 지원하고 시간 동기화 데이터센터 가속을 제공하는 최초의 DPU입니다. 최대 전력 소비는 150와트를 초과하지 않습니다.

활용 사례는 전체 인프라 스택에 걸쳐 있습니다: 스토리지를 위한 암호화, 데이터 무결성, 중복 제거, 압축 해제, 이레이저 코딩이 포함된 하이퍼컨버지드 인프라; 분산 방화벽, IDS/IPS, 신뢰 루트, 마이크로세그멘테이션, DDoS 방어가 포함된 보안; 멀티테넌시와 통신 가속이 포함된 클라우드 네이티브 슈퍼컴퓨팅을 위한 HPC/AI; 그리고 통신 및 엣지 애플리케이션을 위한 Cloud RAN, 가상화된 엣지 게이트웨이, VNF 가속.

NVIDIA는 후속 제품으로 BlueField-4를 발표했습니다—기가스케일 AI 팩토리를 위한 초당 800기가비트 인프라 플랫폼으로, BlueField-3의 6배 컴퓨팅 성능과 네트워킹, 데이터 스토리지, 사이버 보안을 위한 가속 기능을 제공합니다.

AMD Pensando: 하이퍼스케일러의 선택

AMD는 2022년 Pensando Systems를 인수하여 P4 프로그래밍 가능 DPU 기술을 AMD의 데이터센터 포트폴리오에 추가했습니다. Pensando DPU는 가장 큰 하이퍼스케일 데이터센터 중 일부에서 프론트엔드 네트워킹 솔루션으로 널리 채택, 검증, 테스트되었습니다.

2세대 AMD Pensando Elba DPU는 완전히 P4 프로그래밍 가능하며 고처리량에 최적화되어 듀얼 초당 200기가비트 라인 레이트에서 네트워킹, 스토리지, 보안 서비스의 고급 오프로드를 가능하게 합니다.

Elba SoC는 16개의 ARM Cortex-A72 코어, 듀얼 DDR4/DDR5 메모리 컨트롤러, 32레인 PCIe Gen3 또는 Gen4 연결, 최대 듀얼 200GbE 또는 쿼드 100GbE 네트워킹, 스토리지 및 암호화 오프로딩 기능을 포함합니다.

아키텍처는 소프트웨어 인 실리콘이 실행되고 가속화된 패스트패스 서비스를 제공하는 Match-Processing Units(MPU)를 중심으로 합니다. 시스템 메모리는 범용 ARM 코어와 도메인 특화 MPU 모두에 연결됩니다. P4 파이프라인은 성능 저하 없이 네트워킹, 스토리지, 텔레메트리, SDN, 보안, 혼잡 관리, RDMA를 동시에 처리합니다.

프로그래밍 가능한 파이프라인은 라인 레이트에서 VxLAN 터널 캡슐화 및 역캡슐화, IPv4/v6 라우팅, 무상태 및 상태 유지 보안 규칙, 네트워크 주소 변환, 서버 로드 밸런싱, 암호화 서비스, VLAN에서 VPC로의 매핑, VPC 피어링을 제공합니다.

AMD는 Pensando DPU에서 SONiC OS를 실행하는 SAI(Switch Abstraction Interface) 레퍼런스 파이프라인을 제공합니다. 이 통합을 통해 라우팅 스택, 관리 인터페이스, 모니터링을 포함한 SONiC 제공 서비스를 활용하면서 SSDK를 통해 전체 DPU 기능을 활용할 수 있습니다.

AMD는 프론트엔드 네트워크 애플리케이션에서 NVIDIA BlueField-3와 직접 경쟁하도록 설계된 400G 후속 제품 Pensando Salina를 출시했습니다. Pensando Pollara 400 AI NIC는 2025년 상반기에 상용화되어 RDMA 및 혼잡 제어를 포함한 고급 기능을 통해 AI 및 HPC 네트워킹을 최적화합니다.

더 새로운 Giglio DPU는 소스 코드 호환성을 갖춘 Elba를 기반으로 구축되어, 기존 고객이 최소한의 소프트웨어 변경으로 새로운 플랫폼을 채택할 수 있게 합니다.

VMware를 운영하는 기업의 경우 실질적인 선택지는 NVIDIA BlueField-2 또는 AMD Pensando DSC2로 좁혀집니다. VMware 생태계 지원이 해당 가상화 플랫폼에 전념하는 조직의 옵션을 제한합니다.

Intel IPU E2100: 클라우드 네이티브 접근 방식

Intel의 Infrastructure Processing Unit(IPU) Adapter E2100은 인프라 가속, 가상 스토리지 활성화, 향상된 보안 기능을 제공합니다. E2100 SoC는 전력, 성능, 확장성에 최적화된 인프라 가속 플랫폼입니다.

하드웨어는 200GbE 대역폭의 풍부한 패킷 처리 파이프라인을 갖추고 있으며 NVMe, 압축, 암호화 가속기를 포함합니다. ARM Neoverse N1 컴퓨팅 컴플렉스를 통해 고객 제공 소프트웨어가 복잡한 패킷 처리 파이프라인에서 스토리지 전송, 장치 관리, 텔레메트리에 이르는 기능을 실행할 수 있습니다.

E2100은 32메가바이트 캐시를 갖춘 16개의 ARM Neoverse N1 코어와 총 48기가바이트의 16GB LPDDR4x 메모리 3채널을 포함합니다.

모델 변형은 다양한 배포 요구 사항을 해결합니다. E2100-CCQDA2는 2024년 1분기에 출시되어 150W TDP의 듀얼 포트 구성으로 하프 렝스, 풀 하이트, 싱글 슬롯 폼팩터에서 PCIe 4.0을 통해 200/100/50/25/10GbE 데이터 속도를 지원합니다. E2100-CCQDA2HL은 2024년 4분기에 동일한 듀얼 포트 구성에서 감소된 75W TDP로 출시되었습니다.

연결은 DAC, 광학 모듈, AOC 케이블을 지원하는 QSFP56 포트를 사용합니다. 가상화 지원에는 Virtual Machine Device Queues(VMDq), PCI-SIG SR-IOV, RoCEv2/RDMA가 포함됩니다.

Intel IPU의 계보는 NVMe over Fabric과 네트워크 보안을 오프로드하여 Google Cloud를 위해 특별히 AWS Nitro처럼 기능하도록 설계된 Mt Evans 프로젝트로 거슬러 올라갑니다. E2100은 Google 외 고객에게 제공되는 첫 번째 버전입니다.

활용 사례에는 인프라 워크로드의 분리 및 격리, 가속기가 작업을 더 효율적으로 처리하는 IPU로 가상화된 네트워크 오프로드, 로컬 디스크 스토리지를 분리된 가상화 스토리지로 대체하는 것이 포함됩니다.

시장 역학 및 도입 패턴

DPU 시장은 뚜렷한 활용 사례 세그먼트로 나뉩니다. 데이터센터 오프로드가 선두를 달리며, 하이퍼스케일 데이터센터 확장과 복잡한 데이터 집약적 컴퓨팅 워크로드의 증가하는 수요에 의해 추진됩니다. 북미가 가장 큰 매출 점유율을 보유하고 있으며, 이는 증가하는 사이버 보안 위협, 제로 트러스트 보안 프레임워크의 증가하는 채택, AI 및 머신 러닝 인프라에 대한 상당한 투자에 의해 주도됩니다.

도입 패턴은 명확한 워크로드 정렬을 보여줍니다. 배포의 약 30%가 AI 워크로드에 집중하고 20%는 제로 트러스트 보안 아키텍처를 대상으로 합니다. 하드웨어 기반 보안 가속을 갖춘 DPU의 채택이 30% 증가했으며, 이는 업계의 제로 트러스트 원칙에 대한 우선순위를 반영합니다.

AI 트래픽 패턴이 DPU의 필요성을 주도합니다. 학습 중 GPU 간의 동서 트래픽이 현대 AI 클러스터 통신을 지배합니다. 호스트 CPU는 병목 현상 없이 라인 레이트로 이 트래픽을 처리할 수 없습니다. DPU는 그렇지 않으면 오케스트레이션 및 컨트롤 플레인 기능에 필요한 CPU 사이클을 소비했을 네트워크 처리를 담당합니다.

경쟁 환경은 뚜렷한 포지셔닝을 가진 세 주요 벤더를 특징으로 합니다. NVIDIA는 더 넓은 AI 인프라 생태계로의 BlueField 통합과 가장 강력한 InfiniBand 지원으로 선두를 달립니다. AMD Pensando는 검증된 프로덕션 규모와 P4 프로그래밍 가능성으로 하이퍼스케일러 배포를 지배합니다. Intel은 Nitro에서 영감을 받은 IPU 설계로 클라우드 네이티브 아키텍처를 대상으로 합니다.

Marvell의 OCTEON 10은 차세대 도전자를 대표합니다—업계 최초의 5nm DPU로 ARM Neoverse N2 코어를 탑재하여 이전 세대보다 3배 높은 컴퓨팅 성능과 50% 낮은 전력 소비를 제공합니다. 인라인 ML/AI를 위한 혁신적인 하드웨어 가속기는 소프트웨어 기반 추론보다 100배 성능 향상을 제공합니다.

제로 트러스트 보안 구현

DPU는 호스트 CPU의 개입 없이 네트워크 엣지에서 제로 트러스트 보안 적용을 가능하게 합니다. 이 아키텍처는 네트워크 집계 지점이 아닌 데이터 소스에 정책 적용을 배치합니다.

L4 방화벽은 DPU에서 직접 실행되어 트래픽이 호스트에 도달하기 전에 정책을 적용합니다. NVIDIA의 BlueField DPU는 마이크로세그멘테이션을 지원하여 운영자가 호스트 CPU 개입 없이 GPU 워크로드에 제로 트러스트 원칙을 적용할 수 있게 합니다.

보안 모델은 특히 멀티테넌트 AI 인프라에서 중요합니다. 여러 고객이 GPU 클러스터를 공유할 때 DPU는 네트워크 수준에서 테넌트 간 격리를 적용합니다. 호스트 운영 체제는 다른 테넌트를 위한 트래픽을 전혀 보지 못해 공격 표면이 줄어듭니다.

신뢰 루트는 인프라 구성 요소의 암호화 검증을 설정합니다. DPU는 네트워크 액세스를 허용하기 전에 펌웨어, 운영 체제, 애플리케이션을 검증합니다. 손상된 호스트는 DPU가 적용하는 검증을 통과하지 않고는 네트워크에서 통신할 수 없습니다.

DPU는 클라우드 및 엣지 인스턴스 전반에서 고도로 분산된 제로 트러스트 환경에서 네트워크 모니터링, 텔레메트리, 관찰 가능성 기능을 가능하게 합니다. 가시성은 소프트웨어 기반 복호화의 성능 페널티 없이 하드웨어 가속 TLS 검사를 통해 암호화된 트래픽으로 확장됩니다.

AI 인프라 통합

AI 클러스터는 일반 데이터센터 워크로드와 다른 특정 DPU 요구 사항을 제시합니다. 분산 학습 중 GPU 간의 동서 트래픽 패턴은 기존 NIC가 CPU 지원 없이 처리할 수 없는 지속적인 대역폭 수요를 만듭니다.

집합 연산—all-reduce, all-gather, broadcast—은 분산 학습의 통신 백본을 형성합니다. DPU는 하드웨어 오프로드를 통해 이러한 연산을 가속화하여 지연 시간을 줄이고 실제 모델 실행을 위한 GPU 컴퓨팅을 확보할 수 있습니다.

RDMA 지원은 AI 워크로드에 필수적입니다. DPU는 RoCEv2(RDMA over Converged Ethernet) 또는 InfiniBand RDMA 처리를 하드웨어에서 수행하여 호스트 네트워크 스택을 완전히 우회합니다. GPU 메모리와 네트워크 간의 제로 카피 데이터 전송은 지연 시간을 최소화하고 대역폭 활용을 극대화합니다.

혼잡 제어는 AI 클러스터 규모에서 중요해집니다. DPU는 DCQCN(Data Center Quantized Congestion Notificati

[번역을 위해 콘텐츠가 잘렸습니다]

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중