DPUs e SmartNICs: o terceiro pilar da computação em data centers
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: Mercado de DPU SmartNIC atingindo $1,11B em 2024, projetado para $4,44B até 2034 (CAGR de 15%). 50% dos provedores de nuvem agora usando DPUs; 35% do treinamento de IA transferido para DPUs. BlueField-3 entregando equivalente a 300 núcleos de CPU em offload de serviços. BlueField-4 anunciado com 800Gbps e 6x mais computação. AMD Pensando Elba disponível com dual 200GbE e programabilidade P4.
O mercado de DPU SmartNIC atingiu $1,11 bilhão em 2024 e crescerá para $4,44 bilhões até 2034 com uma taxa de crescimento anual composta de 14,89%.¹ Cerca de 50% dos provedores de serviços em nuvem agora dependem de DPUs para otimização de cargas de trabalho.² Aproximadamente 35% das tarefas de treinamento de modelos de IA são transferidas para DPUs para melhor eficiência e desempenho.³ Líderes da indústria cada vez mais veem as DPUs como o terceiro pilar da computação ao lado de CPUs e GPUs—os processadores dedicados que movem dados com segurança pela infraestrutura.⁴
Clusters de IA transformaram os padrões de tráfego dentro dos data centers. A maior parte do tráfego agora flui leste-oeste entre GPUs durante o treinamento de modelos e checkpointing, em vez de norte-sul entre aplicações e a internet.⁵ A DPU evoluiu de um acelerador opcional para infraestrutura necessária que impede que gargalos de CPU limitem a utilização de GPU.⁶ Organizações construindo infraestrutura de IA devem avaliar a seleção de DPU tão cuidadosamente quanto as escolhas de GPU e CPU.
NVIDIA BlueField-3: o padrão de infraestrutura
A NVIDIA BlueField-3 representa a terceira geração de infraestrutura de data center em um chip, permitindo que organizações construam infraestrutura de TI definida por software e acelerada por hardware desde a nuvem até o data center central e a borda.⁷ A DPU de 22 bilhões de transistores transfere, acelera e isola funções de rede, armazenamento, segurança e gerenciamento definidas por software.⁸
A conectividade de rede atinge 400 gigabits por segundo via Ethernet ou NDR InfiniBand.⁹ As configurações de porta abrangem 1, 2 ou 4 portas com opções para várias combinações de largura de banda.¹⁰ A memória integrada inclui 16 gigabytes de DDR5 com opções de formato incluindo placas PCIe half-height half-length e full-height half-length.¹¹
A BlueField-3 entrega 10 vezes o poder de computação acelerada da geração anterior.¹² O complexo de processadores apresenta 16 núcleos ARM A78 com 4 vezes a aceleração de criptografia da BlueField-2.¹³ A largura de banda de rede dobrou enquanto o poder de computação quadruplicou e a largura de banda de memória aumentou quase 5 vezes.¹⁴
A equivalência de desempenho conta a história. Uma DPU BlueField-3 entrega serviços de data center equivalentes a até 300 núcleos de CPU, liberando ciclos valiosos de CPU para aplicações críticas de negócios.¹⁵ A proporção de offload justifica o investimento em DPU para organizações onde a capacidade de CPU limita a implantação de cargas de trabalho.
A BlueField-3 é a primeira DPU a suportar PCIe de quinta geração e oferecer aceleração de data center sincronizada por tempo.¹⁶ O consumo máximo de energia não excede 150 watts.¹⁷
Os casos de uso abrangem toda a pilha de infraestrutura: infraestrutura hiperconvergente com criptografia, integridade de dados, deduplicação, descompressão e erasure coding para armazenamento; firewalls distribuídos, IDS/IPS, raiz de confiança, microsegmentação e prevenção de DDoS para segurança; supercomputação cloud-native com multi-tenancy e aceleração de comunicação para HPC/IA; e Cloud RAN, gateways de borda virtualizados e aceleração de VNF para aplicações de telecomunicações e borda.¹⁸
A NVIDIA anunciou a BlueField-4 como sucessora—uma plataforma de infraestrutura de 800 gigabits por segundo para fábricas de IA em gigaescala, entregando 6 vezes a computação da BlueField-3 com acelerações para rede, armazenamento de dados e cibersegurança.¹⁹
AMD Pensando: a escolha dos hyperscalers
A AMD adquiriu a Pensando Systems em 2022, trazendo a tecnologia DPU programável em P4 para o portfólio de data center da AMD.²⁰ As DPUs Pensando foram amplamente adotadas, validadas e testadas como a solução de rede front-end em alguns dos maiores data centers hyperscale.²¹
A DPU AMD Pensando Elba de segunda geração é totalmente programável em P4 e otimizada para alto throughput, permitindo offload avançado de serviços de rede, armazenamento e segurança em taxa de linha dual de 200 gigabits por segundo.²²
O SoC Elba contém 16 núcleos ARM Cortex-A72, controladores de memória dual DDR4/DDR5, 32 lanes de conectividade PCIe Gen3 ou Gen4, até dual 200GbE ou quad 100GbE de rede, e capacidades de offload de armazenamento e criptografia.²³
A arquitetura centra-se em Match-Processing Units (MPUs) onde software-em-silício executa e fornece serviços acelerados de fast-path.²⁴ A memória do sistema conecta-se tanto aos núcleos ARM de propósito geral quanto às MPUs de domínio específico.²⁵ O pipeline P4 lida com rede, armazenamento, telemetria, SDN, segurança, gerenciamento de congestionamento e RDMA simultaneamente sem comprometer o desempenho.²⁶
O pipeline programável fornece encapsulamento e desencapsulamento de túnel VxLAN, roteamento IPv4/v6, regras de segurança stateless e stateful, tradução de endereços de rede, balanceamento de carga de servidor, serviços de criptografia, mapeamento de VLAN para VPC e peering de VPC em taxa de linha.²⁷
A AMD oferece um pipeline de referência SAI (Switch Abstraction Interface) executando SONiC OS em DPUs Pensando.²⁸ A integração permite serviços fornecidos pelo SONiC incluindo a pilha de roteamento, interface de gerenciamento e monitoramento enquanto aproveita as capacidades completas da DPU via SSDK.²⁹
A AMD introduziu a Pensando Salina como a sucessora de 400G projetada para competir diretamente com a NVIDIA BlueField-3 em aplicações de rede front-end.³⁰ A Pensando Pollara 400 AI NIC tornou-se comercialmente disponível no primeiro semestre de 2025, otimizando redes de IA e HPC através de capacidades avançadas incluindo RDMA e controle de congestionamento.³¹
A DPU Giglio mais recente baseia-se na Elba com compatibilidade de código-fonte, permitindo que clientes existentes adotem a plataforma mais nova com mudanças mínimas de software.³²
Para empresas executando VMware, as escolhas práticas se reduzem a NVIDIA BlueField-2 ou AMD Pensando DSC2.³³ O suporte ao ecossistema VMware limita as opções para organizações comprometidas com essa plataforma de virtualização.
Intel IPU E2100: a abordagem cloud-native
O Adaptador Infrastructure Processing Unit (IPU) E2100 da Intel entrega aceleração de infraestrutura, habilitação de armazenamento virtual e recursos de segurança aprimorados.³⁴ O SoC E2100 é uma plataforma de aceleração de infraestrutura otimizada para energia, desempenho e escala.³⁵
O hardware apresenta um pipeline rico de processamento de pacotes com largura de banda de 200GbE e inclui aceleradores de NVMe, compressão e criptografia.³⁶ O complexo de computação ARM Neoverse N1 permite que software fornecido pelo cliente execute recursos que vão desde pipelines complexos de processamento de pacotes até transporte de armazenamento, gerenciamento de dispositivos e telemetria.³⁷
O E2100 contém 16 núcleos ARM Neoverse N1 com 32 megabytes de cache e 3 canais de memória LPDDR4x de 16GB totalizando 48 gigabytes.³⁸
Variantes de modelo atendem diferentes requisitos de implantação. O E2100-CCQDA2 foi lançado no Q1 2024 com TDP de 150W em uma configuração de porta dual suportando taxas de dados de 200/100/50/25/10GbE sobre PCIe 4.0 em um formato half-length, full-height, single-slot.³⁹ O E2100-CCQDA2HL foi lançado no Q4 2024 com TDP reduzido de 75W na mesma configuração de porta dual.⁴⁰
A conectividade usa portas QSFP56 suportando cabos DAC, ópticos e AOC.⁴¹ O suporte à virtualização inclui Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV e RoCEv2/RDMA.⁴²
A linhagem do Intel IPU remonta ao projeto Mt Evans projetado para funcionar como o AWS Nitro especificamente para o Google Cloud, transferindo NVMe over Fabric e segurança de rede.⁴³ O E2100 representa a primeira iteração disponível para clientes que não são o Google.⁴⁴
Os casos de uso incluem separação e isolamento de cargas de trabalho de infraestrutura, transferência de redes virtualizadas para a IPU onde aceleradores processam tarefas mais eficientemente, e substituição de armazenamento em disco local por armazenamento virtualizado desacoplado.⁴⁵
Dinâmicas de mercado e padrões de adoção
O mercado de DPU divide-se em segmentos distintos de casos de uso. Offload de data center lidera, impulsionado pela expansão de data centers hyperscale e demandas crescentes de cargas de trabalho de computação complexas e intensivas em dados.⁴⁶ A América do Norte detém a maior participação de receita, impulsionada por ameaças crescentes de cibersegurança, adoção crescente de frameworks de segurança zero-trust e investimentos significativos em infraestrutura de IA e machine learning.⁴⁷
Padrões de adoção mostram alinhamento claro de cargas de trabalho. Cerca de 30% das implantações focam em cargas de trabalho de IA enquanto 20% visam arquitetura de segurança zero-trust.⁴⁸ DPUs com aceleração de segurança baseada em hardware veem um aumento de 30% na adoção, refletindo a prioridade da indústria em princípios zero-trust.⁴⁹
Padrões de tráfego de IA impulsionam a necessidade de DPU. O tráfego leste-oeste entre GPUs durante o treinamento domina a comunicação moderna de clusters de IA.⁵⁰ A CPU do host não pode processar esse tráfego em taxa de linha sem se tornar um gargalo. DPUs lidam com o processamento de rede que de outra forma consumiria ciclos de CPU necessários para funções de orquestração e plano de controle.
O cenário competitivo apresenta três fornecedores principais com posicionamento distinto. A NVIDIA lidera com a integração BlueField em seu ecossistema mais amplo de infraestrutura de IA e o suporte InfiniBand mais forte.⁵¹ A AMD Pensando domina implantações hyperscaler com escala de produção comprovada e programabilidade P4.⁵² A Intel visa arquiteturas cloud-native com o design IPU inspirado no Nitro.⁵³
O OCTEON 10 da Marvell representa o desafiante de próxima geração—a primeira DPU de 5nm da indústria com núcleos ARM Neoverse N2 entregando 3 vezes maior desempenho de computação e 50% menor consumo de energia que gerações anteriores.⁵⁴ Aceleradores de hardware inovadores para ML/IA inline fornecem aumento de desempenho de 100 vezes sobre inferência baseada em software.⁵⁵
Implementação de segurança zero-trust
DPUs permitem aplicação de segurança zero-trust na borda da rede sem envolver CPUs do host.⁵⁶ A arquitetura coloca a aplicação de políticas na fonte de dados em vez de em pontos de agregação de rede.
Firewalls L4 executam diretamente na DPU, aplicando política antes que o tráfego chegue ao host.⁵⁷ A DPU BlueField da NVIDIA suporta microsegmentação, permitindo que operadores apliquem princípios zero-trust a cargas de trabalho de GPU sem envolvimento da CPU do host.⁵⁸
O modelo de segurança importa particularmente para infraestrutura de IA multi-tenant. Quando múltiplos clientes compartilham clusters de GPU, a DPU aplica isolamento entre inquilinos no nível de rede.⁵⁹ O sistema operacional do host nunca vê tráfego destinado a outros inquilinos, reduzindo a superfície de ataque.
A raiz de confiança estabelece verificação criptográfica de componentes de infraestrutura.⁶⁰ A DPU valida firmware, sistemas operacionais e aplicações antes de permitir acesso à rede. Hosts comprometidos não podem se comunicar na rede sem passar pela verificação aplicada pela DPU.
DPUs permitem funções de monitoramento de rede, telemetria e observabilidade em ambientes zero-trust altamente distribuídos através de instâncias de nuvem e borda.⁶¹ A visibilidade se estende ao tráfego criptografado através de inspeção TLS acelerada por hardware sem a penalidade de desempenho da descriptografia baseada em software.
Integração de infraestrutura de IA
Clusters de IA apresentam requisitos específicos de DPU que diferem de cargas de trabalho gerais de data center. O padrão de tráfego leste-oeste entre GPUs durante treinamento distribuído cria demandas de largura de banda sustentadas que NICs tradicionais não conseguem lidar sem assistência de CPU.⁶²
Operações coletivas—all-reduce, all-gather e broadcast—formam a espinha dorsal de comunicação do treinamento distribuído.⁶³ DPUs podem acelerar essas operações através de offload de hardware, reduzindo latência e liberando computação de GPU para execução real do modelo.
O suporte a RDMA prova-se essencial para cargas de trabalho de IA. DPUs lidam com processamento RoCEv2 (RDMA over Converged Ethernet) ou InfiniBand RDMA em hardware, contornando completamente a pilha de rede do host.⁶⁴ A transferência de dados zero-copy entre memória de GPU e rede minimiza latência e maximiza utilização de largura de banda.
O controle de congestionamento torna-se crítico na escala de cluster de IA. DPUs implementam DCQCN (Data Center Quantized Congestion Notificati
[Conteúdo truncado para tradução]