DPUs y SmartNICs: el tercer pilar de la computación en centros de datos

El mercado de DPU SmartNIC alcanza $1.11B en 2024, con proyección de $4.44B para 2034 (CAGR del 15%). El 50% de los proveedores de nube ahora utilizan DPUs; el 35% del entrenamiento de IA se descarga a DPUs. BlueField-3 ofrece el equivalente a 300 núcleos de CPU en descarga de servicios. Se anuncia BlueField-4 con 800Gbps y 6x más cómputo. AMD Pensando Elba se comercializa con doble 200GbE y programabilidad P4.

DPUs y SmartNICs: el tercer pilar de la computación en centros de datos

DPUs y SmartNICs: el tercer pilar de la computación en centros de datos

Actualizado el 11 de diciembre de 2025

Actualización de diciembre 2025: El mercado de DPU SmartNIC alcanza $1.11B en 2024, con proyección de $4.44B para 2034 (CAGR del 14.89%). Cerca del 50% de los proveedores de servicios en la nube ahora dependen de DPUs para optimización de cargas de trabajo. Aproximadamente el 35% de las tareas de entrenamiento de modelos de IA se descargan a DPUs para mayor eficiencia y rendimiento. BlueField-3 ofrece el equivalente a 300 núcleos de CPU en descarga de servicios. Se anuncia BlueField-4 con 800Gbps y 6x más cómputo. AMD Pensando Elba se comercializa con doble 200GbE y programabilidad P4.

El mercado de DPU SmartNIC alcanzó $1.11 mil millones en 2024 y crecerá a $4.44 mil millones para 2034 con una tasa de crecimiento anual compuesto del 14.89%.¹ Cerca del 50% de los proveedores de servicios en la nube ahora dependen de DPUs para la optimización de cargas de trabajo.² Alrededor del 35% de las tareas de entrenamiento de modelos de IA se descargan a DPUs para mayor eficiencia y rendimiento.³ Los líderes de la industria ven cada vez más a las DPUs como el tercer pilar de la computación junto con CPUs y GPUs—los procesadores dedicados que mueven datos de forma segura a través de la infraestructura.⁴

Los clústeres de IA transformaron los patrones de tráfico dentro de los centros de datos. La mayor parte del tráfico ahora fluye de este a oeste entre GPUs durante el entrenamiento de modelos y los puntos de control, en lugar de norte a sur entre aplicaciones e internet.⁵ La DPU evolucionó de un acelerador opcional a infraestructura necesaria que evita que los cuellos de botella de CPU limiten la utilización de GPU.⁶ Las organizaciones que construyen infraestructura de IA deben evaluar la selección de DPU con el mismo cuidado que las elecciones de GPU y CPU.

NVIDIA BlueField-3: el estándar de infraestructura

NVIDIA BlueField-3 representa la tercera generación de infraestructura de centro de datos en un chip, permitiendo a las organizaciones construir infraestructura de TI definida por software y acelerada por hardware desde la nube hasta el centro de datos central y el edge.⁷ La DPU de 22 mil millones de transistores descarga, acelera y aísla las funciones de redes definidas por software, almacenamiento, seguridad y gestión.⁸

La conectividad de red alcanza 400 gigabits por segundo vía Ethernet o NDR InfiniBand.⁹ Las configuraciones de puertos abarcan 1, 2 o 4 puertos con opciones para varias combinaciones de ancho de banda.¹⁰ La memoria integrada incluye 16 gigabytes de DDR5 con opciones de factor de forma que incluyen tarjetas PCIe de media altura y media longitud, y altura completa y media longitud.¹¹

BlueField-3 ofrece 10 veces la potencia de cómputo acelerado de la generación anterior.¹² El complejo de procesadores cuenta con 16 núcleos ARM A78 con 4 veces la aceleración criptográfica de BlueField-2.¹³ El ancho de banda de red se duplicó mientras que la potencia de cómputo se cuadruplicó y el ancho de banda de memoria aumentó casi 5 veces.¹⁴

La equivalencia de rendimiento cuenta la historia. Una DPU BlueField-3 ofrece el equivalente en servicios de centro de datos de hasta 300 núcleos de CPU, liberando valiosos ciclos de CPU para aplicaciones críticas del negocio.¹⁵ La proporción de descarga justifica la inversión en DPU para organizaciones donde la capacidad de CPU limita el despliegue de cargas de trabajo.

BlueField-3 es la primera DPU en soportar PCIe de quinta generación y ofrecer aceleración de centro de datos sincronizada en tiempo.¹⁶ El consumo máximo de energía no excede 150 vatios.¹⁷

Los casos de uso abarcan toda la pila de infraestructura: infraestructura hiperconvergente con cifrado, integridad de datos, deduplicación, descompresión y codificación de borrado para almacenamiento; firewalls distribuidos, IDS/IPS, raíz de confianza, microsegmentación y prevención de DDoS para seguridad; supercomputación nativa en la nube con multitenencia y aceleración de comunicación para HPC/IA; y Cloud RAN, gateways de edge virtualizados y aceleración de VNF para aplicaciones de telecomunicaciones y edge.¹⁸

NVIDIA anunció BlueField-4 como el sucesor—una plataforma de infraestructura de 800 gigabits por segundo para fábricas de IA a escala giga que ofrece 6 veces el cómputo de BlueField-3 con aceleraciones para redes, almacenamiento de datos y ciberseguridad.¹⁹

AMD Pensando: la elección de los hiperescaladores

AMD adquirió Pensando Systems en 2022, incorporando la tecnología DPU programable en P4 al portafolio de centros de datos de AMD.²⁰ Las DPUs Pensando han sido ampliamente adoptadas, validadas y probadas como la solución de redes front-end en algunos de los centros de datos hiperescala más grandes.²¹

La DPU AMD Pensando Elba de segunda generación es completamente programable en P4 y está optimizada para alto rendimiento, permitiendo descarga avanzada de servicios de redes, almacenamiento y seguridad a velocidad de línea de 200 gigabits por segundo dual.²²

El SoC Elba contiene 16 núcleos ARM Cortex-A72, controladores de memoria DDR4/DDR5 duales, 32 líneas de conectividad PCIe Gen3 o Gen4, hasta 200GbE dual o 100GbE cuádruple de redes, y capacidades de descarga de almacenamiento y criptografía.²³

La arquitectura se centra en Unidades de Procesamiento de Coincidencia (MPUs) donde el software en silicio se ejecuta y proporciona servicios acelerados de ruta rápida.²⁴ La memoria del sistema se conecta tanto a los núcleos ARM de propósito general como a los MPUs de dominio específico.²⁵ El pipeline P4 maneja redes, almacenamiento, telemetría, SDN, seguridad, gestión de congestión y RDMA simultáneamente sin comprometer el rendimiento.²⁶

El pipeline programable proporciona encapsulación y desencapsulación de túneles VxLAN, enrutamiento IPv4/v6, reglas de seguridad con y sin estado, traducción de direcciones de red, balanceo de carga de servidores, servicios de cifrado, mapeo de VLAN a VPC y emparejamiento de VPC a velocidad de línea.²⁷

AMD ofrece un pipeline de referencia SAI (Switch Abstraction Interface) ejecutando SONiC OS en DPUs Pensando.²⁸ La integración permite servicios proporcionados por SONiC incluyendo la pila de enrutamiento, interfaz de gestión y monitoreo mientras aprovecha las capacidades completas de la DPU a través del SSDK.²⁹

AMD introdujo el Pensando Salina como el sucesor de 400G diseñado para competir directamente con NVIDIA BlueField-3 en aplicaciones de red front-end.³⁰ El Pensando Pollara 400 AI NIC estuvo disponible comercialmente en la primera mitad de 2025, optimizando las redes de IA y HPC a través de capacidades avanzadas incluyendo RDMA y control de congestión.³¹

La DPU Giglio más nueva se basa en Elba con compatibilidad de código fuente, permitiendo a los clientes existentes adoptar la plataforma más nueva con cambios mínimos de software.³²

Para empresas que ejecutan VMware, las opciones prácticas se reducen a NVIDIA BlueField-2 o AMD Pensando DSC2.³³ El soporte del ecosistema VMware limita las opciones para organizaciones comprometidas con esa plataforma de virtualización.

Intel IPU E2100: el enfoque nativo en la nube

El Adaptador de Unidad de Procesamiento de Infraestructura (IPU) E2100 de Intel ofrece aceleración de infraestructura, habilitación de almacenamiento virtual y características de seguridad mejoradas.³⁴ El SoC E2100 es una plataforma de aceleración de infraestructura optimizada para potencia, rendimiento y escala.³⁵

El hardware cuenta con un rico pipeline de procesamiento de paquetes con ancho de banda de 200GbE e incluye aceleradores de NVMe, compresión y criptografía.³⁶ El complejo de cómputo ARM Neoverse N1 permite que el software proporcionado por el cliente ejecute funciones que van desde pipelines complejos de procesamiento de paquetes hasta transporte de almacenamiento, gestión de dispositivos y telemetría.³⁷

El E2100 contiene 16 núcleos ARM Neoverse N1 con 32 megabytes de caché y 3 canales de memoria LPDDR4x de 16GB que totalizan 48 gigabytes.³⁸

Las variantes de modelo abordan diferentes requisitos de implementación. El E2100-CCQDA2 se lanzó en el Q1 2024 con TDP de 150W en una configuración de doble puerto que soporta velocidades de datos de 200/100/50/25/10GbE sobre PCIe 4.0 en un factor de forma de media longitud, altura completa y ranura única.³⁹ El E2100-CCQDA2HL se lanzó en el Q4 2024 con TDP reducido de 75W en la misma configuración de doble puerto.⁴⁰

La conectividad usa puertos QSFP56 que soportan cables DAC, ópticos y AOC.⁴¹ El soporte de virtualización incluye Virtual Machine Device Queues (VMDq), PCI-SIG SR-IOV y RoCEv2/RDMA.⁴²

El linaje del Intel IPU se remonta al proyecto Mt Evans diseñado para funcionar como AWS Nitro específicamente para Google Cloud, descargando NVMe sobre Fabric y seguridad de red.⁴³ El E2100 representa la primera iteración disponible para clientes que no son Google.⁴⁴

Los casos de uso incluyen separación y aislamiento de cargas de trabajo de infraestructura, descarga de redes virtualizadas a la IPU donde los aceleradores procesan tareas de manera más eficiente, y reemplazo de almacenamiento de disco local con almacenamiento virtualizado desacoplado.⁴⁵

Dinámicas de mercado y patrones de adopción

El mercado de DPU se divide en segmentos de casos de uso distintos. La descarga de centros de datos lidera, impulsada por la expansión de centros de datos hiperescala y las crecientes demandas de cargas de trabajo de computación complejas e intensivas en datos.⁴⁶ Norteamérica tiene la mayor participación de ingresos, impulsada por las crecientes amenazas de ciberseguridad, la adopción creciente de marcos de seguridad de confianza cero, e inversiones significativas en infraestructura de IA y aprendizaje automático.⁴⁷

Los patrones de adopción muestran una clara alineación con las cargas de trabajo. Aproximadamente el 30% de las implementaciones se enfocan en cargas de trabajo de IA mientras que el 20% apunta a arquitectura de seguridad de confianza cero.⁴⁸ Las DPUs con aceleración de seguridad basada en hardware ven un aumento del 30% en adopción, reflejando la prioridad de la industria en los principios de confianza cero.⁴⁹

Los patrones de tráfico de IA impulsan la necesidad de DPU. El tráfico de este a oeste entre GPUs durante el entrenamiento domina la comunicación de clústeres de IA modernos.⁵⁰ La CPU del host no puede procesar este tráfico a velocidad de línea sin convertirse en un cuello de botella. Las DPUs manejan el procesamiento de red que de otra manera consumiría ciclos de CPU necesarios para funciones de orquestación y plano de control.

El panorama competitivo presenta tres proveedores principales con posicionamientos distintos. NVIDIA lidera con la integración de BlueField en su ecosistema más amplio de infraestructura de IA y el soporte más fuerte de InfiniBand.⁵¹ AMD Pensando domina las implementaciones de hiperescaladores con escala de producción probada y programabilidad P4.⁵² Intel apunta a arquitecturas nativas en la nube con el diseño de IPU inspirado en Nitro.⁵³

El OCTEON 10 de Marvell representa al desafiante de próxima generación—la primera DPU de la industria en 5nm con núcleos ARM Neoverse N2 que ofrecen 3 veces mayor rendimiento de computación y 50% menor consumo de energía que las generaciones anteriores.⁵⁴ Los aceleradores de hardware innovadores para ML/IA en línea proporcionan un aumento de rendimiento de 100 veces sobre la inferencia basada en software.⁵⁵

Implementación de seguridad de confianza cero

Las DPUs permiten la aplicación de seguridad de confianza cero en el borde de la red sin involucrar CPUs del host.⁵⁶ La arquitectura coloca la aplicación de políticas en la fuente de datos en lugar de en puntos de agregación de red.

Los firewalls L4 se ejecutan directamente en la DPU, aplicando políticas antes de que el tráfico llegue al host.⁵⁷ La DPU BlueField de NVIDIA soporta microsegmentación, permitiendo a los operadores aplicar principios de confianza cero a cargas de trabajo de GPU sin involucramiento de la CPU del host.⁵⁸

El modelo de seguridad es particularmente importante para infraestructura de IA multiinquilino. Cuando múltiples clientes comparten clústeres de GPU, la DPU aplica el aislamiento entre inquilinos a nivel de red.⁵⁹ El sistema operativo del host nunca ve el tráfico destinado a otros inquilinos, reduciendo la superficie de ataque.

La raíz de confianza establece verificación criptográfica de los componentes de infraestructura.⁶⁰ La DPU valida firmware, sistemas operativos y aplicaciones antes de permitir el acceso a la red. Los hosts comprometidos no pueden comunicarse en la red sin pasar la verificación aplicada por la DPU.

Las DPUs permiten funciones de monitoreo de red, telemetría y observabilidad en entornos de confianza cero altamente distribuidos a través de instancias de nube y edge.⁶¹ La visibilidad se extiende al tráfico cifrado a través de inspección TLS acelerada por hardware sin la penalización de rendimiento del descifrado basado en software.

Integración de infraestructura de IA

Los clústeres de IA presentan requisitos específicos de DPU que difieren de las cargas de trabajo generales de centros de datos. El patrón de tráfico de este a oeste entre GPUs durante el entrenamiento distribuido crea demandas de ancho de banda sostenidas que las NICs tradicionales no pueden manejar sin asistencia de CPU.⁶²

Las operaciones colectivas—all-reduce, all-gather y broadcast—forman la columna vertebral de comunicación del entrenamiento distribuido.⁶³ Las DPUs pueden acelerar estas operaciones a través de descarga de hardware, reduciendo la latencia y liberando el cómputo de GPU para la ejecución real del modelo.

El soporte de RDMA resulta esencial para cargas de trabajo de IA. Las DPUs manejan el procesamiento de RoCEv2 (RDMA sobre Ethernet Convergente) o RDMA InfiniBand en hardware, evitando completamente la pila de red del host.⁶⁴ La transferencia de datos sin copia entre la memoria de GPU y la red minimiza la latencia y maximiza la utilización del ancho de banda.

El control de congestión se vuelve crítico a escala de clúster de IA. Las DPUs implementan DCQCN (Data Center Quantized Congestion Notificati

[Contenido truncado para traducción]

Solicitar Cotización_

Cuéntanos sobre tu proyecto y te responderemos en 72 horas.

> TRANSMISIÓN_COMPLETA

Solicitud Recibida_

Gracias por su consulta. Nuestro equipo revisará su solicitud y responderá dentro de 72 horas.

EN COLA PARA PROCESAMIENTO