CPUs para infraestructura de IA: AMD EPYC, Intel Xeon y NVIDIA Grace
Actualizado el 11 de diciembre de 2025
Actualización de diciembre de 2025: La cuota de mercado de CPUs de servidor de AMD alcanza el 27,8% en el tercer trimestre de 2025, con proyección de superar el 40% a fin de año—Intel en mínimo histórico del 72,2%. Los procesadores ARM representan ahora el 13,2% de las ventas de servidores con la combinación NVIDIA Grace Blackwell impulsando un crecimiento del 50% en volumen de CPUs de servidor ARM. EPYC 9005 Turin disponible con hasta 192 núcleos (Zen 5c) y 512MB de caché L3. Intel Xeon 6 Granite Rapids enfocado en aceleración de inferencia de IA.
La cuota de mercado de CPUs de servidor de AMD alcanzó el 27,8% en el tercer trimestre de 2025, con proyección de superar el 40% a fin de año y potencialmente alcanzar el 50% en 2026.¹ La cuota de Intel cayó al 72,2%—la cuota de CPUs de servidor más baja jamás registrada por la compañía.² Los procesadores ARM representan ahora el 13,2% de las ventas totales de servidores, con la combinación Grace Blackwell de NVIDIA impulsando un crecimiento del 50% en volumen de CPUs de servidor ARM.³ El panorama de CPUs para infraestructura de IA está cambiando más rápido que en cualquier momento de las últimas dos décadas.
Las GPUs dominan el cómputo de entrenamiento e inferencia de IA, pero las CPUs siguen siendo esenciales para la orquestación, preprocesamiento de datos, servicio de solicitudes de inferencia y gestión del plano de control. La elección de CPU afecta el ancho de banda de memoria, conectividad de E/S, eficiencia energética y costo total del sistema. Las organizaciones que despliegan IA a escala deben evaluar la selección de CPU con el mismo cuidado que la adquisición de GPUs.
AMD EPYC 9005 Turin: el líder en densidad
AMD lanzó la serie EPYC 9005 (nombre en código Turin) el 10 de octubre de 2024, representando la quinta generación de procesadores de servidor EPYC construidos sobre la arquitectura Zen 5.⁴ AMD los posiciona como la mejor CPU de servidor del mundo para cargas de trabajo empresariales, de IA y en la nube.⁵
Turin ofrece dos configuraciones de núcleos. Los modelos estándar Zen 5 alcanzan 128 núcleos por socket construidos en el proceso de 4nm de TSMC.⁶ Las variantes densas Zen 5c entregan 192 núcleos por socket usando el proceso de 3nm de TSMC.⁷ El buque insignia EPYC 9965 proporciona 192 núcleos y 384 hilos con un TDP de 500W.⁸
Las especificaciones clave abarcan toda la gama de productos:
| SKU | Núcleos | Caché L3 | TDP | Precio |
|---|---|---|---|---|
| EPYC 9965 | 192 (Zen 5c) | 384 MB | 500W | $14.813 |
| EPYC 9755 | 128 (Zen 5) | 512 MB | 500W | $12.984 |
| EPYC 9575F | 64 (Zen 5) | 512 MB | 400W | $10.176 |
| EPYC 9015 | 8 (Zen 5) | 32 MB | 155W | $527 |
La arquitectura emplea hasta 16 CCDs (Core Compute Dies) en modelos estándar y hasta 12 CCDs en configuraciones densas, emparejados con un die de E/S central.⁹ Los CCDs estándar contienen ocho núcleos Zen 5 cada uno, mientras que los CCDs densos empaquetan 16 núcleos Zen 5c.¹⁰
El soporte de memoria alcanza DDR5-6000 con ECC a través de 12 canales, superior al DDR5-4800 de la generación anterior.¹¹ La conectividad PCIe proporciona hasta 128 líneas Gen5 con soporte CXL 1.0 para dispositivos Tipo 1, 2 y 3.¹² El socket SP5 mantiene compatibilidad con sistemas Genoa y Bergamo.¹³
Los procesadores Turin entregan una mejora de IPC del 17% sobre la generación anterior con rutas de datos AVX-512 completas de 512 bits.¹⁴ Las mejoras se traducen directamente en cargas de trabajo de preprocesamiento de datos y servicio de inferencia comunes en infraestructura de IA.
El negocio de centros de datos de AMD generó $3.700 millones en ingresos trimestrales, creciendo un 57% interanual.¹⁵ El crecimiento refleja tanto las ventas de CPUs EPYC como de GPUs Instinct mientras AMD gana cuota en ambas categorías.
Intel Xeon 6 Granite Rapids: la ventaja en inferencia de IA
Intel anunció la serie Xeon 6 Granite Rapids 6900P con modelos que abarcan de 72 a 128 núcleos—superando finalmente los conteos de núcleos de AMD por primera vez desde 2017.¹⁶ Los procesadores utilizan la arquitectura P-core Redwood Cove de Intel en el nodo de proceso Intel 3.¹⁷
Los modelos Granite Rapids-AP (Advanced Performance) utilizan la plataforma Avenue City con el socket más grande LGA 7529.¹⁸ El socket más grande permite 128 núcleos con soporte para memoria DDR5 de 12 canales y hasta 192 líneas de PCIe 5.0 en configuraciones de dos sockets.¹⁹ La caché L3 alcanza impresionantes 504 megabytes en los SKUs de gama alta.²⁰
El ancho de banda de memoria representa un diferenciador clave. Granite Rapids UCC soporta DDR5 a 6,4 GHz estándar y memoria de rango multiplexado (MRDIMM) a 8,8 GHz.²¹ Las velocidades de memoria más altas benefician las cargas de trabajo de inferencia de IA limitadas por memoria.
La arquitectura de E/S proporciona 136 líneas PCIe 5.0—superior a las 128 de Emerald Rapids—con soporte CXL 2.0 Tipo 3 y hasta 6 enlaces UPI para escalado multi-socket.²²
La ventaja distintiva de Intel reside en las Advanced Matrix Extensions (AMX), que aceleran las cargas de trabajo de inferencia de IA.²³ El motor matricial soporta aceleración AMX FP16 en los procesadores Xeon 6500P y 6700P.²⁴ Intel afirma 5,5 veces el rendimiento de inferencia de IA en ResNet50 comparado con el buque insignia competidor de AMD Genoa de 96 núcleos.²⁵
Las pruebas de referencia confirman la ventaja de AMX. Phoronix documentó beneficios masivos de rendimiento de IA con AMX en Granite Rapids, mostrando mejoras significativas en el rendimiento de inferencia sobre la ejecución x86 sin aceleración.²⁶
Los procesadores Granite Rapids-D apuntan a aplicaciones de computación en el borde y redes con disponibilidad en 2025.²⁷ Los modelos iniciales alcanzan 42 núcleos con variantes de 72 núcleos esperadas más adelante en el año.²⁸ Las variantes SoC integran Intel Ethernet con 3,2 veces mejor rendimiento de IA RAN por núcleo.²⁹
Los desafíos de cuota de mercado de Intel persisten a pesar del hardware competitivo. La compañía mantiene el 72,2% de las unidades de CPUs de servidor pero continúa perdiendo cuota trimestre tras trimestre.³⁰ La cuota de ingresos cuenta una historia diferente—AMD captura el 37,2% cuando se mide por dólares en lugar de unidades, reflejando el éxito de AMD en segmentos de mayor precio.³¹
NVIDIA Grace: ARM entra en el centro de datos
NVIDIA Grace representa la primera CPU de centro de datos de la compañía, construida sobre núcleos ARM Neoverse V2 específicamente para cargas de trabajo de IA y computación de alto rendimiento.³² La arquitectura se empareja con GPUs NVIDIA para crear sistemas estrechamente acoplados que eliminan los cuellos de botella tradicionales de comunicación CPU-GPU.
La CPU Grace presenta 72 núcleos ARM Neoverse V2 de alto rendimiento con 4×128 bits de unidades vectoriales SVE2 por núcleo.³³ La jerarquía de caché incluye 64KB de caché L1 de instrucciones y datos, 1MB L2 por núcleo, y 117MB de L3 compartida.³⁴ La memoria alcanza 480GB de LPDDR5X utilizable con 546GB/s de ancho de banda a 250W TDP.³⁵
El Grace CPU Superchip combina dos CPUs Grace conectadas vía NVLink-C2C, entregando 144 núcleos ARM con hasta 1TB/s de ancho de banda de memoria.³⁶ La interconexión logra 900GB/s de ancho de banda entre las dos CPUs en un solo módulo con hasta 960GB de memoria LPDDR5X.³⁷
NVIDIA afirma que Grace entrega 2x rendimiento por vatio, 2x densidad de empaquetado, y el mayor ancho de banda de memoria comparado con servidores x86 contemporáneos.³⁸ Las ventajas de eficiencia se componen en despliegues de IA con restricciones de energía.
La configuración GB200 NVL72 conecta 36 CPUs Grace con 72 GPUs Blackwell en un diseño refrigerado por líquido a escala de rack.³⁹ El sistema entrega inferencia en tiempo real 30x más rápida para modelos de lenguaje grandes de billones de parámetros comparado con generaciones anteriores.⁴⁰
Grace se integra completamente con el ecosistema de software ARM. El NVIDIA HPC SDK y todos los componentes CUDA proporcionan instaladores y contenedores nativos para ARM.⁴¹ Los microservicios NVIDIA NIM y los contenedores NGC están optimizados para ARM.⁴² Todas las principales distribuciones de Linux funcionan sin modificación.⁴³
El impulso de ARM en centros de datos se extiende más allá de NVIDIA. ARM Holdings proyecta que su cuota de mercado de CPUs de centro de datos aumentará de aproximadamente 15% en 2024 a 50% para finales de 2025.⁴⁴ La proyección refleja un crecimiento agresivo de instancias ARM nativas en la nube y la adopción de Grace de NVIDIA.
El superchip GB10 Grace Blackwell lleva la arquitectura a factores de forma de escritorio para desarrolladores de IA, investigadores y computación en el borde.⁴⁵ El sistema en paquete fusiona una CPU ARM con capacidades de GPU Blackwell, permitiendo desarrollo de IA local que anteriormente requería acceso a centros de datos.
Selección de CPU específica por carga de trabajo
La selección de CPU para infraestructura de IA depende del rol específico dentro de la arquitectura de despliegue. Diferentes cargas de trabajo favorecen diferentes características del procesador.
Las cargas de trabajo del plano de control y orquestación se benefician de altos conteos de núcleos y capacidad de memoria. Los planos de control de Kubernetes, programadores de trabajos y sistemas de monitoreo escalan con los núcleos disponibles. La densidad de 192 núcleos de AMD EPYC proporciona margen para consolidación. Los canales de memoria y la capacidad importan más que el rendimiento por núcleo para estas cargas de trabajo.
Los pipelines de preprocesamiento de datos transforman datos crudos en formatos listos para entrenamiento. Estas cargas de trabajo a menudo escalan con el ancho de banda de memoria más que con el cómputo. El soporte MRDIMM de Intel a 8,8 GHz proporciona ventajas de ancho de banda. La etapa de preprocesamiento a menudo se ejecuta en sistemas dedicados solo con CPU que alimentan clústeres de GPU.
Las cargas de trabajo de servicio de inferencia presentan el caso más fuerte para la evaluación de CPU. Mientras las GPUs manejan la ejecución del modelo, las CPUs gestionan el enrutamiento de solicitudes, tokenización y ensamblaje de respuestas. La aceleración AMX de Intel permite inferencia basada en CPU para modelos más pequeños, potencialmente eliminando los requisitos de GPU para cargas de trabajo apropiadas. La ventaja de rendimiento de 5,5x en ResNet50 demuestra la propuesta de valor.
Los sistemas host de GPU requieren CPUs que eviten convertirse en cuellos de botella. Los conteos de líneas PCIe determinan cuántas GPUs se conectan a cada socket de CPU. Las 128 líneas Gen5 de EPYC y las 136 líneas de Granite Rapids ambas soportan configuraciones de ocho GPUs. El ancho de banda de memoria afecta qué tan rápido los datos se mueven a la memoria de GPU para lotes de entrenamiento.
Los despliegues de inferencia en el borde favorecen la eficiencia energética y E/S integrada. Granite Rapids-D integra conectividad Ethernet para aparatos de inferencia en red. La arquitectura ARM de Grace proporciona el perfil de eficiencia que los despliegues en el borde requieren.
Consideraciones de planificación de infraestructura
Las dinámicas del mercado de CPUs favorecen la evaluación multi-proveedor. Las ganancias constantes de cuota de AMD crean presión competitiva que beneficia a los compradores. La respuesta de Intel con Granite Rapids demuestra innovación continua a pesar de los desafíos del mercado. Grace de NVIDIA ofrece diferenciación para arquitecturas centradas en GPU.
La arquitectura de memoria diferencia cada vez más las plataformas. El soporte CXL permite expansión de memoria más allá de la capacidad del socket. Las velocidades DDR5 continúan aumentando con cada generación. Las organizaciones que planifican infraestructura a varios años deben evaluar las hojas de ruta de memoria junto con las especificaciones de CPU.
La eficiencia energética determina la densidad de despliegue en instalaciones con restricciones. La afirmación de Grace de 2x rendimiento por vatio merece validación para cargas de trabajo específicas. La ventaja energética se compone en grandes despliegues donde los límites de las instalaciones restringen el crecimiento.
Los requisitos del ecosistema de software reducen las opciones para algunas organizaciones. La compatibilidad x86 sigue siendo esencial para cargas de trabajo heredadas. La adopción de ARM requiere validación de aplicaciones y potencialmente recompilación. La integración de CUDA con Grace simplifica la transición para despliegues centrados en GPU.
Los cálculos de costo total de propiedad deben incluir no solo el precio del procesador sino los costos del sistema, consumo de energía y licencias. El precio favorable de AMD en la gama alta—el 9965 de 192 núcleos a $14.813—es inferior a las ofertas comparables de Intel. Sin embargo, la aceleración AMX de Intel puede reducir los requisitos de GPU para inferencia, afectando la ecuación de costos más amplia.
La CPU sigue siendo la base de la infraestructura de IA incluso cuando las GPUs capturan la atención. Las organizaciones que evalúan la selección de CPU con el mismo rigor aplicado a la adquisición de GPU construyen sistemas más equilibrados y eficientes. Las dinámicas competitivas entre AMD, Intel y NVIDIA aseguran que una evaluación cuidadosa produzca ventajas significativas en infraestructura.
Puntos clave
Para adquisición de servidores: - AMD EPYC Turin 9965: 192 núcleos (Zen 5c), 384MB L3, 500W TDP a $14.813; precio favorable vs Intel en gama alta - Intel Xeon 6900P: 128 núcleos (Granite Rapids), 504MB L3, aceleración AMX FP16, soporte MRDIMM a 8,8GHz - NVIDIA Grace: 72 núcleos ARM, 480GB LPDDR5X a 546GB/s de ancho de banda, 250W TDP; 2x rendimiento/vatio declarado
Para planificación de cargas de trabajo: - Plano de control/orquestación: favorece altos conteos de núcleos (densidad de 192 núcleos de AMD); la capacidad de memoria importa más que la velocidad por núcleo - Preprocesamiento de datos: escala con ancho de banda de memoria; Intel MRDIMM 8,8GHz proporciona ventaja - Servicio de inferencia: Intel AMX entrega 5,5x rendimiento en ResNet50 vs AMD; puede eliminar requisito de GPU para modelos más pequeños - Sistemas host de GPU: conteos de líneas PCIe (AMD 128, Intel 136 Ge
[Contenido truncado para traducción]