AI基础设施的CPU选择:AMD EPYC、Intel Xeon与NVIDIA Grace

AMD服务器CPU市场份额在2025年第三季度达到27.8%,预计年底将超过40%——Intel则跌至历史最低的72.2%。ARM处理器目前占服务器销售额的13.2%,NVIDIA Grace Blackwell推动了50%的增长。EPYC...

AI基础设施的CPU选择:AMD EPYC、Intel Xeon与NVIDIA Grace

AI基础设施的CPU选择:AMD EPYC、Intel Xeon与NVIDIA Grace

更新于2025年12月11日

2025年12月更新: AMD服务器CPU市场份额在2025年第三季度达到27.8%,预计年底将超过40%——Intel则跌至历史最低的72.2%。ARM处理器目前占服务器销售额的13.2%,NVIDIA Grace Blackwell组合推动ARM服务器CPU出货量增长50%。EPYC 9005 Turin已开始出货,最高可达192核(Zen 5c)和512MB L3缓存。Intel Xeon 6 Granite Rapids专注于AI推理加速。

AMD服务器CPU市场份额在2025年第三季度达到27.8%,预计年底将超过40%,2026年有望达到50%。¹ Intel的份额跌至72.2%——这是该公司有史以来最低的服务器CPU市场份额。² ARM处理器目前占服务器总销售额的13.2%,NVIDIA的Grace Blackwell组合推动ARM服务器CPU出货量增长50%。³ AI基础设施的CPU格局正以过去二十年来前所未有的速度发生变化。

GPU在AI训练和推理计算中占据主导地位,但CPU在编排、数据预处理、推理请求服务以及控制平面管理方面仍然不可或缺。CPU的选择影响内存带宽、I/O连接性、功耗效率和系统总成本。大规模部署AI的组织必须像采购GPU一样认真评估CPU的选择。

AMD EPYC 9005 Turin:密度领先者

AMD于2024年10月10日发布了EPYC 9005系列(代号Turin),这是基于Zen 5架构的第五代EPYC服务器处理器。⁴ AMD将其定位为面向企业、AI和云工作负载的全球最佳服务器CPU。⁵

Turin提供两种核心配置。标准Zen 5型号基于台积电4nm工艺,每插槽最高128核。⁶ 高密度Zen 5c变体采用台积电3nm工艺,每插槽可达192核。⁷ 旗舰型号EPYC 9965提供192核384线程,TDP为500W。⁸

主要规格覆盖完整产品线:

SKU 核心数 L3缓存 TDP 价格
EPYC 9965 192 (Zen 5c) 384 MB 500W $14,813
EPYC 9755 128 (Zen 5) 512 MB 500W $12,984
EPYC 9575F 64 (Zen 5) 512 MB 400W $10,176
EPYC 9015 8 (Zen 5) 32 MB 155W $527

该架构在标准型号中最多采用16个CCD(核心计算芯粒),高密度配置最多12个CCD,配合中央I/O芯粒。⁹ 标准CCD每个包含8个Zen 5核心,而高密度CCD每个封装16个Zen 5c核心。¹⁰

内存支持DDR5-6000 ECC,12通道,较上一代的DDR5-4800有所提升。¹¹ PCIe连接提供最多128条Gen5通道,支持CXL 1.0 Type 1、2和3设备。¹² SP5插槽与Genoa和Bergamo系统保持兼容。¹³

Turin处理器相比上一代IPC提升17%,具备完整的512位AVX-512数据通路。¹⁴ 这些改进直接转化为AI基础设施中常见的数据预处理和推理服务工作负载的性能提升。

AMD数据中心业务季度营收达37亿美元,同比增长57%。¹⁵ 这一增长反映了EPYC CPU和Instinct GPU销售的双重增长,AMD在两个领域都在获取市场份额。

Intel Xeon 6 Granite Rapids:AI推理优势

Intel发布了Xeon 6 Granite Rapids 6900P系列,核心数从72到128不等——自2017年以来首次超过AMD的核心数。¹⁶ 这些处理器采用Intel 3工艺节点的Redwood Cove P-core架构。¹⁷

Granite Rapids-AP(高级性能)型号使用Avenue City平台,配备更大的LGA 7529插槽。¹⁸ 更大的插槽支持128核,12通道DDR5内存,双路配置下最多192条PCIe 5.0通道。¹⁹ 顶级SKU的L3缓存达到惊人的504MB。²⁰

内存带宽是关键差异化因素。Granite Rapids UCC支持标准6.4 GHz的DDR5以及8.8 GHz的多路复用列(MRDIMM)内存。²¹ 更高的内存速度有利于内存受限的AI推理工作负载。

I/O架构提供136条PCIe 5.0通道——较Emerald Rapids的128条有所增加——支持CXL 2.0 Type 3,最多6条UPI链路用于多路扩展。²²

Intel的独特优势在于高级矩阵扩展(AMX),可加速AI推理工作负载。²³ 矩阵引擎在Xeon 6500P和6700P处理器上支持AMX FP16加速。²⁴ Intel声称与AMD竞争对手96核Genoa旗舰相比,ResNet50 AI推理性能提升5.5倍。²⁵

基准测试证实了AMX的优势。Phoronix记录了Granite Rapids上AMX带来的巨大AI性能优势,显示相比非加速x86执行有显著的推理吞吐量提升。²⁶

Granite Rapids-D处理器针对边缘计算和网络应用,将于2025年上市。²⁷ 初始型号达到42核,72核变体预计将于今年晚些时候推出。²⁸ SoC变体集成Intel以太网,每核RAN AI性能提升3.2倍。²⁹

尽管硬件具有竞争力,Intel的市场份额挑战仍在持续。该公司持有72.2%的服务器CPU出货量份额,但每季度都在持续流失份额。³⁰ 营收份额呈现不同的景象——按美元计算AMD占据37.2%,反映了AMD在高价位细分市场的成功。³¹

NVIDIA Grace:ARM进入数据中心

NVIDIA Grace是该公司首款数据中心CPU,基于ARM Neoverse V2核心,专为AI和高性能计算工作负载设计。³² 该架构与NVIDIA GPU配对,创建紧密耦合的系统,消除传统CPU-GPU通信瓶颈。

Grace CPU配备72个高性能ARM Neoverse V2核心,每核具有4×128位SVE2向量单元。³³ 缓存层次结构包括64KB L1指令和数据缓存、每核1MB L2和117MB共享L3。³⁴ 内存可达480GB可用LPDDR5X,带宽546GB/s,TDP为250W。³⁵

Grace CPU Superchip通过NVLink-C2C连接两个Grace CPU,在单个模块上提供144个ARM核心,内存带宽高达1TB/s。³⁶ 两个CPU之间的互连带宽达900GB/s,最高支持960GB LPDDR5X内存。³⁷

NVIDIA声称Grace的每瓦性能提升2倍、封装密度提升2倍,并且与同期x86服务器相比具有最高的内存带宽。³⁸ 在功耗受限的AI部署中,效率优势会不断累积。

GB200 NVL72配置在机架级液冷设计中连接36个Grace CPU和72个Blackwell GPU。³⁹ 该系统为万亿参数大语言模型提供比上一代快30倍的实时推理性能。⁴⁰

Grace与ARM软件生态系统完全集成。NVIDIA HPC SDK和所有CUDA组件提供ARM原生安装程序和容器。⁴¹ NVIDIA NIM微服务和NGC容器针对ARM进行了优化。⁴² 所有主流Linux发行版无需修改即可运行。⁴³

ARM在数据中心的势头不仅限于NVIDIA。ARM Holdings预计其数据中心CPU市场份额将从2024年的约15%增长到2025年底的50%。⁴⁴ 这一预测反映了云原生ARM实例和NVIDIA Grace采用带来的激进增长。

GB10 Grace Blackwell超级芯片将该架构带入桌面形态,面向AI开发者、研究人员和边缘计算。⁴⁵ 这款系统级封装将ARM CPU与Blackwell GPU功能融合,使以前需要数据中心访问的本地AI开发成为可能。

特定工作负载的CPU选择

AI基础设施的CPU选择取决于部署架构中的具体角色。不同的工作负载偏好不同的处理器特性。

控制平面和编排工作负载受益于高核心数和内存容量。Kubernetes控制平面、作业调度器和监控系统随可用核心数扩展。AMD EPYC的192核密度为整合提供了空间。对于这些工作负载,内存通道和容量比单核性能更重要。

数据预处理流水线将原始数据转换为可训练格式。这些工作负载通常随内存带宽而非计算能力扩展。Intel的MRDIMM支持8.8 GHz提供了带宽优势。预处理阶段通常在专用的纯CPU系统上运行,为GPU集群提供数据。

推理服务工作负载是CPU评估的最有力理由。虽然GPU处理模型执行,但CPU管理请求路由、分词和响应组装。Intel的AMX加速使较小模型能够在CPU上进行推理,可能消除对适当工作负载的GPU需求。ResNet50性能提升5.5倍展示了其价值主张。

GPU主机系统需要不会成为瓶颈的CPU。PCIe通道数决定了每个CPU插槽可连接多少GPU。EPYC的128条Gen5通道和Granite Rapids的136条通道都支持八GPU配置。内存带宽影响训练批次数据移动到GPU内存的速度。

边缘推理部署偏好功耗效率和集成I/O。Granite Rapids-D为网络推理设备集成了以太网连接。Grace的ARM架构提供了边缘部署所需的效率特性。

基础设施规划考量

CPU市场动态有利于多供应商评估。AMD稳步增长的市场份额创造了有利于买家的竞争压力。Intel通过Granite Rapids的回应展示了尽管面临市场挑战仍在持续创新。NVIDIA的Grace为以GPU为中心的架构提供了差异化选择。

内存架构日益成为平台差异化因素。CXL支持使内存扩展超越插槽容量成为可能。DDR5速度每代都在持续提升。规划多年基础设施的组织应该在评估CPU规格的同时评估内存路线图。

功耗效率决定了受限设施中的部署密度。Grace声称的每瓦性能提升2倍需要针对特定工作负载进行验证。在设施限制约束增长的大规模部署中,功耗优势会不断累积。

软件生态系统要求为某些组织缩小了选择范围。x86兼容性对于遗留工作负载仍然至关重要。ARM采用需要应用验证,可能还需要重新编译。CUDA与Grace的集成简化了以GPU为中心的部署过渡。

总拥有成本计算不仅应包括处理器定价,还应包括系统成本、功耗和许可。AMD在高端市场的定价优势——192核9965售价$14,813——低于Intel的同类产品。然而,Intel的AMX加速可能减少推理对GPU的需求,影响更广泛的成本方程。

即使GPU吸引了更多关注,CPU仍然是AI基础设施的基础。以与GPU采购相同的严谨态度评估CPU选择的组织将构建更平衡、更高效的系统。AMD、Intel和NVIDIA之间的竞争动态确保了仔细评估将带来有意义的基础设施优势。

关键要点

服务器采购方面: - AMD EPYC Turin 9965:192核(Zen 5c),384MB L3,500W TDP,售价$14,813;高端市场定价优于Intel - Intel Xeon 6900P:128核(Granite Rapids),504MB L3,AMX FP16加速,MRDIMM支持8.8GHz - NVIDIA Grace:72个ARM核心,480GB LPDDR5X,带宽546GB/s,TDP 250W;声称每瓦性能提升2倍

工作负载规划方面: - 控制平面/编排:偏好高核心数(AMD 192核密度);内存容量比单核速度更重要 - 数据预处理:随内存带宽扩展;Intel MRDIMM 8.8GHz提供优势 - 推理服务:Intel AMX提供比AMD高5.5倍的ResNet50性能;对于较小模型可能无需GPU - GPU主机系统:PCIe通道数(AMD 128条,Intel 136条Gen5)

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中