CPU cho hạ tầng AI: AMD EPYC, Intel Xeon và NVIDIA Grace

Thị phần CPU máy chủ của AMD đạt 27,8% trong Q3 2025, dự kiến vượt 40% vào cuối năm—Intel ở mức thấp kỷ lục 72,2%. Bộ xử lý ARM hiện chiếm 13,2% doanh số máy chủ với NVIDIA Grace Blackwell thúc đẩy tăng trưởng 50%. EPYC...

Blake Crosley

Feb 26, 2026 13 min read Disclaimer

CPU cho hạ tầng AI: AMD EPYC, Intel Xeon và NVIDIA Grace

Cập nhật ngày 11 tháng 12 năm 2025

Cập nhật tháng 12/2025: Thị phần CPU máy chủ của AMD đạt 27,8% trong Q3 2025, dự kiến vượt 40% vào cuối năm—Intel ở mức thấp kỷ lục 72,2%. Bộ xử lý ARM hiện chiếm 13,2% tổng doanh số máy chủ với sự kết hợp NVIDIA Grace Blackwell thúc đẩy tăng trưởng 50% về số lượng CPU máy chủ ARM. EPYC 9005 Turin đang được phân phối với tối đa 192 lõi (Zen 5c) và 512MB bộ nhớ đệm L3. Intel Xeon 6 Granite Rapids tập trung vào tăng tốc suy luận AI.

Thị phần CPU máy chủ của AMD đạt 27,8% trong Q3 2025, dự kiến vượt 40% vào cuối năm và có khả năng đạt 50% vào năm 2026.¹ Thị phần của Intel giảm xuống còn 72,2%—mức thị phần CPU máy chủ thấp nhất mà công ty từng ghi nhận.² Bộ xử lý ARM hiện chiếm 13,2% tổng doanh số máy chủ, với sự kết hợp Grace Blackwell của NVIDIA thúc đẩy tăng trưởng 50% về số lượng CPU máy chủ ARM.³ Bức tranh CPU cho hạ tầng AI đang thay đổi nhanh hơn bất kỳ thời điểm nào trong hai thập kỷ qua.

GPU thống trị việc huấn luyện và suy luận AI, nhưng CPU vẫn thiết yếu cho điều phối, tiền xử lý dữ liệu, phục vụ các yêu cầu suy luận và quản lý control plane. Việc lựa chọn CPU ảnh hưởng đến băng thông bộ nhớ, kết nối I/O, hiệu suất năng lượng và tổng chi phí hệ thống. Các tổ chức triển khai AI quy mô lớn phải đánh giá lựa chọn CPU cẩn thận như việc mua sắm GPU.

AMD EPYC 9005 Turin: dẫn đầu về mật độ

AMD ra mắt dòng EPYC 9005 (tên mã Turin) vào ngày 10 tháng 10 năm 2024, đại diện cho thế hệ thứ năm của bộ xử lý máy chủ EPYC được xây dựng trên kiến trúc Zen 5.⁴ AMD định vị đây là CPU máy chủ tốt nhất thế giới cho các khối lượng công việc doanh nghiệp, AI và đám mây.⁵

Turin cung cấp hai cấu hình lõi. Các model Zen 5 tiêu chuẩn đạt 128 lõi mỗi socket được xây dựng trên quy trình 4nm của TSMC.⁶ Các biến thể Zen 5c mật độ cao cung cấp 192 lõi mỗi socket sử dụng quy trình 3nm của TSMC.⁷ Model cao cấp nhất EPYC 9965 cung cấp 192 lõi và 384 luồng với TDP 500W.⁸

Thông số kỹ thuật chính trải dài toàn bộ dòng sản phẩm:

SKU	Lõi	Bộ nhớ đệm L3	TDP	Giá
EPYC 9965	192 (Zen 5c)	384 MB	500W	$14.813
EPYC 9755	128 (Zen 5)	512 MB	500W	$12.984
EPYC 9575F	64 (Zen 5)	512 MB	400W	$10.176
EPYC 9015	8 (Zen 5)	32 MB	155W	$527

Kiến trúc sử dụng tối đa 16 CCD (Core Compute Die) trong các model tiêu chuẩn và tối đa 12 CCD trong cấu hình mật độ cao, kết hợp với một die I/O trung tâm.⁹ CCD tiêu chuẩn chứa tám lõi Zen 5 mỗi cái, trong khi CCD mật độ cao đóng gói 16 lõi Zen 5c.¹⁰

Hỗ trợ bộ nhớ đạt DDR5-6000 với ECC qua 12 kênh, tăng từ DDR5-4800 ở thế hệ trước.¹¹ Kết nối PCIe cung cấp tối đa 128 lane Gen5 với hỗ trợ CXL 1.0 cho thiết bị Type 1, 2 và 3.¹² Socket SP5 duy trì khả năng tương thích với hệ thống Genoa và Bergamo.¹³

Bộ xử lý Turin mang lại mức tăng IPC 17% so với thế hệ trước với đường dữ liệu AVX-512 512-bit đầy đủ.¹⁴ Những cải tiến chuyển đổi trực tiếp sang các khối lượng công việc tiền xử lý dữ liệu và phục vụ suy luận phổ biến trong hạ tầng AI.

Mảng kinh doanh trung tâm dữ liệu của AMD tạo ra 3,7 tỷ đô la doanh thu hàng quý, tăng trưởng 57% so với cùng kỳ năm trước.¹⁵ Sự tăng trưởng phản ánh cả doanh số CPU EPYC và GPU Instinct khi AMD giành thị phần ở cả hai danh mục.

Intel Xeon 6 Granite Rapids: lợi thế suy luận AI

Intel công bố dòng Xeon 6 Granite Rapids 6900P với các model từ 72 đến 128 lõi—lần đầu tiên vượt qua số lõi của AMD kể từ năm 2017.¹⁶ Các bộ xử lý sử dụng kiến trúc P-core Redwood Cove trên node quy trình Intel 3.¹⁷

Các model Granite Rapids-AP (Advanced Performance) sử dụng nền tảng Avenue City với socket LGA 7529 lớn hơn.¹⁸ Socket lớn hơn cho phép 128 lõi với hỗ trợ bộ nhớ DDR5 12 kênh và tối đa 192 lane PCIe 5.0 trong cấu hình hai socket.¹⁹ Bộ nhớ đệm L3 đạt ấn tượng 504 megabyte trên các SKU cao cấp.²⁰

Băng thông bộ nhớ đại diện cho một yếu tố khác biệt chính. Granite Rapids UCC hỗ trợ DDR5 ở 6,4 GHz tiêu chuẩn và bộ nhớ multiplexed rank (MRDIMM) ở 8,8 GHz.²¹ Tốc độ bộ nhớ cao hơn có lợi cho các khối lượng công việc suy luận AI bị giới hạn bởi bộ nhớ.

Kiến trúc I/O cung cấp 136 lane PCIe 5.0—tăng từ 128 trong Emerald Rapids—với hỗ trợ CXL 2.0 Type 3 và tối đa 6 liên kết UPI để mở rộng đa socket.²²

Lợi thế đặc biệt của Intel nằm ở Advanced Matrix Extensions (AMX), tăng tốc các khối lượng công việc suy luận AI.²³ Engine ma trận hỗ trợ tăng tốc AMX FP16 trên các bộ xử lý Xeon 6500P và 6700P.²⁴ Intel tuyên bố hiệu suất suy luận AI cao gấp 5,5 lần trong ResNet50 so với model Genoa 96 lõi cao cấp cạnh tranh của AMD.²⁵

Kiểm tra benchmark xác nhận lợi thế AMX. Phoronix ghi nhận lợi ích hiệu suất AI đáng kể với AMX trên Granite Rapids, cho thấy cải thiện thông lượng suy luận đáng kể so với thực thi x86 không được tăng tốc.²⁶

Bộ xử lý Granite Rapids-D nhắm mục tiêu các ứng dụng điện toán biên và mạng với khả năng sẵn có vào năm 2025.²⁷ Các model ban đầu đạt 42 lõi với các biến thể 72 lõi dự kiến ra mắt sau trong năm.²⁸ Các biến thể SoC tích hợp Intel Ethernet với hiệu suất RAN AI trên mỗi lõi cải thiện gấp 3,2 lần.²⁹

Thách thức thị phần của Intel vẫn tồn tại bất chấp phần cứng cạnh tranh. Công ty nắm giữ 72,2% số lượng CPU máy chủ nhưng tiếp tục mất thị phần từng quý.³⁰ Thị phần doanh thu kể một câu chuyện khác—AMD chiếm 37,2% khi đo bằng đô la thay vì số lượng, phản ánh thành công của AMD trong các phân khúc giá cao hơn.³¹

NVIDIA Grace: ARM tiến vào trung tâm dữ liệu

NVIDIA Grace đại diện cho CPU trung tâm dữ liệu đầu tiên của công ty, được xây dựng trên lõi ARM Neoverse V2 đặc biệt cho các khối lượng công việc AI và điện toán hiệu năng cao.³² Kiến trúc kết hợp với GPU NVIDIA để tạo ra các hệ thống liên kết chặt chẽ loại bỏ các nút thắt cổ chai giao tiếp CPU-GPU truyền thống.

CPU Grace có 72 lõi ARM Neoverse V2 hiệu năng cao với 4×128-bit đơn vị vector SVE2 mỗi lõi.³³ Hệ thống phân cấp bộ nhớ đệm bao gồm 64KB bộ nhớ đệm L1 lệnh và dữ liệu, 1MB L2 mỗi lõi, và 117MB L3 chia sẻ.³⁴ Bộ nhớ đạt 480GB LPDDR5X khả dụng với băng thông 546GB/s ở TDP 250W.³⁵

Grace CPU Superchip kết hợp hai CPU Grace được kết nối qua NVLink-C2C, cung cấp 144 lõi ARM với băng thông bộ nhớ lên đến 1TB/s.³⁶ Interconnect đạt băng thông 900GB/s giữa hai CPU trên một module đơn với bộ nhớ LPDDR5X lên đến 960GB.³⁷

NVIDIA tuyên bố Grace mang lại hiệu suất trên mỗi watt cao gấp 2 lần, mật độ đóng gói gấp 2 lần, và băng thông bộ nhớ cao nhất so với các máy chủ x86 đương thời.³⁸ Lợi thế hiệu suất năng lượng được nhân lên trong các triển khai AI bị giới hạn công suất.

Cấu hình GB200 NVL72 kết nối 36 CPU Grace với 72 GPU Blackwell trong thiết kế làm mát bằng chất lỏng quy mô rack.³⁹ Hệ thống cung cấp suy luận thời gian thực nhanh hơn 30 lần cho các mô hình ngôn ngữ lớn hàng nghìn tỷ tham số so với các thế hệ trước.⁴⁰

Grace tích hợp đầy đủ với hệ sinh thái phần mềm ARM. NVIDIA HPC SDK và tất cả các thành phần CUDA cung cấp trình cài đặt và container native cho ARM.⁴¹ Các microservice NVIDIA NIM và container NGC được tối ưu hóa cho ARM.⁴² Tất cả các bản phân phối Linux chính chạy mà không cần sửa đổi.⁴³

Đà tăng trưởng trung tâm dữ liệu của ARM mở rộng vượt ra ngoài NVIDIA. ARM Holdings dự kiến thị phần CPU trung tâm dữ liệu của họ sẽ tăng từ khoảng 15% vào năm 2024 lên 50% vào cuối năm 2025.⁴⁴ Dự báo phản ánh sự tăng trưởng mạnh mẽ từ các instance ARM cloud-native và việc áp dụng Grace của NVIDIA.

Siêu chip GB10 Grace Blackwell đưa kiến trúc này vào form factor desktop cho các nhà phát triển AI, nhà nghiên cứu và điện toán biên.⁴⁵ Hệ thống-trong-gói hợp nhất CPU ARM với khả năng GPU Blackwell, cho phép phát triển AI cục bộ mà trước đây yêu cầu truy cập trung tâm dữ liệu.

Lựa chọn CPU theo khối lượng công việc cụ thể

Việc lựa chọn CPU cho hạ tầng AI phụ thuộc vào vai trò cụ thể trong kiến trúc triển khai. Các khối lượng công việc khác nhau ưu tiên các đặc điểm bộ xử lý khác nhau.

Control plane và điều phối các khối lượng công việc được hưởng lợi từ số lõi cao và dung lượng bộ nhớ. Kubernetes control plane, job scheduler và hệ thống giám sát mở rộng theo số lõi khả dụng. Mật độ 192 lõi của AMD EPYC cung cấp dư địa cho hợp nhất. Số kênh bộ nhớ và dung lượng quan trọng hơn hiệu suất mỗi lõi cho các khối lượng công việc này.

Pipeline tiền xử lý dữ liệu chuyển đổi dữ liệu thô thành định dạng sẵn sàng huấn luyện. Các khối lượng công việc này thường mở rộng theo băng thông bộ nhớ thay vì tính toán. Hỗ trợ MRDIMM của Intel ở 8,8 GHz cung cấp lợi thế băng thông. Giai đoạn tiền xử lý thường chạy trên các hệ thống chỉ có CPU chuyên dụng cung cấp cho các cụm GPU.

Khối lượng công việc phục vụ suy luận đưa ra lập luận mạnh nhất cho việc đánh giá CPU. Trong khi GPU xử lý việc thực thi mô hình, CPU quản lý định tuyến yêu cầu, tokenization và lắp ráp phản hồi. Tăng tốc AMX của Intel cho phép suy luận dựa trên CPU cho các mô hình nhỏ hơn, có khả năng loại bỏ yêu cầu GPU cho các khối lượng công việc phù hợp. Lợi thế hiệu suất ResNet50 gấp 5,5 lần chứng minh đề xuất giá trị.

Hệ thống host GPU yêu cầu CPU không trở thành nút thắt cổ chai. Số lượng lane PCIe xác định bao nhiêu GPU kết nối với mỗi socket CPU. 128 lane Gen5 của EPYC và 136 lane của Granite Rapids đều hỗ trợ cấu hình tám GPU. Băng thông bộ nhớ ảnh hưởng đến tốc độ dữ liệu di chuyển đến bộ nhớ GPU cho các batch huấn luyện.

Triển khai suy luận biên ưu tiên hiệu suất năng lượng và I/O tích hợp. Granite Rapids-D tích hợp kết nối Ethernet cho các thiết bị suy luận mạng. Kiến trúc ARM của Grace cung cấp hồ sơ hiệu suất mà các triển khai biên yêu cầu.

Cân nhắc lập kế hoạch hạ tầng

Động lực thị trường CPU ưu tiên đánh giá đa nhà cung cấp. Sự tăng thị phần đều đặn của AMD tạo ra áp lực cạnh tranh có lợi cho người mua. Phản hồi của Intel với Granite Rapids chứng minh sự đổi mới liên tục bất chấp thách thức thị trường. Grace của NVIDIA cung cấp sự khác biệt cho các kiến trúc tập trung vào GPU.

Kiến trúc bộ nhớ ngày càng tạo sự khác biệt giữa các nền tảng. Hỗ trợ CXL cho phép mở rộng bộ nhớ vượt quá dung lượng socket. Tốc độ DDR5 tiếp tục tăng với mỗi thế hệ. Các tổ chức lập kế hoạch hạ tầng nhiều năm nên đánh giá lộ trình bộ nhớ cùng với thông số kỹ thuật CPU.

Hiệu suất năng lượng xác định mật độ triển khai trong các cơ sở bị hạn chế. Tuyên bố hiệu suất trên mỗi watt gấp 2 lần của Grace đáng được xác nhận cho các khối lượng công việc cụ thể. Lợi thế năng lượng được nhân lên trên các triển khai lớn nơi giới hạn cơ sở hạn chế tăng trưởng.

Yêu cầu hệ sinh thái phần mềm thu hẹp lựa chọn cho một số tổ chức. Khả năng tương thích x86 vẫn thiết yếu cho các khối lượng công việc legacy. Việc áp dụng ARM yêu cầu xác nhận ứng dụng và có khả năng biên dịch lại. Tích hợp CUDA với Grace đơn giản hóa quá trình chuyển đổi cho các triển khai tập trung vào GPU.

Các tính toán tổng chi phí sở hữu nên bao gồm không chỉ giá bộ xử lý mà còn chi phí hệ thống, tiêu thụ điện năng và cấp phép. Giá thuận lợi của AMD ở phân khúc cao cấp—model 192 lõi 9965 ở $14.813—thấp hơn các sản phẩm tương đương của Intel. Tuy nhiên, tăng tốc AMX của Intel có thể giảm yêu cầu GPU cho suy luận, ảnh hưởng đến phương trình chi phí rộng hơn.

CPU vẫn là nền tảng của hạ tầng AI ngay cả khi GPU thu hút sự chú ý. Các tổ chức đánh giá lựa chọn CPU với cùng sự nghiêm ngặt áp dụng cho việc mua sắm GPU xây dựng các hệ thống cân bằng, hiệu quả hơn. Động lực cạnh tranh giữa AMD, Intel và NVIDIA đảm bảo rằng việc đánh giá cẩn thận mang lại lợi thế hạ tầng có ý nghĩa.

Những điểm chính

Cho việc mua sắm máy chủ: - AMD EPYC Turin 9965: 192 lõi (Zen 5c), 384MB L3, TDP 500W ở $14.813; giá thuận lợi so với Intel ở phân khúc cao cấp - Intel Xeon 6900P: 128 lõi (Granite Rapids), 504MB L3, tăng tốc AMX FP16, hỗ trợ MRDIMM ở 8,8GHz - NVIDIA Grace: 72 lõi ARM, 480GB LPDDR5X với băng thông 546GB/s, TDP 250W; tuyên bố hiệu suất/watt gấp 2x

Cho lập kế hoạch khối lượng công việc: - Control plane/điều phối: ưu tiên số lõi cao (mật độ 192 lõi của AMD); dung lượng bộ nhớ quan trọng hơn tốc độ mỗi lõi - Tiền xử lý dữ liệu: mở rộng theo băng thông bộ nhớ; Intel MRDIMM 8,8GHz cung cấp lợi thế - Phục vụ suy luận: Intel AMX mang lại hiệu suất ResNet50 gấp 5,5x so với AMD; có thể loại bỏ yêu cầu GPU cho các mô hình nhỏ hơn - Hệ thống host GPU: số lượng lane PCIe (AMD 128, Intel 136 Ge

[Nội dung bị cắt ngắn cho bản dịch]

CPU cho hạ tầng AI: AMD EPYC, Intel Xeon và NVIDIA Grace

AMD EPYC 9005 Turin: dẫn đầu về mật độ

Intel Xeon 6 Granite Rapids: lợi thế suy luận AI

NVIDIA Grace: ARM tiến vào trung tâm dữ liệu

Lựa chọn CPU theo khối lượng công việc cụ thể

Cân nhắc lập kế hoạch hạ tầng

Những điểm chính

You Might Also Like

Malaysia và Thái Lan: Các Trung Tâm Dữ Liệu AI Mới Nổi tại Đ...

Bùng Nổ Hạ Tầng AI 27 Tỷ USD của Singapore: Cơ Hội cho Triển...

Sao lưu và Khôi phục cho AI: Bảo vệ Dữ liệu Huấn luyện Quy m...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_