CPU สำหรับโครงสร้างพื้นฐาน AI: AMD EPYC, Intel Xeon และ NVIDIA Grace
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: ส่วนแบ่งตลาด CPU เซิร์ฟเวอร์ของ AMD แตะ 27.8% ในไตรมาส 3 ปี 2025 คาดการณ์ว่าจะเกิน 40% ภายในสิ้นปี—Intel ตกต่ำสุดเป็นประวัติการณ์ที่ 72.2% โปรเซสเซอร์ ARM ครองส่วนแบ่ง 13.2% ของยอดขายเซิร์ฟเวอร์ โดยการผสมผสาน NVIDIA Grace Blackwell ขับเคลื่อนการเติบโต 50% ในปริมาณ CPU เซิร์ฟเวอร์ ARM EPYC 9005 Turin เริ่มจัดส่งพร้อมคอร์สูงสุด 192 คอร์ (Zen 5c) และ L3 cache 512MB Intel Xeon 6 Granite Rapids มุ่งเน้นการเร่งความเร็ว AI inference
ส่วนแบ่งตลาด CPU เซิร์ฟเวอร์ของ AMD แตะ 27.8% ในไตรมาส 3 ปี 2025 คาดการณ์ว่าจะเกิน 40% ภายในสิ้นปีและอาจแตะ 50% ในปี 2026¹ ส่วนแบ่งของ Intel ตกลงเหลือ 72.2%—ส่วนแบ่ง CPU เซิร์ฟเวอร์ต่ำที่สุดที่บริษัทเคยบันทึกไว้² โปรเซสเซอร์ ARM ครองส่วนแบ่ง 13.2% ของยอดขายเซิร์ฟเวอร์ทั้งหมด โดยการผสมผสาน NVIDIA Grace Blackwell ขับเคลื่อนการเติบโต 50% ในปริมาณ CPU เซิร์ฟเวอร์ ARM³ ภูมิทัศน์ CPU สำหรับโครงสร้างพื้นฐาน AI กำลังเปลี่ยนแปลงเร็วกว่าช่วงเวลาใดๆ ในสองทศวรรษที่ผ่านมา
GPU ครองตลาดการประมวลผล AI training และ inference แต่ CPU ยังคงจำเป็นสำหรับการจัดการ orchestration, การประมวลผลข้อมูลเบื้องต้น, การให้บริการคำขอ inference และการจัดการ control plane การเลือก CPU ส่งผลต่อ memory bandwidth, การเชื่อมต่อ I/O, ประสิทธิภาพพลังงาน และต้นทุนระบบโดยรวม องค์กรที่ใช้งาน AI ในระดับใหญ่ต้องประเมินการเลือก CPU อย่างรอบคอบเช่นเดียวกับการจัดซื้อ GPU
AMD EPYC 9005 Turin: ผู้นำด้านความหนาแน่น
AMD เปิดตัว EPYC 9005 series (ชื่อรหัส Turin) เมื่อวันที่ 10 ตุลาคม 2024 ซึ่งเป็นโปรเซสเซอร์เซิร์ฟเวอร์ EPYC รุ่นที่ห้าที่สร้างบนสถาปัตยกรรม Zen 5⁴ AMD วางตำแหน่งเหล่านี้เป็น CPU เซิร์ฟเวอร์ที่ดีที่สุดในโลกสำหรับ workload ระดับองค์กร, AI และ cloud⁵
Turin มีการกำหนดค่าคอร์สองแบบ รุ่น Zen 5 มาตรฐานมีสูงสุด 128 คอร์ต่อ socket สร้างบนกระบวนการ 4nm ของ TSMC⁶ รุ่น Zen 5c แบบหนาแน่นมี 192 คอร์ต่อ socket โดยใช้กระบวนการ 3nm ของ TSMC⁷ รุ่นเรือธง EPYC 9965 มี 192 คอร์และ 384 threads พร้อม TDP 500W⁸
ข้อมูลจำเพาะหลักครอบคลุมผลิตภัณฑ์ทั้งหมด:
| SKU | คอร์ | L3 Cache | TDP | ราคา |
|---|---|---|---|---|
| EPYC 9965 | 192 (Zen 5c) | 384 MB | 500W | $14,813 |
| EPYC 9755 | 128 (Zen 5) | 512 MB | 500W | $12,984 |
| EPYC 9575F | 64 (Zen 5) | 512 MB | 400W | $10,176 |
| EPYC 9015 | 8 (Zen 5) | 32 MB | 155W | $527 |
สถาปัตยกรรมใช้ CCD (Core Compute Dies) สูงสุด 16 ตัวในรุ่นมาตรฐานและสูงสุด 12 ตัวในรุ่นหนาแน่น จับคู่กับ I/O die ส่วนกลาง⁹ CCD มาตรฐานมี Zen 5 cores แปดคอร์ต่อตัว ในขณะที่ CCD หนาแน่นบรรจุ Zen 5c cores 16 คอร์¹⁰
รองรับหน่วยความจำถึง DDR5-6000 พร้อม ECC ผ่าน 12 channels เพิ่มขึ้นจาก DDR5-4800 ในรุ่นก่อนหน้า¹¹ การเชื่อมต่อ PCIe มีสูงสุด 128 Gen5 lanes พร้อมรองรับ CXL 1.0 สำหรับอุปกรณ์ Type 1, 2 และ 3¹² socket SP5 รักษาความเข้ากันได้กับระบบ Genoa และ Bergamo¹³
โปรเซสเซอร์ Turin มีการยกระดับ IPC 17% เหนือรุ่นก่อนหน้าพร้อม data paths AVX-512 แบบ 512-bit เต็มรูปแบบ¹⁴ การปรับปรุงเหล่านี้แปลงโดยตรงไปยัง workload การประมวลผลข้อมูลเบื้องต้นและการให้บริการ inference ที่พบได้ทั่วไปในโครงสร้างพื้นฐาน AI
ธุรกิจ data center ของ AMD สร้างรายได้ไตรมาสละ 3.7 พันล้านดอลลาร์ เติบโต 57% เมื่อเทียบกับปีก่อนหน้า¹⁵ การเติบโตสะท้อนถึงทั้งยอดขาย EPYC CPU และ Instinct GPU ขณะที่ AMD ได้ส่วนแบ่งในทั้งสองหมวดหมู่
Intel Xeon 6 Granite Rapids: ความได้เปรียบด้าน AI inference
Intel ประกาศ Xeon 6 Granite Rapids 6900P series พร้อมรุ่นที่มีตั้งแต่ 72 ถึง 128 คอร์—ในที่สุดก็เกินจำนวนคอร์ของ AMD เป็นครั้งแรกนับตั้งแต่ปี 2017¹⁶ โปรเซสเซอร์ใช้สถาปัตยกรรม Redwood Cove P-core บน process node Intel 3¹⁷
รุ่น Granite Rapids-AP (Advanced Performance) ใช้ Avenue City platform พร้อม LGA 7529 socket ที่ใหญ่กว่า¹⁸ socket ที่ใหญ่กว่าทำให้มี 128 คอร์พร้อมรองรับ DDR5 memory 12-channel และ PCIe 5.0 สูงสุด 192 lanes ในการกำหนดค่า two-socket¹⁹ L3 cache แตะ 504 megabytes ที่น่าประทับใจใน SKU ระดับบนสุด²⁰
Memory bandwidth เป็นจุดแตกต่างสำคัญ Granite Rapids UCC รองรับ DDR5 ที่ 6.4 GHz มาตรฐานและ multiplexed rank (MRDIMM) memory ที่ 8.8 GHz²¹ ความเร็วหน่วยความจำที่สูงขึ้นเป็นประโยชน์ต่อ AI inference workload ที่จำกัดด้วยหน่วยความจำ
สถาปัตยกรรม I/O มี 136 PCIe 5.0 lanes—เพิ่มขึ้นจาก 128 ใน Emerald Rapids—พร้อมรองรับ CXL 2.0 Type 3 และ UPI links สูงสุด 6 ตัวสำหรับการขยาย multi-socket²²
ความได้เปรียบที่โดดเด่นของ Intel อยู่ที่ Advanced Matrix Extensions (AMX) ซึ่งเร่งความเร็ว AI inference workload²³ matrix engine รองรับ AMX FP16 acceleration บนโปรเซสเซอร์ Xeon 6500P และ 6700P²⁴ Intel อ้างว่ามีประสิทธิภาพ AI inferencing 5.5 เท่าใน ResNet50 เมื่อเทียบกับรุ่นเรือธง 96-core Genoa ของ AMD²⁵
การทดสอบ benchmark ยืนยันความได้เปรียบของ AMX Phoronix บันทึกประโยชน์ด้านประสิทธิภาพ AI อย่างมหาศาลด้วย AMX บน Granite Rapids แสดงการปรับปรุง inference throughput อย่างมีนัยสำคัญเมื่อเทียบกับการทำงาน x86 ที่ไม่มีการเร่งความเร็ว²⁶
โปรเซสเซอร์ Granite Rapids-D มุ่งเป้าไปที่แอปพลิเคชัน edge computing และ networking โดยจะวางจำหน่ายในปี 2025²⁷ รุ่นเริ่มต้นมีถึง 42 คอร์พร้อมรุ่น 72 คอร์ที่คาดว่าจะตามมาในปีเดียวกัน²⁸ รุ่น SoC รวม Intel Ethernet พร้อมประสิทธิภาพ RAN AI ที่ดีขึ้น 3.2 เท่าต่อคอร์²⁹
ความท้าทายด้านส่วนแบ่งตลาดของ Intel ยังคงมีอยู่แม้จะมี hardware ที่แข่งขันได้ บริษัทถือครอง 72.2% ของหน่วย CPU เซิร์ฟเวอร์แต่ยังคงสูญเสียส่วนแบ่งทุกไตรมาส³⁰ ส่วนแบ่งรายได้บอกเล่าเรื่องราวที่แตกต่าง—AMD จับส่วนแบ่ง 37.2% เมื่อวัดเป็นดอลลาร์แทนที่จะเป็นหน่วย สะท้อนความสำเร็จของ AMD ในกลุ่มราคาสูง³¹
NVIDIA Grace: ARM เข้าสู่ data center
NVIDIA Grace เป็น CPU data center แรกของบริษัท สร้างบน ARM Neoverse V2 cores โดยเฉพาะสำหรับ AI และ workload การประมวลผลประสิทธิภาพสูง³² สถาปัตยกรรมจับคู่กับ NVIDIA GPU เพื่อสร้างระบบที่เชื่อมต่อกันอย่างแน่นหนาซึ่งกำจัดคอขวดการสื่อสาร CPU-GPU แบบดั้งเดิม
Grace CPU มี ARM Neoverse V2 cores ประสิทธิภาพสูง 72 คอร์พร้อม 4×128-bit SVE2 vector units ต่อคอร์³³ ลำดับชั้น cache รวม L1 instruction และ data caches 64KB, L2 1MB ต่อคอร์ และ shared L3 117MB³⁴ หน่วยความจำแตะ 480GB ของ LPDDR5X ที่ใช้งานได้พร้อม bandwidth 546GB/s ที่ TDP 250W³⁵
Grace CPU Superchip รวม Grace CPU สองตัวเชื่อมต่อผ่าน NVLink-C2C มอบ ARM cores 144 คอร์พร้อม memory bandwidth สูงสุด 1TB/s³⁶ interconnect บรรลุ bandwidth 900GB/s ระหว่าง CPU ทั้งสองบน module เดียวพร้อม LPDDR5X memory สูงสุด 960GB³⁷
NVIDIA อ้างว่า Grace มอบประสิทธิภาพต่อวัตต์ 2 เท่า, ความหนาแน่นการบรรจุ 2 เท่า และ memory bandwidth สูงสุดเมื่อเทียบกับเซิร์ฟเวอร์ x86 ร่วมสมัย³⁸ ความได้เปรียบด้านประสิทธิภาพทวีคูณใน AI deployments ที่จำกัดด้วยพลังงาน
การกำหนดค่า GB200 NVL72 เชื่อมต่อ Grace CPU 36 ตัวกับ Blackwell GPU 72 ตัวในการออกแบบระบายความร้อนด้วยของเหลวระดับ rack³⁹ ระบบมอบ real-time inference เร็วกว่า 30 เท่าสำหรับ large language models ระดับ trillion-parameter เมื่อเทียบกับรุ่นก่อนหน้า⁴⁰
Grace รวมเข้ากับ ecosystem ซอฟต์แวร์ ARM อย่างสมบูรณ์ NVIDIA HPC SDK และส่วนประกอบ CUDA ทั้งหมดมี ARM-native installers และ containers⁴¹ NVIDIA NIM microservices และ NGC containers ได้รับการปรับให้เหมาะสมสำหรับ ARM⁴² Linux distributions หลักทั้งหมดทำงานได้โดยไม่ต้องแก้ไข⁴³
โมเมนตัม data center ของ ARM ขยายไปไกลกว่า NVIDIA ARM Holdings คาดการณ์ว่าส่วนแบ่งตลาด CPU data center จะเพิ่มขึ้นจากประมาณ 15% ในปี 2024 เป็น 50% ภายในสิ้นปี 2025⁴⁴ การคาดการณ์สะท้อนการเติบโตอย่างก้าวกระโดดจาก cloud-native ARM instances และการนำ Grace ของ NVIDIA ไปใช้
GB10 Grace Blackwell superchip นำสถาปัตยกรรมมาสู่ form factors แบบ desktop สำหรับ AI developers, researchers และ edge computing⁴⁵ system-in-package รวม ARM CPU กับความสามารถ Blackwell GPU ทำให้สามารถพัฒนา AI ในเครื่องได้ซึ่งก่อนหน้านี้ต้องการการเข้าถึง data center
การเลือก CPU เฉพาะ workload
การเลือก CPU สำหรับโครงสร้างพื้นฐาน AI ขึ้นอยู่กับบทบาทเฉพาะภายในสถาปัตยกรรมการ deploy workload ที่แตกต่างกันเหมาะกับคุณลักษณะโปรเซสเซอร์ที่แตกต่างกัน
Control plane และ orchestration workload ได้ประโยชน์จากจำนวนคอร์สูงและความจุหน่วยความจำ Kubernetes control planes, job schedulers และระบบ monitoring ขยายตามคอร์ที่มีอยู่ ความหนาแน่น 192 คอร์ของ AMD EPYC ให้ headroom สำหรับการรวมศูนย์ memory channels และความจุสำคัญกว่าประสิทธิภาพต่อคอร์สำหรับ workload เหล่านี้
Data preprocessing pipelines แปลงข้อมูลดิบเป็นรูปแบบพร้อมสำหรับ training workload เหล่านี้มักขยายตาม memory bandwidth มากกว่า compute การรองรับ MRDIMM ของ Intel ที่ 8.8 GHz ให้ความได้เปรียบด้าน bandwidth ขั้นตอน preprocessing มักทำงานบนระบบ CPU-only เฉพาะที่ป้อน GPU clusters
Inference serving workload นำเสนอกรณีที่แข็งแกร่งที่สุดสำหรับการประเมิน CPU ในขณะที่ GPU จัดการการทำงานของโมเดล CPU จัดการ request routing, tokenization และการประกอบ response AMX acceleration ของ Intel ทำให้สามารถ inference บน CPU สำหรับโมเดลขนาดเล็กได้ อาจกำจัดความต้องการ GPU สำหรับ workload ที่เหมาะสม ความได้เปรียบด้านประสิทธิภาพ ResNet50 5.5 เท่าแสดง value proposition
GPU host systems ต้องการ CPU ที่หลีกเลี่ยงการเป็นคอขวด จำนวน PCIe lanes กำหนดจำนวน GPU ที่เชื่อมต่อกับแต่ละ CPU socket 128 Gen5 lanes ของ EPYC และ 136 lanes ของ Granite Rapids ทั้งสองรองรับการกำหนดค่า eight-GPU Memory bandwidth ส่งผลต่อความเร็วในการย้ายข้อมูลไปยัง GPU memory สำหรับ training batches
Edge inference deployments เน้นประสิทธิภาพพลังงานและ I/O แบบรวม Granite Rapids-D รวมการเชื่อมต่อ Ethernet สำหรับอุปกรณ์ network inference สถาปัตยกรรม ARM ของ Grace ให้โปรไฟล์ประสิทธิภาพที่ edge deployments ต้องการ
ข้อพิจารณาในการวางแผนโครงสร้างพื้นฐาน
dynamics ตลาด CPU เอื้อต่อการประเมินหลาย vendors การได้ส่วนแบ่งอย่างต่อเนื่องของ AMD สร้างแรงกดดันการแข่งขันที่เป็นประโยชน์ต่อผู้ซื้อ การตอบสนองของ Intel ด้วย Granite Rapids แสดงถึงนวัตกรรมที่ต่อเนื่องแม้จะมีความท้าทายด้านตลาด Grace ของ NVIDIA เสนอความแตกต่างสำหรับสถาปัตยกรรมที่เน้น GPU
สถาปัตยกรรมหน่วยความจำแตกต่างกันมากขึ้นใน platforms การรองรับ CXL ทำให้สามารถขยายหน่วยความจำเกินความจุ socket ความเร็ว DDR5 ยังคงเพิ่มขึ้นในแต่ละรุ่น องค์กรที่วางแผนโครงสร้างพื้นฐานหลายปีควรประเมิน roadmaps หน่วยความจำควบคู่กับข้อมูลจำเพาะ CPU
ประสิทธิภาพพลังงานกำหนดความหนาแน่นการ deploy ในสถานที่ที่มีข้อจำกัด การอ้าง 2x performance per watt ของ Grace ควรได้รับการตรวจสอบสำหรับ workload เฉพาะ ความได้เปรียบด้านพลังงานทวีคูณใน deployments ขนาดใหญ่ที่ขีดจำกัดสถานที่จำกัดการเติบโต
ข้อกำหนด software ecosystem จำกัดทางเลือกสำหรับบางองค์กร ความเข้ากันได้ x86 ยังคงจำเป็นสำหรับ legacy workloads การนำ ARM ไปใช้ต้องการการตรวจสอบแอปพลิเคชันและอาจต้อง recompilation การรวม CUDA กับ Grace ทำให้การเปลี่ยนผ่านง่ายขึ้นสำหรับ deployments ที่เน้น GPU
การคำนวณ total cost of ownership ควรรวมไม่เพียงแค่ราคาโปรเซสเซอร์แต่ต้นทุนระบบ, การใช้พลังงาน และ licensing ราคาที่เอื้ออำนวยของ AMD ที่ระดับบน—192-core 9965 ที่ $14,813—ต่ำกว่าข้อเสนอที่เทียบเคียงได้ของ Intel อย่างไรก็ตาม AMX acceleration ของ Intel อาจลดความต้องการ GPU สำหรับ inference ส่งผลต่อสมการต้นทุนที่กว้างขึ้น
CPU ยังคงเป็นรากฐานของโครงสร้างพื้นฐาน AI แม้ว่า GPU จะดึงดูดความสนใจ องค์กรที่ประเมินการเลือก CPU ด้วยความเข้มงวดเดียวกันกับที่ใช้กับการจัดซื้อ GPU สร้างระบบที่สมดุลและมีประสิทธิภาพมากขึ้น dynamics การแข่งขันระหว่าง AMD, Intel และ NVIDIA รับประกันว่าการประเมินอย่างรอบคอบจะให้ความได้เปรียบด้านโครงสร้างพื้นฐานที่มีความหมาย
ประเด็นสำคัญ
สำหรับการจัดซื้อเซิร์ฟเวอร์: - AMD EPYC Turin 9965: 192 คอร์ (Zen 5c), L3 384MB, TDP 500W ที่ $14,813; ราคาเอื้ออำนวยเทียบกับ Intel ที่ระดับบน - Intel Xeon 6900P: 128 คอร์ (Granite Rapids), L3 504MB, AMX FP16 acceleration, รองรับ MRDIMM ที่ 8.8GHz - NVIDIA Grace: ARM cores 72 คอร์, LPDDR5X 480GB ที่ bandwidth 546GB/s, TDP 250W; อ้าง 2x perf/watt
สำหรับการวางแผน workload: - Control plane/orchestration: เน้นจำนวนคอร์สูง (ความหนาแน่น 192 คอร์ของ AMD); ความจุหน่วยความจำสำคัญกว่าความเร็วต่อคอร์ - Data preprocessing: ขยายตาม memory bandwidth; MRDIMM 8.8GHz ของ Intel ให้ความได้เปรียบ - Inference serving: AMX ของ Intel มอบประสิทธิภาพ ResNet50 5.5 เท่าเทียบกับ AMD; อาจกำจัดความต้องการ GPU สำหรับโมเดลขนาดเล็ก - GPU host systems: จำนวน PCIe lanes (AMD 128, Intel 136 Ge
[เนื้อหาถูกตัดทอนสำหรับการแปล]