AI 인프라를 위한 CPU: AMD EPYC, Intel Xeon, NVIDIA Grace
2025년 12월 11일 업데이트
2025년 12월 업데이트: AMD 서버 CPU 점유율이 2025년 3분기 27.8%에 도달하여 연말까지 40% 이상, 2026년에는 잠재적으로 50%에 이를 것으로 전망됩니다—Intel은 역대 최저인 72.2%를 기록했습니다. ARM 프로세서가 서버 매출의 13.2%를 차지하며, NVIDIA Grace Blackwell 조합이 ARM 서버 CPU 물량의 50% 성장을 견인하고 있습니다. EPYC 9005 Turin은 최대 192코어(Zen 5c)와 512MB L3 캐시로 출하 중입니다. Intel Xeon 6 Granite Rapids는 AI 추론 가속에 집중하고 있습니다.
AMD의 서버 CPU 시장 점유율은 2025년 3분기 27.8%에 도달했으며, 연말까지 40%를 넘어 2026년에는 잠재적으로 50%에 이를 것으로 전망됩니다.¹ Intel의 점유율은 72.2%로 하락했으며—이는 회사 역사상 가장 낮은 서버 CPU 점유율입니다.² ARM 프로세서는 현재 전체 서버 매출의 13.2%를 차지하며, NVIDIA의 Grace Blackwell 조합이 ARM 서버 CPU 물량의 50% 성장을 견인하고 있습니다.³ AI 인프라를 위한 CPU 환경은 지난 20년간 그 어느 때보다 빠르게 변화하고 있습니다.
GPU가 AI 학습과 추론 연산을 지배하지만, CPU는 오케스트레이션, 데이터 전처리, 추론 요청 서빙, 컨트롤 플레인 관리에 여전히 필수적입니다. CPU 선택은 메모리 대역폭, I/O 연결성, 전력 효율성, 총 시스템 비용에 영향을 미칩니다. 대규모 AI를 배포하는 조직은 GPU 조달만큼이나 신중하게 CPU 선택을 평가해야 합니다.
AMD EPYC 9005 Turin: 밀도의 선두주자
AMD는 2024년 10월 10일 EPYC 9005 시리즈(코드명 Turin)를 출시했으며, 이는 Zen 5 아키텍처 기반의 5세대 EPYC 서버 프로세서입니다.⁴ AMD는 이를 엔터프라이즈, AI, 클라우드 워크로드를 위한 세계 최고의 서버 CPU로 포지셔닝합니다.⁵
Turin은 두 가지 코어 구성을 제공합니다. 표준 Zen 5 모델은 TSMC의 4nm 공정으로 소켓당 최대 128코어를 제공합니다.⁶ 고밀도 Zen 5c 변형은 TSMC의 3nm 공정을 사용하여 소켓당 192코어를 제공합니다.⁷ 플래그십 EPYC 9965는 192코어와 384스레드를 500W TDP로 제공합니다.⁸
주요 사양은 전체 제품 라인업에 걸쳐 있습니다:
| SKU | 코어 | L3 캐시 | TDP | 가격 |
|---|---|---|---|---|
| EPYC 9965 | 192 (Zen 5c) | 384 MB | 500W | $14,813 |
| EPYC 9755 | 128 (Zen 5) | 512 MB | 500W | $12,984 |
| EPYC 9575F | 64 (Zen 5) | 512 MB | 400W | $10,176 |
| EPYC 9015 | 8 (Zen 5) | 32 MB | 155W | $527 |
아키텍처는 표준 모델에서 최대 16개의 CCD(Core Compute Dies)를, 고밀도 구성에서 최대 12개의 CCD를 중앙 I/O 다이와 함께 사용합니다.⁹ 표준 CCD는 각각 8개의 Zen 5 코어를 포함하고, 고밀도 CCD는 16개의 Zen 5c 코어를 탑재합니다.¹⁰
메모리 지원은 12채널에 걸쳐 ECC를 갖춘 DDR5-6000까지 확장되며, 이전 세대의 DDR5-4800에서 향상되었습니다.¹¹ PCIe 연결은 Type 1, 2, 3 장치를 위한 CXL 1.0 지원과 함께 최대 128개의 Gen5 레인을 제공합니다.¹² SP5 소켓은 Genoa 및 Bergamo 시스템과의 호환성을 유지합니다.¹³
Turin 프로세서는 이전 세대 대비 17%의 IPC 향상과 함께 완전한 512비트 AVX-512 데이터 경로를 제공합니다.¹⁴ 이러한 개선은 AI 인프라에서 흔한 데이터 전처리 및 추론 서빙 워크로드에 직접적으로 적용됩니다.
AMD의 데이터센터 사업은 분기별 37억 달러의 매출을 기록하며 전년 대비 57% 성장했습니다.¹⁵ 이 성장은 AMD가 두 카테고리 모두에서 점유율을 높이면서 EPYC CPU와 Instinct GPU 판매 모두를 반영합니다.
Intel Xeon 6 Granite Rapids: AI 추론의 강점
Intel은 72코어에서 128코어에 이르는 모델로 Xeon 6 Granite Rapids 6900P 시리즈를 발표했으며—2017년 이후 처음으로 AMD의 코어 수를 넘어섰습니다.¹⁶ 이 프로세서는 Intel 3 공정 노드에서 Intel의 Redwood Cove P-core 아키텍처를 사용합니다.¹⁷
Granite Rapids-AP(Advanced Performance) 모델은 더 큰 LGA 7529 소켓을 갖춘 Avenue City 플랫폼을 사용합니다.¹⁸ 더 큰 소켓은 12채널 DDR5 메모리 지원과 2소켓 구성에서 최대 192개의 PCIe 5.0 레인으로 128코어를 가능하게 합니다.¹⁹ L3 캐시는 최상위 SKU에서 인상적인 504메가바이트에 도달합니다.²⁰
메모리 대역폭은 핵심 차별화 요소입니다. Granite Rapids UCC는 표준 6.4GHz DDR5와 8.8GHz의 다중화 랭크(MRDIMM) 메모리를 지원합니다.²¹ 더 높은 메모리 속도는 메모리 병목이 있는 AI 추론 워크로드에 유리합니다.
I/O 아키텍처는 Emerald Rapids의 128개에서 증가한 136개의 PCIe 5.0 레인을 제공하며, CXL 2.0 Type 3 지원과 멀티소켓 확장을 위한 최대 6개의 UPI 링크를 포함합니다.²²
Intel의 뚜렷한 강점은 AI 추론 워크로드를 가속하는 Advanced Matrix Extensions(AMX)에 있습니다.²³ 매트릭스 엔진은 Xeon 6500P 및 6700P 프로세서에서 AMX FP16 가속을 지원합니다.²⁴ Intel은 AMD의 경쟁 96코어 Genoa 플래그십 대비 ResNet50에서 5.5배의 AI 추론 성능을 주장합니다.²⁵
벤치마크 테스트는 AMX의 강점을 확인합니다. Phoronix는 Granite Rapids에서 AMX를 사용한 대규모 AI 성능 이점을 문서화했으며, 비가속 x86 실행 대비 상당한 추론 처리량 향상을 보여주었습니다.²⁶
Granite Rapids-D 프로세서는 2025년 출시 예정으로 엣지 컴퓨팅 및 네트워킹 애플리케이션을 타겟으로 합니다.²⁷ 초기 모델은 42코어에 도달하며, 72코어 변형은 올해 후반에 예상됩니다.²⁸ SoC 변형은 코어당 3.2배 향상된 RAN AI 성능으로 Intel Ethernet을 통합합니다.²⁹
경쟁력 있는 하드웨어에도 불구하고 Intel의 시장 점유율 도전은 지속됩니다. 회사는 서버 CPU 유닛의 72.2%를 보유하지만 분기마다 점유율을 잃고 있습니다.³⁰ 매출 점유율은 다른 이야기를 합니다—AMD는 유닛이 아닌 달러로 측정할 때 37.2%를 차지하며, 이는 AMD가 고가 세그먼트에서 성공하고 있음을 반영합니다.³¹
NVIDIA Grace: ARM의 데이터센터 진출
NVIDIA Grace는 AI 및 고성능 컴퓨팅 워크로드를 위해 특별히 ARM Neoverse V2 코어로 구축된 회사 최초의 데이터센터 CPU입니다.³² 이 아키텍처는 NVIDIA GPU와 페어링되어 기존의 CPU-GPU 통신 병목을 제거하는 긴밀하게 결합된 시스템을 만듭니다.
Grace CPU는 코어당 4×128비트 SVE2 벡터 유닛을 갖춘 72개의 고성능 ARM Neoverse V2 코어를 특징으로 합니다.³³ 캐시 계층은 64KB L1 명령어 및 데이터 캐시, 코어당 1MB L2, 117MB 공유 L3를 포함합니다.³⁴ 메모리는 250W TDP에서 546GB/s 대역폭으로 480GB의 사용 가능한 LPDDR5X에 도달합니다.³⁵
Grace CPU Superchip은 NVLink-C2C로 연결된 두 개의 Grace CPU를 결합하여 최대 1TB/s 메모리 대역폭으로 144개의 ARM 코어를 제공합니다.³⁶ 인터커넥트는 최대 960GB LPDDR5X 메모리로 단일 모듈에서 두 CPU 간 900GB/s 대역폭을 달성합니다.³⁷
NVIDIA는 Grace가 동시대 x86 서버 대비 2배의 와트당 성능, 2배의 패키징 밀도, 최고의 메모리 대역폭을 제공한다고 주장합니다.³⁸ 효율성 이점은 시설 제한이 성장을 제약하는 전력 제한 AI 배포에서 복합됩니다.
GB200 NVL72 구성은 36개의 Grace CPU를 72개의 Blackwell GPU와 랙 규모의 액체 냉각 설계로 연결합니다.³⁹ 이 시스템은 이전 세대 대비 조 단위 파라미터 대규모 언어 모델에 대해 30배 빠른 실시간 추론을 제공합니다.⁴⁰
Grace는 ARM 소프트웨어 에코시스템과 완전히 통합됩니다. NVIDIA HPC SDK와 모든 CUDA 컴포넌트는 ARM 네이티브 설치 프로그램과 컨테이너를 제공합니다.⁴¹ NVIDIA NIM 마이크로서비스와 NGC 컨테이너는 ARM에 최적화되어 있습니다.⁴² 모든 주요 Linux 배포판이 수정 없이 실행됩니다.⁴³
ARM의 데이터센터 모멘텀은 NVIDIA를 넘어 확장됩니다. ARM Holdings는 데이터센터 CPU 시장 점유율이 2024년 약 15%에서 2025년 말까지 50%로 증가할 것으로 전망합니다.⁴⁴ 이 전망은 클라우드 네이티브 ARM 인스턴스와 NVIDIA Grace 채택으로 인한 공격적인 성장을 반영합니다.
GB10 Grace Blackwell 슈퍼칩은 AI 개발자, 연구원, 엣지 컴퓨팅을 위해 데스크톱 폼 팩터로 아키텍처를 제공합니다.⁴⁵ 이 시스템인패키지는 ARM CPU와 Blackwell GPU 기능을 결합하여 이전에는 데이터센터 접근이 필요했던 로컬 AI 개발을 가능하게 합니다.
워크로드별 CPU 선택
AI 인프라를 위한 CPU 선택은 배포 아키텍처 내의 특정 역할에 따라 달라집니다. 다른 워크로드는 다른 프로세서 특성을 선호합니다.
컨트롤 플레인 및 오케스트레이션 워크로드는 높은 코어 수와 메모리 용량에서 이점을 얻습니다. Kubernetes 컨트롤 플레인, 작업 스케줄러, 모니터링 시스템은 사용 가능한 코어에 따라 확장됩니다. AMD EPYC의 192코어 밀도는 통합을 위한 여유를 제공합니다. 메모리 채널과 용량은 이러한 워크로드에서 코어당 성능보다 더 중요합니다.
데이터 전처리 파이프라인은 원시 데이터를 학습 준비가 된 형식으로 변환합니다. 이러한 워크로드는 종종 컴퓨팅보다 메모리 대역폭에 따라 확장됩니다. Intel의 8.8GHz MRDIMM 지원은 대역폭 이점을 제공합니다. 전처리 단계는 종종 GPU 클러스터에 공급하는 전용 CPU 전용 시스템에서 실행됩니다.
추론 서빙 워크로드는 CPU 평가를 위한 가장 강력한 사례를 제시합니다. GPU가 모델 실행을 처리하는 동안, CPU는 요청 라우팅, 토큰화, 응답 조립을 관리합니다. Intel의 AMX 가속은 더 작은 모델에 대해 CPU 기반 추론을 가능하게 하여 적절한 워크로드에서 잠재적으로 GPU 요구 사항을 제거합니다. 5.5배 ResNet50 성능 이점은 가치 제안을 보여줍니다.
GPU 호스트 시스템은 병목이 되지 않는 CPU가 필요합니다. PCIe 레인 수는 각 CPU 소켓에 연결할 수 있는 GPU 수를 결정합니다. EPYC의 128개 Gen5 레인과 Granite Rapids의 136개 레인 모두 8-GPU 구성을 지원합니다. 메모리 대역폭은 학습 배치를 위해 GPU 메모리로 데이터가 얼마나 빨리 이동하는지에 영향을 미칩니다.
엣지 추론 배포는 전력 효율성과 통합 I/O를 선호합니다. Granite Rapids-D는 네트워크 추론 어플라이언스를 위한 Ethernet 연결을 통합합니다. Grace의 ARM 아키텍처는 엣지 배포에 필요한 효율성 프로파일을 제공합니다.
인프라 계획 고려사항
CPU 시장 역학은 멀티벤더 평가를 선호합니다. AMD의 꾸준한 점유율 상승은 구매자에게 이익이 되는 경쟁 압력을 만듭니다. Intel의 Granite Rapids 대응은 시장 도전에도 불구하고 지속적인 혁신을 보여줍니다. NVIDIA의 Grace는 GPU 중심 아키텍처를 위한 차별화를 제공합니다.
메모리 아키텍처는 점점 더 플랫폼을 차별화합니다. CXL 지원은 소켓 용량을 넘어 메모리 확장을 가능하게 합니다. DDR5 속도는 세대마다 계속 증가합니다. 다년 인프라를 계획하는 조직은 CPU 사양과 함께 메모리 로드맵을 평가해야 합니다.
전력 효율성은 제약된 시설에서 배포 밀도를 결정합니다. Grace의 2배 와트당 성능 주장은 특정 워크로드에 대한 검증이 필요합니다. 전력 이점은 시설 제한이 성장을 제약하는 대규모 배포에서 복합됩니다.
소프트웨어 에코시스템 요구사항은 일부 조직의 선택을 좁힙니다. x86 호환성은 레거시 워크로드에 여전히 필수적입니다. ARM 채택은 애플리케이션 검증과 잠재적으로 재컴파일이 필요합니다. Grace와의 CUDA 통합은 GPU 중심 배포를 위한 전환을 단순화합니다.
총 소유 비용 계산에는 프로세서 가격뿐만 아니라 시스템 비용, 전력 소비, 라이선싱이 포함되어야 합니다. AMD의 유리한 고급형 가격—192코어 9965가 $14,813—은 Intel의 비교 가능한 제품보다 저렴합니다. 그러나 Intel의 AMX 가속은 추론을 위한 GPU 요구 사항을 줄여 더 넓은 비용 방정식에 영향을 미칠 수 있습니다.
GPU가 주목을 받는 동안에도 CPU는 AI 인프라의 기반으로 남아 있습니다. GPU 조달에 적용되는 것과 동일한 엄격함으로 CPU 선택을 평가하는 조직은 더 균형 잡히고 효율적인 시스템을 구축합니다. AMD, Intel, NVIDIA 간의 경쟁 역학은 신중한 평가가 의미 있는 인프라 이점을 제공함을 보장합니다.
핵심 요점
서버 조달: - AMD EPYC Turin 9965: 192코어(Zen 5c), 384MB L3, 500W TDP, $14,813; 고급형에서 Intel 대비 유리한 가격 - Intel Xeon 6900P: 128코어(Granite Rapids), 504MB L3, AMX FP16 가속, 8.8GHz MRDIMM 지원 - NVIDIA Grace: 72개 ARM 코어, 546GB/s 대역폭의 480GB LPDDR5X, 250W TDP; 2배 성능/와트 주장
워크로드 계획: - 컨트롤 플레인/오케스트레이션: 높은 코어 수 선호(AMD 192코어 밀도); 메모리 용량이 코어당 속도보다 중요 - 데이터 전처리: 메모리 대역폭에 따라 확장; Intel MRDIMM 8.8GHz가 이점 제공 - 추론 서빙: Intel AMX가 AMD 대비 5.5배 ResNet50 성능 제공; 더 작은 모델에서 GPU 요구 사항 제거 가능 - GPU 호스트 시스템: PCIe 레인 수(AMD 128, Intel 136 Ge
[번역을 위해 콘텐츠 잘림]