CPUs für KI-Infrastruktur: AMD EPYC, Intel Xeon und NVIDIA Grace
Aktualisiert am 11. Dezember 2025
Dezember 2025 Update: AMDs Server-CPU-Anteil erreicht 27,8% im Q3 2025, prognostiziert 40%+ bis Jahresende—Intel auf Rekordtief von 72,2%. ARM-Prozessoren machen nun 13,2% der Serververkäufe aus, wobei NVIDIA Grace Blackwell 50% Wachstum antreibt. EPYC 9005 Turin wird mit bis zu 192 Kernen (Zen 5c) und 512MB L3-Cache ausgeliefert. Intel Xeon 6 Granite Rapids konzentriert sich auf KI-Inferenz-Beschleunigung.
AMDs Server-CPU-Marktanteil erreichte 27,8% im Q3 2025 und wird voraussichtlich bis Jahresende 40% überschreiten und 2026 potenziell 50% erreichen.¹ Intels Anteil fiel auf 72,2%—der niedrigste Server-CPU-Anteil, den das Unternehmen jemals verzeichnet hat.² ARM-Prozessoren machen nun 13,2% der gesamten Serververkäufe aus, wobei NVIDIAs Grace-Blackwell-Kombination 50% Wachstum beim ARM-Server-CPU-Volumen antreibt.³ Die CPU-Landschaft für KI-Infrastruktur verändert sich schneller als zu jedem anderen Zeitpunkt in den letzten zwei Jahrzehnten.
GPUs dominieren KI-Training und Inferenz-Computing, aber CPUs bleiben essentiell für Orchestrierung, Datenvorverarbeitung, Inferenz-Anfragen und das Management der Control Plane. Die Wahl der CPU beeinflusst Speicherbandbreite, I/O-Konnektivität, Energieeffizienz und Gesamtsystemkosten. Organisationen, die KI im großen Maßstab einsetzen, müssen die CPU-Auswahl ebenso sorgfältig bewerten wie die GPU-Beschaffung.
AMD EPYC 9005 Turin: der Dichte-Champion
AMD hat die EPYC 9005-Serie (Codename Turin) am 10. Oktober 2024 eingeführt, die die fünfte Generation von EPYC-Serverprozessoren auf Basis der Zen 5-Architektur darstellt.⁴ AMD positioniert diese als die weltweit beste Server-CPU für Enterprise-, KI- und Cloud-Workloads.⁵
Turin bietet zwei Kernkonfigurationen. Standard-Zen-5-Modelle erreichen 128 Kerne pro Sockel, gefertigt im TSMC 4nm-Prozess.⁶ Die dichten Zen-5c-Varianten liefern 192 Kerne pro Sockel im TSMC 3nm-Prozess.⁷ Das Flaggschiff EPYC 9965 bietet 192 Kerne und 384 Threads mit einer TDP von 500W.⁸
Wichtige Spezifikationen umfassen das gesamte Produktportfolio:
| SKU | Kerne | L3-Cache | TDP | Preis |
|---|---|---|---|---|
| EPYC 9965 | 192 (Zen 5c) | 384 MB | 500W | $14.813 |
| EPYC 9755 | 128 (Zen 5) | 512 MB | 500W | $12.984 |
| EPYC 9575F | 64 (Zen 5) | 512 MB | 400W | $10.176 |
| EPYC 9015 | 8 (Zen 5) | 32 MB | 155W | $527 |
Die Architektur verwendet bis zu 16 CCDs (Core Compute Dies) in Standardmodellen und bis zu 12 CCDs in dichten Konfigurationen, gepaart mit einem zentralen I/O-Die.⁹ Standard-CCDs enthalten jeweils acht Zen-5-Kerne, während dichte CCDs 16 Zen-5c-Kerne packen.¹⁰
Die Speicherunterstützung reicht bis DDR5-6000 mit ECC über 12 Kanäle, gegenüber DDR5-4800 in der vorherigen Generation.¹¹ Die PCIe-Konnektivität bietet bis zu 128 Gen5-Lanes mit CXL-1.0-Unterstützung für Typ-1-, 2- und 3-Geräte.¹² Der SP5-Sockel behält die Kompatibilität mit Genoa- und Bergamo-Systemen bei.¹³
Turin-Prozessoren liefern eine 17%ige IPC-Steigerung gegenüber der vorherigen Generation mit vollen 512-Bit-AVX-512-Datenpfaden.¹⁴ Die Verbesserungen übertragen sich direkt auf Datenvorverarbeitung und Inferenz-Serving-Workloads, die in der KI-Infrastruktur üblich sind.
AMDs Datacenter-Geschäft generierte 3,7 Milliarden Dollar Quartalsumsatz bei einem Wachstum von 57% im Jahresvergleich.¹⁵ Das Wachstum spiegelt sowohl EPYC-CPU- als auch Instinct-GPU-Verkäufe wider, während AMD in beiden Kategorien Marktanteile gewinnt.
Intel Xeon 6 Granite Rapids: der KI-Inferenz-Vorteil
Intel hat die Xeon 6 Granite Rapids 6900P-Serie mit Modellen von 72 bis 128 Kernen angekündigt—erstmals seit 2017 übertrifft Intel AMDs Kernzahlen.¹⁶ Die Prozessoren nutzen Intels Redwood-Cove-P-Core-Architektur auf dem Intel-3-Prozessknoten.¹⁷
Granite Rapids-AP (Advanced Performance)-Modelle verwenden die Avenue-City-Plattform mit dem größeren LGA-7529-Sockel.¹⁸ Der größere Sockel ermöglicht 128 Kerne mit Unterstützung für 12-Kanal-DDR5-Speicher und bis zu 192 Lanes PCIe 5.0 in Zwei-Sockel-Konfigurationen.¹⁹ Der L3-Cache erreicht bei Top-SKUs beeindruckende 504 Megabyte.²⁰
Die Speicherbandbreite stellt einen wichtigen Differenzierungsfaktor dar. Granite Rapids UCC unterstützt DDR5 mit 6,4 GHz Standard und Multiplexed-Rank-Speicher (MRDIMM) mit 8,8 GHz.²¹ Die höheren Speichergeschwindigkeiten begünstigen speichergebundene KI-Inferenz-Workloads.
Die I/O-Architektur bietet 136 PCIe-5.0-Lanes—gegenüber 128 bei Emerald Rapids—mit CXL-2.0-Typ-3-Unterstützung und bis zu 6 UPI-Links für Multi-Sockel-Skalierung.²²
Intels besonderer Vorteil liegt in Advanced Matrix Extensions (AMX), die KI-Inferenz-Workloads beschleunigen.²³ Die Matrix-Engine unterstützt AMX-FP16-Beschleunigung auf den Xeon-6500P- und 6700P-Prozessoren.²⁴ Intel behauptet 5,5-fache KI-Inferenz-Leistung bei ResNet50 im Vergleich zu AMDs konkurrierendem 96-Kern-Genoa-Flaggschiff.²⁵
Benchmark-Tests bestätigen den AMX-Vorteil. Phoronix dokumentierte massive KI-Leistungsvorteile mit AMX auf Granite Rapids und zeigte signifikante Inferenz-Durchsatzverbesserungen gegenüber nicht-beschleunigter x86-Ausführung.²⁶
Granite Rapids-D-Prozessoren zielen auf Edge-Computing- und Netzwerkanwendungen mit Verfügbarkeit ab 2025.²⁷ Erste Modelle erreichen 42 Kerne, wobei 72-Kern-Varianten später im Jahr erwartet werden.²⁸ Die SoC-Varianten integrieren Intel Ethernet mit 3,2-fach verbesserter RAN-KI-Leistung pro Kern.²⁹
Intels Marktanteilsherausforderungen bestehen trotz wettbewerbsfähiger Hardware fort. Das Unternehmen hält 72,2% der Server-CPU-Einheiten, verliert aber weiterhin Quartal für Quartal Marktanteile.³⁰ Der Umsatzanteil erzählt eine andere Geschichte—AMD erobert 37,2%, wenn nach Dollar statt nach Einheiten gemessen wird, was AMDs Erfolg in höherpreisigen Segmenten widerspiegelt.³¹
NVIDIA Grace: ARM betritt das Rechenzentrum
NVIDIA Grace repräsentiert die erste Rechenzentrum-CPU des Unternehmens, aufgebaut auf ARM-Neoverse-V2-Kernen, speziell für KI- und Hochleistungsrechner-Workloads entwickelt.³² Die Architektur wird mit NVIDIA-GPUs gepaart, um eng gekoppelte Systeme zu schaffen, die traditionelle CPU-GPU-Kommunikationsengpässe eliminieren.
Die Grace-CPU verfügt über 72 leistungsstarke ARM-Neoverse-V2-Kerne mit 4×128-Bit-SVE2-Vektoreinheiten pro Kern.³³ Die Cache-Hierarchie umfasst 64KB L1-Befehls- und Daten-Caches, 1MB L2 pro Kern und 117MB gemeinsamen L3.³⁴ Der Speicher erreicht 480GB nutzbares LPDDR5X mit 546GB/s Bandbreite bei 250W TDP.³⁵
Der Grace CPU Superchip kombiniert zwei Grace-CPUs, die über NVLink-C2C verbunden sind, und liefert 144 ARM-Kerne mit bis zu 1TB/s Speicherbandbreite.³⁶ Der Interconnect erreicht 900GB/s Bandbreite zwischen den beiden CPUs auf einem einzigen Modul mit bis zu 960GB LPDDR5X-Speicher.³⁷
NVIDIA behauptet, Grace liefere 2x Leistung pro Watt, 2x Packungsdichte und die höchste Speicherbandbreite im Vergleich zu zeitgenössischen x86-Servern.³⁸ Die Effizienzvorteile potenzieren sich in leistungsbeschränkten KI-Deployments.
Die GB200-NVL72-Konfiguration verbindet 36 Grace-CPUs mit 72 Blackwell-GPUs in einem flüssigkeitsgekühlten Rack-Scale-Design.³⁹ Das System liefert 30x schnellere Echtzeit-Inferenz für Large Language Models mit Billionen Parametern im Vergleich zu früheren Generationen.⁴⁰
Grace integriert sich vollständig in das ARM-Software-Ökosystem. Das NVIDIA HPC SDK und alle CUDA-Komponenten bieten ARM-native Installer und Container.⁴¹ NVIDIA-NIM-Microservices und NGC-Container sind für ARM optimiert.⁴² Alle großen Linux-Distributionen laufen ohne Modifikation.⁴³
ARMs Rechenzentrum-Momentum erstreckt sich über NVIDIA hinaus. ARM Holdings prognostiziert, dass sein Rechenzentrum-CPU-Marktanteil von etwa 15% im Jahr 2024 auf 50% bis Ende 2025 steigen wird.⁴⁴ Die Prognose spiegelt aggressives Wachstum durch Cloud-native ARM-Instanzen und NVIDIAs Grace-Adoption wider.
Der GB10-Grace-Blackwell-Superchip bringt die Architektur in Desktop-Formfaktoren für KI-Entwickler, Forscher und Edge-Computing.⁴⁵ Das System-in-Package vereint eine ARM-CPU mit Blackwell-GPU-Fähigkeiten und ermöglicht lokale KI-Entwicklung, die zuvor Rechenzentrumszugang erforderte.
Workload-spezifische CPU-Auswahl
Die CPU-Auswahl für KI-Infrastruktur hängt von der spezifischen Rolle innerhalb der Deployment-Architektur ab. Unterschiedliche Workloads bevorzugen unterschiedliche Prozessoreigenschaften.
Control-Plane- und Orchestrierungs-Workloads profitieren von hohen Kernzahlen und Speicherkapazität. Kubernetes-Control-Planes, Job-Scheduler und Monitoring-Systeme skalieren mit verfügbaren Kernen. AMDs EPYC 192-Kern-Dichte bietet Spielraum für Konsolidierung. Speicherkanäle und -kapazität sind bei diesen Workloads wichtiger als Pro-Kern-Leistung.
Datenvorverarbeitungs-Pipelines transformieren Rohdaten in trainingsfertige Formate. Diese Workloads skalieren oft mit Speicherbandbreite statt Rechenleistung. Intels MRDIMM-Unterstützung bei 8,8 GHz bietet Bandbreitenvorteile. Die Vorverarbeitungsstufe läuft oft auf dedizierten CPU-only-Systemen, die GPU-Cluster versorgen.
Inferenz-Serving-Workloads präsentieren das stärkste Argument für CPU-Evaluation. Während GPUs die Modellausführung übernehmen, verwalten CPUs Request-Routing, Tokenisierung und Response-Assembly. Intels AMX-Beschleunigung ermöglicht CPU-basierte Inferenz für kleinere Modelle und eliminiert potenziell GPU-Anforderungen für geeignete Workloads. Der 5,5x-ResNet50-Leistungsvorteil demonstriert das Wertversprechen.
GPU-Host-Systeme erfordern CPUs, die keine Engpässe werden. PCIe-Lane-Anzahlen bestimmen, wie viele GPUs sich mit jedem CPU-Sockel verbinden. EPYCs 128 Gen5-Lanes und Granite Rapids' 136 Lanes unterstützen beide Acht-GPU-Konfigurationen. Die Speicherbandbreite beeinflusst, wie schnell Daten für Trainings-Batches in den GPU-Speicher verschoben werden.
Edge-Inferenz-Deployments bevorzugen Energieeffizienz und integrierte I/O. Granite Rapids-D integriert Ethernet-Konnektivität für Netzwerk-Inferenz-Appliances. Graces ARM-Architektur bietet das Effizienzprofil, das Edge-Deployments erfordern.
Infrastrukturplanungsüberlegungen
Die CPU-Marktdynamik begünstigt Multi-Vendor-Evaluation. AMDs stetige Marktanteilsgewinne erzeugen Wettbewerbsdruck, der Käufern zugutekommt. Intels Antwort mit Granite Rapids demonstriert kontinuierliche Innovation trotz Marktherausforderungen. NVIDIAs Grace bietet Differenzierung für GPU-zentrische Architekturen.
Die Speicherarchitektur differenziert Plattformen zunehmend. CXL-Unterstützung ermöglicht Speichererweiterung über die Sockelkapazität hinaus. DDR5-Geschwindigkeiten steigen mit jeder Generation weiter. Organisationen, die mehrjährige Infrastruktur planen, sollten Speicher-Roadmaps neben CPU-Spezifikationen evaluieren.
Die Energieeffizienz bestimmt die Deployment-Dichte in eingeschränkten Einrichtungen. Graces 2x-Leistung-pro-Watt-Behauptung verdient Validierung für spezifische Workloads. Der Energievorteil potenziert sich bei großen Deployments, wo Anlagengrenzwerte das Wachstum einschränken.
Software-Ökosystem-Anforderungen engen die Auswahl für einige Organisationen ein. x86-Kompatibilität bleibt essentiell für Legacy-Workloads. ARM-Adoption erfordert Anwendungsvalidierung und potenziell Neukompilierung. CUDA-Integration mit Grace vereinfacht den Übergang für GPU-zentrische Deployments.
Gesamtbetriebskostenkalkulationen sollten nicht nur Prozessorpreise, sondern auch Systemkosten, Stromverbrauch und Lizenzierung einbeziehen. AMDs günstige Preisgestaltung am oberen Ende—der 192-Kern-9965 für $14.813—unterbietet Intels vergleichbare Angebote. Allerdings kann Intels AMX-Beschleunigung GPU-Anforderungen für Inferenz reduzieren, was die breitere Kostengleichung beeinflusst.
Die CPU bleibt das Fundament der KI-Infrastruktur, selbst wenn GPUs die Aufmerksamkeit auf sich ziehen. Organisationen, die die CPU-Auswahl mit der gleichen Sorgfalt evaluieren, die auf GPU-Beschaffung angewandt wird, bauen ausgewogenere, effizientere Systeme. Die Wettbewerbsdynamik zwischen AMD, Intel und NVIDIA stellt sicher, dass sorgfältige Evaluation bedeutende Infrastrukturvorteile bringt.
Wichtige Erkenntnisse
Für die Serverbeschaffung: - AMD EPYC Turin 9965: 192 Kerne (Zen 5c), 384MB L3, 500W TDP für $14.813; günstige Preisgestaltung vs. Intel am oberen Ende - Intel Xeon 6900P: 128 Kerne (Granite Rapids), 504MB L3, AMX-FP16-Beschleunigung, MRDIMM-Unterstützung bei 8,8GHz - NVIDIA Grace: 72 ARM-Kerne, 480GB LPDDR5X bei 546GB/s Bandbreite, 250W TDP; 2x Leistung/Watt behauptet
Für die Workload-Planung: - Control-Plane/Orchestrierung: bevorzugt hohe Kernzahlen (AMD 192-Kern-Dichte); Speicherkapazität wichtiger als Pro-Kern-Geschwindigkeit - Datenvorverarbeitung: skaliert mit Speicherbandbreite; Intel MRDIMM 8,8GHz bietet Vorteil - Inferenz-Serving: Intel AMX liefert 5,5x ResNet50-Leistung vs. AMD; kann GPU-Anforderung für kleinere Modelle eliminieren - GPU-Host-Systeme: PCIe-Lane-Anzahlen (AMD 128, Intel 136 Ge
[Inhalt für Übersetzung gekürzt]