CXL-Speichererweiterung: Die Speicherbarriere in KI-Rechenzentren durchbrechen
Aktualisiert am 11. Dezember 2025
Update Dezember 2025: Microsoft startet im November 2025 die ersten CXL-ausgestatteten Cloud-Instanzen. Die CXL 4.0-Spezifikation verdoppelt die Bandbreite auf 128GT/s. Der CXL-Markt wird bis 2028 auf 15 Milliarden Dollar prognostiziert (über 12 Milliarden Dollar DRAM hinter CXL). CXL-fähiger KV-Cache liefert 21,9-fache Durchsatzverbesserung, 60-fach niedrigeren Energieverbrauch pro Token. Kommerzielle CXL-Pools erreichen 2025 100TiB.
Speicherengpässe vernichten KI-Leistung. Large Language Models benötigen routinemäßig mehr als 80 bis 120GB pro GPU allein für den KV-Cache und überfordern damit selbst die teuersten HBM-ausgestatteten Beschleuniger.¹ Die Compute Express Link (CXL) Speichererweiterungstechnologie adressiert die Speicherkapazitätskrise direkt, indem sie Servern den Zugriff auf Speicherpools jenseits der CPU-angebundenen DRAM-Grenzen ermöglicht. Mit Microsofts Start der branchenweit ersten CXL-ausgestatteten Cloud-Instanzen im November 2025 und der CXL 4.0-Spezifikation, die die Bandbreite auf 128GT/s verdoppelt, werden disaggregierte Speicherarchitekturen vom Forschungskonzept zur Produktionsrealität.²
Der Markt spiegelt die Dringlichkeit wider. CXL-Markterlösprognosen erreichen bis 2028 15 Milliarden Dollar, wobei DRAM hinter CXL voraussichtlich mehr als 12 Milliarden Dollar dieser Summe ausmachen wird.³ Für Organisationen, die KI-Infrastruktur im großen Maßstab betreiben, bestimmt das Verständnis der CXL-Speichererweiterungsfähigkeiten, ob Systeme Workloads der nächsten Generation ohne ständige Hardware-Upgrades bewältigen können.
Wie CXL-Speichererweiterung tatsächlich funktioniert
CXL arbeitet als cache-kohärentes Verbindungsprotokoll, das über Standard-PCIe-Physikschichten läuft. Die Technologie erhält volle Kohärenz zwischen CPU-Caches und externen Speichergeräten aufrecht und ermöglicht Anwendungen den Zugriff auf CXL-angebundenen Speicher mit demselben Programmiermodell wie bei lokalem DRAM.⁴ Drei Protokoll-Untertypen behandeln verschiedene Geräteinteraktionen: CXL.io verwaltet PCIe-artige Transaktionen, CXL.cache ermöglicht Geräten das Cachen von Host-Speicher, und CXL.mem erlaubt Hosts den Zugriff auf geräteangebundenen Speicher.⁵
Speichererweiterungsgeräte, bezeichnet als CXL Type-3, verbinden DDR5-Module über PCIe-Slots oder EDSFF-Formfaktoren mit Servern. Moderne CXL-Controller fügen ungefähr 70 Nanosekunden Latenz im Vergleich zu direkt angebundenem DRAM hinzu.⁶ Obwohl erheblich, ist die CXL-Speicherlatenz 20- bis 50-mal schneller als NVMe-Speicher und füllt damit eine kritische Leistungsstufe zwischen schnellem Host-Speicher und langsamem Festplattenzugriff.⁷
Die Spezifikationsentwicklung beschleunigte sich rapide. CXL 2.0 führte Memory Pooling ein und erlaubt mehreren Hosts den Zugriff auf gemeinsame Speichergeräte mit unterschiedlichen Zuweisungen.⁸ CXL 3.0 ermöglichte echten geteilten Speicher, bei dem mehrere Hosts gleichzeitig auf dasselbe Speichersegment mit konsistenten Datenansichten zugreifen.⁹ Die Veröffentlichung von CXL 4.0 im November 2025 verdoppelte die Bandbreite von 64GT/s auf 128GT/s bei Beibehaltung des 256-Byte-FLIT-Formats und ermöglicht bis zu 1,536TB/s bidirektionale Gesamtbandbreite auf x16-Links durch das neue Bundled-Ports-Feature.¹⁰
Memory Pooling transformiert die Serverökonomie
Traditionelle Serverarchitekturen zwingen Betreiber zu schwierigen Kompromissen. Speicheranforderungen variieren dramatisch zwischen Workloads, dennoch werden Server mit festen DRAM-Konfigurationen ausgeliefert. Speicher machte 2022 durchschnittlich etwa 30% des Serverwerts aus, und Prognosen treiben diese Zahl bis 2025 über 40%.¹¹ Organisationen überprovisionieren routinemäßig Speicher für Spitzenlasten und lassen teures DRAM während durchschnittlicher Auslastungsperioden ungenutzt.
CXL Memory Pooling verändert die Gleichung grundlegend. Mehrere Server teilen sich den Zugriff auf zentralisierte Speicherpools und weisen Kapazität basierend auf Echtzeit-Workload-Anforderungen dynamisch zu. Microsoft stellte fest, dass die Einführung von CXL-basiertem Memory Pooling den Gesamtspeicherbedarf um etwa 10% senken könnte, was eine 5%ige Reduzierung der Gesamtserverkosten ergibt.¹² SMART Modular Technologies schätzt, dass die Kombination günstigerer DIMMs mit CXL-Erweiterungskarten bis zu 40% Einsparungen für 1TB-Speicherkonfigurationen im Vergleich zum Upgrade auf CPUs bietet, die mehr RAM unterstützen.¹³
Hybride DRAM-CXL-Systeme erreichen 95-100% des Durchsatzes reiner DRAM-Setups bei gleichzeitiger Halbierung der Speicherkosten durch Kompression und effizientes Pooling.¹⁴ Das wirtschaftliche Argument verstärkt sich, da die Speicherpreise aufgrund der HBM-Nachfrage, die DRAM-Produktionskapazität verbraucht, erhöht bleiben. Steigende DRAM-Kosten treiben Unternehmen zu Speichereffizienz-Software und CXL-basierten Erweiterungslösungen als Alternativen zu teuren Speicher-Upgrades.¹⁵
KI-Inferenz-Workloads treiben die CXL-Adoption voran
Large Language Model Inferenz erzeugt die dringendste Nachfrage nach erweiterter Speicherkapazität. KV-Cache-Speicheranforderungen skalieren linear mit der Kontextlänge, und moderne Modelle, die Multi-Millionen-Token-Kontexte unterstützen, erzeugen Cache-Größen, die den GPU-Speicher vollständig überschreiten. Forschung zeigt, dass CXL-fähiges KV-Cache-Management bis zu 21,9-fache Durchsatzverbesserung, 60-fach niedrigeren Energieverbrauch pro Token und 7,3-fach bessere Gesamtkosteneffizienz im Vergleich zu Basisimplementierungen liefert.¹⁶
XConn Technologies und MemVerge demonstrierten auf der Supercomputing 2025, wie KI-Inferenz-Workloads massive KV-Cache-Ressourcen dynamisch über GPUs und CPUs auslagern und teilen können. Die Demonstration erreichte mehr als 5-fache Leistungsverbesserungen im Vergleich zu SSD-basiertem Caching oder RDMA-basierter KV-Cache-Auslagerung.¹⁷ Im Vergleich zu netzwerkbasierten Alternativen erreichte der CXL-Speicherpool 3,8-fache Beschleunigung gegenüber 200G RDMA und 6,5-fache Beschleunigung gegenüber 100G RDMA für Inferenz-Workloads.¹⁸
Kommerzielle CXL-Speicherpools mit 100TiB wurden 2025 verfügbar, mit noch größeren Deployments für 2026 geplant.¹⁹ Astera Labs demonstrierte auf dem OCP Global Summit 2025, wie Leo CXL Smart Memory Controller KI-Infrastruktur-Engpässe beseitigen und 3-fach gleichzeitige LLM-Instanzen bei höherem Durchsatz und 3-fach niedrigerer Latenz mit CXL erreichen.²⁰ SK Hynix präsentierte eine speicherzentrische KI-Maschine, die mehrere Server und GPUs ohne traditionelles Netzwerk verbindet und verteilte Inferenzaufgaben durch CXL Pooled Memory Technologie unterstützt.²¹
Über Inferenz hinaus profitieren Empfehlungssysteme, In-Memory-Datenbanken und Graph-Analytik von CXL-Speichererweiterung. Microns H3 Falcon CXL-basiertes disaggregiertes Speichersystem liefert bis zu 20-fache Leistungssteigerungen für Graph-Datenbanken.²² Leo CXL-Controller gepaart mit AMD EPYC 5. Generation Prozessoren bieten 70% Leistungssteigerungen für Deep-Learning-Empfehlungsmodelle.²³
Die CXL-Controller-Landschaft
Drei Anbieter dominieren die CXL-Speichercontroller-Produktion: Astera Labs, Montage Technology und Microchip. Ihre Controller treiben Speichermodule aller großen DRAM-Hersteller an.
Astera Labs führt den Markt mit Leo CXL Smart Memory Controllern an, die CXL 2.0 mit bis zu 2TB Speicherkapazität pro Controller unterstützen.²⁴ Leo implementiert CXL.mem, CXL.cache und CXL.io Protokolle, führt Hardware-Interleaving durch, um aggregierten Speicher für Betriebssysteme darzustellen, und bietet RAS-Features durch die COSMOS-Management-Suite.²⁵ Die A-Series Erweiterungskarten ermöglichen Plug-and-Play-Deployment, während E-Series und P-Series Implementierungen kundenspezifische Integration unterstützen. Microsoft Azures CXL-Speichervorschau vom November 2025 verwendet Leo-Controller und markiert das branchenweit erste öffentliche Cloud-Deployment von CXL-angebundenem Speicher.²⁶
Montage Technology lieferte den weltweit ersten CXL Memory eXpander Controller (MXC) und beliefert derzeit Samsung, SK Hynix und andere große Speicherhersteller mit Controllern.²⁷ Der CXL 3.1-Controller des Unternehmens vom September 2025 (M88MX6852) erreicht Datenübertragungsraten bis zu 64GT/s bei x8-Konfigurationen, integriert Dual-Channel DDR5 mit 8000MT/s Geschwindigkeiten und fügt nur 70ns Latenz hinzu.²⁸ Das 25mm x 25mm Gehäuse unterstützt sowohl EDSFF E3.S als auch PCIe Add-in-Card Formfaktoren.²⁹ Samsung und SK Hynix bestanden beide CXL 2.0-Konformitätstests mit Montage MXC-Chips.³⁰
Microchip stieg mit dem SMC 1000 8x25G Controller in CXL ein und unterstützt Speichererweiterungs- und Pooling-Anwendungen. Das Unternehmen integriert CXL-Fähigkeiten in sein breiteres Memory-Connectivity-Portfolio neben Memory-Buffer-Chips und SPD-Hub-Controllern.
Speichermodulprodukte der großen Anbieter
Samsungs CMM-D (CXL Memory Module - DDR5) Serie repräsentiert das CXL-Produktionsportfolio des Unternehmens. Das CMM-D 2.0 bietet 128GB und 256GB Kapazitäten mit bis zu 36GB/s Bandbreite, CXL 2.0-Konformität und PCIe Gen 5 Unterstützung.³¹ Samsung positioniert CMM-D als Ergänzung zu bestehenden lokalen DIMMs und beansprucht Speicherkapazitätserweiterung bis zu 50% und Bandbreitensteigerungen bis zu 100% bei gleichzeitiger Senkung der Gesamtbetriebskosten.³² Kundenmuster wurden 2025 ausgeliefert, mit CXL 3.1-Varianten zum Jahresende geplant.³³
SK Hynix demonstrierte mehrere CXL-Speicherprodukte auf der Supercomputing 2025. Das CMM-DDR5 arbeitet mit Montage-Controllern zusammen, um die Speicherkapazität zu erweitern, während das CMM-Ax (CXL Memory Module Accelerator) Rechenfähigkeiten direkt in den Speicher integriert.³⁴ SK Telecoms Petasus AI Cloud setzte CMM-Ax ein und demonstrierte praktische KI-Infrastrukturanwendungen.³⁵ SK Hynix bereitet die Produktion proprietärer CXL-Controller für CXL 3.0 und 3.1 vor, um die Abhängigkeit von Drittanbieter-Silizium zu reduzieren.³⁶
Micron führte CXL 2.0-basierte Speichererweiterungsmodule mit 96GB DDR5-Kapazitäten ein.³⁷ Das Unternehmen positioniert CXL-Speicher als kritische Technologie zur Verringerung des Abstands zu Samsung und SK Hynix im margenstarken Server-Speichersegment. Microns H3 Falcon System kombiniert CXL-basierten disaggregierten Speicher mit dem Linux-unterstützten FAMFS-Dateisystem für Graph-Datenbank-Beschleunigung.³⁸
Server-Plattform-Unterstützung von Intel und AMD
AMD EPYC Genoa Prozessoren kamen 2022 mit nativer CXL Type-3 Geräteunterstützung, was AMD einen mehrjährigen Vorsprung vor Intel gab.³⁹ Aktuelle EPYC 9005 Turin Prozessoren erhalten die CXL-Kompatibilität über die gesamte Produktlinie. Leistungsbenchmarks demonstrieren erhebliche Gewinne: Leo CXL-Controller mit AMD EPYC der 5. Generation liefern 70% Leistungsverbesserungen für Empfehlungsmodelle und ermöglichen hybride Speicherarchitekturen, die 95-100% der nativen DRAM-Leistung erreichen.⁴⁰
Intels CXL-Weg erwies sich als holpriger. Xeon Scalable der 4. Generation "Sapphire Rapids" startete ohne CXL Type-3 Geräteunterstützung, obwohl das Basis-CXL-Protokoll implementiert war.⁴¹ Offizielle Type-3 Unterstützung kam mit der 5. Generation "Emerald Rapids" vor etwa einem Jahr. Intel Xeon 6 Prozessoren beinhalten den CXL Flat Memory Mode, eine einzigartige Fähigkeit, die die Flexibilität des Compute-zu-Speicher-Verhältnisses verbessert, ohne die Leistung zu beeinträchtigen.⁴² Microsoft hob speziell die Flat Memory Mode Fähigkeiten bei der Ankündigung von Azures CXL-Vorschau hervor.⁴³
Lenovo ThinkSystem V4 Server mit Intel Xeon 6 Prozessoren unterstützen CXL 2.0 Speicher im E3.S 2T Formfaktor.⁴⁴ Branchenführer einschließlich Dell Technologies, HPE, ASUS und Inventec bauen Plattformen, die auf CXL 3.0 ausgerichtet sind und sich auf eine breitere Ökosystem-Adoption vorbereiten.⁴⁵ DRAM hinter CXL Prognosen erreichen bis 2029 etwa 10% des Server-DRAM.⁴⁶
CXL 4.0 kartiert die Multi-Rack-Zukunft
Die CXL 4.0-Spezifikationsveröffentlichung vom November 2025 etabliert das Fundament für wirklich disaggregierte Rechenzentrumsarchitekturen. Die Verdopplung der Bandbreite auf 128GT/s über PCIe 7.0 Physikschichten adressiert Leistungsbedenken, die frühere Adoption limitierten.⁴⁷ Bundled Ports aggregieren mehrere physische Verbindungen zu einzelnen logischen Anschlüssen und ermöglichen 768GB/s Bandbreite in jede Richtung (1,536TB/s gesamt) bei x16-Konfigurationen bei gleichzeitiger Beibehaltung einfacher Softwaremodelle.⁴⁸
Native x2 Link-Breiten-Unterstützung erhöht die Fan-out-Fähigkeiten für Memory-Pooling-Topologien. Frühere CXL-Versionen unterstützten x2 nur als Fallback-Modus für Lane-Ausfälle; CXL 4.0 optimiert x2 vollständig für Leistung wie x4 bis x16 Breiten.⁴⁹ Extended Reach Unterstützung durch bis zu vier Retimer ermöglicht Multi-Rack-Konfigurationen ohne Signaldegradation.⁵⁰
CXL 4.0 Multi-Rack-Systeme könnten Ende 2026 bis 2027 eingesetzt werden.⁵¹ Die Spezifikation erhält Rückwärtskompatibilität mit allen früheren CXL-Versionen und schützt Investitionen in bestehende CXL 2.0 und 3.x Ausrüstung.⁵² Mit der erwarteten CXL 3.0 Ökosystem-Reife im Laufe von 2025 werden Rechenzentren ab 2026 damit beginnen, Architekturen zu übernehmen, bei denen Speicher und Compute disaggregieren, poolen und sich dynamisch neu zuweisen.⁵³
Aufbau des CXL-Infrastruktur-Stacks
Der Einsatz von CXL-Speichererweiterung erfordert Ökosystem-Koordination jenseits von
[Inhalt für Übersetzung gekürzt]