HBM-Evolution: Von HBM3 zu HBM4 und der KI-Speicherkrieg

SK Hynix führt den HBM-Markt mit 62% Anteil im Q2 2025 gegenüber Micron (21%) und Samsung (17%). Der globale HBM-Markt wächst von 38 Mrd. $ (2025) auf 58 Mrd. $ (2026). JEDEC veröffentlicht offizielle HBM4-Spezifikation (April 2025) mit Verdopplung...

HBM-Evolution: Von HBM3 zu HBM4 und der KI-Speicherkrieg

HBM-Evolution: Von HBM3 zu HBM4 und der KI-Speicherkrieg

Aktualisiert am 11. Dezember 2025

Update Dezember 2025: SK Hynix führt den HBM-Markt mit 62% Anteil im Q2 2025 gegenüber Micron (21%) und Samsung (17%). Der globale HBM-Markt wächst von 38 Milliarden Dollar in 2025 auf 58 Milliarden Dollar in 2026. JEDEC veröffentlichte die offizielle HBM4-Spezifikation im April 2025, die die Schnittstellenbreite auf 2.048 Bit verdoppelt und bis zu 2 TB/s Bandbreite pro Stack ermöglicht. SK Hynix überholt Samsung erstmals in der Geschichte als weltgrößter DRAM-Hersteller.

SK Hynix führt den HBM-Markt mit 62% Anteil im Q2 2025, gefolgt von Micron mit 21% und Samsung mit 17%.¹ Der globale HBM-Markt wird von 38 Milliarden Dollar in 2025 auf 58 Milliarden Dollar in 2026 wachsen.² JEDEC veröffentlichte die offizielle HBM4-Spezifikation im April 2025, die die Schnittstellenbreite auf 2.048 Bit verdoppelt und bis zu 2 Terabyte pro Sekunde Bandbreite pro Stack ermöglicht.³ High Bandwidth Memory definiert die Obergrenze der KI-Beschleuniger-Leistung – die Memory Wall, die bestimmt, wie groß ein Modell sein kann und wie schnell es laufen kann.

Die HBM-Generationen repräsentieren einen Triumph in Fertigung und Packaging. Das vertikale Stapeln von DRAM-Dies mit Through-Silicon Vias (TSVs) und deren Verbindung über einen Interposer mit GPU- oder Beschleuniger-Dies erzeugt Speicherbandbreiten, die mit traditionellem DRAM-Packaging unmöglich sind. Jede Generation erhöht Kapazität, Bandbreite und Stapelhöhe, während Hersteller um Ausbeute, Qualifizierungsgeschwindigkeit und Kundenbeziehungen konkurrieren. Der Wettbewerb hat die Speicherindustrie umgestaltet, wobei SK Hynix Samsung erstmals in der Geschichte als weltgrößten DRAM-Hersteller überholt hat.

HBM3: Das Fundament der aktuellen KI

HBM3, eingeführt 2022, etablierte die Speicherbandbreiten-Fähigkeiten, die den aktuellen KI-Boom ermöglichten.⁴ Die Architektur verdoppelte die Kanalanzahl von 8 auf 16 gegenüber HBM2e, während die Datenraten auf 6,4 Gigabit pro Sekunde skalierten.⁵

Vier HBM3-Stacks, die über eine Schnittstelle mit 6,4 Gigabit pro Sekunde mit einem Prozessor verbunden sind, liefern über 3,2 Terabyte pro Sekunde an aggregierter Bandbreite.⁶ Die individuelle Stack-Bandbreite erreicht ungefähr 819 Gigabyte pro Sekunde mit einem 8 GT/s 1024-Bit-Bus.⁷

HBM3 unterstützt 16-hohe Stacks von DRAM-Dies mit 32 Gigabit Kapazität.⁸ Die Stapelfähigkeit ermöglicht Speicherkapazitäten von 24-36 Gigabyte pro Stack, abhängig von Die-Dichte und Stapelhöhe.⁹

Die 3D-Stapelarchitektur reduziert die Latenz im Vergleich zu traditionellem DRAM durch kürzere Signalwege und parallelen Zugriff auf mehrere Dies gleichzeitig.¹⁰ Die Kombination aus Bandbreiten-, Kapazitäts- und Latenzverbesserungen machte HBM3 zur Speichertechnologie, die transformerbasierte Large Language Models im großen Maßstab ermöglichte.

NVIDIAs H100 GPU verwendete HBM3 und etablierte die Leistungsbasis, die Wettbewerber anvisierten. Die Speicherbandbreite ermöglichte die Tensor-Core-Auslastungsraten, die den Preisaufschlag der H100 gegenüber früheren Generationen rechtfertigten.

HBM3E: Die Grenzen ausreizen

Große DRAM-Hersteller führten HBM3E-Geräte ein, die Datenraten von 9,6 Gigabit pro Sekunde erreichen – 50% schneller als HBM3.¹¹ Die Bandbreitenverbesserung ermöglichte ungefähr 1,2 Terabyte pro Sekunde pro Stack und näherte sich den praktischen Grenzen der 1024-Bit-Schnittstelle.¹²

SK Hynix führt die Massenproduktion mit 12-hohen Die-Stacks an, die über 1,2 Terabyte pro Sekunde Bandbreite liefern und dabei abwärtskompatibel mit HBM3-Controllern bleiben.¹³ Die Abwärtskompatibilität vereinfachte die Einführung für Beschleuniger-Hersteller, die Speicherspezifikationen zwischen Produktgenerationen aktualisierten.

Micron kündigte HBM3E-Speicher mit 9,6 Gigabit pro Sekunde pro Pin Verarbeitungsgeschwindigkeit, 24 Gigabyte pro 8-hohem Würfel und Datentransfer von 1,2 Terabyte pro Sekunde an.¹⁴ Die Kapazität pro Stack stieg, während die bestehende Schnittstellenbreite beibehalten wurde.

Cadence demonstrierte HBM3E-Speichersubsysteme mit 12,4 Gigabit pro Sekunde bei Nennspannungen, mit Produktions-PHY, das DRAM-Geschwindigkeiten bis zu 10,4 Gigabit pro Sekunde unterstützt – 1,33 Terabyte pro Sekunde pro Gerät.¹⁵ Die Demonstration zeigte Reserven für noch höhere Geschwindigkeiten innerhalb der HBM3E-Spezifikation.

NVIDIAs H200 und die ersten Blackwell-Produkte verwenden HBM3E. Die H200 erweiterte die Speicherkapazität auf 141 Gigabyte gegenüber 80 Gigabyte der H100, während die Bandbreite proportional stieg. Die Blackwell B200 erreichte 192 Gigabyte HBM3E bei 8 Terabyte pro Sekunde aggregierter Bandbreite.

Der Übergang von HBM3 zu HBM3E demonstrierte die Fähigkeit der Speicherindustrie, zusätzliche Leistung aus bestehenden Architekturen zu extrahieren. Weitere Fortschritte erfordern jedoch die architektonischen Änderungen, die HBM4 einführt.

HBM4: Die nächste Generation

JEDEC veröffentlichte die offizielle HBM4-Spezifikation im April 2025.¹⁶ Die Spezifikation stellt die bedeutendste architektonische Änderung seit der Einführung von HBM dar und verdoppelt die Schnittstellenbreite von 1.024 Bit auf 2.048 Bit.¹⁷

HBM4 unterstützt Übertragungsgeschwindigkeiten bis zu 8 Gigabit pro Sekunde über die breitere Schnittstelle, mit einer Gesamtbandbreite von 2 Terabyte pro Sekunde pro Stack.¹⁸ Eine GPU mit 8 HBM4-Geräten erreicht eine aggregierte Speicherbandbreite von über 13 Terabyte pro Sekunde.¹⁹

Die breitere Schnittstelle erforderte architektonische Änderungen im gesamten Speichersubsystem. HBM4 verdoppelt die Anzahl der unabhängigen Kanäle pro Stack auf 32 mit 2 Pseudo-Kanälen pro Kanal.²⁰ Der 2.048-Bit-Datenkanal teilt sich in 32 64-Bit-Kanäle oder 64 32-Bit-Pseudo-Kanäle, verglichen mit den 16 64-Bit-Kanälen von HBM3.²¹

Die Stapelhöhe steigt auf maximal 16 Dies mit DRAM-Die-Dichten von 24 Gigabit oder 32 Gigabit, was Kapazitäten bis zu 64 Gigabyte pro Stack ermöglicht.²² Die Kapazitätssteigerung adressiert die wachsenden Parameteranzahlen von Foundation Models, die aktuelle Speichergrenzen überschreiten.

HBM4 behält die Abwärtskompatibilität mit HBM3-Controllern bei und erleichtert den Übergang für Beschleuniger-Hersteller.²³ Der Rambus HBM4 Memory Controller erhöht die unterstützte Signalgeschwindigkeit auf 10,0 Gigabit pro Sekunde und bietet 2,56 Terabyte pro Sekunde Durchsatz pro HBM4-Gerät bei maximaler Rate.²⁴

Zuverlässigkeitsverbesserungen umfassen Directed Refresh Management (DRFM) für verbesserte Row-Hammer-Mitigation.²⁵ Die erweiterten RAS-Funktionen (Reliability, Availability, Serviceability) adressieren Bedenken bezüglich der DRAM-Zuverlässigkeit bei den erhöhten Temperaturen, die in KI-Beschleunigern üblich sind.

HBM4E erweitert die Spezifikation weiter mit 10 Gigabit pro Sekunde Datenraten, 2,5 Terabyte pro Sekunde Bandbreite pro Stack und bis zu 80 Watt Leistung pro Paket.²⁶ Die HBM4E-Spezifikation zielt auf den Zeitraum 2027.

Wettbewerb der Hersteller

SK Hynix schloss die HBM4-Entwicklung ab und bereitete die Großserienproduktion bis Ende 2025 vor.²⁷ Die HBM4-Stacks von SK Hynix übertreffen die JEDEC-Spezifikationen um 25% in der Leistung und bieten 10 GT/s Datenübertragungsraten im Vergleich zum 8 GT/s Standard.²⁸ Volumenlieferungen beginnen Anfang 2026 nach den finalen Kundenqualifizierungen.²⁹

SK Hynix wurde NVIDIAs primärer HBM-Lieferant, eine Beziehung, die die Marktanteilsgewinne des Unternehmens vorantrieb.³⁰ Die NVIDIA-Partnerschaft positionierte SK Hynix, um den Großteil der hochwertigen KI-Speichernachfrage zu erobern.

Micron begann im Juni 2025 mit dem Versand von HBM4-Mustern und lieferte 36 Gigabyte 12-hohe Stacks an wichtige Kunden, darunter Berichten zufolge NVIDIA.³¹ Bis Q4 2025 kündigte Micron HBM4-Muster an, die mit Geschwindigkeiten über 11 Gigabit pro Sekunde pro Pin laufen und über 2,8 Terabyte pro Sekunde pro Stack liefern.³² Der Zeitplan für die Massenproduktion zielt auf das Kalenderjahr 2026.³³

Micron sicherte sich Design-Wins mit NVIDIA für Hopper H200 und Blackwell B200 GPUs und steigerte den HBM-Marktanteil von etwa 5% in Richtung eines 20-25%-Ziels bis Ende 2025.³⁴ Die NVIDIA-Qualifizierung validiert Microns Technologie und Fertigungsfähigkeit.

Samsung plant, die HBM4-Massenproduktion in der ersten Hälfte 2026 zu starten.³⁵ Im Q3 2025 begann Samsung mit dem Versand großer Mengen von HBM4-Mustern an NVIDIA zur frühen Qualifizierung.³⁶ Samsung dient Berichten zufolge als primärer HBM4-Lieferant für AMDs MI450-Beschleuniger.³⁷

Samsungs HBM-Marktanteil stürzte von 41% im Q2 2024 auf 17% im Q2 2025 ab, da das Unternehmen Schwierigkeiten hatte, NVIDIAs Qualifizierungstests zu bestehen.³⁸ Samsung blieb bei HBM-Verkäufen weitgehend von älteren HBM3-Chips abhängig, während Wettbewerber HBM3E lieferten.³⁹ Analysten prognostizieren, dass sich Samsungs Position stärken wird, wenn HBM3E-Teile qualifiziert werden und HBM4 2026 in die Großserienproduktion geht.⁴⁰

Der HBM-Wettbewerb hat die breitere Speicherindustrie umgestaltet. SK Hynix übernahm erstmals die Führung im gesamten DRAM-Markt und eroberte 36% Anteil am Umsatz im Q1 2025 gegenüber Samsungs 34%.⁴¹ Die Umkehrung der langjährigen Samsung-Führung reflektiert den wachsenden Anteil von HBM am gesamten DRAM-Wert.

NVIDIA und AMD Roadmaps

NVIDIAs offizielle Roadmap zeigt Rubin mit 8 HBM4-Slots und Rubin Ultra mit 16 HBM4-Slots.⁴² Der Rubin-Interposer misst 2.194 Quadratmillimeter und beherbergt 288 bis 384 Gigabyte VRAM-Kapazität mit 16-32 Terabyte pro Sekunde Gesamtbandbreite.⁴³ Die Gesamtchip-Leistung erreicht 2.200 Watt.⁴⁴

Die HBM-Kapazität wird voraussichtlich von 80 Gigabyte HBM2E der A100 auf 1.024 Gigabyte HBM4E für Rubin Ultra wachsen.⁴⁵ Die Entwicklung reflektiert die Speicheranforderungen von Modellen, die möglicherweise zig Billionen Parameter erreichen.

Die Rubin-Produktion liegt planmäßig für die zweite Hälfte 2026.⁴⁶ Consumer-Karten basierend auf der Architektur werden Ende 2026 oder Anfang 2027 erwartet.⁴⁷ Das Timing positioniert Rubin als Nachfolger von Blackwell Ultra in NVIDIAs Rechenzentrumsportfolio.

AMD bestätigte HBM4 für die MI400-Beschleunigerserie.⁴⁸ AMDs Instinct MI400, der 2026 erscheint, zielt auf 432 Gigabyte HBM4-Kapazität mit Speicherbandbreite bis zu 19,6 Terabyte pro Sekunde.⁴⁹ Die MI430X ist der erste AMD-Beschleuniger, der HBM4 nutzt.⁵⁰

Die HBM4-Generation etabliert ein neues Leistungsniveau für beide Hersteller. Erhöhungen bei Speicherbandbreite und -kapazität ermöglichen Modellgrößen und Inferenzdurchsatz, die HBM3E nicht effizient unterstützen kann.

Die Memory-Wall-Einschränkung

Das Wachstum der Speicherbandbreite hinkt dem Wachstum der Rechenkapazität bei KI-Beschleunigern hinterher. Die "Memory Wall" beschränkt, wie effektiv Beschleuniger ihre Rechenressourcen nutzen können. Die HBM-Evolution stellt die primäre Antwort der Industrie auf diese Einschränkung dar.

Large Language Models zeigen speichergebundene Eigenschaften während der Inferenz. Der Attention-Mechanismus erfordert den Zugriff auf den gesamten Key-Value-Cache für jedes generierte Token. Die Speicherbandbreite bestimmt, wie schnell dieser Zugriff erfolgt, und beeinflusst direkt den Tokens-pro-Sekunde-Durchsatz.

Training-Workloads stehen vor anderen Speichereinschränkungen. Modellparameter, Gradienten, Optimizer-Zustände und Aktivierungen konkurrieren um Speicherkapazität. Die Speicherbandbreite beeinflusst, wie schnell Daten zwischen Verarbeitungseinheiten während der Gradientenakkumulation und Optimierungsschritte bewegt werden.

Die 2 Terabyte pro Sekunde Bandbreite von HBM4 im Vergleich zu 819 Gigabyte pro Sekunde von HBM3 stellt eine 2,4-fache Verbesserung dar.⁵¹ Kombiniert mit Kapazitätssteigerungen von 36 Gigabyte auf 64 Gigabyte pro Stack adressiert HBM4 sowohl die Bandbreiten- als auch die Kapazitätsdimension der Memory Wall.

Allerdings steigt die Rechenkapazität schneller als die Speicherbandbreite. Jede HBM-Generation bietet etwa 2x Bandbreitenverbesserung, während sich die Rechenleistung ebenfalls jede Generation verdoppelt. Die Memory Wall weicht zurück, verschwindet aber nie.

Zukünftige HBM-Generationen – HBM5 bis HBM8 – projizieren eine fortgesetzte Bandbreitenskalierung durch höhere Datenraten und potenziell breitere Schnittstellen.⁵² Die Roadmap erstreckt sich über das Jahrzehnt mit Bandbreitenzielen von bis zu 64 Terabyte pro Sekunde pro System.⁵³

Überlegungen zur Infrastrukturplanung

HBM-Versorgungsengpässe beeinflussen die Verfügbarkeit von Beschleunigern. Der HBM-Mangel begrenzte die GPU-Lieferungen während 2023 und 2024. Organisationen, die große Bereitstellungen planen, sollten verstehen, dass die GPU-Beschaffung von der Kapazität der Speicherhersteller abhängt.

Lieferantenbeziehungen bestimmen den Zugang. Die SK Hynix-NVIDIA-Beziehung, Samsungs AMD-Positionierung und Microns breite Qualifizierungsbemühungen schaffen Komplexität in der Lieferkette. Beschleuniger-Hersteller der zweiten Reihe könnten längere Vorlaufzeiten haben, wenn der Speicher Hyperscaler-Bestellungen priorisiert.

Der HBM4-Übergang schafft einen Generationswechsel Ende 2026. Organisationen, die jetzt bereitstellen, erhalten HBM3E-basierte Systeme. Diejenigen, die auf Rubin oder MI400 warten, gewinnen die Vorteile von HBM4. Das Timing beeinflusst die mehrjährige Infrastrukturplanung.

Speicher

Angebot anfordern_

Erzählen Sie uns von Ihrem Projekt und wir antworten innerhalb von 72 Stunden.

> ÜBERTRAGUNG_ABGESCHLOSSEN

Anfrage erhalten_

Vielen Dank für Ihre Anfrage. Unser Team wird Ihre Anfrage prüfen und innerhalb von 72 Stunden antworten.

ZUR BEARBEITUNG EINGEREIHT