HBM-evolutie: van HBM3 naar HBM4 en de AI-geheugenoorlog
Bijgewerkt op 11 december 2025
Update december 2025: SK Hynix leidt de HBM-markt met 62% marktaandeel in Q2 2025 versus Micron (21%) en Samsung (17%). De wereldwijde HBM-markt groeit van $38 miljard in 2025 naar $58 miljard in 2026. JEDEC bracht de officiële HBM4-specificatie uit in april 2025, waarbij de interface-breedte wordt verdubbeld naar 2.048 bits en tot 2 terabytes per seconde bandbreedte per stack mogelijk wordt. SK Hynix haalt Samsung voor het eerst in de geschiedenis in als 's werelds grootste DRAM-fabrikant.
SK Hynix leidt de HBM-markt met 62% marktaandeel in Q2 2025, gevolgd door Micron met 21% en Samsung met 17%.¹ De wereldwijde HBM-markt zal groeien van $38 miljard in 2025 naar $58 miljard in 2026.² JEDEC bracht de officiële HBM4-specificatie uit in april 2025, waarbij de interface-breedte wordt verdubbeld naar 2.048 bits en tot 2 terabytes per seconde bandbreedte per stack mogelijk wordt.³ High Bandwidth Memory bepaalt het plafond van AI-acceleratorprestaties—de geheugenbarrière die bepaalt hoe groot een model kan zijn en hoe snel het kan draaien.
De HBM-generaties vertegenwoordigen een triomf op het gebied van productie en packaging. Het verticaal stapelen van DRAM-dies met through-silicon vias (TSV's) en deze via een interposer verbinden met GPU- of accelerator-dies creëert geheugenbandbreedte die onmogelijk is met traditionele DRAM-packaging. Elke generatie verhoogt capaciteit, bandbreedte en stapelhoogte terwijl leveranciers concurreren op opbrengst, kwalificatiesnelheid en klantrelaties. De concurrentie heeft de geheugenindustrie hervormd, waarbij SK Hynix Samsung voor het eerst in de geschiedenis heeft ingehaald als 's werelds grootste DRAM-fabrikant.
HBM3: de basis van huidige AI
HBM3, geïntroduceerd in 2022, vestigde de geheugenbandbreedte-mogelijkheden die de huidige AI-hausse mogelijk maakten.⁴ De architectuur verdubbelde het aantal kanalen van 8 naar 16 vergeleken met HBM2e, terwijl datasnelheden opschaalden naar 6,4 gigabits per seconde.⁵
Vier HBM3-stacks verbonden met een processor via een interface die draait op 6,4 gigabits per seconde leveren meer dan 3,2 terabytes per seconde aan totale bandbreedte.⁶ Individuele stack-bandbreedte bereikt ongeveer 819 gigabytes per seconde met een 8 GT/s 1024-bit bus.⁷
HBM3 ondersteunt 16-hoge stacks van 32 gigabit capaciteit DRAM-dies.⁸ De stapelmogelijkheid maakt geheugencapaciteiten tot 24-36 gigabytes per stack mogelijk, afhankelijk van die-dichtheid en stapelhoogte.⁹
De 3D-stapelarchitectuur vermindert latentie vergeleken met traditioneel DRAM door kortere signaalpaden en parallelle toegang tot meerdere dies tegelijkertijd.¹⁰ De combinatie van bandbreedte-, capaciteits- en latentieverbeteringen maakte HBM3 de geheugentechnologie die transformer-gebaseerde grote taalmodellen op schaal mogelijk maakte.
NVIDIA's H100 GPU gebruikte HBM3, waarmee de prestatiebasislijn werd vastgesteld waar concurrenten op mikte. De geheugenbandbreedte maakte de tensor core-benuttingsgraden mogelijk die de prijspremie van de H100 ten opzichte van vorige generaties rechtvaardigden.
HBM3E: de grenzen verleggen
Grote DRAM-fabrikanten introduceerden HBM3E-apparaten met datasnelheden tot 9,6 gigabits per seconde—50% sneller dan HBM3.¹¹ De bandbreedteverbetering maakte ongeveer 1,2 terabytes per seconde per stack mogelijk, wat de praktische grenzen van de 1024-bit interface benadert.¹²
SK Hynix leidt de massaproductie met 12-hoge die-stacks die 1,2+ terabytes per seconde bandbreedte leveren terwijl ze achterwaarts compatibel blijven met HBM3-controllers.¹³ De achterwaartse compatibiliteit vereenvoudigde adoptie voor accelerator-leveranciers die geheugenspecificaties tussen productgeneraties bijwerkten.
Micron kondigde HBM3E-geheugen aan met 9,6 gigabits per seconde per pin verwerkingssnelheid, 24 gigabytes per 8-hoge kubus, en dataoverdracht van 1,2 terabytes per seconde.¹⁴ De capaciteit per stack nam toe terwijl de bestaande interface-breedte behouden bleef.
Cadence demonstreerde HBM3E-geheugensubsystemen die draaien op 12,4 gigabits per seconde bij nominale spanningen, met productie-PHY die DRAM-snelheden tot 10,4 gigabits per seconde ondersteunt—1,33 terabytes per seconde per apparaat.¹⁵ De demonstratie toonde ruimte voor nog hogere snelheden binnen de HBM3E-specificatie.
NVIDIA's H200 en initiële Blackwell-producten gebruiken HBM3E. De H200 breidde de geheugencapaciteit uit naar 141 gigabytes vergeleken met de 80 gigabytes van de H100, terwijl de bandbreedte proportioneel toenam. De Blackwell B200 bereikte 192 gigabytes HBM3E met 8 terabytes per seconde totale bandbreedte.
De overgang van HBM3 naar HBM3E demonstreerde het vermogen van de geheugenindustrie om extra prestaties uit bestaande architecturen te halen. Verdere winsten vereisen echter de architecturale veranderingen die HBM4 introduceert.
HBM4: de volgende generatie
JEDEC bracht de officiële HBM4-specificatie uit in april 2025.¹⁶ De specificatie vertegenwoordigt de meest significante architecturale verandering sinds de introductie van HBM, waarbij de interface-breedte wordt verdubbeld van 1.024 bits naar 2.048 bits.¹⁷
HBM4 ondersteunt overdrachtssnelheden tot 8 gigabits per seconde over de bredere interface, met een totale bandbreedte die 2 terabytes per seconde per stack bereikt.¹⁸ Een GPU met 8 HBM4-apparaten bereikt totale geheugenbandbreedte van meer dan 13 terabytes per seconde.¹⁹
De bredere interface vereiste architecturale veranderingen door het hele geheugensubsysteem. HBM4 verdubbelt het aantal onafhankelijke kanalen per stack naar 32 met 2 pseudo-kanalen per kanaal.²⁰ Het 2.048-bit datakanaal is verdeeld in 32 64-bit kanalen of 64 32-bit pseudo-kanalen, vergeleken met de 16 64-bit kanalen van HBM3.²¹
Stapelhoogte neemt toe tot maximaal 16 dies met DRAM-die-dichtheden van 24 gigabits of 32 gigabits, wat capaciteiten tot 64 gigabytes per stack mogelijk maakt.²² De capaciteitstoename adresseert de groeiende parameteraantallen van foundation models die de huidige geheugenlimieten overschrijden.
HBM4 behoudt achterwaartse compatibiliteit met HBM3-controllers, wat de overgang voor accelerator-leveranciers vergemakkelijkt.²³ De Rambus HBM4 Memory Controller verhoogt de ondersteunde signaalsnelheid naar 10,0 gigabits per seconde, wat 2,56 terabytes per seconde doorvoer per HBM4-apparaat bij maximale snelheid oplevert.²⁴
Betrouwbaarheidsverbeteringen omvatten Directed Refresh Management (DRFM) voor verbeterde row-hammer-mitigatie.²⁵ De verbeterde RAS-functies (Reliability, Availability, Serviceability) adresseren zorgen over DRAM-betrouwbaarheid bij de verhoogde temperaturen die gebruikelijk zijn in AI-accelerators.
HBM4E breidt de specificatie verder uit met 10 gigabits per seconde datasnelheden, 2,5 terabytes per seconde bandbreedte per stack, en per-package vermogen tot 80 watt.²⁶ De HBM4E-specificatie richt zich op het tijdsbestek van 2027.
Fabrikantenconcurrentie
SK Hynix voltooide de HBM4-ontwikkeling en bereidde zich voor op grootschalige productie tegen eind 2025.²⁷ SK Hynix's HBM4-stacks overtreffen de JEDEC-specificaties met 25% in prestaties, met 10 GT/s dataoverdrachtssnelheden vergeleken met de 8 GT/s standaard.²⁸ Volumeleveringen beginnen begin 2026 na definitieve klantkwalificaties.²⁹
SK Hynix werd NVIDIA's primaire HBM-leverancier, een relatie die de marktaandeelwinsten van het bedrijf aanjoeg.³⁰ Het NVIDIA-partnerschap positioneerde SK Hynix om het merendeel van de hoogwaardige AI-geheugenvraag te veroveren.
Micron begon met het verzenden van HBM4-samples in juni 2025, waarbij 36 gigabyte 12-hoge stacks werden geleverd aan belangrijke klanten, waaronder naar verluidt NVIDIA.³¹ Tegen Q4 2025 kondigde Micron HBM4-samples aan die draaien op snelheden boven 11 gigabits per seconde per pin, wat meer dan 2,8 terabytes per seconde per stack oplevert.³² De timing voor massaproductie richt zich op kalenderjaar 2026.³³
Micron behaalde design wins bij NVIDIA voor Hopper H200 en Blackwell B200 GPU's, waarbij het HBM-marktaandeel groeide van ongeveer 5% naar een doelstelling van 20-25% tegen eind 2025.³⁴ De NVIDIA-kwalificatie valideert Micron's technologie en productiecapaciteit.
Samsung mikt op het starten van HBM4-massaproductie in de eerste helft van 2026.³⁵ In Q3 2025 begon Samsung met het verzenden van grote volumes HBM4-samples naar NVIDIA voor vroege kwalificatie.³⁶ Samsung dient naar verluidt als de primaire HBM4-leverancier voor AMD's MI450-accelerator.³⁷
Samsung's HBM-marktaandeel kelderde van 41% in Q2 2024 naar 17% in Q2 2025 terwijl het bedrijf worstelde om NVIDIA's kwalificatietests te doorstaan.³⁸ Samsung bleef grotendeels afhankelijk van oudere-generatie HBM3-chips voor HBM-verkoop terwijl concurrenten HBM3E verzonden.³⁹ Analisten voorspellen dat Samsung's positie zal versterken naarmate HBM3E-onderdelen worden gekwalificeerd en HBM4 in 2026 volledig beschikbaar komt.⁴⁰
De HBM-concurrentie heeft de bredere geheugenindustrie hervormd. SK Hynix nam voor het eerst de leiding in de totale DRAM-markt, met 36% aandeel van de inkomsten in Q1 2025 vergeleken met Samsung's 34%.⁴¹ De omkering van het langdurige Samsung-leiderschap weerspiegelt het groeiende aandeel van HBM in de totale DRAM-waarde.
NVIDIA en AMD roadmaps
NVIDIA's officiële roadmap toont Rubin met 8 HBM4-sites en Rubin Ultra met 16 HBM4-sites.⁴² De Rubin-interposer meet 2.194 vierkante millimeter en huisvest 288 tot 384 gigabytes VRAM-capaciteit met 16-32 terabytes per seconde totale bandbreedte.⁴³ Het totale chipvermogen bereikt 2.200 watt.⁴⁴
HBM-capaciteit zal naar verwachting groeien van de 80 gigabytes HBM2E van de A100 naar 1.024 gigabytes HBM4E voor Rubin Ultra.⁴⁵ Het traject weerspiegelt de geheugenvereisten van modellen die tientallen biljoenen parameters kunnen bereiken.
Rubin-productie ligt op schema voor de tweede helft van 2026.⁴⁶ Consumentenkaarten gebaseerd op de architectuur worden verwacht eind 2026 of begin 2027.⁴⁷ De timing positioneert Rubin als de opvolger van Blackwell Ultra in NVIDIA's datacenter-lineup.
AMD bevestigde HBM4 voor de MI400-acceleratorserie.⁴⁸ AMD's Instinct MI400, die in 2026 wordt gelanceerd, richt zich op 432 gigabytes HBM4-capaciteit met geheugenbandbreedte tot 19,6 terabytes per seconde.⁴⁹ De MI430X is de eerste AMD-accelerator die HBM4 gebruikt.⁵⁰
De HBM4-generatie vestigt een nieuwe prestatiecategorie voor beide leveranciers. Toenames in geheugenbandbreedte en capaciteit maken modelgroottes en inferentiedoorvoer mogelijk die HBM3E niet efficiënt kan ondersteunen.
De geheugenbarrière-beperking
Groei in geheugenbandbreedte blijft achter bij groei in rekencapaciteit in AI-accelerators. De "geheugenbarrière" beperkt hoe effectief accelerators hun rekenkracht kunnen benutten. HBM-evolutie vertegenwoordigt de primaire reactie van de industrie op deze beperking.
Grote taalmodellen vertonen geheugengebonden kenmerken tijdens inferentie. Het attention-mechanisme vereist toegang tot de volledige key-value cache voor elke gegenereerde token. Geheugenbandbreedte bepaalt hoe snel deze toegang plaatsvindt, wat direct de tokens-per-seconde doorvoer beïnvloedt.
Training-workloads hebben andere geheugenbeperkingen. Modelparameters, gradiënten, optimizer-states en activaties concurreren om geheugencapaciteit. Geheugenbandbreedte beïnvloedt hoe snel data beweegt tussen verwerkingseenheden tijdens gradiëntaccumulatie en optimalisatiestappen.
De 2 terabytes per seconde bandbreedte van HBM4 vergeleken met HBM3's 819 gigabytes per seconde vertegenwoordigt een 2,4x verbetering.⁵¹ Gecombineerd met capaciteitstoenames van 36 gigabytes naar 64 gigabytes per stack, adresseert HBM4 zowel de bandbreedte- als capaciteitsdimensies van de geheugenbarrière.
Echter, rekencapaciteit neemt sneller toe dan geheugenbandbreedte. Elke HBM-generatie biedt ongeveer 2x bandbreedteverbetering terwijl rekenkracht ook elke generatie verdubbelt. De geheugenbarrière wijkt terug maar verdwijnt nooit.
Toekomstige HBM-generaties—HBM5 tot en met HBM8—projecteren voortgezette bandbreedteschaling door hogere datasnelheden en mogelijk bredere interfaces.⁵² De roadmap strekt zich uit door het decennium met bandbreedtedoelen die 64 terabytes per seconde per systeem bereiken.⁵³
Overwegingen voor infrastructuurplanning
HBM-leveringsbeperkingen beïnvloeden accelerator-beschikbaarheid. Het HBM-tekort beperkte GPU-leveringen gedurende 2023 en 2024. Organisaties die grote implementaties plannen moeten begrijpen dat GPU-inkoop afhankelijk is van de capaciteit van geheugenfabrikanten.
Leveranciersrelaties bepalen toegang. SK Hynix's NVIDIA-relatie, Samsung's AMD-positionering en Micron's brede kwalificatie-inspanningen creëren supply chain-complexiteit. Tweedelijns accelerator-leveranciers kunnen langere levertijden hebben als geheugen hyperscaler-orders prioriteert.
De HBM4-overgang creëert een generatieverschuiving eind 2026. Organisaties die nu implementeren ontvangen HBM3E-gebaseerde systemen. Degenen die wachten op Rubin of MI400 krijgen de voordelen van HBM4. De timing beïnvloedt meerjarige infrastructuurplanning.
Memor
[Content truncated for translation]