De AI-geheugensupercyclus: Hoe HBM de Kritiekste Bottleneck van AI Werd
Microns high-bandwidth memory capaciteit is uitverkocht tot en met kalenderjaar 2026.^[1]^ Die ene zin uit de earnings call van het eerste fiscale kwartaal van 2026 van het bedrijf vat een structurele transformatie samen die de gehele halfgeleiderindustrie hervormt. De AI-geheugensupercyclus is van analistenvoorspelling naar operationele realiteit verschoven, waardoor een vraag-aanbod onevenwicht is ontstaan dat zo ernstig is dat de productie van gaming-GPU's met 40% wordt gekort^[2]^ terwijl geheugenproducenten recordmarges van meer dan 50% rapporteren.^[3]^
Deze beperking vertegenwoordigt meer dan een tijdelijke leveringsstoring. De geheugenindustrie heeft een structurele reset ondergaan, waarbij decennia van boom-and-bust-cycliciteit zijn overgegaan naar aanhoudende vraagpremies gedreven door de onverzadigbare honger van generatieve AI naar bandbreedte. Begrijpen hoe HBM de kritieke bottleneck van AI werd, vereist onderzoek naar de technische vereisten die de vraag aandrijven, de oligopolistische marktstructuur die het aanbod controleert, en de infrastructurele implicaties die de economie van datacenters jarenlang zullen vormgeven.
Samenvatting
- HBM-capaciteit uitverkocht tot en met 2026 bij alle grote leveranciers (SK Hynix, Micron, Samsung)
- Markt-TAM geprojecteerd op $100 miljard tegen 2028, omhoog van $35 miljard in 2025 (~40% CAGR)
- SK Hynix domineert met 62% marktaandeel; NVIDIA neemt ~90% van hun HBM-aanbod af
- NVIDIA kort gaming-GPU-productie met 30-40% in H1 2026 door GDDR7-tekorten
- HBM4 gaat in productie in 2026, met 16-Hi stacks gericht op Q4 2026
- Consolidatie in de geheugenindustrie creëert prijszettingsmacht die ongekend is in de halfgeleidergeschiedenis
De Technische Noodzaak: Waarom AI HBM Nodig Heeft
De relatie tussen AI-modelprestaties en geheugenbandbreedte vertegenwoordigt een van de meest ingrijpende technische beperkingen in computing. Large language models en generatieve AI-systemen worden geconfronteerd met een fundamentele bottleneck: het verplaatsen van parameters tussen geheugen en rekenkernen kost meer tijd en energie dan de daadwerkelijke wiskundige bewerkingen.^[4]^
Standaard GDDR-geheugen, ontworpen voor gaming-workloads met hoge doorvoer maar acceptabele latentie, kan niet voldoen aan de bandbreedtevereisten van AI. High-bandwidth memory lost deze beperking op door verticaal stapelen, waarbij meerdere DRAM-dies op elkaar worden geplaatst met through-silicon vias (TSV's) die duizenden gelijktijdige dataverbindingen bieden.^[5]^
De cijfers spreken voor zich. NVIDIA's H100 GPU gebruikt 80GB HBM3 met 3,35 TB/s bandbreedte.^[6]^ De H200 verhoogde de capaciteit naar 141GB HBM3e met 4,8 TB/s.^[7]^ De Blackwell B200 beschikt over 192GB HBM3e met 8,0 TB/s, meer dan het dubbele van de bandbreedte van de H100.^[8]^ De aankomende Rubin R100 zal 288GB HBM4 bevatten met een geschatte bandbreedte tussen 13-15 TB/s.^[9]^
Deze progressie weerspiegelt dat de geheugenvereisten van AI sneller schalen dan de Wet van Moore. Een vuistregel voor het serveren van large language models in 16-bit precisie: ongeveer 2GB GPU-geheugen per 1 miljard parameters.^[10]^ Llama 3's 70B-variant vereist meer dan een enkele 80GB A100.^[11]^ Modellen die 1 biljoen parameters naderen, vereisen multi-GPU-configuraties waarbij HBM-capaciteit de bindende beperking wordt.
De KV-cache vormt een extra geheugenuitdaging. Tijdens inferentie slaan transformers key-value paren van eerdere tokens op om herberekening te voorkomen. Deze cache groeit lineair met de contextlengte en verbruikt ongeveer 0,5MB per token in een 7B-model.^[12]^ Een "LLM die 60GB nodig heeft voor weights" kan vaak niet betrouwbaar draaien op een 80GB GPU met lange prompts omdat runtime geheugengroei, niet weights, de beperkende factor wordt.^[13]^
Het Oligopolievoordeel: Drie Spelers Controleren 95%
Het begrijpen van de geheugensupercyclus vereist onderzoek naar de marktstructuur die is geëvolueerd gedurende decennia van consolidatie. Samsung, SK Hynix en Micron controleren samen ongeveer 95% van de wereldwijde DRAM-productie.^[14]^ Deze concentratie is het resultaat van meedogenloze competitieve dynamiek die zwakkere spelers elimineerde.
In 2009 controleerden tien bedrijven de DRAM-markt: Micron, Samsung, Hynix, Infineon, NEC, Hitachi, Mitsubishi, Toshiba, Elpida en Nanya.^[15]^ De neerwaartse cyclus van 2011 luidde de definitieve consolidatie in. SK Telecom verwierf Hynix voor $3 miljard in 2012.^[16]^ Elpida, Japans laatste DRAM-fabrikant, ging failliet en werd in 2013 door Micron gekocht.^[17]^ Binnen vijf jaar consolideerde de industrie van tien concurrenten naar drie.
Deze oligopolistische structuur manifesteert zich in gecoördineerd marktgedrag. In de afgelopen weken deden SK Hynix, Samsung en Micron bijna gelijktijdige aankondigingen over het stopzetten van nieuwe DDR4-orders.^[18]^ Industrieanalist Moore Morris karakteriseerde dit als een "verbluffende breuk met decennia van industriepraktijk," en merkte op dat "het ongekend is dat zij op zo'n gecoördineerde wijze handelen."^[19]^ Het DRAM-oligopolie controleerde effectief het aanbod terwijl de vraag robuust bleef, wat collectieve marktmacht demonstreert die laat zien dat "de geheugenindustrie niet langer volgens de oude regels speelt."^[20]^
Het HBM-segment concentreert deze macht nog verder. SK Hynix domineert met 62% marktaandeel per Q2 2025, Micron volgt met 21%, en Samsung volgt met 17%.^[21]^ SK Hynix' positie komt voort uit hun vroege inzet op HBM en hun relatie als primaire leverancier van NVIDIA. Momenteel komt ongeveer 90% van NVIDIA's HBM van SK Hynix.^[22]^
| Leverancier | HBM Marktaandeel (Q2 2025) | Belangrijkste Klant | 2026 Status |
|---|---|---|---|
| SK Hynix | 62% | NVIDIA (90%) | Uitverkocht |
| Micron | 21% | NVIDIA (tweede bron) | Uitverkocht |
| Samsung | 17% | AMD, Google | Kwalificatieproblemen |
Samsungs derde plaats vertegenwoordigt een opmerkelijke val voor een bedrijf dat lang de geheugenmarkt domineerde. SK Hynix overtrof Samsung in algeheel DRAM-marktaandeel in Q1 2025, de eerste keer dat Samsung zijn leiderspositie verloor.^[23]^ Samsungs HBM3E-onderdelen ondervonden kwalificatievertragingen bij grote klanten, waardoor concurrenten premium AI-vraag konden veroveren terwijl Samsung lagere-margesegmenten bediende.^[24]^
De $100 Miljard Ombuiging
Micron projecteert dat de totale adresseerbare HBM-markt ongeveer $100 miljard zal bereiken tegen 2028, omhoog van ruwweg $35 miljard in 2025.^[25]^ Dit vertegenwoordigt een samengestelde jaarlijkse groei van bijna 40%.^[26]^ De $100 miljard mijlpaal komt twee jaar eerder dan eerder voorspeld; analisten projecteerden oorspronkelijk dit niveau tegen 2030 te bereiken.^[27]^
Verschillende factoren drijven deze versnelling. Ten eerste blijft de uitrol van generatieve AI de verwachtingen overtreffen. Elke grote hyperscaler racet om inferentiecapaciteit te implementeren voor hun AI-producten terwijl het trainen van next-generation modellen steeds grotere GPU-clusters vereist.^[28]^ Ten tweede blijft de HBM-capaciteit per GPU toenemen. De progressie van de 80GB van de H100 naar de 288GB van Rubin betekent dat elke accelerator 3,6 keer meer HBM verbruikt.^[29]^ Ten derde verergeren systeemniveau-geheugenvereisten de individuele GPU-behoeften. NVIDIA's Blackwell Ultra GB300 verwacht tot 288GB HBM3e te bevatten, terwijl Rubin Ultra-varianten 512GB als doel hebben, waarbij het volledige NVL576-systeem mogelijk 1TB per GPU-module vereist.^[30]^
De bredere datacenter-halfgeleidermarkt biedt context. In 2024 bereikte de totale halfgeleider-TAM voor datacenters $209 miljard over compute, geheugen, netwerken en voeding.^[31]^ Yole Group projecteert dat dit zal groeien naar bijna $500 miljard tegen 2030.^[32]^ Geheugen alleen groeide met 78% in 2024 naar $170 miljard, gevolgd door nog een dubbelcijferige toename naar $200 miljard in 2025.^[33]^
Microns financiële resultaten demonstreren hoe deze dynamiek zich vertaalt naar bedrijfsprestaties. Het bedrijf rapporteerde fiscaal Q1 2026 omzet van $13,64 miljard, een stijging van 57% jaar-over-jaar.^[34]^ Brutomarges klommen boven 50%, verdubbeld ten opzichte van ongeveer 22% in fiscaal jaar 2024.^[35]^ Deze marge-expansie weerspiegelt geen cyclische omstandigheden maar structurele transformatie in de productmix van het bedrijf richting hoge-marge datacenterproducten.^[36]^
De HBM4-Race: 16-Hi Stacks en Verder
Concurrentie tussen geheugenlevanciers concentreert zich nu op HBM4, de next-generation technologie die in 2026 in productie gaat. SK Hynix voltooide 's werelds eerste HBM4-ontwikkeling en heeft massaproductievoorbereidingen afgerond.^[37]^ Zowel SK Hynix als Samsung leverden betaalde finale HBM4-samples aan NVIDIA, wat de intrede in commercieel gedreven leveringsonderhandelingen signaleert.^[38]^
HBM4 biedt substantiële verbeteringen ten opzichte van HBM3e. Dataoverdrachtsnelheden bereiken 11 gigabits per seconde met totale bandbreedte van meer dan 2,8 terabytes per seconde.^[39]^ De standaard bevat een logische basis-die gefabriceerd met geavanceerde procesnodes, waarbij SK Hynix samenwerkt met TSMC's 12nm-proces.^[40]^ Deze samenwerking bleek aantrekkelijk voor NVIDIA en droeg bij aan SK Hynix' positie als primaire leverancier voor Blackwell Ultra en Rubin-platforms.^[41]^
De uitdagendere technische grens betreft 16-laags HBM-stacks. NVIDIA verzocht naar verluidt om 16-Hi HBM-levering tegen Q4 2026, wat ontwikkelingssprints bij alle drie leveranciers triggerde.^[42]^ Ahn Ki-hyun, executive vice president van de Korea Semiconductor Industry Association, merkte op dat "de overgang van 12 naar 16 lagen technisch veel moeilijker is dan van 8 naar 12."^[43]^
De moeilijkheid komt voort uit waferdiktebeperkingen. Bestaande 12-Hi HBM gebruikt wafers van ongeveer 50 micrometer dik. Het stapelen van 16 lagen vereist het verminderen van de dikte naar ongeveer 30 micrometer met behoud van structurele integriteit en thermische prestaties.^[44]^ Industrieobservatoren beschrijven de technische uitdagingen als "formidabel."^[45]^
| Generatie | Lagen | Capaciteit | Bandbreedte | Productie |
|---|---|---|---|---|
| HBM3 | 8-Hi | 80GB | 3,35 TB/s | 2023 |
| HBM3e | 12-Hi | 141-192GB | 4,8-8,0 TB/s | 2024-2025 |
| HBM4 | 12-Hi | 288GB | 11+ TB/s | H2 2026 |
| HBM4E | 16-Hi | 512GB+ | 15+ TB/s | Eind 2026-2027 |
Samsung en SK Hynix vervroegden HBM4-productieschema's naar februari 2026, versnellend ten opzichte van eerdere tijdlijnen.^[46]^ Micron verwacht in 2026 HBM4-massaproductie te starten, gevolgd door HBM4E in 2027-2028.^[47]^ De 16-Hi varianten, waarschijnlijk als HBM4E gebrandmerkt, kunnen al eind 2026 arriveren afhankelijk van yield-verbeteringen.^[48]^
Gaming als Nevenschade
De meest zichtbare consumentenimpact van de geheugensupercyclus: NVIDIA is van plan de RTX 50-serie GPU-productie met 30-40% te korten in H1 2026 door GDDR7-tekorten.^[49]^ Geheugenlevanciers prioriteren AI-datacenter-toewijzingen boven consumenten-GPU's, wat cascade-effecten door de hele grafische kaartenmarkt creëert.^[50]^
De leveringsdynamiek verschilt van HBM maar is verbonden via allocatie van productiecapaciteit. GDDR7-productie wordt gedeprioriteerd ten gunste van DDR5, wat grafisch geheugen prijzen opdrijft.^[51]^ Alleen al in 2025 stegen geheugenprijzen met 246%, met verwachte verdere stijgingen tot en met 2026.^[52]^
Specifieke producten ondervinden de scherpste kortingen: de GeForce RTX 5070 Ti en RTX 5060 Ti 16GB, beide met 16GB GDDR7.^[53]^ Alleen Samsung produceert 3GB GDDR7-modules in volume, en als NVIDIA al 2GB-chips verbruikt, vermindert overschakelen naar hogere-dichtheid modules de totale beschikbare VRAM voor standaard Blackwell grafische kaarten.^[54]^
De RTX 50 Super-serie ondervind vertragingen of potentiële annulering. Oorspronkelijke tijdlijnen mikten op begin 2026; huidige projecties suggereren Q3 2026 op zijn vroegst.^[55]^ De 3GB GDDR7-modules vereist voor Super-configuraties zijn simpelweg niet in volume beschikbaar.^[56]^ Geheugenproducenten hebben moeite om genoeg standaard 2GB GDDR7-chips te produceren terwijl ze tegelijkertijd opschalen naar 3GB-modules.
Voor consumenten vertaalt dit zich naar hogere prijzen en langere wachttijden, met name tijdens de feestdagen van eind 2026.^[57]^ Geheugencontracten met vaste termijnen hielden de prijzen in 2025 stabiel, maar 2026 brengt heronderhandeling tegen verhoogde spotprijzen.^[58]^ AMD staat voor vergelijkbare beperkingen met GDDR6 voor hun Radeon-line-up.^[59]^
Deze prioriteitshiërarchie weerspiegelt economische realiteit. HBM voor datacenter-GPU's genereert marges die ver boven consumenten grafisch geheugen uitstijgen. Wanneer capaciteitsbeperkingen allocatiebeslissingen afdwingen, bedienen leveranciers rationeel eerst hogere-margeklanten. Gaming vertegenwoordigt nevenschade.