Évolution de la HBM : de la HBM3 à la HBM4 et la guerre de la mémoire IA
Mise à jour du 11 décembre 2025
Mise à jour de décembre 2025 : SK Hynix domine le marché HBM avec 62 % de parts au T2 2025 contre Micron (21 %) et Samsung (17 %). Le marché mondial de la HBM passera de 38 milliards de dollars en 2025 à 58 milliards en 2026. JEDEC a publié la spécification officielle HBM4 (avril 2025) doublant l'interface à 2 048 bits et permettant 2 To/s par stack. SK Hynix dépasse Samsung pour devenir le plus grand fabricant mondial de DRAM pour la première fois de l'histoire.
SK Hynix domine le marché HBM avec 62 % de parts au T2 2025, suivi de Micron à 21 % et Samsung à 17 %.¹ Le marché mondial de la HBM passera de 38 milliards de dollars en 2025 à 58 milliards en 2026.² JEDEC a publié la spécification officielle HBM4 en avril 2025, doublant la largeur d'interface à 2 048 bits et permettant jusqu'à 2 téraoctets par seconde de bande passante par stack.³ La High Bandwidth Memory définit le plafond des performances des accélérateurs IA—le mur mémoire qui détermine la taille maximale d'un modèle et sa vitesse d'exécution.
Les générations de HBM représentent un triomphe de fabrication et de packaging. Empiler verticalement des puces DRAM avec des vias traversant le silicium (TSV) et les connecter via un interposeur aux puces GPU ou accélérateur crée une bande passante mémoire impossible avec le packaging DRAM traditionnel. Chaque génération augmente la capacité, la bande passante et la hauteur de stack tandis que les fabricants rivalisent sur le rendement, la rapidité de qualification et les relations clients. Cette compétition a remodelé l'industrie de la mémoire, SK Hynix dépassant Samsung pour devenir le plus grand fabricant mondial de DRAM pour la première fois de l'histoire.
HBM3 : le fondement de l'IA actuelle
La HBM3, introduite en 2022, a établi les capacités de bande passante mémoire qui ont permis l'essor actuel de l'IA.⁴ L'architecture a doublé le nombre de canaux de 8 à 16 par rapport à la HBM2e, tandis que les débits de données ont atteint 6,4 gigabits par seconde.⁵
Quatre stacks HBM3 connectés à un processeur via une interface fonctionnant à 6,4 gigabits par seconde délivrent plus de 3,2 téraoctets par seconde de bande passante agrégée.⁶ La bande passante individuelle par stack atteint environ 819 gigaoctets par seconde avec un bus 1024 bits à 8 GT/s.⁷
La HBM3 supporte des stacks de 16 puces DRAM d'une capacité de 32 gigabits chacune.⁸ Cette capacité d'empilement permet des capacités mémoire atteignant 24-36 gigaoctets par stack selon la densité des puces et la hauteur de stack.⁹
L'architecture d'empilement 3D réduit la latence par rapport à la DRAM traditionnelle grâce à des chemins de signal plus courts et un accès parallèle à plusieurs puces simultanément.¹⁰ La combinaison d'améliorations de bande passante, capacité et latence a fait de la HBM3 la technologie mémoire qui a permis les grands modèles de langage basés sur les transformers à grande échelle.
Le GPU H100 de NVIDIA utilisait la HBM3, établissant la référence de performance que les concurrents visaient. La bande passante mémoire permettait les taux d'utilisation des tensor cores qui justifiaient le prix premium du H100 par rapport aux générations précédentes.
HBM3E : repousser les limites
Les principaux fabricants de DRAM ont introduit des dispositifs HBM3E atteignant des débits de 9,6 gigabits par seconde—50 % plus rapide que la HBM3.¹¹ L'amélioration de la bande passante a permis environ 1,2 téraoctets par seconde par stack, approchant les limites pratiques de l'interface 1024 bits.¹²
SK Hynix mène la production de masse avec des stacks de 12 puces délivrant plus de 1,2 téraoctets par seconde de bande passante tout en restant rétrocompatible avec les contrôleurs HBM3.¹³ Cette rétrocompatibilité a simplifié l'adoption pour les fabricants d'accélérateurs mettant à jour les spécifications mémoire entre générations de produits.
Micron a annoncé une mémoire HBM3E avec une vitesse de traitement de 9,6 gigabits par seconde par broche, 24 gigaoctets par cube de 8 puces, et un transfert de données à 1,2 téraoctets par seconde.¹⁴ La capacité par stack a augmenté tout en conservant la largeur d'interface existante.
Cadence a démontré des sous-systèmes mémoire HBM3E fonctionnant à 12,4 gigabits par seconde aux tensions nominales, avec un PHY de production supportant des vitesses DRAM jusqu'à 10,4 gigabits par seconde—1,33 téraoctets par seconde par dispositif.¹⁵ Cette démonstration a montré une marge pour des vitesses encore plus élevées dans les spécifications HBM3E.
Le H200 de NVIDIA et les premiers produits Blackwell utilisent la HBM3E. Le H200 a étendu la capacité mémoire à 141 gigaoctets contre 80 gigaoctets pour le H100 tout en augmentant proportionnellement la bande passante. Le Blackwell B200 a atteint 192 gigaoctets de HBM3E à 8 téraoctets par seconde de bande passante agrégée.
La transition de la HBM3 à la HBM3E a démontré la capacité de l'industrie de la mémoire à extraire des performances supplémentaires des architectures existantes. Cependant, des gains supplémentaires nécessitent les changements architecturaux qu'introduit la HBM4.
HBM4 : la prochaine génération
JEDEC a publié la spécification officielle HBM4 en avril 2025.¹⁶ Cette spécification représente le changement architectural le plus significatif depuis l'introduction de la HBM, doublant la largeur d'interface de 1 024 bits à 2 048 bits.¹⁷
La HBM4 supporte des vitesses de transfert jusqu'à 8 gigabits par seconde sur l'interface élargie, avec une bande passante totale atteignant 2 téraoctets par seconde par stack.¹⁸ Un GPU avec 8 dispositifs HBM4 atteint une bande passante mémoire agrégée de plus de 13 téraoctets par seconde.¹⁹
L'interface élargie a nécessité des changements architecturaux dans tout le sous-système mémoire. La HBM4 double le nombre de canaux indépendants par stack à 32 avec 2 pseudo-canaux par canal.²⁰ Le canal de données de 2 048 bits se divise en 32 canaux de 64 bits ou 64 pseudo-canaux de 32 bits, contre 16 canaux de 64 bits pour la HBM3.²¹
La hauteur de stack augmente à un maximum de 16 puces avec des densités de puces DRAM de 24 gigabits ou 32 gigabits, permettant des capacités allant jusqu'à 64 gigaoctets par stack.²² L'augmentation de capacité répond aux nombres croissants de paramètres des modèles de fondation qui dépassent les limites mémoire actuelles.
La HBM4 maintient la rétrocompatibilité avec les contrôleurs HBM3, facilitant la transition pour les fabricants d'accélérateurs.²³ Le contrôleur mémoire Rambus HBM4 élève la vitesse de signalisation supportée à 10,0 gigabits par seconde, fournissant 2,56 téraoctets par seconde de débit par dispositif HBM4 au débit maximal.²⁴
Les améliorations de fiabilité incluent le Directed Refresh Management (DRFM) pour une meilleure atténuation du row-hammer.²⁵ Les fonctionnalités RAS (Reliability, Availability, Serviceability) améliorées répondent aux préoccupations concernant la fiabilité de la DRAM aux températures élevées courantes dans les accélérateurs IA.
La HBM4E étend encore la spécification avec des débits de 10 gigabits par seconde, une bande passante de 2,5 téraoctets par seconde par stack, et une puissance par package jusqu'à 80 watts.²⁶ La spécification HBM4E cible l'horizon 2027.
Compétition entre fabricants
SK Hynix a achevé le développement de la HBM4 et préparé la fabrication à grand volume fin 2025.²⁷ Les stacks HBM4 de SK Hynix dépassent les spécifications JEDEC de 25 % en performance, avec des débits de transfert de 10 GT/s contre le standard de 8 GT/s.²⁸ Les livraisons en volume commencent début 2026 après les qualifications clients finales.²⁹
SK Hynix est devenu le principal fournisseur HBM de NVIDIA, une relation qui a porté les gains de parts de marché de l'entreprise.³⁰ Le partenariat avec NVIDIA a positionné SK Hynix pour capturer la majorité de la demande de mémoire IA à forte valeur.
Micron a commencé à livrer des échantillons HBM4 en juin 2025, fournissant des stacks de 12 puces de 36 gigaoctets à des clients clés, dont NVIDIA selon les rumeurs.³¹ Au T4 2025, Micron a annoncé des échantillons HBM4 fonctionnant à des vitesses supérieures à 11 gigabits par seconde par broche, délivrant plus de 2,8 téraoctets par seconde par stack.³² Le calendrier de production de masse cible l'année civile 2026.³³
Micron a obtenu des contrats de conception avec NVIDIA pour les GPU Hopper H200 et Blackwell B200, faisant passer sa part de marché HBM d'environ 5 % vers un objectif de 20-25 % d'ici fin 2025.³⁴ La qualification NVIDIA valide la technologie et les capacités de fabrication de Micron.
Samsung vise à démarrer la production de masse de HBM4 au premier semestre 2026.³⁵ Au T3 2025, Samsung a commencé à livrer de gros volumes d'échantillons HBM4 à NVIDIA pour une qualification anticipée.³⁶ Samsung serait le principal fournisseur HBM4 pour l'accélérateur MI450 d'AMD.³⁷
La part de marché HBM de Samsung a chuté de 41 % au T2 2024 à 17 % au T2 2025 alors que l'entreprise peinait à passer les tests de qualification de NVIDIA.³⁸ Samsung est resté largement dépendant des puces HBM3 de génération antérieure pour ses ventes HBM tandis que les concurrents livraient de la HBM3E.³⁹ Les analystes prévoient que la position de Samsung se renforcera à mesure que les pièces HBM3E seront qualifiées et que la HBM4 entrera en production à grande échelle en 2026.⁴⁰
La compétition HBM a remodelé l'industrie plus large de la mémoire. SK Hynix a pris la tête pour la première fois sur le marché global de la DRAM, s'emparant de 36 % des revenus au T1 2025 contre 34 % pour Samsung.⁴¹ Ce renversement du leadership historique de Samsung reflète la part croissante de la HBM dans la valeur totale de la DRAM.
Feuilles de route NVIDIA et AMD
La feuille de route officielle de NVIDIA montre Rubin avec 8 emplacements HBM4 et Rubin Ultra avec 16 emplacements HBM4.⁴² L'interposeur Rubin mesure 2 194 millimètres carrés et accueille 288 à 384 gigaoctets de capacité VRAM avec une bande passante totale de 16-32 téraoctets par seconde.⁴³ La puissance totale de la puce atteint 2 200 watts.⁴⁴
La capacité HBM devrait passer des 80 gigaoctets de HBM2E de l'A100 à 1 024 gigaoctets de HBM4E pour Rubin Ultra.⁴⁵ Cette trajectoire reflète les besoins mémoire de modèles qui pourraient atteindre des dizaines de milliers de milliards de paramètres.
La production de Rubin est en bonne voie pour le second semestre 2026.⁴⁶ Les cartes grand public basées sur l'architecture sont attendues fin 2026 ou début 2027.⁴⁷ Ce calendrier positionne Rubin comme le successeur de Blackwell Ultra dans la gamme data center de NVIDIA.
AMD a confirmé la HBM4 pour la série d'accélérateurs MI400.⁴⁸ L'Instinct MI400 d'AMD, lancé en 2026, cible 432 gigaoctets de capacité HBM4 avec une bande passante mémoire jusqu'à 19,6 téraoctets par seconde.⁴⁹ Le MI430X est le premier accélérateur AMD à utiliser la HBM4.⁵⁰
La génération HBM4 établit un nouveau palier de performance pour les deux fabricants. Les augmentations de bande passante et de capacité mémoire permettent des tailles de modèles et des débits d'inférence que la HBM3E ne peut pas supporter efficacement.
La contrainte du mur mémoire
La croissance de la bande passante mémoire est en retard par rapport à celle de la capacité de calcul dans les accélérateurs IA. Le « mur mémoire » limite l'efficacité avec laquelle les accélérateurs utilisent leurs ressources de calcul. L'évolution de la HBM représente la principale réponse de l'industrie à cette contrainte.
Les grands modèles de langage présentent des caractéristiques limitées par la mémoire pendant l'inférence. Le mécanisme d'attention nécessite d'accéder au cache clé-valeur complet pour chaque token généré. La bande passante mémoire détermine la rapidité de cet accès, affectant directement le débit en tokens par seconde.
Les charges de travail d'entraînement font face à des contraintes mémoire différentes. Les paramètres du modèle, les gradients, les états de l'optimiseur et les activations se disputent la capacité mémoire. La bande passante mémoire affecte la rapidité du déplacement des données entre les unités de traitement pendant l'accumulation des gradients et les étapes d'optimisation.
Les 2 téraoctets par seconde de bande passante de la HBM4 comparés aux 819 gigaoctets par seconde de la HBM3 représentent une amélioration de 2,4x.⁵¹ Combinée aux augmentations de capacité de 36 gigaoctets à 64 gigaoctets par stack, la HBM4 s'attaque aux dimensions bande passante et capacité du mur mémoire.
Cependant, la capacité de calcul augmente plus vite que la bande passante mémoire. Chaque génération de HBM apporte environ 2x d'amélioration de bande passante tandis que le calcul double également à chaque génération. Le mur mémoire recule mais ne disparaît jamais.
Les futures générations de HBM—HBM5 à HBM8—projettent une mise à l'échelle continue de la bande passante grâce à des débits de données plus élevés et potentiellement des interfaces plus larges.⁵² La feuille de route s'étend sur la décennie avec des objectifs de bande passante atteignant 64 téraoctets par seconde par système.⁵³
Considérations pour la planification d'infrastructure
Les contraintes d'approvisionnement en HBM affectent la disponibilité des accélérateurs. La pénurie de HBM a limité les livraisons de GPU tout au long de 2023 et 2024. Les organisations planifiant de grands déploiements doivent comprendre que l'approvisionnement en GPU dépend de la capacité des fabricants de mémoire.
Les relations avec les fournisseurs déterminent l'accès. La relation de SK Hynix avec NVIDIA, le positionnement de Samsung auprès d'AMD, et les efforts de qualification étendus de Micron créent une complexité de chaîne d'approvisionnement. Les fabricants d'accélérateurs de second rang peuvent faire face à des délais plus longs si la mémoire priorise les commandes des hyperscalers.
La transition vers la HBM4 crée un changement générationnel fin 2026. Les organisations se déployant maintenant reçoivent des systèmes basés sur la HBM3E. Celles qui attendent Rubin ou MI400 bénéficieront des avantages de la HBM4. Le calendrier affecte la planification d'infrastructure pluriannuelle.