Evolución de HBM: de HBM3 a HBM4 y la guerra de memoria para IA
Actualizado el 11 de diciembre de 2025
Actualización de diciembre 2025: SK Hynix lidera HBM con 62% de cuota en Q2 2025 vs Micron (21%) y Samsung (17%). El mercado global de HBM crece de $38 mil millones en 2025 a $58 mil millones en 2026. JEDEC publicó la especificación oficial de HBM4 (abril 2025) duplicando la interfaz a 2,048 bits permitiendo 2TB/s por stack. SK Hynix supera a Samsung como el mayor fabricante de DRAM del mundo por primera vez en la historia.
SK Hynix lidera el mercado de HBM con 62% de cuota en Q2 2025, seguido por Micron con 21% y Samsung con 17%.¹ El mercado global de HBM crecerá de $38 mil millones en 2025 a $58 mil millones en 2026.² JEDEC publicó la especificación oficial de HBM4 en abril de 2025, duplicando el ancho de interfaz a 2,048 bits y permitiendo hasta 2 terabytes por segundo de ancho de banda por stack.³ High Bandwidth Memory define el techo del rendimiento de aceleradores de IA—la barrera de memoria que determina qué tan grande puede ser un modelo y qué tan rápido puede ejecutarse.
Las generaciones de HBM representan un triunfo de manufactura y empaquetado. Apilar dies de DRAM verticalmente con vías de silicio pasantes (TSVs) y conectarlos mediante interposer a dies de GPU o aceleradores crea un ancho de banda de memoria imposible con el empaquetado tradicional de DRAM. Cada generación aumenta capacidad, ancho de banda y altura del stack mientras los fabricantes compiten en rendimiento, velocidad de calificación y relaciones con clientes. La competencia reconfiguró la industria de memoria, con SK Hynix superando a Samsung como el mayor fabricante de DRAM del mundo por primera vez en la historia.
HBM3: la base de la IA actual
HBM3, introducido en 2022, estableció las capacidades de ancho de banda de memoria que permitieron el actual auge de la IA.⁴ La arquitectura duplicó el número de canales de 8 a 16 comparado con HBM2e, mientras las tasas de datos escalaron a 6.4 gigabits por segundo.⁵
Cuatro stacks de HBM3 conectados a un procesador mediante una interfaz funcionando a 6.4 gigabits por segundo entregan más de 3.2 terabytes por segundo de ancho de banda agregado.⁶ El ancho de banda individual por stack alcanza aproximadamente 819 gigabytes por segundo con un bus de 1024 bits a 8 GT/s.⁷
HBM3 soporta stacks de 16 dies de altura con dies de DRAM de 32 gigabits de capacidad.⁸ La capacidad de apilamiento permite capacidades de memoria que alcanzan 24-36 gigabytes por stack dependiendo de la densidad del die y la altura del stack.⁹
La arquitectura de apilamiento 3D reduce la latencia comparada con DRAM tradicional mediante rutas de señal más cortas y acceso paralelo a múltiples dies simultáneamente.¹⁰ La combinación de mejoras en ancho de banda, capacidad y latencia convirtió a HBM3 en la tecnología de memoria que habilitó los grandes modelos de lenguaje basados en transformers a escala.
La GPU H100 de NVIDIA usó HBM3, estableciendo la línea base de rendimiento que los competidores buscaban igualar. El ancho de banda de memoria permitió las tasas de utilización de tensor cores que justificaron el precio premium del H100 sobre generaciones anteriores.
HBM3E: llevando los límites al máximo
Los principales fabricantes de DRAM introdujeron dispositivos HBM3E alcanzando tasas de datos de 9.6 gigabits por segundo—50% más rápido que HBM3.¹¹ La mejora en ancho de banda permitió aproximadamente 1.2 terabytes por segundo por stack, acercándose a los límites prácticos de la interfaz de 1024 bits.¹²
SK Hynix lidera la producción en masa con stacks de 12 dies de altura entregando más de 1.2 terabytes por segundo de ancho de banda mientras mantiene compatibilidad retroactiva con controladores HBM3.¹³ La compatibilidad retroactiva simplificó la adopción para fabricantes de aceleradores actualizando especificaciones de memoria entre generaciones de productos.
Micron anunció memoria HBM3E con velocidad de procesamiento de 9.6 gigabits por segundo por pin, 24 gigabytes por cubo de 8 dies de altura, y transferencia de datos a 1.2 terabytes por segundo.¹⁴ La capacidad por stack aumentó mientras se mantenía el ancho de interfaz existente.
Cadence demostró subsistemas de memoria HBM3E funcionando a 12.4 gigabits por segundo a voltajes nominales, con PHY de producción soportando velocidades de DRAM hasta 10.4 gigabits por segundo—1.33 terabytes por segundo por dispositivo.¹⁵ La demostración mostró margen para velocidades aún mayores dentro de la especificación HBM3E.
Los productos H200 y Blackwell inicial de NVIDIA usan HBM3E. El H200 expandió la capacidad de memoria a 141 gigabytes comparado con los 80 gigabytes del H100 mientras aumentaba el ancho de banda proporcionalmente. El Blackwell B200 alcanzó 192 gigabytes de HBM3E a 8 terabytes por segundo de ancho de banda agregado.
La transición de HBM3 a HBM3E demostró la capacidad de la industria de memoria para extraer rendimiento adicional de arquitecturas existentes. Sin embargo, mayores ganancias requieren los cambios arquitectónicos que HBM4 introduce.
HBM4: la próxima generación
JEDEC publicó la especificación oficial de HBM4 en abril de 2025.¹⁶ La especificación representa el cambio arquitectónico más significativo desde la introducción de HBM, duplicando el ancho de interfaz de 1,024 bits a 2,048 bits.¹⁷
HBM4 soporta velocidades de transferencia hasta 8 gigabits por segundo a través de la interfaz más amplia, con ancho de banda total alcanzando 2 terabytes por segundo por stack.¹⁸ Una GPU con 8 dispositivos HBM4 logra ancho de banda de memoria agregado superior a 13 terabytes por segundo.¹⁹
La interfaz más amplia requirió cambios arquitectónicos a lo largo de todo el subsistema de memoria. HBM4 duplica el número de canales independientes por stack a 32 con 2 pseudo-canales por canal.²⁰ El canal de datos de 2,048 bits se divide en 32 canales de 64 bits o 64 pseudo-canales de 32 bits, comparado con los 16 canales de 64 bits de HBM3.²¹
La altura del stack aumenta a 16 dies máximo con densidades de die de DRAM de 24 gigabits o 32 gigabits, permitiendo capacidades hasta 64 gigabytes por stack.²² El aumento de capacidad aborda los crecientes conteos de parámetros de modelos fundacionales que exceden los límites de memoria actuales.
HBM4 mantiene compatibilidad retroactiva con controladores HBM3, facilitando la transición para fabricantes de aceleradores.²³ El Controlador de Memoria HBM4 de Rambus eleva la velocidad de señalización soportada a 10.0 gigabits por segundo, proporcionando 2.56 terabytes por segundo de throughput por dispositivo HBM4 a tasa máxima.²⁴
Las mejoras de confiabilidad incluyen Directed Refresh Management (DRFM) para mejor mitigación de row-hammer.²⁵ Las características mejoradas de RAS (Reliability, Availability, Serviceability) abordan preocupaciones sobre la confiabilidad de DRAM a las temperaturas elevadas comunes en aceleradores de IA.
HBM4E extiende la especificación aún más con tasas de datos de 10 gigabits por segundo, 2.5 terabytes por segundo de ancho de banda por stack, y potencia por paquete hasta 80 watts.²⁶ La especificación HBM4E apunta al marco temporal de 2027.
Competencia entre fabricantes
SK Hynix completó el desarrollo de HBM4 y se preparó para manufactura de alto volumen a finales de 2025.²⁷ Los stacks HBM4 de SK Hynix exceden las especificaciones JEDEC en 25% en rendimiento, presentando tasas de transferencia de datos de 10 GT/s comparadas con el estándar de 8 GT/s.²⁸ Los envíos en volumen comienzan a principios de 2026 después de las calificaciones finales con clientes.²⁹
SK Hynix se convirtió en el proveedor principal de HBM de NVIDIA, una relación que impulsó las ganancias de cuota de mercado de la compañía.³⁰ La asociación con NVIDIA posicionó a SK Hynix para capturar la mayoría de la demanda de memoria de IA de alto valor.
Micron comenzó a enviar muestras de HBM4 en junio de 2025, proporcionando stacks de 36 gigabytes y 12 dies de altura a clientes clave incluyendo reportadamente NVIDIA.³¹ Para Q4 2025, Micron anunció muestras de HBM4 funcionando a velocidades superiores a 11 gigabits por segundo por pin, entregando más de 2.8 terabytes por segundo por stack.³² El timing de producción en masa apunta al calendario 2026.³³
Micron aseguró diseños ganados con NVIDIA para las GPUs Hopper H200 y Blackwell B200, creciendo la cuota de mercado de HBM de aproximadamente 5% hacia un objetivo de 20-25% para finales de 2025.³⁴ La calificación de NVIDIA valida la tecnología y capacidad de manufactura de Micron.
Samsung apunta a iniciar la producción en masa de HBM4 en la primera mitad de 2026.³⁵ En Q3 2025, Samsung comenzó a enviar grandes volúmenes de muestras de HBM4 a NVIDIA para calificación temprana.³⁶ Samsung reportadamente sirve como el proveedor principal de HBM4 para el acelerador MI450 de AMD.³⁷
La cuota de mercado de HBM de Samsung se desplomó del 41% en Q2 2024 al 17% en Q2 2025 mientras la compañía luchaba por pasar las pruebas de calificación de NVIDIA.³⁸ Samsung permaneció mayormente dependiente de chips HBM3 de generación anterior para ventas de HBM mientras los competidores enviaban HBM3E.³⁹ Los analistas pronostican que la posición de Samsung se fortalecerá a medida que las partes HBM3E califiquen y HBM4 entre en suministro a escala completa en 2026.⁴⁰
La competencia de HBM reconfiguró la industria de memoria más amplia. SK Hynix tomó el liderazgo por primera vez en el mercado general de DRAM, capturando 36% de cuota de ingresos en Q1 2025 comparado con el 34% de Samsung.⁴¹ La reversión del liderazgo de larga data de Samsung refleja la creciente participación de HBM en el valor total de DRAM.
Hojas de ruta de NVIDIA y AMD
La hoja de ruta oficial de NVIDIA muestra Rubin con 8 sitios HBM4 y Rubin Ultra con 16 sitios HBM4.⁴² El interposer de Rubin mide 2,194 milímetros cuadrados y aloja 288 a 384 gigabytes de capacidad VRAM con 16-32 terabytes por segundo de ancho de banda total.⁴³ La potencia total del chip alcanza 2,200 watts.⁴⁴
Se proyecta que la capacidad de HBM crezca de los 80 gigabytes de HBM2E del A100 a 1,024 gigabytes de HBM4E para Rubin Ultra.⁴⁵ La trayectoria refleja los requisitos de memoria de modelos que pueden alcanzar decenas de billones de parámetros.
La producción de Rubin está en camino para la segunda mitad de 2026.⁴⁶ Se esperan tarjetas de consumidor basadas en la arquitectura para finales de 2026 o principios de 2027.⁴⁷ El timing posiciona a Rubin como el sucesor de Blackwell Ultra en la línea de centros de datos de NVIDIA.
AMD confirmó HBM4 para la serie de aceleradores MI400.⁴⁸ El Instinct MI400 de AMD, lanzándose en 2026, apunta a 432 gigabytes de capacidad HBM4 con ancho de banda de memoria hasta 19.6 terabytes por segundo.⁴⁹ El MI430X es el primer acelerador de AMD en utilizar HBM4.⁵⁰
La generación HBM4 establece un nuevo nivel de rendimiento para ambos fabricantes. Los aumentos en ancho de banda y capacidad de memoria permiten tamaños de modelo y throughput de inferencia que HBM3E no puede soportar eficientemente.
La restricción de la barrera de memoria
El crecimiento del ancho de banda de memoria va por detrás del crecimiento de capacidad de cómputo en aceleradores de IA. La "barrera de memoria" restringe cuán efectivamente los aceleradores utilizan sus recursos computacionales. La evolución de HBM representa la respuesta principal de la industria a esta restricción.
Los grandes modelos de lenguaje exhiben características limitadas por memoria durante la inferencia. El mecanismo de atención requiere acceder a toda la caché de clave-valor para cada token generado. El ancho de banda de memoria determina qué tan rápido ocurre este acceso, afectando directamente el throughput de tokens por segundo.
Las cargas de trabajo de entrenamiento enfrentan diferentes restricciones de memoria. Los parámetros del modelo, gradientes, estados del optimizador y activaciones compiten por capacidad de memoria. El ancho de banda de memoria afecta qué tan rápido los datos se mueven entre unidades de procesamiento durante la acumulación de gradientes y pasos de optimización.
Los 2 terabytes por segundo de ancho de banda de HBM4 comparados con los 819 gigabytes por segundo de HBM3 representan una mejora de 2.4x.⁵¹ Combinado con aumentos de capacidad de 36 gigabytes a 64 gigabytes por stack, HBM4 aborda tanto las dimensiones de ancho de banda como de capacidad de la barrera de memoria.
Sin embargo, la capacidad de cómputo aumenta más rápido que el ancho de banda de memoria. Cada generación de HBM proporciona aproximadamente 2x de mejora en ancho de banda mientras el cómputo también se duplica cada generación. La barrera de memoria retrocede pero nunca desaparece.
Las futuras generaciones de HBM—HBM5 hasta HBM8—proyectan escalado continuo de ancho de banda a través de tasas de datos más altas e interfaces potencialmente más anchas.⁵² La hoja de ruta se extiende a lo largo de la década con objetivos de ancho de banda alcanzando 64 terabytes por segundo por sistema.⁵³
Consideraciones de planificación de infraestructura
Las restricciones de suministro de HBM afectan la disponibilidad de aceleradores. La escasez de HBM limitó los envíos de GPU a lo largo de 2023 y 2024. Las organizaciones que planifican grandes despliegues deben entender que la adquisición de GPU depende de la capacidad del fabricante de memoria.
Las relaciones con proveedores determinan el acceso. La relación de SK Hynix con NVIDIA, el posicionamiento de Samsung con AMD, y los amplios esfuerzos de calificación de Micron crean complejidad en la cadena de suministro. Los fabricantes de aceleradores de segundo nivel pueden enfrentar tiempos de espera más largos si la memoria prioriza pedidos de hyperscalers.
La transición a HBM4 crea un cambio generacional a finales de 2026. Las organizaciones que despliegan ahora reciben sistemas basados en HBM3E. Aquellas que esperan por Rubin o MI400 obtienen las ventajas de HBM4. El timing afecta la planificación de infraestructura a múltiples años.