Evolução da HBM: de HBM3 a HBM4 e a guerra da memória em IA
Atualizado em 11 de dezembro de 2025
Atualização de dezembro de 2025: SK Hynix lidera o mercado de HBM com 62% de participação no Q2 2025 vs Micron (21%) e Samsung (17%). O mercado global de HBM crescerá de $38 bilhões em 2025 para $58 bilhões em 2026. A JEDEC lançou a especificação oficial HBM4 (abril de 2025) dobrando a interface para 2.048 bits, permitindo 2TB/s por stack. SK Hynix ultrapassa a Samsung como maior fabricante de DRAM do mundo pela primeira vez na história.
A SK Hynix lidera o mercado de HBM com 62% de participação no Q2 2025, seguida pela Micron com 21% e Samsung com 17%.¹ O mercado global de HBM crescerá de $38 bilhões em 2025 para $58 bilhões em 2026.² A JEDEC lançou a especificação oficial HBM4 em abril de 2025, dobrando a largura da interface para 2.048 bits e permitindo até 2 terabytes por segundo de largura de banda por stack.³ A High Bandwidth Memory define o teto de desempenho dos aceleradores de IA—a barreira de memória que determina o quão grande um modelo pode ser e quão rápido ele pode rodar.
As gerações de HBM representam um triunfo de manufatura e empacotamento. Empilhar dies de DRAM verticalmente com vias através do silício (TSVs) e conectá-los via interposer aos dies de GPU ou aceleradores cria uma largura de banda de memória impossível com empacotamento tradicional de DRAM. Cada geração aumenta capacidade, largura de banda e altura do stack enquanto os fabricantes competem em rendimento, velocidade de qualificação e relacionamentos com clientes. A competição remodelou a indústria de memória, com a SK Hynix ultrapassando a Samsung como a maior fabricante de DRAM do mundo pela primeira vez na história.
HBM3: a fundação da IA atual
A HBM3, introduzida em 2022, estabeleceu as capacidades de largura de banda de memória que permitiram o boom atual de IA.⁴ A arquitetura dobrou a contagem de canais de 8 para 16 comparado à HBM2e, enquanto as taxas de dados escalaram para 6,4 gigabits por segundo.⁵
Quatro stacks de HBM3 conectados a um processador via uma interface rodando a 6,4 gigabits por segundo entregam mais de 3,2 terabytes por segundo de largura de banda agregada.⁶ A largura de banda individual por stack atinge aproximadamente 819 gigabytes por segundo com um barramento de 8 GT/s e 1024 bits.⁷
A HBM3 suporta stacks de 16 dies de DRAM com capacidade de 32 gigabits.⁸ A capacidade de empilhamento permite capacidades de memória atingindo 24-36 gigabytes por stack dependendo da densidade do die e altura do stack.⁹
A arquitetura de empilhamento 3D reduz a latência comparada à DRAM tradicional através de caminhos de sinal mais curtos e acesso paralelo a múltiplos dies simultaneamente.¹⁰ A combinação de melhorias em largura de banda, capacidade e latência fez da HBM3 a tecnologia de memória que permitiu grandes modelos de linguagem baseados em transformers em escala.
A GPU H100 da NVIDIA usou HBM3, estabelecendo a linha base de desempenho que os concorrentes miraram. A largura de banda de memória permitiu as taxas de utilização de tensor cores que justificaram o preço premium do H100 sobre gerações anteriores.
HBM3E: expandindo os limites
Os principais fabricantes de DRAM introduziram dispositivos HBM3E com taxas de dados de 9,6 gigabits por segundo—50% mais rápido que HBM3.¹¹ A melhoria na largura de banda permitiu aproximadamente 1,2 terabytes por segundo por stack, aproximando-se dos limites práticos da interface de 1024 bits.¹²
A SK Hynix lidera a produção em massa com stacks de 12 dies entregando 1,2+ terabytes por segundo de largura de banda enquanto permanece compatível com controladores HBM3.¹³ A compatibilidade retroativa simplificou a adoção para fabricantes de aceleradores atualizando especificações de memória entre gerações de produtos.
A Micron anunciou memória HBM3E com velocidade de processamento de 9,6 gigabits por segundo por pino, 24 gigabytes por cubo de 8 dies, e transferência de dados a 1,2 terabytes por segundo.¹⁴ A capacidade por stack aumentou mantendo a largura de interface existente.
A Cadence demonstrou subsistemas de memória HBM3E rodando a 12,4 gigabits por segundo em voltagens nominais, com PHY de produção suportando velocidades de DRAM até 10,4 gigabits por segundo—1,33 terabytes por segundo por dispositivo.¹⁵ A demonstração mostrou margem para velocidades ainda maiores dentro da especificação HBM3E.
O H200 da NVIDIA e os produtos Blackwell iniciais usam HBM3E. O H200 expandiu a capacidade de memória para 141 gigabytes comparado aos 80 gigabytes do H100, aumentando a largura de banda proporcionalmente. O Blackwell B200 alcançou 192 gigabytes de HBM3E com 8 terabytes por segundo de largura de banda agregada.
A transição de HBM3 para HBM3E demonstrou a capacidade da indústria de memória de extrair desempenho adicional de arquiteturas existentes. No entanto, ganhos adicionais requerem as mudanças arquitetônicas que a HBM4 introduz.
HBM4: a próxima geração
A JEDEC lançou a especificação oficial HBM4 em abril de 2025.¹⁶ A especificação representa a mudança arquitetônica mais significativa desde a introdução da HBM, dobrando a largura da interface de 1.024 bits para 2.048 bits.¹⁷
A HBM4 suporta velocidades de transferência até 8 gigabits por segundo através da interface mais larga, com largura de banda total atingindo 2 terabytes por segundo por stack.¹⁸ Uma GPU com 8 dispositivos HBM4 alcança largura de banda agregada de memória superior a 13 terabytes por segundo.¹⁹
A interface mais larga exigiu mudanças arquitetônicas em todo o subsistema de memória. A HBM4 dobra o número de canais independentes por stack para 32 com 2 pseudo-canais por canal.²⁰ O canal de dados de 2.048 bits divide-se em 32 canais de 64 bits ou 64 pseudo-canais de 32 bits, comparado aos 16 canais de 64 bits da HBM3.²¹
A altura do stack aumenta para um máximo de 16 dies com densidades de die de DRAM de 24 gigabits ou 32 gigabits, permitindo capacidades de até 64 gigabytes por stack.²² O aumento de capacidade atende às crescentes contagens de parâmetros de modelos foundation que excedem os limites de memória atuais.
A HBM4 mantém compatibilidade retroativa com controladores HBM3, facilitando a transição para fabricantes de aceleradores.²³ O Controlador de Memória HBM4 da Rambus eleva a velocidade de sinalização suportada para 10,0 gigabits por segundo, fornecendo 2,56 terabytes por segundo de throughput por dispositivo HBM4 na taxa máxima.²⁴
Melhorias de confiabilidade incluem Directed Refresh Management (DRFM) para melhor mitigação de row-hammer.²⁵ Os recursos RAS (Reliability, Availability, Serviceability) aprimorados abordam preocupações sobre confiabilidade da DRAM nas temperaturas elevadas comuns em aceleradores de IA.
A HBM4E estende ainda mais a especificação com taxas de dados de 10 gigabits por segundo, 2,5 terabytes por segundo de largura de banda por stack, e potência por pacote de até 80 watts.²⁶ A especificação HBM4E visa o período de 2027.
Competição entre fabricantes
A SK Hynix completou o desenvolvimento da HBM4 e se preparou para fabricação em alto volume até o final de 2025.²⁷ Os stacks HBM4 da SK Hynix excedem as especificações JEDEC em 25% de desempenho, apresentando taxas de transferência de dados de 10 GT/s comparadas ao padrão de 8 GT/s.²⁸ Envios em volume começam no início de 2026 após as qualificações finais dos clientes.²⁹
A SK Hynix tornou-se a fornecedora principal de HBM da NVIDIA, um relacionamento que impulsionou os ganhos de participação de mercado da empresa.³⁰ A parceria com a NVIDIA posicionou a SK Hynix para capturar a maioria da demanda de memória de IA de alto valor.
A Micron começou a enviar amostras de HBM4 em junho de 2025, fornecendo stacks de 36 gigabytes e 12 dies para clientes-chave, incluindo supostamente a NVIDIA.³¹ No Q4 2025, a Micron anunciou amostras de HBM4 rodando a velocidades acima de 11 gigabits por segundo por pino, entregando mais de 2,8 terabytes por segundo por stack.³² O timing de produção em massa visa o ano calendário de 2026.³³
A Micron garantiu design wins com a NVIDIA para as GPUs Hopper H200 e Blackwell B200, crescendo a participação no mercado de HBM de aproximadamente 5% para uma meta de 20-25% até o final de 2025.³⁴ A qualificação da NVIDIA valida a tecnologia e capacidade de fabricação da Micron.
A Samsung visa iniciar a produção em massa de HBM4 no primeiro semestre de 2026.³⁵ No Q3 2025, a Samsung começou a enviar grandes volumes de amostras de HBM4 para a NVIDIA para qualificação inicial.³⁶ A Samsung supostamente serve como fornecedora principal de HBM4 para o acelerador MI450 da AMD.³⁷
A participação de mercado de HBM da Samsung despencou de 41% no Q2 2024 para 17% no Q2 2025, enquanto a empresa lutava para passar nos testes de qualificação da NVIDIA.³⁸ A Samsung permaneceu amplamente dependente de chips HBM3 de geração anterior para vendas de HBM enquanto concorrentes enviavam HBM3E.³⁹ Analistas preveem que a posição da Samsung se fortalecerá conforme peças HBM3E qualifiquem e a HBM4 entre em fornecimento em escala total em 2026.⁴⁰
A competição HBM remodelou a indústria de memória mais ampla. A SK Hynix assumiu a liderança pela primeira vez no mercado geral de DRAM, conquistando 36% de participação nas receitas no Q1 2025 comparado aos 34% da Samsung.⁴¹ A reversão da longa liderança da Samsung reflete a crescente participação da HBM no valor total de DRAM.
Roadmaps da NVIDIA e AMD
O roadmap oficial da NVIDIA mostra Rubin com 8 sites HBM4 e Rubin Ultra com 16 sites HBM4.⁴² O interposer do Rubin mede 2.194 milímetros quadrados e hospeda 288 a 384 gigabytes de capacidade VRAM com 16-32 terabytes por segundo de largura de banda total.⁴³ A potência total do chip atinge 2.200 watts.⁴⁴
A capacidade de HBM projeta crescer dos 80 gigabytes de HBM2E do A100 para 1.024 gigabytes de HBM4E para o Rubin Ultra.⁴⁵ A trajetória reflete os requisitos de memória de modelos que podem atingir dezenas de trilhões de parâmetros.
A produção do Rubin está no caminho certo para o segundo semestre de 2026.⁴⁶ Placas de consumidor baseadas na arquitetura são esperadas no final de 2026 ou início de 2027.⁴⁷ O timing posiciona o Rubin como o sucessor do Blackwell Ultra na linha de data center da NVIDIA.
A AMD confirmou HBM4 para a série de aceleradores MI400.⁴⁸ O Instinct MI400 da AMD, lançando em 2026, mira 432 gigabytes de capacidade HBM4 com largura de banda de memória até 19,6 terabytes por segundo.⁴⁹ O MI430X é o primeiro acelerador AMD a utilizar HBM4.⁵⁰
A geração HBM4 estabelece um novo patamar de desempenho para ambos os fabricantes. Aumentos na largura de banda e capacidade de memória permitem tamanhos de modelo e throughput de inferência que a HBM3E não consegue suportar eficientemente.
A restrição da barreira de memória
O crescimento da largura de banda de memória fica atrás do crescimento da capacidade de computação em aceleradores de IA. A "barreira de memória" restringe quão efetivamente os aceleradores utilizam seus recursos computacionais. A evolução da HBM representa a resposta principal da indústria a esta restrição.
Grandes modelos de linguagem exibem características limitadas por memória durante a inferência. O mecanismo de atenção requer acessar o cache completo de key-value para cada token gerado. A largura de banda de memória determina quão rapidamente esse acesso ocorre, afetando diretamente o throughput de tokens por segundo.
Cargas de trabalho de treinamento enfrentam restrições de memória diferentes. Parâmetros do modelo, gradientes, estados do otimizador e ativações competem por capacidade de memória. A largura de banda de memória afeta quão rapidamente os dados se movem entre unidades de processamento durante acumulação de gradientes e passos de otimização.
A largura de banda de 2 terabytes por segundo da HBM4 comparada aos 819 gigabytes por segundo da HBM3 representa uma melhoria de 2,4x.⁵¹ Combinado com aumentos de capacidade de 36 gigabytes para 64 gigabytes por stack, a HBM4 aborda tanto as dimensões de largura de banda quanto de capacidade da barreira de memória.
No entanto, a capacidade de computação aumenta mais rápido que a largura de banda de memória. Cada geração de HBM fornece aproximadamente 2x de melhoria na largura de banda enquanto a computação também dobra a cada geração. A barreira de memória recua mas nunca desaparece.
Futuras gerações de HBM—HBM5 até HBM8—projetam escalonamento contínuo de largura de banda através de taxas de dados mais altas e interfaces potencialmente mais largas.⁵² O roadmap se estende pela década com metas de largura de banda atingindo 64 terabytes por segundo por sistema.⁵³
Considerações de planejamento de infraestrutura
Restrições de fornecimento de HBM afetam a disponibilidade de aceleradores. A escassez de HBM limitou envios de GPUs ao longo de 2023 e 2024. Organizações planejando grandes implantações devem entender que a aquisição de GPUs depende da capacidade dos fabricantes de memória.
Relacionamentos com fornecedores determinam o acesso. O relacionamento da SK Hynix com a NVIDIA, o posicionamento da Samsung com a AMD, e os amplos esforços de qualificação da Micron criam complexidade na cadeia de suprimentos. Fabricantes de aceleradores de segundo nível podem enfrentar prazos de entrega mais longos se a memória priorizar pedidos de hyperscalers.
A transição para HBM4 cria uma mudança geracional no final de 2026. Organizações implantando agora recebem sistemas baseados em HBM3E. Aqueles que esperam pelo Rubin ou MI400 ganham as vantagens da HBM4. O timing afeta o planejamento de infraestrutura de múltiplos anos.
Memor
[Conteúdo truncado para tradução]