HBM 진화: HBM3에서 HBM4까지, 그리고 AI 메모리 전쟁
2025년 12월 11일 업데이트
2025년 12월 업데이트: SK하이닉스가 2025년 2분기 62% 점유율로 HBM 시장을 선도하고 있으며, 마이크론이 21%, 삼성이 17%로 뒤따르고 있다.¹ 글로벌 HBM 시장은 2025년 380억 달러에서 2026년 580억 달러로 성장할 전망이다.² JEDEC는 2025년 4월 공식 HBM4 사양을 발표했으며, 인터페이스 폭을 2,048비트로 두 배 확장하여 스택당 최대 2TB/s 대역폭을 구현했다.³ SK하이닉스는 역사상 처음으로 삼성을 제치고 세계 최대 DRAM 제조사가 되었다.
SK하이닉스는 2025년 2분기 62%의 점유율로 HBM 시장을 선도하고 있으며, 마이크론이 21%, 삼성이 17%로 뒤따르고 있다.¹ 글로벌 HBM 시장은 2025년 380억 달러에서 2026년 580억 달러로 성장할 것이다.² JEDEC는 2025년 4월 공식 HBM4 사양을 발표하여 인터페이스 폭을 2,048비트로 두 배 확장하고 스택당 최대 2TB/s 대역폭을 가능하게 했다.³ 고대역폭 메모리(High Bandwidth Memory)는 AI 가속기 성능의 천장을 정의한다—모델의 크기와 실행 속도를 결정하는 메모리 병목 현상이다.
HBM 세대는 제조 및 패키징 기술의 승리를 대표한다. TSV(Through-Silicon Via)를 사용하여 DRAM 다이를 수직으로 적층하고 인터포저를 통해 GPU 또는 가속기 다이에 연결함으로써 기존 DRAM 패키징으로는 불가능한 메모리 대역폭을 구현한다. 각 세대는 용량, 대역폭, 스택 높이를 증가시키며, 업체들은 수율, 인증 속도, 고객 관계에서 경쟁한다. 이 경쟁은 메모리 산업을 재편했으며, SK하이닉스가 역사상 처음으로 삼성을 제치고 세계 최대 DRAM 제조사가 되었다.
HBM3: 현재 AI의 기반
2022년에 도입된 HBM3는 현재 AI 붐을 가능하게 한 메모리 대역폭 역량을 확립했다.⁴ 이 아키텍처는 HBM2e 대비 채널 수를 8개에서 16개로 두 배 늘렸고, 데이터 전송률은 초당 6.4기가비트까지 확장되었다.⁵
초당 6.4기가비트로 작동하는 인터페이스를 통해 프로세서에 연결된 4개의 HBM3 스택은 총 3.2TB/s 이상의 대역폭을 제공한다.⁶ 개별 스택 대역폭은 8GT/s 1024비트 버스로 약 819GB/s에 달한다.⁷
HBM3는 32기가비트 용량의 DRAM 다이를 16단으로 적층할 수 있다.⁸ 이 적층 기능은 다이 밀도와 스택 높이에 따라 스택당 24-36GB의 메모리 용량을 가능하게 한다.⁹
3D 적층 아키텍처는 더 짧은 신호 경로와 여러 다이에 대한 동시 병렬 접근을 통해 기존 DRAM 대비 지연 시간을 줄인다.¹⁰ 대역폭, 용량, 지연 시간 개선의 조합으로 HBM3는 트랜스포머 기반 대규모 언어 모델의 대규모 운용을 가능하게 한 메모리 기술이 되었다.
NVIDIA의 H100 GPU는 HBM3를 사용하여 경쟁사들이 목표로 삼는 성능 기준을 확립했다. 메모리 대역폭은 이전 세대 대비 H100의 프리미엄 가격을 정당화하는 텐서 코어 활용률을 가능하게 했다.
HBM3E: 한계에 도전하다
주요 DRAM 제조사들은 초당 9.6기가비트의 데이터 전송률을 달성하는 HBM3E 제품을 출시했다—HBM3보다 50% 빠른 속도다.¹¹ 대역폭 개선으로 스택당 약 1.2TB/s를 달성하여 1024비트 인터페이스의 실질적 한계에 근접했다.¹²
SK하이닉스는 HBM3 컨트롤러와 하위 호환성을 유지하면서 1.2TB/s 이상의 대역폭을 제공하는 12단 다이 스택의 양산을 주도하고 있다.¹³ 하위 호환성은 제품 세대 간 메모리 사양을 업데이트하는 가속기 업체들의 채택을 단순화했다.
마이크론은 핀당 9.6Gb/s 처리 속도, 8단 큐브당 24GB 용량, 1.2TB/s 데이터 전송률을 가진 HBM3E 메모리를 발표했다.¹⁴ 기존 인터페이스 폭을 유지하면서 스택당 용량이 증가했다.
Cadence는 정격 전압에서 12.4Gb/s로 작동하는 HBM3E 메모리 서브시스템을 시연했으며, 양산 PHY는 최대 10.4Gb/s의 DRAM 속도를 지원한다—디바이스당 1.33TB/s다.¹⁵ 이 시연은 HBM3E 사양 내에서 더 높은 속도를 위한 여유가 있음을 보여주었다.
NVIDIA의 H200과 초기 Blackwell 제품은 HBM3E를 사용한다. H200은 메모리 용량을 H100의 80GB에서 141GB로 확장하고 대역폭도 비례하여 증가시켰다. Blackwell B200은 총 8TB/s 대역폭으로 192GB의 HBM3E에 도달했다.
HBM3에서 HBM3E로의 전환은 기존 아키텍처에서 추가 성능을 추출하는 메모리 산업의 능력을 보여주었다. 그러나 더 큰 발전을 위해서는 HBM4가 도입하는 아키텍처 변경이 필요하다.
HBM4: 차세대
JEDEC는 2025년 4월 공식 HBM4 사양을 발표했다.¹⁶ 이 사양은 HBM 도입 이후 가장 중요한 아키텍처 변경으로, 인터페이스 폭을 1,024비트에서 2,048비트로 두 배 확장했다.¹⁷
HBM4는 더 넓은 인터페이스에서 최대 초당 8기가비트의 전송 속도를 지원하며, 총 대역폭은 스택당 2TB/s에 달한다.¹⁸ 8개의 HBM4 디바이스를 탑재한 GPU는 총 13TB/s 이상의 메모리 대역폭을 달성한다.¹⁹
더 넓은 인터페이스는 메모리 서브시스템 전반에 걸쳐 아키텍처 변경을 요구했다. HBM4는 채널당 2개의 의사 채널(pseudo-channel)과 함께 스택당 독립 채널 수를 32개로 두 배 늘렸다.²⁰ 2,048비트 데이터 채널은 32개의 64비트 채널 또는 64개의 32비트 의사 채널로 나뉘며, 이는 HBM3의 16개 64비트 채널과 대비된다.²¹
스택 높이는 최대 16단으로 증가하고 24기가비트 또는 32기가비트의 DRAM 다이 밀도로 스택당 최대 64GB 용량을 구현할 수 있다.²² 용량 증가는 현재 메모리 한계를 초과하는 파운데이션 모델의 증가하는 파라미터 수에 대응한다.
HBM4는 HBM3 컨트롤러와의 하위 호환성을 유지하여 가속기 업체들의 전환을 용이하게 한다.²³ Rambus HBM4 메모리 컨트롤러는 지원 신호 속도를 10.0Gb/s로 높여 최대 속도에서 HBM4 디바이스당 2.56TB/s 처리량을 제공한다.²⁴
신뢰성 개선에는 로우 해머(row-hammer) 완화를 위한 DRFM(Directed Refresh Management)이 포함된다.²⁵ 향상된 RAS(신뢰성, 가용성, 서비스성) 기능은 AI 가속기에서 흔한 높은 온도에서의 DRAM 신뢰성 우려를 해결한다.
HBM4E는 10Gb/s 데이터 전송률, 스택당 2.5TB/s 대역폭, 패키지당 최대 80와트 전력으로 사양을 더욱 확장한다.²⁶ HBM4E 사양은 2027년 시점을 목표로 한다.
제조사 경쟁
SK하이닉스는 HBM4 개발을 완료하고 2025년 말까지 대량 생산을 준비했다.²⁷ SK하이닉스의 HBM4 스택은 JEDEC 사양을 25% 초과하는 성능을 제공하며, 8GT/s 표준 대비 10GT/s 데이터 전송률을 특징으로 한다.²⁸ 최종 고객 인증 후 2026년 초에 대량 출하가 시작된다.²⁹
SK하이닉스는 NVIDIA의 주요 HBM 공급업체가 되었으며, 이 관계가 회사의 시장 점유율 상승을 이끌었다.³⁰ NVIDIA 파트너십은 SK하이닉스가 고부가가치 AI 메모리 수요의 대부분을 확보할 수 있는 위치를 마련해 주었다.
마이크론은 2025년 6월 HBM4 샘플 출하를 시작하여 NVIDIA를 포함한 주요 고객에게 36GB 12단 스택을 제공했다.³¹ 2025년 4분기까지 마이크론은 핀당 11Gb/s 이상의 속도로 작동하며 스택당 2.8TB/s 이상을 제공하는 HBM4 샘플을 발표했다.³² 양산 시점은 2026년을 목표로 한다.³³
마이크론은 NVIDIA의 Hopper H200 및 Blackwell B200 GPU에 대한 디자인 윈을 확보하여 HBM 시장 점유율을 약 5%에서 2025년 말까지 20-25% 목표로 성장시키고 있다.³⁴ NVIDIA 인증은 마이크론의 기술과 제조 역량을 검증한다.
삼성은 2026년 상반기에 HBM4 양산을 시작할 계획이다.³⁵ 2025년 3분기에 삼성은 초기 인증을 위해 NVIDIA에 대량의 HBM4 샘플 출하를 시작했다.³⁶ 삼성은 AMD의 MI450 가속기의 주요 HBM4 공급업체로 알려져 있다.³⁷
삼성의 HBM 시장 점유율은 NVIDIA 인증 테스트 통과에 어려움을 겪으면서 2024년 2분기 41%에서 2025년 2분기 17%로 급락했다.³⁸ 삼성은 경쟁사들이 HBM3E를 출하하는 동안 HBM 판매에서 구세대 HBM3 칩에 크게 의존했다.³⁹ 애널리스트들은 HBM3E 제품이 인증되고 HBM4가 2026년 본격 공급되면서 삼성의 입지가 강화될 것으로 전망한다.⁴⁰
HBM 경쟁은 더 넓은 메모리 산업을 재편했다. SK하이닉스는 전체 DRAM 시장에서 처음으로 선두를 차지하여 2025년 1분기 매출 점유율 36%를 확보했으며, 삼성은 34%를 기록했다.⁴¹ 오랜 삼성 리더십의 역전은 총 DRAM 가치에서 HBM의 점유율 증가를 반영한다.
NVIDIA와 AMD 로드맵
NVIDIA의 공식 로드맵은 8개의 HBM4 사이트를 갖춘 Rubin과 16개의 HBM4 사이트를 갖춘 Rubin Ultra를 보여준다.⁴² Rubin 인터포저는 2,194제곱밀리미터 크기이며 288~384GB의 VRAM 용량과 총 16-32TB/s 대역폭을 탑재한다.⁴³ 총 칩 전력은 2,200와트에 달한다.⁴⁴
HBM 용량은 A100의 80GB HBM2E에서 Rubin Ultra의 1,024GB HBM4E까지 성장할 전망이다.⁴⁵ 이 궤적은 수십 조 개의 파라미터에 도달할 수 있는 모델의 메모리 요구사항을 반영한다.
Rubin 생산은 2026년 하반기에 예정대로 진행 중이다.⁴⁶ 이 아키텍처 기반의 소비자 카드는 2026년 말 또는 2027년 초에 출시될 것으로 예상된다.⁴⁷ 이 시점은 Rubin을 NVIDIA 데이터센터 라인업에서 Blackwell Ultra의 후속작으로 자리매김한다.
AMD는 MI400 가속기 시리즈에 HBM4를 확정했다.⁴⁸ 2026년 출시 예정인 AMD의 Instinct MI400은 최대 19.6TB/s 메모리 대역폭으로 432GB의 HBM4 용량을 목표로 한다.⁴⁹ MI430X는 HBM4를 활용하는 최초의 AMD 가속기다.⁵⁰
HBM4 세대는 두 업체 모두에게 새로운 성능 계층을 확립한다. 메모리 대역폭과 용량 증가는 HBM3E로는 효율적으로 지원할 수 없는 모델 크기와 추론 처리량을 가능하게 한다.
메모리 병목 현상 제약
AI 가속기에서 메모리 대역폭 성장은 연산 능력 성장에 뒤처진다. "메모리 병목(memory wall)"은 가속기가 연산 자원을 얼마나 효과적으로 활용하는지를 제약한다. HBM 진화는 이 제약에 대한 산업의 주요 대응책이다.
대규모 언어 모델은 추론 중 메모리 병목 특성을 보인다. 어텐션 메커니즘은 생성되는 각 토큰에 대해 전체 키-값 캐시에 접근해야 한다. 메모리 대역폭은 이 접근이 얼마나 빠르게 이루어지는지를 결정하며, 이는 초당 토큰 처리량에 직접적인 영향을 미친다.
학습 워크로드는 다른 메모리 제약에 직면한다. 모델 파라미터, 그래디언트, 옵티마이저 상태, 활성화가 메모리 용량을 놓고 경쟁한다. 메모리 대역폭은 그래디언트 누적 및 최적화 단계에서 처리 장치 간 데이터 이동 속도에 영향을 미친다.
HBM4의 2TB/s 대역폭은 HBM3의 819GB/s 대비 2.4배 개선을 나타낸다.⁵¹ 스택당 용량이 36GB에서 64GB로 증가한 것과 결합하여 HBM4는 메모리 병목의 대역폭과 용량 양면을 해결한다.
그러나 연산 능력은 메모리 대역폭보다 빠르게 증가한다. 각 HBM 세대는 약 2배의 대역폭 개선을 제공하지만 연산도 매 세대마다 두 배로 늘어난다. 메모리 병목은 후퇴하지만 결코 사라지지 않는다.
미래 HBM 세대—HBM5부터 HBM8까지—는 더 높은 데이터 전송률과 잠재적으로 더 넓은 인터페이스를 통해 지속적인 대역폭 확장을 전망한다.⁵² 로드맵은 시스템당 64TB/s 대역폭 목표로 향후 10년까지 확장된다.⁵³
인프라 계획 고려사항
HBM 공급 제약은 가속기 가용성에 영향을 미친다. HBM 부족은 2023년과 2024년 내내 GPU 출하를 제한했다. 대규모 배포를 계획하는 조직은 GPU 조달이 메모리 제조사 생산 능력에 의존한다는 것을 이해해야 한다.
업체 관계가 접근성을 결정한다. SK하이닉스-NVIDIA 관계, 삼성의 AMD 포지셔닝, 마이크론의 광범위한 인증 노력은 공급망 복잡성을 야기한다. 2차 가속기 업체들은 메모리가 하이퍼스케일러 주문을 우선시할 경우 더 긴 리드 타임에 직면할 수 있다.
HBM4 전환은 2026년 말에 세대 교체를 만든다. 현재 배포하는 조직은 HBM3E 기반 시스템을 받게 된다. Rubin이나 MI400을 기다리는 조직은 HBM4의 이점을 얻는다. 이 시점은 다년간 인프라 계획에 영향을 미친다.