Sự phát triển của HBM: từ HBM3 đến HBM4 và cuộc chiến bộ nhớ AI
Cập nhật ngày 11 tháng 12, 2025
Cập nhật tháng 12/2025: SK Hynix dẫn đầu thị trường HBM với 62% thị phần Q2 2025 so với Micron (21%) và Samsung (17%). Thị trường HBM toàn cầu tăng trưởng từ 38 tỷ USD (2025) lên 58 tỷ USD (2026). JEDEC phát hành thông số HBM4 chính thức (tháng 4/2025) tăng gấp đôi giao diện lên 2.048 bit cho phép đạt 2TB/s mỗi stack. SK Hynix vượt qua Samsung trở thành nhà sản xuất DRAM lớn nhất thế giới lần đầu tiên trong lịch sử.
SK Hynix dẫn đầu thị trường HBM với 62% thị phần trong Q2 2025, theo sau là Micron với 21% và Samsung với 17%.¹ Thị trường HBM toàn cầu sẽ tăng từ 38 tỷ USD năm 2025 lên 58 tỷ USD năm 2026.² JEDEC phát hành thông số HBM4 chính thức vào tháng 4/2025, tăng gấp đôi độ rộng giao diện lên 2.048 bit và cho phép băng thông lên đến 2 terabyte mỗi giây cho mỗi stack.³ High Bandwidth Memory định nghĩa giới hạn trần của hiệu năng bộ tăng tốc AI—bức tường bộ nhớ quyết định một mô hình có thể lớn đến đâu và chạy nhanh đến mức nào.
Các thế hệ HBM đại diện cho một chiến thắng về sản xuất và đóng gói. Việc xếp chồng các die DRAM theo chiều dọc với through-silicon vias (TSVs) và kết nối chúng qua interposer tới các die GPU hoặc bộ tăng tốc tạo ra băng thông bộ nhớ không thể đạt được với cách đóng gói DRAM truyền thống. Mỗi thế hệ tăng dung lượng, băng thông và chiều cao stack trong khi các nhà sản xuất cạnh tranh về tỷ lệ sản phẩm đạt chuẩn, tốc độ chứng nhận và quan hệ khách hàng. Cuộc cạnh tranh đã định hình lại ngành công nghiệp bộ nhớ, với việc SK Hynix vượt qua Samsung trở thành nhà sản xuất DRAM lớn nhất thế giới lần đầu tiên trong lịch sử.
HBM3: nền tảng của AI hiện tại
HBM3, ra mắt năm 2022, đã thiết lập khả năng băng thông bộ nhớ cho phép bùng nổ AI hiện tại.⁴ Kiến trúc này tăng gấp đôi số kênh từ 8 lên 16 so với HBM2e, trong khi tốc độ dữ liệu đạt 6,4 gigabit mỗi giây.⁵
Bốn stack HBM3 kết nối với bộ xử lý qua giao diện chạy ở 6,4 gigabit mỗi giây cung cấp băng thông tổng hợp hơn 3,2 terabyte mỗi giây.⁶ Băng thông của mỗi stack đạt khoảng 819 gigabyte mỗi giây với bus 1024-bit 8 GT/s.⁷
HBM3 hỗ trợ stack 16 tầng cao với các die DRAM dung lượng 32 gigabit.⁸ Khả năng xếp chồng cho phép dung lượng bộ nhớ đạt 24-36 gigabyte mỗi stack tùy thuộc vào mật độ die và chiều cao stack.⁹
Kiến trúc xếp chồng 3D giảm độ trễ so với DRAM truyền thống thông qua đường tín hiệu ngắn hơn và truy cập song song nhiều die đồng thời.¹⁰ Sự kết hợp của cải tiến băng thông, dung lượng và độ trễ đã biến HBM3 thành công nghệ bộ nhớ cho phép các mô hình ngôn ngữ lớn dựa trên transformer hoạt động ở quy mô lớn.
GPU H100 của NVIDIA sử dụng HBM3, thiết lập mức hiệu năng chuẩn mà các đối thủ nhắm đến. Băng thông bộ nhớ cho phép tỷ lệ sử dụng tensor core biện minh cho mức giá cao của H100 so với các thế hệ trước.
HBM3E: đẩy giới hạn
Các nhà sản xuất DRAM lớn giới thiệu thiết bị HBM3E đạt tốc độ dữ liệu 9,6 gigabit mỗi giây—nhanh hơn 50% so với HBM3.¹¹ Cải thiện băng thông cho phép khoảng 1,2 terabyte mỗi giây cho mỗi stack, tiến gần đến giới hạn thực tế của giao diện 1024-bit.¹²
SK Hynix dẫn đầu sản xuất hàng loạt với stack die 12 tầng cao cung cấp băng thông 1,2+ terabyte mỗi giây trong khi vẫn tương thích ngược với bộ điều khiển HBM3.¹³ Tính tương thích ngược đơn giản hóa việc áp dụng cho các nhà sản xuất bộ tăng tốc cập nhật thông số bộ nhớ giữa các thế hệ sản phẩm.
Micron công bố bộ nhớ HBM3E với tốc độ xử lý 9,6 gigabit mỗi giây trên mỗi pin, 24 gigabyte mỗi cube 8 tầng cao, và truyền dữ liệu ở 1,2 terabyte mỗi giây.¹⁴ Dung lượng mỗi stack tăng lên trong khi vẫn duy trì độ rộng giao diện hiện có.
Cadence trình diễn hệ thống con bộ nhớ HBM3E chạy ở 12,4 gigabit mỗi giây ở điện áp danh định, với PHY sản xuất hỗ trợ tốc độ DRAM lên đến 10,4 gigabit mỗi giây—1,33 terabyte mỗi giây cho mỗi thiết bị.¹⁵ Buổi trình diễn cho thấy còn dư địa cho tốc độ cao hơn trong thông số HBM3E.
H200 và các sản phẩm Blackwell ban đầu của NVIDIA sử dụng HBM3E. H200 mở rộng dung lượng bộ nhớ lên 141 gigabyte so với 80 gigabyte của H100 đồng thời tăng băng thông tương ứng. Blackwell B200 đạt 192 gigabyte HBM3E với băng thông tổng hợp 8 terabyte mỗi giây.
Quá trình chuyển đổi từ HBM3 sang HBM3E cho thấy khả năng của ngành công nghiệp bộ nhớ trong việc khai thác thêm hiệu năng từ các kiến trúc hiện có. Tuy nhiên, những cải tiến tiếp theo đòi hỏi các thay đổi kiến trúc mà HBM4 mang lại.
HBM4: thế hệ tiếp theo
JEDEC phát hành thông số HBM4 chính thức vào tháng 4/2025.¹⁶ Thông số này đại diện cho thay đổi kiến trúc quan trọng nhất kể từ khi HBM ra đời, tăng gấp đôi độ rộng giao diện từ 1.024 bit lên 2.048 bit.¹⁷
HBM4 hỗ trợ tốc độ truyền lên đến 8 gigabit mỗi giây qua giao diện rộng hơn, với tổng băng thông đạt 2 terabyte mỗi giây cho mỗi stack.¹⁸ Một GPU với 8 thiết bị HBM4 đạt băng thông bộ nhớ tổng hợp hơn 13 terabyte mỗi giây.¹⁹
Giao diện rộng hơn đòi hỏi thay đổi kiến trúc trong toàn bộ hệ thống con bộ nhớ. HBM4 tăng gấp đôi số kênh độc lập mỗi stack lên 32 với 2 pseudo-channel cho mỗi kênh.²⁰ Kênh dữ liệu 2.048-bit chia thành 32 kênh 64-bit hoặc 64 pseudo-channel 32-bit, so với 16 kênh 64-bit của HBM3.²¹
Chiều cao stack tăng lên tối đa 16 die với mật độ die DRAM 24 gigabit hoặc 32 gigabit, cho phép dung lượng lên đến 64 gigabyte mỗi stack.²² Việc tăng dung lượng đáp ứng số lượng tham số ngày càng tăng của các mô hình nền tảng vượt quá giới hạn bộ nhớ hiện tại.
HBM4 duy trì tính tương thích ngược với bộ điều khiển HBM3, giúp dễ dàng chuyển đổi cho các nhà sản xuất bộ tăng tốc.²³ Bộ điều khiển bộ nhớ HBM4 của Rambus nâng tốc độ tín hiệu được hỗ trợ lên 10,0 gigabit mỗi giây, cung cấp thông lượng 2,56 terabyte mỗi giây cho mỗi thiết bị HBM4 ở tốc độ tối đa.²⁴
Các cải tiến độ tin cậy bao gồm Directed Refresh Management (DRFM) để giảm thiểu row-hammer tốt hơn.²⁵ Các tính năng RAS (Reliability, Availability, Serviceability - Độ tin cậy, Khả dụng, Khả năng bảo trì) được nâng cao giải quyết các lo ngại về độ tin cậy DRAM ở nhiệt độ cao phổ biến trong các bộ tăng tốc AI.
HBM4E mở rộng thông số hơn nữa với tốc độ dữ liệu 10 gigabit mỗi giây, băng thông 2,5 terabyte mỗi giây cho mỗi stack, và công suất mỗi package lên đến 80 watt.²⁶ Thông số HBM4E nhắm đến khung thời gian 2027.
Cạnh tranh giữa các nhà sản xuất
SK Hynix hoàn thành phát triển HBM4 và chuẩn bị sản xuất hàng loạt vào cuối 2025.²⁷ Stack HBM4 của SK Hynix vượt thông số JEDEC 25% về hiệu năng, với tốc độ truyền dữ liệu 10 GT/s so với tiêu chuẩn 8 GT/s.²⁸ Xuất xưởng hàng loạt bắt đầu vào đầu 2026 sau khi hoàn tất chứng nhận khách hàng cuối cùng.²⁹
SK Hynix trở thành nhà cung cấp HBM chính của NVIDIA, mối quan hệ thúc đẩy tăng trưởng thị phần của công ty.³⁰ Quan hệ đối tác với NVIDIA đặt SK Hynix vào vị trí nắm bắt phần lớn nhu cầu bộ nhớ AI giá trị cao.
Micron bắt đầu xuất xưởng mẫu HBM4 vào tháng 6/2025, cung cấp stack 12 tầng cao 36 gigabyte cho các khách hàng chính bao gồm được cho là NVIDIA.³¹ Đến Q4 2025, Micron công bố mẫu HBM4 chạy ở tốc độ trên 11 gigabit mỗi giây trên mỗi pin, cung cấp hơn 2,8 terabyte mỗi giây cho mỗi stack.³² Thời điểm sản xuất hàng loạt nhắm vào năm dương lịch 2026.³³
Micron giành được thiết kế với NVIDIA cho GPU Hopper H200 và Blackwell B200, tăng thị phần HBM từ khoảng 5% hướng tới mục tiêu 20-25% vào cuối 2025.³⁴ Chứng nhận từ NVIDIA xác nhận công nghệ và năng lực sản xuất của Micron.
Samsung nhắm mục tiêu bắt đầu sản xuất hàng loạt HBM4 vào nửa đầu 2026.³⁵ Trong Q3 2025, Samsung bắt đầu xuất xưởng số lượng lớn mẫu HBM4 cho NVIDIA để chứng nhận sớm.³⁶ Samsung được cho là nhà cung cấp HBM4 chính cho bộ tăng tốc MI450 của AMD.³⁷
Thị phần HBM của Samsung giảm mạnh từ 41% trong Q2 2024 xuống 17% trong Q2 2025 khi công ty gặp khó khăn vượt qua các bài kiểm tra chứng nhận của NVIDIA.³⁸ Samsung vẫn phụ thuộc chủ yếu vào chip HBM3 thế hệ cũ cho doanh số HBM trong khi các đối thủ xuất xưởng HBM3E.³⁹ Các nhà phân tích dự báo vị thế của Samsung sẽ mạnh lên khi các linh kiện HBM3E được chứng nhận và HBM4 bước vào cung ứng quy mô đầy đủ năm 2026.⁴⁰
Cuộc cạnh tranh HBM định hình lại ngành công nghiệp bộ nhớ rộng hơn. SK Hynix lần đầu tiên dẫn đầu thị trường DRAM tổng thể, chiếm 36% thị phần doanh thu trong Q1 2025 so với 34% của Samsung.⁴¹ Sự đảo ngược vị trí dẫn đầu lâu đời của Samsung phản ánh tỷ trọng ngày càng tăng của HBM trong tổng giá trị DRAM.
Lộ trình NVIDIA và AMD
Lộ trình chính thức của NVIDIA cho thấy Rubin với 8 vị trí HBM4 và Rubin Ultra với 16 vị trí HBM4.⁴² Interposer Rubin có diện tích 2.194 mm² và chứa dung lượng VRAM 288 đến 384 gigabyte với tổng băng thông 16-32 terabyte mỗi giây.⁴³ Tổng công suất chip đạt 2.200 watt.⁴⁴
Dung lượng HBM dự kiến tăng từ 80 gigabyte HBM2E của A100 lên 1.024 gigabyte HBM4E cho Rubin Ultra.⁴⁵ Quỹ đạo phản ánh yêu cầu bộ nhớ của các mô hình có thể đạt hàng chục nghìn tỷ tham số.
Sản xuất Rubin đang đúng tiến độ cho nửa cuối 2026.⁴⁶ Card tiêu dùng dựa trên kiến trúc này dự kiến vào cuối 2026 hoặc đầu 2027.⁴⁷ Thời điểm này đặt Rubin làm sản phẩm kế thừa Blackwell Ultra trong dòng sản phẩm trung tâm dữ liệu của NVIDIA.
AMD xác nhận HBM4 cho dòng bộ tăng tốc MI400.⁴⁸ Instinct MI400 của AMD, ra mắt năm 2026, nhắm mục tiêu dung lượng HBM4 432 gigabyte với băng thông bộ nhớ lên đến 19,6 terabyte mỗi giây.⁴⁹ MI430X là bộ tăng tốc AMD đầu tiên sử dụng HBM4.⁵⁰
Thế hệ HBM4 thiết lập tầng hiệu năng mới cho cả hai nhà sản xuất. Tăng băng thông và dung lượng bộ nhớ cho phép kích thước mô hình và thông lượng suy luận mà HBM3E không thể hỗ trợ hiệu quả.
Ràng buộc bức tường bộ nhớ
Tăng trưởng băng thông bộ nhớ chậm hơn tăng trưởng khả năng tính toán trong các bộ tăng tốc AI. "Bức tường bộ nhớ" hạn chế mức độ hiệu quả mà các bộ tăng tốc sử dụng tài nguyên tính toán. Sự phát triển của HBM đại diện cho phản ứng chính của ngành đối với ràng buộc này.
Các mô hình ngôn ngữ lớn thể hiện đặc tính giới hạn bộ nhớ trong quá trình suy luận. Cơ chế attention yêu cầu truy cập toàn bộ key-value cache cho mỗi token được tạo ra. Băng thông bộ nhớ quyết định tốc độ truy cập này xảy ra, ảnh hưởng trực tiếp đến thông lượng token mỗi giây.
Khối lượng công việc huấn luyện đối mặt với các ràng buộc bộ nhớ khác nhau. Tham số mô hình, gradient, trạng thái optimizer và activation cạnh tranh về dung lượng bộ nhớ. Băng thông bộ nhớ ảnh hưởng đến tốc độ dữ liệu di chuyển giữa các đơn vị xử lý trong quá trình tích lũy gradient và các bước tối ưu hóa.
Băng thông 2 terabyte mỗi giây của HBM4 so với 819 gigabyte mỗi giây của HBM3 đại diện cho cải thiện 2,4 lần.⁵¹ Kết hợp với tăng dung lượng từ 36 gigabyte lên 64 gigabyte mỗi stack, HBM4 giải quyết cả hai khía cạnh băng thông và dung lượng của bức tường bộ nhớ.
Tuy nhiên, khả năng tính toán tăng nhanh hơn băng thông bộ nhớ. Mỗi thế hệ HBM cung cấp cải thiện băng thông khoảng 2 lần trong khi tính toán cũng tăng gấp đôi mỗi thế hệ. Bức tường bộ nhớ lùi xa nhưng không bao giờ biến mất.
Các thế hệ HBM tương lai—HBM5 đến HBM8—dự kiến tiếp tục mở rộng băng thông thông qua tốc độ dữ liệu cao hơn và có thể giao diện rộng hơn.⁵² Lộ trình kéo dài qua thập kỷ với mục tiêu băng thông đạt 64 terabyte mỗi giây cho mỗi hệ thống.⁵³
Cân nhắc quy hoạch hạ tầng
Ràng buộc nguồn cung HBM ảnh hưởng đến khả năng có sẵn của bộ tăng tốc. Tình trạng thiếu HBM đã hạn chế xuất xưởng GPU trong suốt 2023 và 2024. Các tổ chức lên kế hoạch triển khai lớn nên hiểu rằng việc mua sắm GPU phụ thuộc vào năng lực của nhà sản xuất bộ nhớ.
Quan hệ nhà cung cấp quyết định khả năng tiếp cận. Mối quan hệ của SK Hynix với NVIDIA, vị thế của Samsung với AMD, và nỗ lực chứng nhận rộng rãi của Micron tạo ra sự phức tạp trong chuỗi cung ứng. Các nhà sản xuất bộ tăng tốc hạng hai có thể đối mặt với thời gian chờ dài hơn nếu bộ nhớ ưu tiên đơn hàng hyperscaler.
Quá trình chuyển đổi HBM4 tạo ra sự thay đổi thế hệ vào cuối 2026. Các tổ chức triển khai ngay bây giờ nhận được hệ thống dựa trên HBM3E. Những tổ chức chờ đợi Rubin hoặc MI400 được hưởng lợi thế của HBM4. Thời điểm ảnh hưởng đến quy hoạch hạ tầng đa năm.