Siêu Chu Kỳ Bộ Nhớ AI: HBM Trở Thành Nút Thắt Cổ Chai Quan Trọng Nhất Của AI Như Thế Nào

Siêu chu kỳ bộ nhớ AI đã đến. Với HBM bán hết đến năm 2026, thị trường tiềm năng 100 tỷ USD vào năm 2028, và GPU gaming bị ảnh hưởng lây, bộ nhớ đã trở thành ràng buộc hạ tầng quan trọng nhất của AI.

Blake Crosley

Jan 03, 2026 13 min read Disclaimer

Siêu Chu Kỳ Bộ Nhớ AI: HBM Trở Thành Nút Thắt Cổ Chai Quan Trọng Nhất Của AI Như Thế Nào

Công suất bộ nhớ băng thông cao của Micron đã bán hết đến năm dương lịch 2026.^[1]^ Chỉ một câu duy nhất từ cuộc họp báo cáo thu nhập quý 1 năm tài chính 2026 của công ty đã nắm bắt được sự chuyển đổi cấu trúc đang định hình lại toàn bộ ngành công nghiệp bán dẫn. Siêu chu kỳ bộ nhớ AI đã chuyển từ dự báo của nhà phân tích sang thực tế vận hành, tạo ra sự mất cân bằng cung-cầu nghiêm trọng đến mức sản xuất GPU gaming phải cắt giảm 40%^[2]^ trong khi các nhà sản xuất bộ nhớ báo cáo biên lợi nhuận kỷ lục vượt 50%.^[3]^

Ràng buộc này đại diện cho nhiều hơn là một sự gián đoạn nguồn cung tạm thời. Ngành công nghiệp bộ nhớ đã trải qua một cuộc tái cấu trúc, chuyển từ hàng thập kỷ chu kỳ bùng nổ-sụp đổ sang phí bảo hiểm nhu cầu bền vững được thúc đẩy bởi sự khao khát băng thông không thể thỏa mãn của AI tạo sinh. Để hiểu HBM đã trở thành nút thắt cổ chai quan trọng của AI như thế nào, cần xem xét các yêu cầu kỹ thuật thúc đẩy nhu cầu, cấu trúc thị trường độc quyền nhóm kiểm soát nguồn cung, và các tác động hạ tầng sẽ định hình kinh tế học trung tâm dữ liệu trong nhiều năm tới.

TL;DR

Công suất HBM bán hết đến năm 2026 ở tất cả các nhà cung cấp lớn (SK Hynix, Micron, Samsung)
Thị trường tiềm năng dự kiến đạt 100 tỷ USD vào năm 2028, tăng từ 35 tỷ USD năm 2025 (~40% CAGR)
SK Hynix thống trị với 62% thị phần; NVIDIA chiếm ~90% nguồn cung HBM của họ
NVIDIA cắt giảm sản xuất GPU gaming 30-40% trong nửa đầu 2026 do thiếu hụt GDDR7
HBM4 bắt đầu sản xuất năm 2026, với stack 16-Hi nhắm mục tiêu Q4 2026
Sự hợp nhất ngành bộ nhớ tạo ra quyền định giá chưa từng có trong lịch sử bán dẫn

Yêu Cầu Kỹ Thuật: Tại Sao AI Cần HBM

Mối quan hệ giữa hiệu suất mô hình AI và băng thông bộ nhớ đại diện cho một trong những ràng buộc kỹ thuật quan trọng nhất trong điện toán. Các mô hình ngôn ngữ lớn và hệ thống AI tạo sinh đối mặt với một nút thắt cổ chai cơ bản: việc di chuyển tham số giữa bộ nhớ và lõi tính toán tiêu tốn nhiều thời gian và năng lượng hơn các phép toán thực tế.^[4]^

Bộ nhớ GDDR tiêu chuẩn, được thiết kế cho khối lượng công việc gaming với thông lượng cao nhưng độ trễ chấp nhận được, không thể đáp ứng yêu cầu băng thông của AI. Bộ nhớ băng thông cao giải quyết hạn chế này thông qua xếp chồng theo chiều dọc, đặt nhiều die DRAM chồng lên nhau với các via xuyên silicon (TSV) cung cấp hàng nghìn kết nối dữ liệu đồng thời.^[5]^

Các con số nói lên câu chuyện. GPU H100 của NVIDIA sử dụng 80GB HBM3 với băng thông 3,35 TB/s.^[6]^ H200 tăng dung lượng lên 141GB HBM3e ở 4,8 TB/s.^[7]^ Blackwell B200 trang bị 192GB HBM3e đạt 8,0 TB/s, gấp hơn hai lần băng thông của H100.^[8]^ Rubin R100 sắp ra mắt sẽ đóng gói 288GB HBM4 với băng thông ước tính từ 13-15 TB/s.^[9]^

Sự tiến triển này phản ánh yêu cầu bộ nhớ của AI tăng nhanh hơn Định luật Moore. Một quy tắc nhanh để phục vụ các mô hình ngôn ngữ lớn ở độ chính xác 16-bit: khoảng 2GB bộ nhớ GPU cho mỗi 1 tỷ tham số.^[10]^ Biến thể 70B của Llama 3 yêu cầu nhiều hơn một A100 80GB đơn lẻ.^[11]^ Các mô hình tiến gần 1 nghìn tỷ tham số đòi hỏi cấu hình đa GPU nơi dung lượng HBM trở thành ràng buộc giới hạn.

KV cache đặt ra thách thức bộ nhớ bổ sung. Trong quá trình suy luận, transformer lưu trữ các cặp key-value từ các token trước để tránh tính toán lại. Cache này tăng tuyến tính với độ dài ngữ cảnh, tiêu thụ khoảng 0,5MB mỗi token trong mô hình 7B.^[12]^ Một "LLM cần 60GB cho trọng số" thường không thể chạy ổn định trên GPU 80GB với prompt dài vì tăng trưởng bộ nhớ runtime, không phải trọng số, trở thành yếu tố giới hạn.^[13]^

Lợi Thế Độc Quyền Nhóm: Ba Người Chơi Kiểm Soát 95%

Để hiểu siêu chu kỳ bộ nhớ cần xem xét cấu trúc thị trường đã phát triển qua hàng thập kỷ hợp nhất. Samsung, SK Hynix, và Micron cùng kiểm soát khoảng 95% sản lượng DRAM toàn cầu.^[14]^ Sự tập trung này là kết quả của động lực cạnh tranh khốc liệt đã loại bỏ các đối thủ yếu hơn.

Năm 2009, mười công ty kiểm soát thị trường DRAM: Micron, Samsung, Hynix, Infineon, NEC, Hitachi, Mitsubishi, Toshiba, Elpida, và Nanya.^[15]^ Chu kỳ suy thoái 2011 kích hoạt đợt hợp nhất cuối cùng. SK Telecom mua lại Hynix với giá 3 tỷ USD năm 2012.^[16]^ Elpida, nhà sản xuất DRAM cuối cùng của Nhật Bản, phá sản và được Micron mua lại năm 2013.^[17]^ Trong vòng năm năm, ngành công nghiệp đã hợp nhất từ mười đối thủ cạnh tranh xuống còn ba.

Cấu trúc độc quyền nhóm này thể hiện trong hành vi thị trường phối hợp. Trong những tuần gần đây, SK Hynix, Samsung, và Micron đã đưa ra các thông báo gần như đồng thời về việc ngừng nhận đơn hàng DDR4 mới.^[18]^ Nhà phân tích ngành Moore Morris mô tả đây là "sự đột phá đáng kinh ngạc so với hàng thập kỷ thông lệ của ngành," lưu ý rằng "việc họ hành động phối hợp như vậy là chưa từng có."^[19]^ Nhóm độc quyền DRAM đã kiểm soát nguồn cung hiệu quả trong khi nhu cầu vẫn mạnh mẽ, thể hiện quyền lực thị trường tập thể cho thấy "ngành công nghiệp bộ nhớ không còn chơi theo luật cũ nữa."^[20]^

Phân khúc HBM tập trung quyền lực này hơn nữa. SK Hynix thống trị với 62% thị phần tính đến Q2 2025, Micron theo sau với 21%, và Samsung đứng thứ ba với 17%.^[21]^ Vị thế của SK Hynix bắt nguồn từ đặt cược sớm vào HBM và mối quan hệ là nhà cung cấp chính của NVIDIA. Hiện tại, khoảng 90% HBM của NVIDIA đến từ SK Hynix.^[22]^

Nhà cung cấp	Thị phần HBM (Q2 2025)	Khách hàng chính	Tình trạng 2026
SK Hynix	62%	NVIDIA (90%)	Bán hết
Micron	21%	NVIDIA (nguồn thứ hai)	Bán hết
Samsung	17%	AMD, Google	Vấn đề chứng nhận

Vị trí thứ ba của Samsung đại diện cho sự sụp đổ đáng chú ý của một công ty từng thống trị bộ nhớ trong thời gian dài. SK Hynix vượt Samsung về thị phần DRAM tổng thể trong Q1 2025, lần đầu tiên Samsung mất vị trí dẫn đầu.^[23]^ Các sản phẩm HBM3E của Samsung gặp phải sự chậm trễ chứng nhận với các khách hàng lớn, cho phép đối thủ cạnh tranh nắm bắt nhu cầu AI cao cấp trong khi Samsung phục vụ các phân khúc biên lợi nhuận thấp hơn.^[24]^

Điểm Uốn 100 Tỷ USD

Micron dự báo thị trường tiềm năng HBM sẽ đạt khoảng 100 tỷ USD vào năm 2028, tăng từ khoảng 35 tỷ USD năm 2025.^[25]^ Điều này đại diện cho tốc độ tăng trưởng kép hàng năm gần 40%.^[26]^ Cột mốc 100 tỷ USD đến sớm hơn hai năm so với dự báo trước đó; các nhà phân tích ban đầu dự kiến đạt mức này vào năm 2030.^[27]^

Một số yếu tố thúc đẩy sự tăng tốc này. Đầu tiên, triển khai AI tạo sinh tiếp tục vượt kỳ vọng. Mọi hyperscaler lớn đều chạy đua triển khai năng lực suy luận cho các sản phẩm AI của họ trong khi huấn luyện các mô hình thế hệ tiếp theo đòi hỏi cụm GPU ngày càng lớn hơn.^[28]^ Thứ hai, dung lượng HBM trên mỗi GPU tiếp tục tăng. Sự tiến triển từ 80GB của H100 đến 288GB của Rubin có nghĩa là mỗi accelerator tiêu thụ gấp 3,6 lần HBM.^[29]^ Thứ ba, yêu cầu bộ nhớ cấp hệ thống nhân lên nhu cầu GPU riêng lẻ. Blackwell Ultra GB300 của NVIDIA dự kiến trang bị tới 288GB HBM3e, trong khi các biến thể Rubin Ultra nhắm mục tiêu 512GB, với hệ thống NVL576 đầy đủ có khả năng yêu cầu 1TB cho mỗi module GPU.^[30]^

Thị trường bán dẫn trung tâm dữ liệu rộng hơn cung cấp bối cảnh. Năm 2024, tổng thị trường bán dẫn cho trung tâm dữ liệu đạt 209 tỷ USD trên các mảng tính toán, bộ nhớ, mạng, và nguồn điện.^[31]^ Yole Group dự báo con số này sẽ tăng lên gần 500 tỷ USD vào năm 2030.^[32]^ Riêng bộ nhớ đã tăng 78% trong năm 2024 lên 170 tỷ USD, tiếp theo là mức tăng hai chữ số khác lên 200 tỷ USD năm 2025.^[33]^

Kết quả tài chính của Micron cho thấy những động lực này chuyển hóa thành hiệu suất doanh nghiệp như thế nào. Công ty báo cáo doanh thu quý 1 năm tài chính 2026 là 13,64 tỷ USD, tăng 57% so với cùng kỳ năm trước.^[34]^ Biên lợi nhuận gộp tăng trên 50%, gấp đôi từ khoảng 22% trong năm tài chính 2024.^[35]^ Sự mở rộng biên lợi nhuận này phản ánh không phải điều kiện chu kỳ mà là sự chuyển đổi cấu trúc trong danh mục sản phẩm của công ty hướng tới các sản phẩm trung tâm dữ liệu biên lợi nhuận cao.^[36]^

Cuộc Đua HBM4: Stack 16-Hi và Xa Hơn

Cạnh tranh giữa các nhà cung cấp bộ nhớ hiện tập trung vào HBM4, công nghệ thế hệ tiếp theo bắt đầu sản xuất năm 2026. SK Hynix đã hoàn thành phát triển HBM4 đầu tiên trên thế giới và đã hoàn tất chuẩn bị sản xuất hàng loạt.^[37]^ Cả SK Hynix và Samsung đã giao mẫu HBM4 cuối cùng có trả phí cho NVIDIA, báo hiệu bước vào đàm phán cung ứng theo hướng thương mại.^[38]^

HBM4 cung cấp những cải tiến đáng kể so với HBM3e. Tốc độ truyền dữ liệu đạt 11 gigabit mỗi giây với tổng băng thông vượt 2,8 terabyte mỗi giây.^[39]^ Tiêu chuẩn này tích hợp die logic cơ sở được sản xuất bằng các node quy trình tiên tiến, với SK Hynix hợp tác với quy trình 12nm của TSMC.^[40]^ Sự hợp tác này chứng tỏ hấp dẫn với NVIDIA và góp phần giúp SK Hynix đảm bảo vị thế nhà cung cấp chính cho các nền tảng Blackwell Ultra và Rubin.^[41]^

Biên giới kỹ thuật thách thức hơn liên quan đến stack HBM 16 lớp. Theo tin tức, NVIDIA yêu cầu giao hàng HBM 16-Hi vào Q4 2026, kích hoạt cuộc chạy đua phát triển tại cả ba nhà cung cấp.^[42]^ Ahn Ki-hyun, phó chủ tịch điều hành Hiệp hội Công nghiệp Bán dẫn Hàn Quốc, lưu ý rằng "việc chuyển đổi từ 12 lên 16 lớp khó hơn nhiều về mặt kỹ thuật so với từ 8 lên 12."^[43]^

Khó khăn bắt nguồn từ các ràng buộc độ dày wafer. HBM 12-Hi hiện tại sử dụng wafer dày khoảng 50 micromet. Xếp chồng 16 lớp đòi hỏi giảm độ dày xuống khoảng 30 micromet trong khi vẫn duy trì tính toàn vẹn cấu trúc và hiệu suất nhiệt.^[44]^ Các nhà quan sát ngành mô tả những thách thức kỹ thuật là "ghê gớm."^[45]^

Thế hệ	Số lớp	Dung lượng	Băng thông	Sản xuất
HBM3	8-Hi	80GB	3,35 TB/s	2023
HBM3e	12-Hi	141-192GB	4,8-8,0 TB/s	2024-2025
HBM4	12-Hi	288GB	11+ TB/s	Nửa sau 2026
HBM4E	16-Hi	512GB+	15+ TB/s	Cuối 2026-2027

Samsung và SK Hynix đẩy lịch sản xuất HBM4 lên tháng 2/2026, tăng tốc so với các mốc thời gian trước đó.^[46]^ Micron dự kiến bắt đầu sản xuất hàng loạt HBM4 năm 2026, tiếp theo là HBM4E vào 2027-2028.^[47]^ Các biến thể 16-Hi, có khả năng được gắn nhãn HBM4E, có thể ra mắt sớm nhất vào cuối năm 2026 tùy thuộc vào cải thiện tỷ lệ sản phẩm đạt chuẩn.^[48]^

Thiệt Hại Ngoài Ý Muốn Của Gaming

Tác động tiêu dùng rõ ràng nhất của siêu chu kỳ bộ nhớ: NVIDIA lên kế hoạch cắt giảm sản xuất GPU dòng RTX 50 từ 30-40% trong nửa đầu 2026 do thiếu hụt GDDR7.^[49]^ Các nhà cung cấp bộ nhớ ưu tiên phân bổ cho trung tâm dữ liệu AI hơn GPU tiêu dùng, tạo ra hiệu ứng dây chuyền khắp thị trường card đồ họa.^[50]^

Động lực nguồn cung khác với HBM nhưng kết nối thông qua phân bổ năng lực sản xuất. Sản xuất GDDR7 bị hạ ưu tiên để ưu tiên DDR5, đẩy giá bộ nhớ đồ họa tăng cao.^[51]^ Chỉ riêng năm 2025, giá bộ nhớ đã tăng 246%, với mức tăng tiếp tục dự kiến trong suốt năm 2026.^[52]^

Các sản phẩm cụ thể đối mặt với cắt giảm mạnh nhất: GeForce RTX 5070 Ti và RTX 5060 Ti 16GB, cả hai đều trang bị 16GB GDDR7.^[53]^ Chỉ có Samsung sản xuất module GDDR7 3GB với số lượng lớn, và nếu NVIDIA đã tiêu thụ chip 2GB, việc chuyển sang module mật độ cao hơn sẽ giảm tổng VRAM khả dụng cho card đồ họa Blackwell tiêu chuẩn.^[54]^

Dòng RTX 50 Super đối mặt với trì hoãn hoặc khả năng hủy bỏ. Lịch trình ban đầu nhắm mục tiêu đầu năm 2026; dự báo hiện tại gợi ý sớm nhất là Q3 2026.^[55]^ Các module GDDR7 3GB cần thiết cho cấu hình Super đơn giản là không có sẵn với số lượng lớn.^[56]^ Các nhà sản xuất bộ nhớ đang vật lộn để sản xuất đủ chip GDDR7 2GB tiêu chuẩn trong khi đồng thời mở rộng quy mô module 3GB.

Đối với người tiêu dùng, điều này chuyển hóa thành giá cao hơn và thời gian chờ đợi lâu hơn, đặc biệt trong mùa nghỉ lễ cuối năm 2026.^[57]^ Hợp đồng mua bộ nhớ có thời hạn cố định đã giữ giá ổn định năm 2025, nhưng năm 2026 mang đến đàm phán lại ở mức giá spot cao hơn.^[58]^ AMD đối mặt với những ràng buộc tương tự với GDDR6 cho dòng Radeon của họ.^[59]^

Hệ thống phân cấp ưu tiên này phản ánh thực tế kinh tế. HBM cho GPU trung tâm dữ liệu có biên lợi nhuận vượt xa bộ nhớ đồ họa tiêu dùng. Khi các ràng buộc năng lực buộc phải đưa ra quyết định phân bổ, các nhà cung cấp hợp lý phục vụ khách hàng biên lợi nhuận cao hơn trước. Gaming đại diện cho thiệt hại ngoài ý muốn

[Nội dung bị cắt bớt để dịch]

Siêu Chu Kỳ Bộ Nhớ AI: HBM Trở Thành Nút Thắt Cổ Chai Quan Trọng Nhất Của AI Như Thế Nào

TL;DR

Yêu Cầu Kỹ Thuật: Tại Sao AI Cần HBM

Lợi Thế Độc Quyền Nhóm: Ba Người Chơi Kiểm Soát 95%

Điểm Uốn 100 Tỷ USD

Cuộc Đua HBM4: Stack 16-Hi và Xa Hơn

Thiệt Hại Ngoài Ý Muốn Của Gaming

You Might Also Like

Trump mở xuất khẩu H200 sang Trung Quốc với phụ phí 25%

DeepSeek mHC: Giải Pháp Kiến Trúc Có Thể Mở Khóa Các Mô Hình...

Trump cho phép Nvidia bán chip H200 cho Trung Quốc với mức c...

Yêu cầu báo giá_

Đã Nhận Yêu cầu_