Bảo mật GPU đa người thuê: chiến lược cô lập cho hạ tầng dùng chung
Cập nhật ngày 11 tháng 12 năm 2025
Cập nhật tháng 12 năm 2025: 90% tổ chức triển khai AI, chỉ 5% tự tin về mức độ sẵn sàng bảo mật. 97% tổ chức bị xâm phạm thiếu kiểm soát truy cập AI phù hợp. NVIDIA công bố bảy lỗ hổng bảo mật (ngày 27 tháng 1 năm 2025) bao gồm CVE-2025-23266 cho phép truy cập root thông qua việc vượt qua Container Toolkit. Thị trường bảo mật hạ tầng AI tại Hoa Kỳ đạt 2,99 tỷ USD (CAGR 22,8%).
Chín mươi phần trăm tổ chức triển khai hệ thống AI, nhưng chỉ 5% tự tin về mức độ sẵn sàng bảo mật của họ.¹ Các tổ chức có tự động hóa bảo mật chuyên biệt cho AI đạt được khoản tiết kiệm 1,9 triệu USD cho mỗi vụ xâm phạm và giảm 80 ngày trong vòng đời sự cố.² Trong khi đó, 97% tổ chức bị xâm phạm thiếu kiểm soát truy cập AI phù hợp.³ Khi hạ tầng GPU trở thành nền tảng của AI doanh nghiệp, mô hình bảo mật cho tài nguyên GPU dùng chung quyết định liệu các tổ chức có thể hợp nhất khối lượng công việc một cách an toàn hay phải duy trì phần cứng chuyên dụng tốn kém cho mỗi người thuê.
Thách thức vượt xa bảo mật ảo hóa truyền thống. GPU xử lý dữ liệu nhạy cảm bao gồm trọng số mô hình, dữ liệu huấn luyện và đầu vào suy luận đại diện cho tài sản trí tuệ của tổ chức. Một vụ xâm phạm ở cấp GPU có thể làm lộ "bộ não" của hệ thống AI.⁴ Môi trường GPU đa người thuê tạo ra các bề mặt tấn công khác biệt cơ bản so với ảo hóa dựa trên CPU, đòi hỏi các chiến lược bảo mật được thiết kế riêng cho kiến trúc GPU.
Bối cảnh bảo mật GPU đa người thuê
Vào ngày 27 tháng 1 năm 2025, NVIDIA công bố bảy lỗ hổng bảo mật mới ảnh hưởng đến driver hiển thị GPU và phần mềm GPU ảo.⁵ Những lỗ hổng nghiêm trọng này tác động đến hàng triệu hệ thống từ hạ tầng AI doanh nghiệp đến các nền tảng điện toán đám mây. Lỗ hổng NVIDIA Container Toolkit CVE-2025-23266 cho phép các tác nhân độc hại vượt qua cơ chế cô lập và giành quyền truy cập root vào hệ thống máy chủ.⁶ Việc công bố này làm nổi bật những điểm yếu có tính hệ thống trong ngăn xếp phần mềm GPU mà các tổ chức không thể bỏ qua.
Thị trường bảo mật hạ tầng AI tại Hoa Kỳ đạt 2,99 tỷ USD và mở rộng với tốc độ tăng trưởng kép hàng năm 22,8%.⁷ Các cuộc tấn công sử dụng AI chiếm 16% tổng số vụ xâm phạm trong năm 2025.⁸ Khoản đầu tư phản ánh sự nhận thức ngày càng tăng rằng hạ tầng GPU đòi hỏi sự chú ý bảo mật chuyên biệt vượt ra ngoài các biện pháp bảo vệ trung tâm dữ liệu chung.
Bảo mật GPU khác biệt cơ bản so với bảo mật CPU. GPU tạm thời xử lý dữ liệu cực kỳ nhạy cảm trong quá trình xử lý. Không giống CPU, GPU không phải lúc nào cũng có cơ chế cô lập bộ nhớ mạnh mẽ, đặc biệt trong môi trường đa người thuê.⁹ Nếu bộ nhớ không được xóa đúng cách khi một tiến trình kết thúc, kẻ tấn công có thể truy xuất dữ liệu còn sót lại từ khối lượng công việc của người dùng khác.¹⁰ Kiến trúc dùng chung của GPU hiện đại cho phép các kênh phụ dựa trên tranh chấp mà qua đó kẻ tấn công có thể suy ra thông tin nhạy cảm, làm gián đoạn các khối lượng công việc đặt cùng vị trí, hoặc thiết lập các kênh liên lạc bí mật.¹¹
Cô lập phần cứng với Multi-Instance GPU
Công nghệ Multi-Instance GPU của NVIDIA cung cấp khả năng cô lập ở cấp phần cứng cho phép đa người thuê an toàn trên phần cứng GPU giá trị cao.¹² Bắt đầu từ kiến trúc Ampere, MIG cho phép phân vùng một GPU thành tối đa bảy phiên bản riêng biệt cho các ứng dụng CUDA.¹³ GPU Blackwell và Hopper mở rộng khả năng MIG với cấu hình đa người thuê, đa người dùng trong môi trường ảo hóa, bảo mật mỗi phiên bản bằng điện toán bảo mật ở cấp phần cứng và hypervisor.¹⁴
Kiến trúc này cung cấp sự phân tách phần cứng thực sự. Bộ xử lý của mỗi phân vùng MIG có các đường dẫn riêng biệt và cô lập xuyên suốt toàn bộ hệ thống bộ nhớ.¹⁵ Các cổng crossbar trên chip, các bank cache L2, bộ điều khiển bộ nhớ và bus địa chỉ DRAM được gán duy nhất cho các phiên bản riêng lẻ.¹⁶ Một người thuê không thể đọc hoặc ghi đè lên bộ nhớ GPU của người thuê khác. Cô lập lỗi ngăn mã bị lỗi của một người dùng ảnh hưởng đến toàn bộ GPU hoặc tác động đến người khác.¹⁷
MIG hỗ trợ hệ điều hành Linux, khối lượng công việc container sử dụng Docker Engine, điều phối với Kubernetes, và môi trường ảo hóa thông qua các hypervisor bao gồm Red Hat Virtualization và VMware vSphere.¹⁸ Hỗ trợ nền tảng rộng rãi cho phép các tổ chức triển khai cô lập GPU trong hạ tầng hiện có mà không cần thay đổi kiến trúc toàn diện.
Hạn chế của MIG nằm ở độ chi tiết. Phân vùng 7 chiều đại diện cho sự phân chia tối đa trên phần cứng hiện tại. Các tổ chức yêu cầu chia sẻ chi tiết hơn hoặc hỗ trợ các thế hệ GPU cũ hơn phải xem xét các phương pháp thay thế.
Các phương án vGPU và chia sẻ thời gian
Phần mềm GPU ảo của NVIDIA cho phép nhiều máy ảo với bảo vệ đơn vị quản lý bộ nhớ vào/ra đầy đủ truy cập đồng thời vào một GPU vật lý.¹⁹ Ngoài bảo mật, vGPU cho phép quản lý VM với di chuyển trực tiếp và khả năng chạy các khối lượng công việc VDI và điện toán hỗn hợp.²⁰ Hypervisor ảo hóa GPU và gán các phần cho nhiều VM, với mỗi VM nhận thức một phần ảo hóa của GPU cho các khối lượng công việc của nó.
Chia sẻ thời gian cung cấp một mô hình chia sẻ khác. Quản trị viên hệ thống xác định một tập hợp các bản sao cho GPU, mỗi bản sao có thể được phân phát độc lập cho một pod chạy khối lượng công việc trong Kubernetes.²¹ Không giống MIG, chia sẻ thời gian không cung cấp cô lập bộ nhớ hoặc lỗi giữa các bản sao.²² Nếu một tác vụ bị lỗi hoặc hoạt động bất thường, nó có thể ảnh hưởng đến những tác vụ khác đang chia sẻ GPU.²³ Sự đánh đổi thiên về truy cập hơn cô lập: chia sẻ thời gian cho phép chia sẻ bởi số lượng người dùng lớn hơn và cung cấp quyền truy cập cho các thế hệ GPU cũ hơn không hỗ trợ MIG.²⁴
Các hệ quả bảo mật đòi hỏi sự hiểu biết rõ ràng. Chia sẻ thời gian phù hợp cho môi trường phát triển, thử nghiệm, và các khối lượng công việc mà người thuê tin tưởng lẫn nhau hoặc khi độ nhạy cảm dữ liệu không đảm bảo cô lập phần cứng. Các triển khai sản xuất với yêu cầu bảo mật đa người thuê nên ưu tiên MIG hoặc GPU chuyên dụng hơn chia sẻ thời gian.
Các phương pháp kết hợp kết hợp cả hai công nghệ. Các tổ chức có thể phân vùng GPU thành các phiên bản MIG đảm bảo cô lập nhóm, sau đó chạy bộ lập lịch chia sẻ thời gian trong mỗi phiên bản.²⁵ Trong các cluster Kubernetes, việc phân bổ một phần MIG cho mỗi namespace và chia sẻ thời gian các công việc trong mỗi phần cân bằng bảo mật với hiệu quả chi phí.²⁶
Điện toán bảo mật trên GPU
GPU NVIDIA H100 Tensor Core giới thiệu điện toán bảo mật cho GPU, sử dụng môi trường thực thi đáng tin cậy dựa trên phần cứng được neo trong gốc tin cậy phần cứng trên chip.²⁷ Trước H100, các tính năng điện toán bảo mật chỉ tồn tại trong CPU từ AMD và Intel.²⁸ H100 cung cấp bảo vệ dữ liệu cho các khối lượng công việc huấn luyện và suy luận AI liên quan đến thông tin nhạy cảm.²⁹
Kiến trúc kỹ thuật xây dựng trên khả năng máy ảo bảo mật của CPU. Giải pháp GPU dựa vào môi trường thực thi đáng tin cậy VM bảo mật được kích hoạt bởi AMD SEV-SNP hoặc Intel TDX trên CPU.³⁰ Tường lửa PCIe chặn truy cập CPU vào hầu hết các thanh ghi và tất cả bộ nhớ được bảo vệ của GPU. Tường lửa NVLink chặn truy cập GPU ngang hàng vào bộ nhớ được bảo vệ.³¹ Giao tiếp giữa CVM và GPU sử dụng mã hóa AES-GCM với khóa phiên để bảo vệ chống lại hệ thống máy chủ.³²
Động cơ DMA của H100 hỗ trợ mã hóa AES GCM 256 cho việc truyền dữ liệu giữa CPU và GPU.³³ GPU ở chế độ điện toán bảo mật chặn truy cập trực tiếp vào bộ nhớ nội bộ và vô hiệu hóa bộ đếm hiệu suất có thể cho phép các cuộc tấn công kênh phụ.³⁴ Kiến trúc phát triển từ các tính năng bảo mật trước đó: xác thực AES trên firmware từ Volta, firmware mã hóa và thu hồi từ Turing và Ampere, và giờ là khởi động đo lường và chứng thực đầy đủ với gốc tin cậy phần cứng trong Hopper.³⁵
Microsoft Azure cung cấp VM bảo mật với GPU NVIDIA H100 ở chế độ xem trước, cho phép huấn luyện, tinh chỉnh và phục vụ các mô hình như Stable Diffusion và mô hình ngôn ngữ lớn với các biện pháp bảo vệ điện toán bảo mật.³⁶ Kiến trúc Blackwell nâng cao AI bảo mật hơn nữa với hiệu suất gần như giống hệt dù chạy mô hình mã hóa hay không mã hóa, ngay cả đối với LLM.³⁷
Cân nhắc bảo mật GPU trong Kubernetes
Cô lập namespace trong Kubernetes không cung cấp đủ bảo mật cho lập lịch GPU đa người thuê.³⁸ Các tổ chức chạy khối lượng công việc AI trên Kubernetes bare metal với GPU phải triển khai các kiểm soát bổ sung. NVIDIA GPU Operator cho phép cấu hình chia sẻ thời gian và MIG, nhưng bảo mật phụ thuộc vào cấu hình và tăng cường đúng cách.
Bản tin bảo mật NVIDIA Container Toolkit tháng 9 năm 2024 thúc đẩy nâng cấp khẩn cấp. Các tổ chức nên chạy Container Toolkit v1.16.2 hoặc cao hơn, hoặc GPU Operator v24.6.2 hoặc cao hơn.³⁹ Các lỗ hổng cho thấy rằng các cuộc tấn công thoát container có thể làm tổn hại cô lập GPU ngay cả khi được cấu hình đúng ở các cấp cao hơn.
Các giải pháp bên thứ ba giải quyết các khoảng trống trong quản lý GPU Kubernetes gốc. Volcano cung cấp bộ lập lịch hàng loạt cloud-native với kiểm soát chi tiết về ưu tiên và công bằng cho các khối lượng công việc hiệu suất cao.⁴⁰ Run:ai, hiện là một phần của NVIDIA, quản lý và tối ưu hóa tài nguyên GPU cho khối lượng công việc AI với các tính năng được thiết kế cho môi trường đa người thuê.⁴¹ vCluster Labs công bố Nền tảng Thuê Hạ tầng cho AI tại KubeCon North America 2025, cung cấp nền tảng Kubernetes-native cho hạ tầng GPU NVIDIA.⁴²
Các tổ chức sử dụng vCluster báo cáo cải thiện 40% trong sử dụng GPU và giảm 60% chi phí hạ tầng thông qua điều phối đa người thuê động.⁴³ Lợi ích hiệu quả cho thấy rằng các kiến trúc đa người thuê phù hợp có thể cải thiện cả bảo mật và kinh tế so với phân bổ GPU chuyên dụng.
Tấn công kênh phụ và các mối đe dọa mới nổi
Tấn công bộ nhớ GPU khai thác kiến trúc dùng chung trong môi trường đa người thuê để xâm phạm tính bảo mật dữ liệu và làm suy giảm hiệu suất.⁴⁴ Kẻ tấn công sử dụng kênh phụ dựa trên tranh chấp có thể suy ra thông tin nhạy cảm từ các khối lượng công việc đặt cùng vị trí.⁴⁵ Tấn công Bộ nhớ GPU nhắm vào bộ nhớ dùng chung để tạo điều kiện rò rỉ thông tin và kênh bí mật giữa người thuê.⁴⁶
Cuộc tấn công phần cứng Rowhammer, trước đây được biết là ảnh hưởng đến bộ nhớ CPU, làm tổn hại GPU với bộ nhớ GDDR và gây mất độ chính xác mô hình AI nghiêm trọng.⁴⁷ Cuộc tấn công khai thác tính song song GPU để gây ra lật bit, đặt ra rủi ro đặc biệt trong môi trường đám mây nơi kẻ tấn công có thể đặt cùng vị trí với khối lượng công việc mục tiêu.⁴⁸
Rủi ro chính trong môi trường GPU ảo hóa vẫn là tấn công xuyên máy ảo.⁴⁹ Nhiều người thuê chạy khối lượng công việc trên cùng một GPU vật lý tạo cơ hội cho các lỗ hổng cơ chế cô lập cho phép theo dõi. Điều này phá vỡ căn bản mô hình bảo mật đám mây và đặt ra rủi ro nghiêm trọng cho tính bảo mật dữ liệu.⁵⁰
Các chiến lược giảm thiểu bao gồm cô lập khối lượng công việc mạnh mẽ tránh chạy các khối lượng công việc nhạy cảm và không nhạy cảm trên cùng GPU, phân vùng cache để giảm tiếp xúc cache dùng chung, và lập lịch ngẫu nhiên để làm phức tạp các cuộc tấn công dựa trên thời gian.⁵¹ Công nghệ ảo hóa I/O gốc đơn hoặc công nghệ ảo hóa tăng cường bảo mật tương tự cung cấp bảo vệ bổ sung.⁵² GPU bảo mật đại diện cho biên giới tiếp theo, mở rộng các biện pháp bảo vệ giống TEE cho bộ nhớ và luồng thực thi GPU.⁵³
Thực hành bảo mật tốt nhất cho doanh nghiệp
Các tổ chức triển khai hạ tầng GPU dùng chung nên triển khai các kiểm soát bảo mật phù hợp với khả năng chấp nhận rủi ro và yêu cầu quy định của họ.
Đối với các khối lượng công việc nhạy cảm, các tùy chọn đơn người thuê nơi GPU không được chia sẻ giảm rủi ro tấn công kênh phụ và phù hợp với yêu cầu tuân thủ.⁵⁴ Một số chứng nhận yêu cầu phần cứng chuyên dụng cho các loại dữ liệu nhất định.⁵⁵ Phí cao cho GPU chuyên dụng có thể được biện minh bởi các yêu cầu bảo mật.
Bảo mật driver và firmware yêu cầu cập nhật nhất quán với các bản vá bảo mật mới nhất.⁵⁶ NVIDIA khuyến nghị cập nhật firmware hàng quý và xác thực driver trong các cửa sổ bảo trì theo lịch.⁵⁷ Việc công bố lỗ hổng tháng 1 năm 2025 cho thấy tầm quan trọng của việc vá lỗi kịp thời.
Vệ sinh bộ nhớ giữa các phiên ngăn rò rỉ dữ liệu. Xóa bộ nhớ GPU giữa các phiên loại bỏ một lớp lớn các cuộc tấn công với tác động hiệu suất tối thiểu