GPU Memory Pooling và Sharing: Tối Đa Hóa Hiệu Suất Sử Dụng Trong Các Cụm Multi-Tenant

Biến đổi tài nguyên GPU đắt tiền thành các pool linh hoạt phục vụ nhiều workload với mức tiết kiệm chi phí lên đến 90%.

Blake Crosley

Jan 17, 2026 12 min read Disclaimer

GPU Memory Pooling và Sharing: Tối Đa Hóa Hiệu Suất Sử Dụng Trong Các Cụm Multi-Tenant

Cập nhật ngày 11 tháng 12, 2025

Cập nhật tháng 12/2025: Hơn 75% tổ chức báo cáo hiệu suất sử dụng GPU dưới 70% ở thời điểm tải cao nhất. GPT-4 được huấn luyện trên 25.000 A100 với hiệu suất sử dụng trung bình chỉ 32-36%. NVIDIA MIG cho phép tạo tối đa 7 instance cô lập trên mỗi A100/H100. Time-slicing mang lại mức tiết kiệm chi phí lên đến 90% bằng cách chạy 10 inference job trên một GPU duy nhất. MIG cung cấp cô lập bộ nhớ ở cấp phần cứng cho bảo mật multi-tenant.

Công nghệ Multi-Instance GPU (MIG) của NVIDIA phân chia một GPU A100 hoặc H100 đơn lẻ thành tối đa bảy instance cô lập, mỗi instance có bộ nhớ băng thông cao, cache và lõi tính toán riêng biệt.[^1] Khả năng này biến đổi các accelerator đắt tiền từ tài nguyên nguyên khối thành các pool linh hoạt phục vụ nhiều workload đồng thời. Hãy xem xét một kịch bản phổ biến: một đội ML chạy 10 inference job, mỗi job chỉ cần một phần nhỏ của GPU A100 mạnh mẽ. Nếu không có sharing hiệu quả, họ có thể phải cấp phát 10 GPU A100 riêng biệt, dẫn đến chi tiêu quá mức lớn. GPU time-slicing có thể chạy 10 job này trên một GPU A100 duy nhất, mang lại mức tiết kiệm chi phí lên đến 90% cho hạ tầng GPU.[^2]

Mặc dù có những khoản đầu tư chưa từng có vào GPU, hầu hết các doanh nghiệp không sử dụng chúng hiệu quả. Theo báo cáo State of AI Infrastructure at Scale 2024, hơn 75% tổ chức báo cáo hiệu suất sử dụng GPU dưới 70% ở thời điểm tải cao nhất, có nghĩa là phần lớn một trong những tài nguyên doanh nghiệp có giá trị nhất nằm không hoạt động.[^3] Khi GPT-4 được huấn luyện trên 25.000 A100, hiệu suất sử dụng trung bình chỉ dao động ở mức 32-36%, và các kiểm toán học thuật báo cáo mức sử dụng GPU dao động từ 20% đến 80%.[^4] Các công nghệ memory pooling và sharing giải quyết khoảng cách hiệu suất sử dụng bằng cách cho phép nhiều workload chia sẻ tài nguyên GPU hiệu quả.

GPU sharing bao gồm nhiều công nghệ với các đánh đổi khác nhau giữa cô lập, overhead và tính linh hoạt.

Multi-Instance GPU (MIG)

MIG cung cấp phân vùng được hỗ trợ bởi phần cứng, tạo ra các GPU instance cô lập với tài nguyên được đảm bảo.[^5] Mỗi phân vùng nhận bộ nhớ và dung lượng tính toán riêng biệt mà các phân vùng khác không thể truy cập. Sự cô lập này đảm bảo chất lượng dịch vụ (QoS) trong khi mở rộng tài nguyên tính toán tăng tốc cho tất cả người dùng.

Một GPU NVIDIA A100 chứa 7 compute slice và 8 memory slice mà các phân vùng MIG phân bổ.[^6] Quá trình phân vùng xác định cách chia các tài nguyên này giữa các instance. Các cấu hình phổ biến bao gồm 7 instance 1g.5gb (1 compute slice, 5GB bộ nhớ) hoặc ít instance lớn hơn cho các workload đòi hỏi nhiều bộ nhớ.

Chiến lược MIG mixed cung cấp tính linh hoạt và hiệu quả cao nhất trong phân vùng tài nguyên. Các quản trị viên cluster có thể tận dụng mọi compute và memory slice để phù hợp với yêu cầu workload thực tế.[^7] Chiến lược mixed đại diện cho trường hợp sử dụng MIG phổ biến nhất trong môi trường production nơi các workload có nhu cầu tài nguyên khác nhau.

Time-slicing

Time-slicing chia sẻ GPU giữa nhiều process bằng cách chuyển đổi nhanh giữa chúng, tương tự như cách CPU chia sẻ thời gian giữa các process.[^8] Mỗi process nhận thấy quyền truy cập GPU độc quyền trong khi thực tế đang chia sẻ chu kỳ với các workload khác. Phương pháp này hoạt động trên các thế hệ GPU cũ hơn không có hỗ trợ MIG.

Time-slicing đánh đổi cô lập bộ nhớ và lỗi để có khả năng sharing rộng hơn.[^8] Lỗi bộ nhớ hoặc crash trong một process time-sliced có thể ảnh hưởng đến các process khác đang chia sẻ cùng GPU. Sự cô lập giảm này phù hợp với môi trường phát triển và các workload không quan trọng hơn là serving inference production.

Các tổ chức có thể kết hợp MIG và time-slicing, áp dụng time-slicing trong các phân vùng MIG để sharing chi tiết hơn.[^8] Sự kết hợp này cho phép các kịch bản trong đó MIG cung cấp cô lập giữa các tenant trong khi time-slicing tối đa hóa hiệu suất sử dụng trong phân vùng của mỗi tenant.

Virtual GPU (vGPU)

Công nghệ vGPU cung cấp quyền truy cập GPU ảo hóa với cô lập được thực thi bằng phần mềm.[^9] Ảo hóa cho phép sharing trên các máy ảo thay vì chỉ container, hỗ trợ hạ tầng ảo hóa doanh nghiệp truyền thống. vGPU yêu cầu cấp phép và hỗ trợ driver mà các phương pháp container-native tránh được.

Các công nghệ ảo hóa và pooling GPU đã trở thành phương tiện hiệu quả để nâng cao hiệu suất sử dụng tài nguyên, giảm chi phí và đáp ứng nhu cầu multi-tenant.[^9] vGPU, MIG và time-slicing mỗi loại phù hợp với các kịch bản khác nhau dựa trên yêu cầu cô lập, khả năng phần cứng và kiến trúc hạ tầng.

Tích hợp Kubernetes

Kubernetes đã trở thành nền tảng thống trị cho orchestration workload GPU, với hỗ trợ GPU sharing native đang trưởng thành nhanh chóng.

NVIDIA GPU Operator

NVIDIA GPU Operator tự động hóa cài đặt driver GPU, triển khai device plugin và monitoring trên các cụm Kubernetes.[^10] Operator này đơn giản hóa quản lý vòng đời GPU, đảm bảo tính khả dụng GPU nhất quán mà không cần cấu hình thủ công trên mỗi node.

Cấu hình MIG thông qua GPU Operator cho phép quản lý phân vùng khai báo. Quản trị viên chỉ định các cấu hình MIG mong muốn, và operator tự động tạo và duy trì các phân vùng. Tự động hóa này ngăn ngừa configuration drift và đơn giản hóa vận hành cluster.

Cấu hình device plugin

Kubernetes device plugin expose tài nguyên GPU cho scheduler. Cấu hình tiêu chuẩn trình bày mỗi GPU như một tài nguyên rời rạc. MIG-aware device plugin expose các MIG instance riêng lẻ như tài nguyên có thể schedule, cho phép đặt pod trên các phân vùng cụ thể.[^11]

Lựa chọn strategy xác định cách device plugin trình bày các thiết bị MIG. Single strategy expose một thiết bị cho mỗi GPU bất kể phân vùng. Mixed strategy expose tất cả MIG instance độc lập, cho phép tính linh hoạt tối đa.[^7] Các triển khai production thường sử dụng mixed strategy vì hiệu quả tài nguyên của nó.

Resource quota và limit

Kubernetes ResourceQuota giới hạn tiêu thụ GPU theo namespace, cho phép sharing công bằng giữa các team.[^12] Các tổ chức đặt quota dựa trên ngân sách team, ưu tiên dự án hoặc mô hình lập kế hoạch dung lượng. Việc thực thi quota ngăn bất kỳ team đơn lẻ nào độc chiếm tài nguyên GPU của cluster.

LimitRange đặt request GPU mặc định và tối đa cho mỗi pod. Các mặc định đảm bảo các pod không có request GPU rõ ràng vẫn nhận được tài nguyên phù hợp. Các giới hạn tối đa ngăn các pod riêng lẻ yêu cầu phân bổ GPU quá mức khiến các workload khác không thể schedule.

Kiến trúc memory pooling

Ngoài sharing GPU đơn lẻ, memory pooling mở rộng tài nguyên trên nhiều GPU và node.

Unified memory và NVLink

NVIDIA Unified Memory cung cấp một không gian địa chỉ duy nhất trải dài bộ nhớ CPU và GPU.[^13] Các ứng dụng truy cập bộ nhớ mà không cần quản lý rõ ràng việc truyền dữ liệu giữa các thiết bị. Runtime tự động xử lý di chuyển dữ liệu dựa trên mẫu truy cập.

NVLink interconnect cho phép truy cập bộ nhớ băng thông cao trên nhiều GPU. Memory pooling trên các GPU kết nối NVLink mở rộng dung lượng bộ nhớ hiệu quả vượt quá giới hạn GPU đơn lẻ. Các model lớn vượt quá dung lượng bộ nhớ GPU đơn lẻ có thể thực thi sử dụng bộ nhớ pooled từ nhiều GPU.

CXL memory pooling

Compute Express Link (CXL) cho phép memory pooling trên PCIe fabric.[^14] Bộ nhớ CXL xuất hiện như các tầng bộ nhớ bổ sung có thể truy cập bởi cả CPU và accelerator. Công nghệ này cho phép mở rộng dung lượng bộ nhớ mà không cần nâng cấp GPU.

CXL memory pooling cho AI workload vẫn còn đang phát triển nhưng mang lại các con đường mở rộng dung lượng đầy hứa hẹn. Các tổ chức lập kế hoạch hạ tầng GPU nên xem xét khả năng tương thích CXL cho các tùy chọn memory pooling trong tương lai.

Quản lý bộ nhớ phần mềm

Các framework như DeepSpeed và Megatron-LM triển khai tối ưu hóa bộ nhớ dựa trên phần mềm thông qua các kỹ thuật bao gồm offloading, activation checkpointing và memory-efficient attention.[^15] Các phương pháp này giảm yêu cầu bộ nhớ, cho phép các model lớn hơn trên phần cứng nhất định hoặc sharing tốt hơn bộ nhớ có sẵn.

vLLM và các framework inference tương tự triển khai PagedAttention và continuous batching để cải thiện hiệu suất sử dụng bộ nhớ trong inference.[^16] Các tối ưu hóa bộ nhớ cho phép phục vụ nhiều request đồng thời hơn trên cùng phần cứng GPU, cải thiện hiệu suất sử dụng hiệu quả.

Các cân nhắc multi-tenant

GPU sharing multi-tenant đưa ra các thách thức vượt ra ngoài quản lý tài nguyên single-tenant.

Yêu cầu cô lập

Các tenant khác nhau yêu cầu các mức cô lập khác nhau. Môi trường phát triển có thể chấp nhận tài nguyên shared với cô lập tối thiểu. Inference production yêu cầu đảm bảo mạnh hơn rằng các workload lân cận không thể ảnh hưởng đến hiệu suất hoặc độ tin cậy.

MIG cung cấp cô lập được hỗ trợ bởi phần cứng phù hợp cho các workload production multi-tenant.[^1] Cô lập bộ nhớ ngăn một tenant truy cập dữ liệu của tenant khác. Cô lập tính toán đảm bảo dung lượng xử lý riêng biệt bất kể hoạt động của tenant lân cận.

Chất lượng dịch vụ

Các cụm multi-tenant yêu cầu cơ chế QoS đảm bảo phân bổ tài nguyên công bằng trong điều kiện tranh chấp.[^17] Nếu không có thực thi QoS, các workload tích cực có thể làm các tenant lân cận thiếu chu kỳ GPU. Admission control và scheduling policy duy trì sự công bằng giữa các tenant.

Priority class cho phép phân biệt giữa các workload với các yêu cầu mức dịch vụ khác nhau. Batch training job có thể chấp nhận preemption trong khi inference workload yêu cầu tài nguyên được đảm bảo. Hệ thống priority cho phép sử dụng tài nguyên hiệu quả trong khi bảo vệ các workload quan trọng.

Chargeback và accounting

Các cụm multi-tenant cần usage accounting để phân bổ chi phí giữa các team hoặc khách hàng. GPU utilization metric cho phép các mô hình chargeback dựa trên tiêu thụ. Accounting đảm bảo các team chịu chi phí tương ứng với tiêu thụ tài nguyên thực tế của họ.

Độ chi tiết của metering ảnh hưởng đến độ chính xác của chargeback. Metering cấp GPU tính thiếu khi time-slicing multiplex nhiều workload. MIG-aware metering gán tiêu thụ cho các instance cụ thể, cải thiện độ chính xác cho GPU shared.

Hướng dẫn triển khai

Các tổ chức triển khai GPU sharing nên tuân theo các phương pháp có cấu trúc cân bằng lợi ích hiệu suất sử dụng với độ phức tạp vận hành.

Đánh giá và lập kế hoạch

Đặc tả workload xác định cơ hội sharing. Các workload memory-bound hưởng lợi từ phân vùng MIG phù hợp với yêu cầu của họ. Các workload compute-bound có thể đạt hiệu suất sử dụng tốt hơn thông qua time-slicing. Phân tích này hướng dẫn lựa chọn công nghệ.

Đo lường baseline hiệu suất sử dụng thiết lập tiềm năng cải thiện. Các tổ chức với baseline hiệu suất sử dụng cao sẽ thấy lợi ích nhỏ hơn từ sharing so với những tổ chức có dung lượng không hoạt động đáng kể. Việc đo lường này biện minh cho đầu tư vào hạ tầng sharing.

Triển khai từng bước

Bắt đầu sharing trong môi trường phát triển nơi yêu cầu cô lập thấp nhất. Các team làm quen với cơ chế sharing mà không gây rủi ro cho workload production. Kinh nghiệm này định hướng quyết định triển khai production.

Mở rộng sang batch training workload tiếp theo. Training job thường chịu được hiệu suất biến đổi tốt hơn inference nhạy cảm với độ trễ. Việc mở rộng batch workload xây dựng sự tự tin vận hành.

Triển khai inference sharing cuối cùng, với sự chú ý cẩn thận đến monitoring độ trễ. Inference workload có yêu cầu hiệu suất nghiêm ngặt nhất. Validation production nên xác nhận sharing không vi phạm SLA độ trễ trước khi triển khai rộng rãi.

Hỗ trợ chuyên nghiệp

Triển khai GPU sharing đòi hỏi chuyên môn trải dài Kubernetes, phần mềm NVIDIA và tối ưu hóa workload. Hầu hết các tổ chức được hưởng lợi từ hỗ trợ chuyên nghiệp tăng tốc triển khai và tránh các cạm bẫy phổ biến.

550 kỹ sư thực địa của Introl hỗ trợ các tổ chức triển khai GPU sharing và hạ tầng resource pooling.[^18] Công ty xếp hạng #14 trên Inc. 5000 năm 2025 với mức tăng trưởng 9.594% trong ba năm, phản ánh nhu cầu về dịch vụ hạ tầng chuyên nghiệp.[^19]

Các cụm multi-tenant trên 257 địa điểm toàn cầu yêu cầu các phương pháp sharing nhất quán bất kể địa lý.[^20] Introl quản

[Nội dung bị cắt ngắn để dịch]