การรวมกลุ่มและแชร์หน่วยความจำ GPU: เพิ่มประสิทธิภาพการใช้งานสูงสุดในคลัสเตอร์แบบหลายผู้เช่า
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: กว่า 75% ขององค์กรรายงานว่าการใช้งาน GPU ต่ำกว่า 70% แม้ในช่วงโหลดสูงสุด GPT-4 ถูกเทรนบน A100 จำนวน 25,000 ตัว โดยมีอัตราการใช้งานเฉลี่ยเพียง 32-36% NVIDIA MIG สามารถสร้างได้ถึง 7 อินสแตนซ์แยกต่างหากต่อ A100/H100 หนึ่งตัว Time-slicing ช่วยประหยัดต้นทุนได้ถึง 90% โดยรัน 10 งาน inference บน GPU ตัวเดียว MIG ให้การแยกหน่วยความจำระดับฮาร์ดแวร์สำหรับความปลอดภัยแบบหลายผู้เช่า
เทคโนโลยี Multi-Instance GPU (MIG) ของ NVIDIA แบ่งพาร์ติชัน GPU A100 หรือ H100 ตัวเดียวออกเป็นอินสแตนซ์แยกกันได้ถึง 7 ตัว แต่ละตัวมีหน่วยความจำแบนด์วิดท์สูง แคช และคอร์ประมวลผลเฉพาะของตัวเอง[^1] ความสามารถนี้เปลี่ยนตัวเร่งราคาแพงจากทรัพยากรแบบเบ็ดเสร็จเป็นพูลที่ยืดหยุ่นรองรับหลายเวิร์กโหลดพร้อมกัน ลองพิจารณาสถานการณ์ทั่วไป: ทีม ML รัน 10 งาน inference แต่ละงานต้องการเพียงเศษเสี้ยวของ GPU A100 ตัวแรง หากไม่มีการแชร์ที่มีประสิทธิภาพ พวกเขาอาจต้องจัดหา A100 แยก 10 ตัว นำไปสู่การใช้จ่ายเกินความจำเป็นมหาศาล GPU time-slicing สามารถรัน 10 งานนี้บน A100 ตัวเดียว ประหยัดต้นทุนโครงสร้างพื้นฐาน GPU ได้ถึง 90%[^2]
แม้จะมีการลงทุนใน GPU อย่างที่ไม่เคยมีมาก่อน องค์กรส่วนใหญ่ยังใช้งานได้ไม่เต็มประสิทธิภาพ ตามรายงาน State of AI Infrastructure at Scale 2024 กว่า 75% ขององค์กรรายงานว่าการใช้งาน GPU ต่ำกว่า 70% แม้ในช่วงโหลดสูงสุด หมายความว่าทรัพยากรล้ำค่าที่สุดขององค์กรส่วนใหญ่อยู่เฉยๆ[^3] เมื่อ GPT-4 ถูกเทรนบน A100 จำนวน 25,000 ตัว อัตราการใช้งานเฉลี่ยอยู่ที่เพียง 32-36% และการตรวจสอบจากสถาบันการศึกษารายงานว่าการใช้งาน GPU แกว่งตั้งแต่ 20% ถึง 80%[^4] เทคโนโลยีการรวมกลุ่มและแชร์หน่วยความจำแก้ไขช่องว่างการใช้งานนี้โดยให้หลายเวิร์กโหลดแชร์ทรัพยากร GPU ได้อย่างมีประสิทธิภาพ
ทำความเข้าใจกลยุทธ์การแชร์ GPU
การแชร์ GPU ครอบคลุมหลายเทคโนโลยีที่มีการแลกเปลี่ยนระหว่างการแยก โอเวอร์เฮด และความยืดหยุ่นที่แตกต่างกัน
Multi-Instance GPU (MIG)
MIG ให้การแบ่งพาร์ติชันด้วยการสนับสนุนฮาร์ดแวร์ สร้างอินสแตนซ์ GPU แยกกันพร้อมทรัพยากรที่รับประกัน[^5] แต่ละพาร์ติชันได้รับหน่วยความจำและความจุประมวลผลเฉพาะที่พาร์ติชันอื่นไม่สามารถเข้าถึงได้ การแยกนี้รับประกันคุณภาพบริการ (QoS) พร้อมขยายทรัพยากรการประมวลผลแบบเร่งให้ผู้ใช้ทุกคน
GPU NVIDIA A100 ประกอบด้วย 7 สไลซ์ประมวลผลและ 8 สไลซ์หน่วยความจำที่พาร์ติชัน MIG จัดสรร[^6] กระบวนการแบ่งพาร์ติชันกำหนดวิธีแบ่งทรัพยากรเหล่านี้ระหว่างอินสแตนซ์ การกำหนดค่าทั่วไปรวมถึง 7 อินสแตนซ์ของ 1g.5gb (1 สไลซ์ประมวลผล หน่วยความจำ 5GB) หรืออินสแตนซ์ขนาดใหญ่กว่าจำนวนน้อยกว่าสำหรับเวิร์กโหลดที่ใช้หน่วยความจำเข้มข้น
กลยุทธ์ MIG แบบผสมให้ความยืดหยุ่นและประสิทธิภาพสูงสุดในการแบ่งทรัพยากร ผู้ดูแลระบบคลัสเตอร์สามารถใช้ประโยชน์จากสไลซ์ประมวลผลและหน่วยความจำทุกตัวเพื่อให้ตรงกับความต้องการเวิร์กโหลดจริง[^7] กลยุทธ์แบบผสมเป็นกรณีใช้งาน MIG ยอดนิยมที่สุดในสภาพแวดล้อมการผลิตที่เวิร์กโหลดมีความต้องการทรัพยากรแตกต่างกัน
Time-slicing
Time-slicing แชร์ GPU ระหว่างหลายโปรเซสโดยสลับระหว่างกันอย่างรวดเร็ว คล้ายกับวิธีที่ CPU แชร์เวลาระหว่างโปรเซส[^8] แต่ละโปรเซสรับรู้ว่าตนเข้าถึง GPU เพียงผู้เดียว ขณะที่จริงๆ แชร์รอบกับเวิร์กโหลดอื่น วิธีนี้ใช้ได้กับ GPU รุ่นเก่าที่ไม่รองรับ MIG
Time-slicing แลกการแยกหน่วยความจำและความผิดพลาดเพื่อความสามารถในการแชร์ที่กว้างขึ้น[^8] ข้อผิดพลาดหน่วยความจำหรือการล่มในโปรเซส time-sliced หนึ่งอาจส่งผลกระทบต่อโปรเซสอื่นที่แชร์ GPU เดียวกัน การแยกที่ลดลงเหมาะกับสภาพแวดล้อมการพัฒนาและเวิร์กโหลดที่ไม่วิกฤตมากกว่าการให้บริการ inference ในการผลิต
องค์กรสามารถรวม MIG และ time-slicing โดยใช้ time-slicing ภายในพาร์ติชัน MIG เพื่อการแชร์ที่ละเอียดยิ่งขึ้น[^8] การรวมกันนี้เปิดใช้สถานการณ์ที่ MIG ให้การแยกระหว่างผู้เช่า ขณะที่ time-slicing เพิ่มการใช้งานสูงสุดภายในพาร์ติชันของแต่ละผู้เช่า
Virtual GPU (vGPU)
เทคโนโลยี vGPU ให้การเข้าถึง GPU เสมือนจริงพร้อมการแยกที่บังคับใช้โดยซอฟต์แวร์[^9] การจำลองเสมือนช่วยให้แชร์ข้ามเครื่องเสมือนได้ ไม่ใช่แค่คอนเทนเนอร์ รองรับโครงสร้างพื้นฐานการจำลองเสมือนขององค์กรแบบดั้งเดิม vGPU ต้องการใบอนุญาตและการสนับสนุนไดรเวอร์ที่วิธีการแบบ container-native หลีกเลี่ยงได้
เทคโนโลยีการจำลองเสมือนและการรวมกลุ่ม GPU กลายเป็นวิธีที่มีประสิทธิภาพในการเพิ่มการใช้งานทรัพยากร ลดต้นทุน และตอบสนองความต้องการแบบหลายผู้เช่า[^9] vGPU, MIG และ time-slicing แต่ละอย่างเหมาะกับสถานการณ์ที่แตกต่างกันตามข้อกำหนดการแยก ความสามารถของฮาร์ดแวร์ และสถาปัตยกรรมโครงสร้างพื้นฐาน
การรวมกับ Kubernetes
Kubernetes กลายเป็นแพลตฟอร์มหลักสำหรับการจัดการเวิร์กโหลด GPU โดยการสนับสนุนการแชร์ GPU แบบเนทีฟพัฒนาอย่างรวดเร็ว
NVIDIA GPU Operator
NVIDIA GPU Operator ทำให้การติดตั้งไดรเวอร์ GPU การปรับใช้ device plugin และการตรวจสอบทั่วทั้งคลัสเตอร์ Kubernetes เป็นอัตโนมัติ[^10] Operator ทำให้การจัดการวงจรชีวิต GPU ง่ายขึ้น รับประกันความพร้อมใช้งาน GPU อย่างสม่ำเสมอโดยไม่ต้องกำหนดค่าด้วยตนเองในแต่ละโหนด
การกำหนดค่า MIG ผ่าน GPU Operator เปิดใช้การจัดการพาร์ติชันแบบ declarative ผู้ดูแลระบบระบุการกำหนดค่า MIG ที่ต้องการ และ operator สร้างและดูแลพาร์ติชันโดยอัตโนมัติ ระบบอัตโนมัตินี้ป้องกันการเบี่ยงเบนการกำหนดค่าและทำให้การดำเนินงานคลัสเตอร์ง่ายขึ้น
การกำหนดค่า device plugin
Device plugin ของ Kubernetes เปิดเผยทรัพยากร GPU ให้ scheduler การกำหนดค่ามาตรฐานนำเสนอแต่ละ GPU เป็นทรัพยากรแยก Device plugin ที่รองรับ MIG เปิดเผยอินสแตนซ์ MIG แต่ละตัวเป็นทรัพยากรที่จัดตารางได้ เปิดใช้การวาง pod บนพาร์ติชันเฉพาะ[^11]
การเลือกกลยุทธ์กำหนดวิธีที่ device plugin นำเสนออุปกรณ์ MIG กลยุทธ์ single เปิดเผยอุปกรณ์เดียวต่อ GPU โดยไม่คำนึงถึงการแบ่งพาร์ติชัน กลยุทธ์ mixed เปิดเผยอินสแตนซ์ MIG ทั้งหมดอย่างอิสระ เปิดใช้ความยืดหยุ่นสูงสุด[^7] การปรับใช้ในการผลิตมักใช้กลยุทธ์ mixed เพื่อประสิทธิภาพทรัพยากร
Resource quotas และ limits
ResourceQuotas ของ Kubernetes จำกัดการใช้ GPU ต่อ namespace เปิดใช้การแชร์อย่างเป็นธรรมระหว่างทีม[^12] องค์กรตั้ง quota ตามงบประมาณทีม ลำดับความสำคัญของโปรเจกต์ หรือโมเดลการวางแผนความจุ การบังคับใช้ quota ป้องกันไม่ให้ทีมใดทีมหนึ่งผูกขาดทรัพยากร GPU ของคลัสเตอร์
LimitRanges ตั้งค่า default และ maximum GPU requests ต่อ pod ค่า default รับประกันว่า pod ที่ไม่มี GPU request ที่ชัดเจนยังคงได้รับทรัพยากรที่เหมาะสม ค่า maximum ป้องกันไม่ให้ pod แต่ละตัวร้องขอการจัดสรร GPU มากเกินไปที่ขัดขวางเวิร์กโหลดอื่นจากการจัดตาราง
สถาปัตยกรรมการรวมกลุ่มหน่วยความจำ
นอกเหนือจากการแชร์ GPU ตัวเดียว การรวมกลุ่มหน่วยความจำขยายทรัพยากรข้าม GPU และโหนดหลายตัว
Unified memory และ NVLink
NVIDIA Unified Memory ให้พื้นที่แอดเดรสเดียวครอบคลุมหน่วยความจำ CPU และ GPU[^13] แอปพลิเคชันเข้าถึงหน่วยความจำโดยไม่ต้องจัดการการถ่ายโอนระหว่างอุปกรณ์อย่างชัดเจน runtime จัดการการเคลื่อนย้ายข้อมูลโดยอัตโนมัติตามรูปแบบการเข้าถึง
การเชื่อมต่อ NVLink เปิดใช้การเข้าถึงหน่วยความจำแบนด์วิดท์สูงข้าม GPU หลายตัว การรวมกลุ่มหน่วยความจำข้าม GPU ที่เชื่อมต่อด้วย NVLink ขยายความจุหน่วยความจำที่มีประสิทธิภาพเกินขีดจำกัด GPU ตัวเดียว โมเดลขนาดใหญ่ที่เกินความจุหน่วยความจำ GPU ตัวเดียวสามารถทำงานได้โดยใช้หน่วยความจำรวมจาก GPU หลายตัว
การรวมกลุ่มหน่วยความจำ CXL
Compute Express Link (CXL) เปิดใช้การรวมกลุ่มหน่วยความจำข้าม PCIe fabric[^14] หน่วยความจำ CXL ปรากฏเป็นระดับหน่วยความจำเพิ่มเติมที่ CPU และตัวเร่งทั้งสองเข้าถึงได้ เทคโนโลยีนี้เปิดใช้การขยายความจุหน่วยความจำโดยไม่ต้องอัปเกรด GPU
การรวมกลุ่มหน่วยความจำ CXL สำหรับเวิร์กโหลด AI ยังเป็นเทคโนโลยีที่กำลังพัฒนา แต่เสนอเส้นทางการขยายความจุที่มีแนวโน้มดี องค์กรที่วางแผนโครงสร้างพื้นฐาน GPU ควรพิจารณาความเข้ากันได้กับ CXL สำหรับตัวเลือกการรวมกลุ่มหน่วยความจำในอนาคต
การจัดการหน่วยความจำด้วยซอฟต์แวร์
เฟรมเวิร์กอย่าง DeepSpeed และ Megatron-LM ใช้การปรับแต่งหน่วยความจำด้วยซอฟต์แวร์ผ่านเทคนิคต่างๆ รวมถึง offloading, activation checkpointing และ memory-efficient attention[^15] วิธีการเหล่านี้ลดความต้องการหน่วยความจำ เปิดใช้โมเดลขนาดใหญ่บนฮาร์ดแวร์ที่กำหนดหรือแชร์หน่วยความจำที่มีได้ดีขึ้น
vLLM และเฟรมเวิร์ก inference ที่คล้ายกันใช้ PagedAttention และ continuous batching เพื่อปรับปรุงการใช้งานหน่วยความจำระหว่าง inference[^16] การปรับแต่งหน่วยความจำเปิดใช้การให้บริการคำขอพร้อมกันมากขึ้นบนฮาร์ดแวร์ GPU เดียวกัน ปรับปรุงการใช้งานที่มีประสิทธิภาพ
ข้อพิจารณาสำหรับหลายผู้เช่า
การแชร์ GPU แบบหลายผู้เช่านำเสนอความท้าทายนอกเหนือจากการจัดการทรัพยากรผู้เช่าเดียว
ข้อกำหนดการแยก
ผู้เช่าต่างกันต้องการระดับการแยกที่แตกต่างกัน สภาพแวดล้อมการพัฒนาอาจทนต่อทรัพยากรที่แชร์พร้อมการแยกขั้นต่ำได้ Inference ในการผลิตต้องการการรับประกันที่แข็งแกร่งกว่าว่าเวิร์กโหลดข้างเคียงไม่สามารถส่งผลกระทบต่อประสิทธิภาพหรือความน่าเชื่อถือ
MIG ให้การแยกด้วยการสนับสนุนฮาร์ดแวร์เหมาะสำหรับเวิร์กโหลดการผลิตแบบหลายผู้เช่า[^1] การแยกหน่วยความจำป้องกันไม่ให้ผู้เช่าหนึ่งเข้าถึงข้อมูลของอีกคน การแยกการประมวลผลรับประกันความจุการประมวลผลเฉพาะโดยไม่คำนึงถึงกิจกรรมข้างเคียง
คุณภาพบริการ
คลัสเตอร์หลายผู้เช่าต้องการกลไก QoS ที่รับประกันการจัดสรรทรัพยากรอย่างเป็นธรรมภายใต้การแย่งชิง[^17] หากไม่มีการบังคับใช้ QoS เวิร์กโหลดที่ก้าวร้าวสามารถทำให้เพื่อนบ้านขาดรอบ GPU การควบคุมการรับเข้าและนโยบายการจัดตารางรักษาความเป็นธรรมระหว่างผู้เช่า
Priority class เปิดใช้การแยกแยะระหว่างเวิร์กโหลดที่มีข้อกำหนดระดับบริการต่างกัน งานเทรนแบบ batch อาจยอมรับการ preemption ขณะที่เวิร์กโหลด inference ต้องการทรัพยากรที่รับประกัน ระบบ priority เปิดใช้การใช้ทรัพยากรอย่างมีประสิทธิภาพพร้อมปกป้องเวิร์กโหลดวิกฤต
Chargeback และการบัญชี
คลัสเตอร์หลายผู้เช่าต้องการการบัญชีการใช้งานสำหรับการจัดสรรต้นทุนระหว่างทีมหรือลูกค้า เมตริกการใช้งาน GPU เปิดใช้โมเดล chargeback ตามการใช้งาน การบัญชีรับประกันว่าทีมรับภาระต้นทุนตามสัดส่วนการใช้ทรัพยากรจริง
ความละเอียดของการวัดส่งผลต่อความแม่นยำของ chargeback การวัดระดับ GPU คิดค่าต่ำเกินไปเมื่อ time-slicing รวมหลายเวิร์กโหลด การวัดที่รองรับ MIG ระบุการใช้งานให้กับอินสแตนซ์เฉพาะ ปรับปรุงความแม่นยำสำหรับ GPU ที่แชร์
แนวทางการใช้งาน
องค์กรที่ใช้งานการแชร์ GPU ควรทำตามวิธีการที่มีโครงสร้างเพื่อสมดุลระหว่างการเพิ่มการใช้งานและความซับซ้อนในการดำเนินงาน
การประเมินและวางแผน
การจำแนกลักษณะเวิร์กโหลดระบุโอกาสการแชร์ เวิร์กโหลดที่จำกัดด้วยหน่วยความจำได้รับประโยชน์จากการแบ่งพาร์ติชัน MIG ที่ตรงกับความต้องการ เวิร์กโหลดที่จำกัดด้วยการประมวลผลอาจได้รับการใช้งานที่ดีกว่าผ่าน time-slicing การวิเคราะห์แนะนำการเลือกเทคโนโลยี
การวัดเส้นฐานการใช้งานกำหนดศักยภาพการปรับปรุง องค์กรที่มีการใช้งานเส้นฐานสูงเห็นผลประโยชน์จากการแชร์น้อยกว่าองค์กรที่มีความจุว่างมาก การวัดให้เหตุผลสนับสนุนการลงทุนในโครงสร้างพื้นฐานการแชร์
การเปิดตัวแบบค่อยเป็นค่อยไป
เริ่มแชร์ในสภาพแวดล้อมการพัฒนาที่ข้อกำหนดการแยกต่ำที่สุด ทีมได้รับความคุ้นเคยกับกลไกการแชร์โดยไม่เสี่ยงเวิร์กโหลดการผลิต ประสบการณ์แจ้งการตัดสินใจการปรับใช้ในการผลิต
ขยายไปยังเวิร์กโหลดเทรนแบบ batch ต่อไป งานเทรนมักทนต่อประสิทธิภาพที่แปรผันได้ดีกว่า inference ที่ไวต่อ latency การขยายเวิร์กโหลด batch สร้างความมั่นใจในการดำเนินงาน
ปรับใช้การแชร์ inference เป็นลำดับสุดท้าย โดยให้ความสนใจอย่างระมัดระวังต่อการตรวจสอบ latency เวิร์กโหลด inference มีข้อกำหนดประสิทธิภาพที่เข้มงวดที่สุด การตรวจสอบในการผลิตควรยืนยันว่าการแชร์ไม่ละเมิด latency SLA ก่อนการปรับใช้อย่างแพร่หลาย
การสนับสนุนจากผู้เชี่ยวชาญ
การใช้งานการแชร์ GPU ต้องการความเชี่ยวชาญครอบคลุม Kubernetes ซอฟต์แวร์ NVIDIA และการปรับแต่งเวิร์กโหลด องค์กรส่วนใหญ่ได้รับประโยชน์จากการสนับสนุนจากผู้เชี่ยวชาญที่เร่งการปรับใช้และหลีกเลี่ยงข้อผิดพลาดทั่วไป
วิศวกรภาคสนาม 550 คนของ Introl สนับสนุนองค์กรในการใช้งานการแชร์ GPU และโครงสร้างพื้นฐานการรวมกลุ่มทรัพยากร[^18] บริษัทอยู่ในอันดับ #14 ของ Inc. 5000 ปี 2025 ด้วยการเติบโต 9,594% ในสามปี สะท้อนถึงความต้องการบริการโครงสร้างพื้นฐานจากผู้เชี่ยวชาญ[^19]
คลัสเตอร์หลายผู้เช่าใน 257 สถานที่ทั่วโลก ต้องการแนวปฏิบัติการแชร์ที่สอดคล้องกันโดยไม่คำนึงถึงภูมิศาสตร์[^20] Introl manag
[เนื้อหาถูกตัดสำหรับการแปล]