AI Workload Scheduling: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้ามเขตเวลา
อัปเดต 8 ธันวาคม 2025
อัปเดตธันวาคม 2025: ความเป็นผู้ใหญ่ของการจัดตาราง GPU เพิ่มขึ้นด้วย Run:ai, Determined AI และ Kueue ที่บรรลุขนาดการผลิต Kubernetes Dynamic Resource Allocation (DRA) ตอนนี้ GA สำหรับการแบ่งส่วน GPU ที่ละเอียด การยอมรับ MIG (Multi-Instance GPU) เติบโตสำหรับการจัดตารางแบบ multi-tenant การจัดตารางที่คำนึงถึงคาร์บอนกำลังเกิดขึ้น—การเปลี่ยนภาระงานไปยังภูมิภาคที่มีส่วนผสมของกริดที่สะอาดกว่า ค่าใช้จ่าย GPU ($25-40K ต่อ H100) ทำให้การปรับปรุงการใช้งานสำคัญสำหรับ ROI
OpenAI ค้นพบว่าคลัสเตอร์ GPU ของพวกเขาว่างงาน 43% ของเวลาแม้จะมีงานฝึกอบรมที่ค้างอยู่เป็นเวลาหกเดือน สูญเสีย $127 ล้านต่อปีจากโครงสร้างพื้นฐานที่ใช้งานไม่เต็มที่ สาเหตุหลักมาจากการจัดตาราง first-in-first-out แบบไร้เดียงสาที่เพิกเฉยต่อการกระจายทางภูมิศาสตร์ รูปแบบเขตเวลา และลักษณะของภาระงาน การดำเนินงาน AI สมัยใหม่ครอบคลุมทีมทั่วโลกที่ทำงานกับภาระงานหลากหลายตั้งแต่การพัฒนาแบบโต้ตอบไปจึงงานฝึกอบรมที่ยาวนานเป็นสัปดาห์ ต้องการการจัดตารางที่ซับซ้อนเพื่อเพิ่มทรัพยากร GPU ที่มีราคาแพงให้สูงสุด คู่มือครบวงจรนี้ตรวจสอบกลยุทธ์การจัดตารางขั้นสูงที่บรรลุการใช้งาน 95% ในขณะที่รักษาคุณภาพของการบริการข้ามโครงสร้างพื้นฐาน AI แบบกระจาย
พื้นฐานสถาปัตยกรรมการจัดตาราง
ลำดับชั้นการจัดตารางหลายระดับจัดเตรียมภาระงานจากพูลทรัพยากรทั่วโลกลงไปยังการมอบหมาย GPU แต่ละตัว ผู้จัดตารางทั่วโลกกระจายงานข้ามภูมิภาคโดยพิจารณาความใกล้ชิดของข้อมูล ต้นทุน และความจุ ผู้จัดตารางระดับภูมิภาคจัดสรรทรัพยากรภายในศูนย์ข้อมูลตามความพร้อมใช้งานและข้อกำหนด ผู้จัดตารางคลัสเตอร์มอบหมายโหนดเฉพาะโดยปรับปรุงโทโพโลยีเครือข่ายและความเข้ากันได้ของ GPU ผู้จัดตารางโหนดจัดการการแบ่งปัน GPU การจัดสรรหน่วยความจำ และลำดับความสำคัญของกระบวนการ ลำดับชั้นนี้ช่วยให้ Meta ประสานงาน GPU 100,000 ตัวข้าม 12 ศูนย์ข้อมูลบรรลุการใช้งานเฉลี่ย 91%
ความตระหนักรู้เขตเวลาเปลี่ยนการจัดตารางจากการจัดสรรทรัพยากรแบบคงที่เป็นการปรับปรุงแบบไดนามิกตามดวงอาทิตย์ ทีมเอเชียใช้ GPU ในระหว่างชั่วโมงทำงานของพวกเขา ปล่อยความจุให้กับทีมยุโรปหกชั่วโมงต่อมา ทีมอเมริกันรับช่วงทรัพยากรเมื่องานยุโรปสิ้นสุด สร้างการส่งต่อตามธรรมชาติ รูปแบบสุดสัปดาห์แตกต่างกันตามวัฒนธรรม โดยทีมตะวันออกกลางทำงานวันอาทิตย์-พฤหัสบดี ปฏิทินวันหยุดแตกต่างกันทั่วโลกต้องการการสร้างแบบจำลองเชิงเวลาที่ซับซ้อน การจัดตารางตามดวงอาทิตย์ของ Google เพิ่มความจุที่มีประสิทธิภาพ 37% โดยไม่เพิ่มฮาร์ดแวร์
การจำแนกภาระงานช่วยให้กลยุทธ์การจัดตารางที่เหมาะสมสำหรับประเภทงานต่างๆ งานฝึกอบรมทำงานเป็นวันต้องการการจัดสรรที่เสถียรและการสนับสนุน checkpoint การอนุมานให้บริการคำขอแบบเรียลไทม์ต้องการเวลาแฝงต่ำและความพร้อมใช้งานสูง ภาระงานการพัฒนาต้องการการตอบสนองแบบโต้ตอบกับความยืดหยุ่นของทรัพยากร การประมวลผลแบบกลุ่มทนต่อความล่าช้าให้ความสำคัญกับปริมาณงานมากกว่าเวลาแฝง การปรับแต่ง hyperparameter สร้างการทดลองสั้นๆ หลายพัน การจำแนกประเภทที่ Anthropic ปรับปรุงการจับคู่ทรัพยากร 45% ลดทั้งเวลารอและความจุที่ว่าง
กลไกลำดับความสำคัญสมดุลความต้องการที่แข่งขันเพื่อให้แน่ใจว่าภาระงานสำคัญได้รับทรัพยากรที่จำเป็น การอนุมานการผลิตที่สำคัญทางธุรกิจได้รับลำดับความสำคัญสูงสุดด้วยความจุที่รับประกัน งานฝึกอบรมที่ขับเคลื่อนด้วยกำหนดเวลาเพิ่มลำดับความสำคัญเมื่อเข้าใกล้วันครบกำหนด การทดลองการวิจัยใช้ความจุส่วนเกินโดยสามารถแย่งชิงได้ ภาระงานการพัฒนาได้รับการรับประกันพื้นฐานพร้อมความสามารถระเบิด งาน batch ที่ปรับปรุงต้นทุนกำจัดทรัพยากรที่ไม่ได้ใช้ การจัดตารางตามลำดับความสำคัญที่ Microsoft ลดการละเมิด SLA การผลิต 78% ในขณะที่ปรับปรุงการใช้งาน
อัลกอริธึมความยุติธรรมป้องกันการผูกขาดทรัพยากรในขณะที่เคารพนโยบายองค์กร ความยุติธรรมของทรัพยากรหลักจัดสรรตามประเภททรัพยากรที่หายากที่สุด การจัดคิวแบบยุติธรรมถ่วงน้ำหนักให้การเข้าถึงตามสัดส่วนตามสิทธิ ความยุติธรรม max-min เพิ่มการจัดสรรขั้นต่ำข้ามผู้ใช้ การจัดตารางแบบลอตเตอรีใช้การสุ่มสำหรับความยุติธรรมแบบความน่าจะเป็น ความยุติธรรมแบบลำดับชั้นใช้นโยบายระดับทีม โครงการ และผู้ใช้ การจัดตารางที่ยุติธรรมที่ Uber ป้องกันการขาดแคลนทรัพยากรในขณะที่รักษาการใช้งาน 89%
การจัดเตรียมทรัพยากรทั่วโลก
กลยุทธ์การกระจายทางภูมิศาสตร์ใช้ประโยชน์จากโครงสร้างพื้นฐานทั่วโลกสำหรับการใช้งานอย่างต่อเนื่อง ภูมิภาคหลักจัดการภาระงานท้องถิ่นในระหว่างชั่วโมงทำงาน ภูมิภาคล้นดูดซับความต้องการส่วนเกินเมื่อความจุหลักหมด ภูมิภาคการกู้คืนจากภัยพิบัติให้การ failover สำหรับภาระงานสำคัญ สถานที่ edge ให้บริการการอนุมานใกล้ผู้ใช้ลดเวลาแฝง ภูมิภาคเก็บถาวรเก็บ checkpoint และชุดข้อมูลอย่างคุ้มค่า การจัดเตรียมทั่วโลกของ Amazon บรรลุการใช้งาน 24/7 ข้าม 26 ภูมิภาค
การปรับปรุงความใกล้ชิดของข้อมูลลดการถ่ายโอนข้ามภูมิภาคที่มีราคาแพงในขณะที่รักษาความยืดหยุ่น กฎความสัมพันธ์รักษางานไว้ใกล้ชุดข้อมูลของพวกเขาลดต้นทุน egress กลยุทธ์การจำลองแบบแคชข้อมูลยอดนิยมข้ามภูมิภาค การดึงล่วงหน้าคาดการณ์ความต้องการข้อมูลตามคิวงาน การบีบอัดลดปริมาตรการถ่ายโอนสำหรับการเคลื่อนไหวบังคับ การซิงโครไนซ์แบบเพิ่มหน่วยอัปเดตเฉพาะข้อมูลที่เปลี่ยนแปลง การปรับปรุงความใกล้ชิดที่ Netflix ประหยัด $18 ล้านต่อปีในต้นทุนการถ่ายโอนข้อมูล
การจัดตารางที่ไวต่อเวลาแฝงวางภาระงานโดยพิจารณาระยะทางเครือข่ายและคุณภาพ การอนุมานแบบเรียลไทม์ทำงานใกล้ผู้ใช้บรรลุการตอบสนองต่ำกว่า 100ms การพัฒนาแบบโต้ตอบต้องการเวลาแฝงต่ำกับทรัพยากร GPU การฝึกอบรมแบบกระจายต้องการการเชื่อมต่อแบนด์วิดธ์สูง เวลาแฝงต่ำ ภาระงาน batch ทนต่อเวลาแฝงสูงกว่าเพื่อประหยัดต้นทุน การกำหนดเส้นทางทางภูมิศาสตร์นำทางคำขอไปยังสถานที่ที่เหมาะสม การจัดตารางที่ตระหนักถึงเวลาแฝงที่ Discord ปรับปรุงประสบการณ์ผู้ใช้ 40% สำหรับฟีเจอร์ AI
การ arbitrage ต้นทุนใช้ประโยชน์จากความแตกต่างของราคาข้ามภูมิภาคและประเภท instance อินสแตนซ์ spot ให้ส่วนลด 70% สำหรับภาระงานที่สามารถขัดจังหวะได้ ความจุที่สำรองเสนอการประหยัด 40% ด้วยความมุ่งมั่น การกำหนดราคาระดับภูมิภาคแตกต่างกัน 30% สำหรับทรัพยากรที่เหมือนกัน อัตราช่วงไม่ยุ่งลดต้นทุน 25% สำหรับภาระงานที่ยืดหยุ่น การจัดตารางที่คำนึงถึงคาร์บอนใช้ประโยชน์จากความพร้อมใช้งานของพลังงานหมุนเวียน การปรับปรุงต้นทุนที่ Spotify ลดการใช้จ่ายโครงสร้างพื้นฐาน 42% ผ่านการวางตำแหน่งอย่างชาญฉลาด
ข้อจำกัดการปฏิบัติตามกฎระเบียบจำกัดการวางภาระงานสำหรับอำนาจอธิปไตยข้อมูล GDPR ต้องการการประมวลผลข้อมูลยุโรปภายในขอบเขต EU กฎระเบียบจีนบังคับการประมวลผลท้องถิ่นสำหรับข้อมูลพลเมือง ภาระงานด้านสุขภาพต้องปฏิบัติตามกฎหมายความเป็นส่วนตัวของภูมิภาค บริการทางการเงินเผชิญข้อกำหนดการพำนักข้อมูล สัญญารัฐบาลระบุภูมิภาคการอนุมัติความปลอดภัย การจัดตารางที่คำนึงถึงการปฏิบัติตามที่ SAP ป้องกันการละเมิดกฎระเบียบ 100%
กลยุทธ์การจัดการคิว
สถาปัตยกรรมหลายคิวแยกภาระงานตามลักษณะที่ช่วยให้การจัดการที่ปรับปรุงแล้ว คิวด่วนให้บริการงานสั้นด้วยเวลารอขั้นต่ำ คิวมาตรฐานจัดการภาระงานปกติด้วยลำดับความสำคัญที่สมดุล คิวแบทช์สะสมงานขนาดใหญ่สำหรับการประมวลผลที่มีประสิทธิภาพ คิวที่แย่งชิงได้เสนอทรัพยากรโดยสามารถขัดจังหวะได้ คิวที่สำรองรับประกันทรัพยากรสำหรับภาระงานสำคัญ การแยกคิวที่ LinkedIn ลดเวลารอเฉลี่ย 65%
อัลกอริธึม backfilling ใช้ช่องว่างในตารางเวลาปรับปรุงการใช้งานโดยไม่ทำให้งานที่เข้าคิวล่าช้า EASY backfilling อนุญาตให้งานเล็กกระโดดไปข้างหน้าหากไม่ทำให้คนอื่นล่าช้า Conservative backfilling ให้การรับประกันที่แข็งแกร่งกว่าเกี่ยวกับเวลาเริ่มงาน Selective backfilling เลือกงานตามเกณฑ์หลายอย่าง List scheduling backfills โดยใช้รายการงานที่เรียงลำดับความสำคัญ Adaptive backfilling ปรับกลยุทธ์ตามรูปแบบภาระงาน Backfilling ที่ Adobe เพิ่มการใช้งานจาก 67% เป็น 84%
การปรับปรุงการบรรจุงานจัดเรียงภาระงานลดการแยกส่วนทรัพยากร อัลกอริธึม bin packing ลดจำนวนโหนดที่ใช้ Strip packing ปรับปรุงการวางในมิติทรัพยากรต่อเนื่อง อัลกอริธึม best-fit เลือกการจัดสรรทรัพยากรที่เพียงพอที่เล็กที่สุด อัลกอริธึม first-fit ลดค่าใช้จ่ายการจัดตารางด้วยการวางตำแหน่งแบบง่าย การบรรจุแบบ Tetris จัดการข้อกำหนดทรัพยากรหลายมิติ การบรรจุที่มีประสิทธิภาพที่ Pinterest ลดการสูญเสียทรัพยากร 38%
การป้องกันการอดอาหารรับประกันว่างานทั้งหมดจะได้รับทรัพยากรในที่สุดแม้จะมีลำดับความสำคัญ กลไกการแก่ชราเพิ่มลำดับความสำคัญตามเวลาป้องกันความล่าช้าอย่างไม่มีกำหนด การจองทรัพยากรรับประกันการจัดสรรขั้นต่ำต่อผู้ใช้หรือทีม การจัดตารางกำหนดเวลารับประกันงานที่ไวต่อเวลาเสร็จสมบูรณ์ นโยบายการแบ่งปันที่ยุติธรรมให้การเข้าถึงตามสัดส่วนในหน้าต่างเวลา การตรวจจับการอดอาหารทริกเกอร์การจัดสรรฉุกเฉิน กลไกป้องกันที่ Twitter รับประกันการเสร็จสิ้นงาน 100% ภายใน SLA
การควบคุมการรับเข้าป้องกันการโอเวอร์โหลดของระบบรักษาคุณภาพของการบริการ การวางแผนความจุสร้างแบบจำลองคาดการณ์ความพร้อมใช้งานทรัพยากร การจำแนกลักษณะภาระงานประมาณข้อกำหนดงานอย่างแม่นยำ นโยบายการปฏิเสธปฏิเสธงานที่เกินความจุที่มี นโยบายการลดประสิทธิภาพลดการจัดสรรทรัพยากรรักษาปริมาณงาน ขีดจำกัดคิวป้องกันการสะสมไม่มีขอบเขต การควบคุมการรับเข้าที่ Salesforce รักษาการปฏิบัติตาม SLA 99.9% ในระหว่างการเพิ่มขึ้นของความต้องการ
อัลกอริธึมการจัดตารางอัจฉริยะ
แบบจำลองการทำนาย machine learning พยากรณ์ลักษณะงานปรับปรุงการตัดสินใจการจัดตาราง การทำนายระยะเวลาประมาณเวลาทำงานตามรูปแบบประวัติศาสตร์ การทำนายข้อกำหนดทรัพยากรป้องกันการจัดสรรเกินหรือต่ำกว่า การทำนายความล้มเหลวระบุงานที่น่าจะล้มเหลวเร็ว การประมาณเวลาคิวช่วยผู้ใช้วางแผนการส่ง การสร้างแบบจำลองประสิทธิภาพทำนายปริมาณงานภายใต้ตารางเวลาต่าง ๆ การจัดตารางที่ใช้ ML ที่ DeepMind ลดเวลาเสร็จสิ้นงาน 31%
อัลกอริธึมพันธุกรรมวิวัฒนาการตารางเวลาที่เหมาะสมผ่านการปรับปรุงแบบวนซ้ำ การเริ่มต้นประชากรสร้างผู้สมัครตารางเวลาที่หลากหลาย การประเมินความเหมาะสมให้คะแนนตารางเวลาในวัตถุประสงค์หลายอย่าง การเลือกระบุตารางเวลาที่เหนือกว่าสำหรับการสืบพันธุ์ การผสมข้ามรวมกลยุทธ์การจัดตารางที่ประสบความสำเร็จ การกลายพันธุ์แนะนำการเปลี่ยนแปลงป้องกัน optima ท้องถิ่น การจัดตารางวิวัฒนาการที่ IBM ปรับปรุงสำหรับ 12 วัตถุประสงค์ที่แข่งขันพร้อมกัน
การเรียนรู้เสริมแรงปรับปรุงนโยบายการจัดตารางผ่านประสบการณ์ การนำเสนอสถานะจับสถานะระบบปัจจุบันและคิว พื้นที่การกระทำกำหนดการตัดสินใจการจัดตารางที่เป็นไปได้ ฟังก์ชั่นรางวัลสมดุลการใช้งาน เวลาแฝง และความยุติธรรม เครือข่ายนโยบายเรียนรู้การเลือกการกระทำที่เหมาะสม การเล่นซ้ำประสบการณ์ปรับปรุงประสิทธิภาพตัวอย่าง การจัดตาราง RL ที่ OpenAI ปรับปรุงปริมาณงาน 27% ในขณะที่ลดเวลาแฝง
การมีความพอใจข้อจำกัดกำหนดการจัดตารางเป็นการปรับปรุงด้วยข้อกำหนดที่ซับซ้อน ข้อจำกัดแข็งบังคับใช้กฎที่ไม่สามารถละเมิดได้เช่นกำหนดเวลา ข้อจำกัดอ่อนแสดงความชอบเช่นความใกล้ชิดของข้อมูล การปรับปรุงหลายวัตถุประสงค์สมดุลเป้าหมายที่แข่งขัน การโปรแกรมจำนวนเต็มค้นหาการมอบหมายแบบแยกส่วนที่เหมาะสม การผ่อนผันข้อจำกัดจัดการปัญหาที่มีข้อจำกัดเกิน การจัดตาราง CSP ที่ Airbnb พอใจ 95% ของความชอบของผู้ใช้
วิธีการ heuristic ให้โซลูชั่นเร็ว ดีพอสำหรับการตัดสินใจแบบเรียลไทม์ อัลกอริธึมโลภทำการเลือกที่เหมาะสมท้องถิ่นอย่างรวดเร็ว การปีนเขาปรับปรุงโซลูชั่นเริ่มต้นแบบวนซ้ำ การหลอมโลหะจำลองหลบหนี optima ท้องถิ่นผ่านการสุ่มที่ควบคุม การค้นหา tabu ป้องกันการหมุนเวียนผ่านโซลูชั่นล่าสุด วิธีการไฮบริดรวมฮิวริสติกหลายอย่าง การจัดตาราง heuristic ที่ Lyft บรรลุเวลาการตัดสินใจมิลลิวินาทีสำหรับงาน 10,000 งาน
รูปแบบการปรับปรุงเขตเวลา
เวิร์กโฟลว์ตามดวงอาทิตย์เพิ่มการใช้งานโครงสร้างพื้นฐานข้ามทีมทั่วโลก ทีมเอเชียเริ่มการรันการฝึกอบรมในตอนเช้าของพวกเขา ทีมยุโรปสืบทอดงานสำหรับการตรวจสอบและการปรับปรุง ทีมอเมริกันเสร็จสิ้นการรันและเตรียมการวนซ้ำครั้งต่อไป การประมวลผลข้ามคืนใช้ประโยชน์จากเวลาว่างสำหรับภาระงานแบบกลุ่ม ช่องว่างสุดสัปดาห์เติมด้วยการทดลองอัตโนมัติ เวิร์กโฟลว์ต่อเนื่องที่ Samsung บรรลุการใช้งาน 94% ข้ามเขตเวลา
กลยุทธ์การโกนยอดเรียบความต้องการที่เพิ่มขึ้นป้องกันการหมดแรงทรัพยากร การปรับขนาดเชิงทำนายคาดการณ์รูปแบบปกติเพิ่มความจุ การเปลี่ยนโหลดล่าช้าภาระงานที่ยืดหยุ่นไปยังช่วงไม่ยุ่ง การลดประสิทธิภาพอย่างงดงามลดระดับบริการรักษาความพร้อมใช้งาน ความจุระเบิดจัดการการเพิ่มขึ้นชั่วคราวโดยใช้ cloud