การจัดตารางงาน AI: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้ามเขตเวลา

OpenAI ค้นพบว่า GPU ว่างถึง 43% แม้มีงานค้างอยู่ 6 เดือน—ขาดทุน 127 ล้านดอลลาร์ต่อปี การจัดตารางแบบ follow-the-sun ของ Google เพิ่มความจุ 37% คู่มือฉบับสมบูรณ์

Blake Crosley

Apr 09, 2026 3 min read Disclaimer

การจัดตารางงาน AI: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้ามเขตเวลา

อัปเดต 8 ธันวาคม 2025

อัปเดตธันวาคม 2025: ความสมบูรณ์ของการจัดตาราง GPU กำลังเพิ่มขึ้นโดย Run:ai, Determined AI และ Kueue ถึงระดับ production แล้ว Kubernetes Dynamic Resource Allocation (DRA) ตอนนี้เป็น GA สำหรับการแบ่ง GPU อย่างละเอียด การนำ MIG (Multi-Instance GPU) มาใช้เพิ่มขึ้นสำหรับการจัดตารางแบบ multi-tenant การจัดตารางที่คำนึงถึงคาร์บอนกำลังเกิดขึ้น—ย้ายงานไปยังภูมิภาคที่มีพลังงานสะอาดกว่า ต้นทุน GPU (25,000-40,000 ดอลลาร์ต่อ H100) ทำให้การเพิ่มประสิทธิภาพการใช้งานเป็นสิ่งสำคัญสำหรับ ROI

OpenAI ค้นพบว่าคลัสเตอร์ GPU ของพวกเขาว่างอยู่ 43% ของเวลาแม้จะมีงาน training ค้างอยู่ 6 เดือน ทำให้สูญเสีย 127 ล้านดอลลาร์ต่อปีจากโครงสร้างพื้นฐานที่ใช้งานไม่เต็มที่ สาเหตุหลักมาจากการจัดตารางแบบ first-in-first-out แบบง่ายๆ ที่ไม่สนใจการกระจายทางภูมิศาสตร์ รูปแบบเขตเวลา และลักษณะของงาน การดำเนินงาน AI สมัยใหม่ครอบคลุมทีมทั่วโลกที่รันงานหลากหลายตั้งแต่การพัฒนาแบบ interactive ไปจนถึงงาน training ที่ใช้เวลาหลายสัปดาห์ ต้องการการจัดตารางที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพทรัพยากร GPU ที่มีราคาแพง คู่มือฉบับสมบูรณ์นี้ตรวจสอบกลยุทธ์การจัดตารางขั้นสูงที่บรรลุการใช้งาน 95% พร้อมรักษาคุณภาพการบริการข้ามโครงสร้างพื้นฐาน AI แบบกระจาย

พื้นฐานสถาปัตยกรรมการจัดตาราง

ลำดับชั้นการจัดตารางแบบหลายระดับประสานงานจากพูลทรัพยากรระดับโลกลงไปถึงการจัดสรร GPU แต่ละตัว ตัวจัดตารางระดับโลกกระจายงานข้ามภูมิภาคโดยพิจารณาตำแหน่งข้อมูล ต้นทุน และความจุ ตัวจัดตารางระดับภูมิภาคจัดสรรทรัพยากรภายในศูนย์ข้อมูลตามความพร้อมใช้งานและความต้องการ ตัวจัดตารางระดับคลัสเตอร์กำหนดโหนดเฉพาะเพื่อเพิ่มประสิทธิภาพสำหรับ network topology และความเข้ากันได้ของ GPU ตัวจัดตารางระดับโหนดจัดการการแชร์ GPU การจัดสรรหน่วยความจำ และลำดับความสำคัญของกระบวนการ ลำดับชั้นนี้ทำให้ Meta ประสานงาน GPU 100,000 ตัวข้าม 12 ศูนย์ข้อมูลบรรลุการใช้งานเฉลี่ย 91%

การรับรู้เขตเวลาเปลี่ยนการจัดตารางจากการจัดสรรทรัพยากรแบบคงที่เป็นการเพิ่มประสิทธิภาพแบบไดนามิกที่ตามดวงอาทิตย์ ทีมเอเชียใช้ GPU ในช่วงเวลาทำงานของพวกเขา ปล่อยความจุให้ทีมยุโรป 6 ชั่วโมงต่อมา ทีมอเมริกันรับทรัพยากรเมื่องานยุโรปสิ้นสุด สร้างการส่งต่อตามธรรมชาติ รูปแบบวันหยุดสุดสัปดาห์แตกต่างกันตามวัฒนธรรม โดยทีมตะวันออกกลางทำงานวันอาทิตย์ถึงพฤหัสบดี ปฏิทินวันหยุดแตกต่างกันทั่วโลกต้องการการสร้างแบบจำลองเชิงเวลาที่ซับซ้อน การจัดตารางแบบ follow-the-sun ของ Google เพิ่มความจุที่มีประสิทธิภาพ 37% โดยไม่เพิ่มฮาร์ดแวร์

การจำแนกประเภทงานช่วยให้มีกลยุทธ์การจัดตารางที่เหมาะสมสำหรับประเภทงานต่างๆ งาน training รันเป็นวันๆ ต้องการการจัดสรรที่เสถียรและการสนับสนุน checkpoint Inference ให้บริการคำขอแบบ real-time ต้องการ latency ต่ำและความพร้อมใช้งานสูง งานพัฒนาต้องการการตอบสนองแบบ interactive พร้อมความยืดหยุ่นของทรัพยากร การประมวลผลแบบ batch ทนต่อความล่าช้าโดยให้ความสำคัญกับ throughput มากกว่า latency Hyperparameter tuning สร้างการทดลองสั้นๆ หลายพันรายการ การจำแนกประเภทที่ Anthropic ปรับปรุงการจับคู่ทรัพยากร 45% ลดทั้งเวลารอและความจุว่าง

กลไกลำดับความสำคัญสร้างสมดุลระหว่างความต้องการที่แข่งขันกันเพื่อให้แน่ใจว่างานสำคัญได้รับทรัพยากรที่จำเป็น Production inference ที่สำคัญต่อธุรกิจได้รับลำดับความสำคัญสูงสุดพร้อมความจุที่รับประกัน งาน training ที่มีกำหนดส่งเพิ่มลำดับความสำคัญเมื่อใกล้ถึงวันกำหนด การทดลองวิจัยใช้ความจุส่วนเกินที่สามารถ preempt ได้ งานพัฒนาได้รับการรับประกันพื้นฐานพร้อมความสามารถ burst งาน batch ที่ปรับต้นทุนให้เหมาะสมกวาดเก็บทรัพยากรที่ไม่ได้ใช้ การจัดตารางตามลำดับความสำคัญที่ Microsoft ลดการละเมิด SLA ของ production 78% พร้อมปรับปรุงการใช้งาน

อัลกอริทึมความเป็นธรรมป้องกันการผูกขาดทรัพยากรในขณะที่เคารพนโยบายองค์กร Dominant resource fairness จัดสรรตามประเภททรัพยากรที่หายากที่สุด Weighted fair queuing ให้การเข้าถึงตามสัดส่วนตามสิทธิ์ Max-min fairness เพิ่มการจัดสรรขั้นต่ำสูงสุดข้ามผู้ใช้ Lottery scheduling ใช้การสุ่มสำหรับความเป็นธรรมแบบความน่าจะเป็น Hierarchical fairness ใช้นโยบายในระดับทีม โปรเจกต์ และผู้ใช้ การจัดตารางที่เป็นธรรมที่ Uber ป้องกันการอดทรัพยากรในขณะที่รักษาการใช้งาน 89%

การประสานทรัพยากรระดับโลก

กลยุทธ์การกระจายทางภูมิศาสตร์ใช้ประโยชน์จากโครงสร้างพื้นฐานทั่วโลกเพื่อการใช้งานอย่างต่อเนื่อง ภูมิภาคหลักจัดการงานในพื้นที่ในช่วงเวลาทำงาน ภูมิภาคล้นรับความต้องการส่วนเกินเมื่อความจุหลักหมด ภูมิภาค disaster recovery ให้ failover สำหรับงานสำคัญ ตำแหน่ง edge ให้บริการ inference ใกล้ผู้ใช้ลด latency ภูมิภาค archive เก็บ checkpoint และ dataset อย่างคุ้มค่า การประสานระดับโลกของ Amazon บรรลุการใช้งาน 24/7 ข้าม 26 ภูมิภาค

การเพิ่มประสิทธิภาพตำแหน่งข้อมูลลดการถ่ายโอนข้ามภูมิภาคที่แพงในขณะที่รักษาความยืดหยุ่น กฎ affinity รักษางานให้อยู่ใกล้ dataset ลดต้นทุน egress กลยุทธ์การจำลองแคชข้อมูลยอดนิยมข้ามภูมิภาค Prefetching คาดการณ์ความต้องการข้อมูลตามคิวงาน การบีบอัดลดปริมาณการถ่ายโอนสำหรับการย้ายที่จำเป็น การซิงโครไนซ์แบบ incremental อัปเดตเฉพาะข้อมูลที่เปลี่ยนแปลง การเพิ่มประสิทธิภาพตำแหน่งที่ Netflix ประหยัด 18 ล้านดอลลาร์ต่อปีในต้นทุนการถ่ายโอนข้อมูล

การจัดตารางที่ไวต่อ latency วางงานโดยพิจารณาระยะทางเครือข่ายและคุณภาพ Real-time inference รันใกล้ผู้ใช้บรรลุการตอบสนองต่ำกว่า 100ms การพัฒนาแบบ interactive ต้องการ latency ต่ำไปยังทรัพยากร GPU Distributed training ต้องการ interconnect ที่มี bandwidth สูงและ latency ต่ำ งาน batch ทน latency สูงกว่าเพื่อประหยัดต้นทุน Geo-routing นำทางคำขอไปยังตำแหน่งที่เหมาะสม การจัดตารางที่คำนึงถึง latency ที่ Discord ปรับปรุงประสบการณ์ผู้ใช้ 40% สำหรับฟีเจอร์ AI

การเก็งกำไรต้นทุนใช้ประโยชน์จากความแตกต่างของราคาข้ามภูมิภาคและประเภท instance Spot instance ให้ส่วนลด 70% สำหรับงานที่สามารถขัดจังหวะได้ Reserved capacity ให้การประหยัด 40% พร้อมข้อผูกพัน ราคาระดับภูมิภาคแตกต่างกัน 30% สำหรับทรัพยากรเดียวกัน อัตรานอกชั่วโมงเร่งด่วนลดต้นทุน 25% สำหรับงานที่ยืดหยุ่น การจัดตารางที่คำนึงถึงคาร์บอนใช้ประโยชน์จากความพร้อมของพลังงานหมุนเวียน การเพิ่มประสิทธิภาพต้นทุนที่ Spotify ลดค่าใช้จ่ายโครงสร้างพื้นฐาน 42% ผ่านการวางตำแหน่งอัจฉริยะ

ข้อจำกัดการปฏิบัติตามกฎระเบียบจำกัดการวางงานสำหรับอำนาจอธิปไตยของข้อมูล GDPR กำหนดให้การประมวลผลข้อมูลยุโรปอยู่ภายในเขตแดน EU กฎระเบียบจีนบังคับให้ประมวลผลข้อมูลพลเมืองในประเทศ งานด้านสุขภาพต้องปฏิบัติตามกฎหมายความเป็นส่วนตัวระดับภูมิภาค บริการทางการเงินเผชิญกับข้อกำหนดที่อยู่ของข้อมูล สัญญาภาครัฐระบุภูมิภาคที่มีการรับรองความปลอดภัย การจัดตารางที่คำนึงถึงการปฏิบัติตามที่ SAP ป้องกันการละเมิดกฎระเบียบ 100%

กลยุทธ์การจัดการคิว

สถาปัตยกรรมหลายคิวแยกงานตามลักษณะเพื่อการจัดการที่เหมาะสม คิวด่วนให้บริการงานสั้นพร้อมเวลารอขั้นต่ำ คิวมาตรฐานจัดการงานปกติพร้อมลำดับความสำคัญที่สมดุล คิว batch สะสมงานใหญ่สำหรับการประมวลผลที่มีประสิทธิภาพ คิวที่สามารถ preempt ได้เสนอทรัพยากรที่มีการขัดจังหวะได้ คิวที่สงวนไว้รับประกันทรัพยากรสำหรับงานสำคัญ การแยกคิวที่ LinkedIn ลดเวลารอเฉลี่ย 65%

อัลกอริทึม backfilling ใช้ช่องว่างในตารางเพิ่มการใช้งานโดยไม่ทำให้งานในคิวล่าช้า EASY backfilling อนุญาตให้งานเล็กแซงหน้าถ้าไม่ทำให้คนอื่นล่าช้า Conservative backfilling ให้การรับประกันที่แข็งแกร่งกว่าในเวลาเริ่มงาน Selective backfilling เลือกงานตามเกณฑ์หลายอย่าง List scheduling backfill โดยใช้รายการงานที่เรียงตามลำดับความสำคัญ Adaptive backfilling ปรับกลยุทธ์ตามรูปแบบงาน Backfilling ที่ Adobe เพิ่มการใช้งานจาก 67% เป็น 84%

การเพิ่มประสิทธิภาพการจัดเรียงงานจัดเรียงงานลด resource fragmentation Bin packing algorithms ลดจำนวนโหนดที่ใช้ Strip packing เพิ่มประสิทธิภาพการวางในมิติทรัพยากรต่อเนื่อง Best-fit algorithms เลือกการจัดสรรทรัพยากรที่เล็กที่สุดที่เพียงพอ First-fit algorithms ลด scheduling overhead ด้วยการวางแบบง่าย Tetris-like packing จัดการข้อกำหนดทรัพยากรหลายมิติ การจัดเรียงที่มีประสิทธิภาพที่ Pinterest ลดการสูญเสียทรัพยากร 38%

การป้องกันการอดทรัพยากรรับประกันว่าทุกงานจะได้รับทรัพยากรในที่สุดแม้มีลำดับความสำคัญ กลไก aging เพิ่มลำดับความสำคัญตามเวลาป้องกันความล่าช้าไม่มีกำหนด Resource reservation รับประกันการจัดสรรขั้นต่ำต่อผู้ใช้หรือทีม Deadline scheduling รับประกันว่างานที่ไวต่อเวลาเสร็จสมบูรณ์ นโยบาย fair-share ให้การเข้าถึงตามสัดส่วนตลอดช่วงเวลา Starvation detection เรียกการจัดสรรฉุกเฉิน กลไกการป้องกันที่ Twitter รับประกันการเสร็จสมบูรณ์ของงาน 100% ภายใน SLA

Admission control ป้องกัน system overload รักษาคุณภาพการบริการ Capacity planning models ทำนายความพร้อมของทรัพยากร Workload characterization ประมาณข้อกำหนดงานอย่างแม่นยำ Rejection policies ปฏิเสธงานที่เกินความจุที่มี Degradation policies ลดการจัดสรรทรัพยากรรักษา throughput Queue limits ป้องกันการสะสมไม่มีขอบเขต Admission control ที่ Salesforce รักษาการปฏิบัติตาม SLA 99.9% ระหว่างความต้องการพุ่งสูง

อัลกอริทึมการจัดตารางอัจฉริยะ

โมเดลการทำนายด้วย machine learning พยากรณ์ลักษณะงานปรับปรุงการตัดสินใจจัดตาราง Duration prediction ประมาณ runtime ตามรูปแบบในอดีต Resource requirement prediction ป้องกันการจัดสรรเกินหรือต่ำกว่า Failure prediction ระบุงานที่มีแนวโน้มล้มเหลวเร็ว Queue time estimation ช่วยผู้ใช้วางแผนการส่ง Performance modeling ทำนาย throughput ภายใต้ตารางต่างๆ การจัดตารางด้วย ML ที่ DeepMind ลดเวลาเสร็จงาน 31%

Genetic algorithms พัฒนาตารางที่เหมาะสมผ่านการปรับปรุงซ้ำ Population initialization สร้างตัวเลือกตารางที่หลากหลาย Fitness evaluation ให้คะแนนตารางตามหลายวัตถุประสงค์ Selection ระบุตารางที่ดีกว่าสำหรับการสืบพันธุ์ Crossover รวมกลยุทธ์การจัดตารางที่ประสบความสำเร็จ Mutation แนะนำการเปลี่ยนแปลงป้องกัน local optima Evolutionary scheduling ที่ IBM เพิ่มประสิทธิภาพสำหรับ 12 วัตถุประสงค์ที่แข่งขันกันพร้อมกัน

Reinforcement learning ปรับนโยบายการจัดตารางผ่านประสบการณ์ State representation จับสถานะระบบปัจจุบันและคิว Action spaces กำหนดการตัดสินใจจัดตารางที่เป็นไปได้ Reward functions สร้างสมดุลระหว่างการใช้งาน latency และความเป็นธรรม Policy networks เรียนรู้การเลือก action ที่เหมาะสม Experience replay ปรับปรุง sample efficiency การจัดตารางด้วย RL ที่ OpenAI ปรับปรุง throughput 27% ในขณะที่ลด latency

Constraint satisfaction กำหนดการจัดตารางเป็นการเพิ่มประสิทธิภาพพร้อมข้อกำหนดที่ซับซ้อน Hard constraints บังคับใช้กฎที่ละเมิดไม่ได้เช่นกำหนดส่ง Soft constraints แสดงความชอบเช่นตำแหน่งข้อมูล Multi-objective optimization สร้างสมดุลระหว่างเป้าหมายที่แข่งขันกัน Integer programming หาการกำหนดค่าแบบ discrete ที่เหมาะสม Constraint relaxation จัดการปัญหาที่มีข้อจำกัดมากเกิน การจัดตารางด้วย CSP ที่ Airbnb ตอบสนองความชอบของผู้ใช้ 95%

แนวทาง heuristic ให้โซลูชันที่รวดเร็วและดีพอสำหรับการตัดสินใจแบบ real-time Greedy algorithms ทำการเลือกที่เหมาะสมในท้องถิ่นอย่างรวดเร็ว Hill climbing ปรับปรุงโซลูชันเริ่มต้นซ้ำๆ Simulated annealing หลบหนี local optima ผ่านการสุ่มที่ควบคุม Tabu search ป้องกันการวนซ้ำผ่านโซลูชันล่าสุด Hybrid approaches รวมหลาย heuristics การจัดตารางด้วย heuristic ที่ Lyft บรรลุเวลาตัดสินใจเป็นมิลลิวินาทีสำหรับ 10,000 งาน

รูปแบบการเพิ่มประสิทธิภาพเขตเวลา

Workflow แบบ follow-the-sun เพิ่มการใช้โครงสร้างพื้นฐานสูงสุดข้ามทีมทั่วโลก ทีมเอเชียเริ่ม training run ในช่วงเช้าของพวกเขา ทีมยุโรปรับงานสำหรับการติดตามและปรับปรุง ทีมอเมริกันเสร็จสิ้น run และเตรียมการวนรอบถัดไป การประมวลผลข้ามคืนใช้ประโยชน์จากเวลาว่างสำหรับงาน batch ช่องว่างวันหยุดสุดสัปดาห์เติมด้วยการทดลองอัตโนมัติ Workflow ต่อเนื่องที่ Samsung บรรลุการใช้งาน 94% ข้ามเขตเวลา

กลยุทธ์ peak shaving ทำให้ความต้องการพุ่งสูงราบเรียบป้องกันการหมดทรัพยากร Predictive scaling คาดการณ์รูปแบบปกติเพิ่มความจุ Load shifting เลื่อนงานที่ยืดหยุ่นไปช่วงนอกเวลาเร่งด่วน Graceful degradation ลดระดับบริการรักษาความพร้อมใช้งาน Burst capacity จัดการความต้องการพุ่งชั่วคราวโดยใช้ clou

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

การจัดตารางงาน AI: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้ามเขตเวลา

พื้นฐานสถาปัตยกรรมการจัดตาราง

การประสานทรัพยากรระดับโลก

กลยุทธ์การจัดการคิว

อัลกอริทึมการจัดตารางอัจฉริยะ

รูปแบบการเพิ่มประสิทธิภาพเขตเวลา

You Might Also Like

AI Workload Scheduling: การเพิ่มประสิทธิภาพการใช้งาน GPU ข้า...

AI Infrastructure Security Operations: ข้อกำหนด SOC สำหรับ G...

การลงทุนโครงสร้างพื้นฐาน AI มูลค่า $600B: ค่าใช้จ่ายทุน หนี้...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_