UPS และการกระจายไฟฟ้าสำหรับ AI: การออกแบบโครงสร้างพื้นฐาน 2N+1 ที่ทนทาน

UPS และการกระจายไฟฟ้าสำหรับ AI: การออกแบบโครงสร้างพื้นฐาน 2N+1 ที่ทนทาน

UPS และการกระจายไฟฟ้าสำหรับ AI: การออกแบบโครงสร้างพื้นฐาน 2N+1 ที่ทนทาน

อัปเดตวันที่ 8 ธันวาคม 2025

อัปเดตเดือนธันวาคม 2025: ความหนาแน่นของพลังงานต่อตู้ Rack สำหรับ AI ปัจจุบันอยู่ที่ 100-130kW เป็นมาตรฐานสำหรับ GB200 NVL72 ความต้องการของ PDU เกิน 100kW ต่อตู้ Rack พร้อมการจ่ายไฟ 415V ประสิทธิภาพของ UPS มีความสำคัญอย่างยิ่งเนื่องจากค่าไฟฟ้าครองส่วนใหญ่ของ TCO การนำ UPS แบบลิเธียมไอออนมาใช้เร่งตัวขึ้น (พื้นที่ลดลง 40%) ระบบ Busbar เข้ามาแทนที่สายเคเบิลสำหรับการจ่ายไฟกระแสสูง การแก้ไขตัวประกอบกำลังไฟฟ้าเป็นสิ่งจำเป็นสำหรับลักษณะการใช้พลังงานของ GPU

การหยุดชะงักของไฟฟ้าเพียง 47 วินาทีที่ศูนย์ข้อมูลของ Meta ทำให้เกิดความสูญเสียมูลค่า 65 ล้านดอลลาร์ เมื่อ GPU 10,000 ตัวที่กำลังทำการฝึกแบบกระจายสูญเสียการซิงโครไนซ์ ส่งผลให้ความคืบหน้าของโมเดลสามสัปดาห์เสียหาย โครงสร้างพื้นฐาน AI สมัยใหม่ต้องการความน่าเชื่อถือของไฟฟ้าที่มี uptime เกิน 99.9999%—อนุญาตให้หยุดชะงักได้เพียง 31 วินาทีต่อปีเท่านั้น เมื่อ GPU H100 แต่ละตัวใช้พลังงาน 700W และคลัสเตอร์ทั้งหมดใช้พลังงานเกิน 10MW สถาปัตยกรรมการกระจายไฟฟ้าจะเป็นตัวกำหนดว่าองค์กรจะบรรลุความสามารถ AI ที่ก้าวล้ำหรือประสบกับความล้มเหลวร้ายแรง คู่มือฉบับสมบูรณ์นี้จะตรวจสอบวิธีการออกแบบระบบ UPS และการกระจายไฟฟ้าที่ปกป้องการลงทุน GPU มูลค่ามหาศาล พร้อมทั้งเพิ่มประสิทธิภาพและลดต้นทุน

พื้นฐานสถาปัตยกรรมไฟฟ้า

สถาปัตยกรรมความซ้ำซ้อน 2N+1 เป็นมาตรฐานทองคำสำหรับโครงสร้างพื้นฐาน AI ที่สำคัญ โดยผสมผสานความซ้ำซ้อนเต็มรูปแบบกับความจุเพิ่มเติมสำหรับการบำรุงรักษา องค์ประกอบ "2N" ให้เส้นทางไฟฟ้าอิสระสองเส้นทางจากทางเข้าสาธารณูปโภคไปยัง GPU เพื่อให้แน่ใจว่าการทำงานจะดำเนินต่อไปได้หากเส้นทางใดเส้นทางหนึ่งล้มเหลวทั้งหมด "+1" เพิ่มความจุสำหรับการบำรุงรักษาพร้อมกัน ช่วยให้สามารถซ่อมแซมได้โดยไม่ลดความซ้ำซ้อน สถาปัตยกรรมนี้บรรลุความพร้อมใช้งาน 99.9999% ซึ่งจำเป็นสำหรับภาระงานที่ค่าใช้จ่ายจากการหยุดทำงานเกิน 100,000 ดอลลาร์ต่อนาที คลัสเตอร์ TPU ของ Google ใช้สถาปัตยกรรม 2N+1 โดยประสบการหยุดทำงานที่เกี่ยวข้องกับไฟฟ้าเพียง 8 วินาทีต่อปีตลอดโครงสร้างพื้นฐาน 100MW

ความท้าทายด้านความหนาแน่นของพลังงานในโครงสร้างพื้นฐาน AI เกินความต้องการของศูนย์ข้อมูลแบบดั้งเดิมอย่างมาก ตู้ Rack GPU สมัยใหม่ใช้พลังงาน 40-100kW เมื่อเทียบกับอุปกรณ์ IT ทั่วไปที่ใช้ 5-10kW ระบบ DGX H100 ของ NVIDIA ต้องการ 10.2kW ต่อโหนด โดยมีแปดโหนดต่อตู้ Rack ซึ่งต้องการ 82kW รวมถึงค่าใช้จ่ายด้านเครือข่าย การกระจายไฟฟ้าต้องรองรับทั้งโหลดในสถานะคงที่และพีคชั่วคราวระหว่างรอบการ boost ของ GPU โครงสร้างพื้นฐาน Azure AI ของ Microsoft ติดตั้ง PDU (Power Distribution Units) เฉพาะทางที่รองรับไฟสามเฟส 415/240V โดยจ่ายไฟ 96kW ต่อตู้ Rack พร้อมช่องว่างเพียงพอสำหรับการเบี่ยงเบนของพลังงาน

การจำแนกประเภท Tier กำหนดระดับความน่าเชื่อถือพร้อมข้อกำหนดโครงสร้างพื้นฐานที่สอดคล้องกัน สถานที่ Tier III ให้ความซ้ำซ้อน N+1 บรรลุความพร้อมใช้งาน 99.982% สถานที่ Tier IV ใช้ความซ้ำซ้อน 2N บรรลุความพร้อมใช้งาน 99.995% อย่างไรก็ตาม ภาระงาน AI มักต้องการมาตรฐาน "Tier IV+" ที่เกินคำจำกัดความแบบดั้งเดิม มาตรฐานที่ปรับปรุงเหล่านี้รวมถึงเวลาการถ่ายโอนที่เร็วขึ้น การควบคุมแรงดันที่เข้มงวดขึ้น และการกรองฮาร์มอนิกที่เหนือกว่า โครงสร้างพื้นฐานการฝึกของ OpenAI ใช้มาตรฐาน Tier IV+ พร้อมการปรับแต่งเฉพาะสำหรับข้อกำหนดเฉพาะของ GPU

การคำนวณโหลดต้องคำนึงถึงลักษณะเฉพาะของ GPU นอกเหนือจากพิกัดบนป้ายชื่อ การแก้ไขตัวประกอบกำลังไฟฟ้ามีความสำคัญเนื่องจากโหลด GPU แสดงตัวประกอบกำลังไฟฟ้า 0.95-0.98 กระแสไฟขณะเริ่มต้นระบบเย็นสามารถสูงถึง 150% ของกระแสไฟปฏิบัติการเป็นเวลา 100-200 มิลลิวินาที การปรับความถี่แบบไดนามิกทำให้เกิดความผันแปรของพลังงาน 20% ภายในไม่กี่วินาที ตัวประกอบความหลากหลายเข้าใกล้ 1.0 เนื่องจาก GPU ทั้งหมดมักทำงานพร้อมกันระหว่างการฝึก การสร้างแบบจำลองโหลดที่แม่นยำป้องกันความล้มเหลวของโครงสร้างพื้นฐานไฟฟ้า 23 ครั้งที่ Anthropic ผ่านการกำหนดขนาดที่เหมาะสม

โทโพโลยีการกระจายไฟฟ้าส่งผลต่อทั้งความน่าเชื่อถือและประสิทธิภาพ ระบบ Radial ให้การกระจายที่เรียบง่ายและคุ้มค่า แต่สร้างจุดล้มเหลวเดียว ระบบ Primary selective ช่วยให้สามารถสลับระหว่างแหล่งจ่ายด้วยตนเอง ระบบ Secondary selective ทำให้การถ่ายโอนเป็นอัตโนมัติแต่เพิ่มความซับซ้อน ระบบเครือข่ายให้ความน่าเชื่อถือสูงสุดผ่านเส้นทางหลายเส้นทาง โครงสร้างพื้นฐานของ Meta ใช้ระบบ Secondary selective พร้อมการถ่ายโอนอัตโนมัติ บรรลุการสลับต่ำกว่าหนึ่งรอบระหว่างความล้มเหลวของสาธารณูปโภค

การออกแบบและการเลือก UPS

การเลือกเทคโนโลยีแบตเตอรี่ส่งผลกระทบพื้นฐานต่อประสิทธิภาพและต้นทุนตลอดอายุการใช้งานของ UPS แบตเตอรี่ VRLA (Valve-Regulated Lead-Acid) ให้ความน่าเชื่อถือที่พิสูจน์แล้วพร้อมอายุการใช้งาน 3-5 ปีที่ 25°C แบตเตอรี่ลิเธียมไอออนมีอายุการใช้งาน 10 ปี พื้นที่เล็กลง 70% และชาร์จเร็วขึ้น แต่มีค่าใช้จ่ายเริ่มต้นสูงกว่า 3 เท่า แบตเตอรี่นิกเกิล-สังกะสีสร้างสมดุลระหว่างประสิทธิภาพและต้นทุนพร้อมอายุการใช้งาน 7 ปี Flywheel ให้อายุการใช้งาน 20 ปีพร้อมการบำรุงรักษาน้อยที่สุดสำหรับการสำรองข้อมูลระยะสั้น ศูนย์ข้อมูลของ Amazon ติดตั้งลิเธียมไอออนเพิ่มมากขึ้น บรรลุ TCO ที่เท่าเทียมกับ VRLA ผ่านความถี่การเปลี่ยนที่ลดลงและประสิทธิภาพที่ดีขึ้น

การคำนวณเวลาทำงานกำหนดขนาดแบตเตอรี่ตามข้อกำหนดการสนับสนุนโหลดวิกฤต โครงสร้างพื้นฐาน AI โดยทั่วไปต้องการเวลาทำงาน 10-15 นาที เพื่อให้เครื่องกำเนิดไฟฟ้าเริ่มต้นและซิงโครไนซ์ ความจุแบตเตอรี่ต้องคำนึงถึงการเสื่อมสภาพ โดยมาตรฐานความจุเมื่อสิ้นอายุการใช้งานอยู่ที่ 80% การลดค่าตามอุณหภูมิลดความจุ 50% ที่ 40°C เมื่อเทียบกับพิกัดที่ 25°C ทุนสำรองการเติบโตของโหลด 20% รองรับการขยายตัว ปัจจัยเหล่านี้มักทำให้ข้อกำหนดแบตเตอรี่เริ่มต้นเพิ่มขึ้นเป็นสองเท่า ระบบ UPS ของ LinkedIn ให้เวลา 12 นาทีที่โหลด 100%, 18 นาทีที่โหลด 75% เพื่อให้แน่ใจว่ามีเวลาการถ่ายโอนเครื่องกำเนิดไฟฟ้าเพียงพอ

สถาปัตยกรรม UPS แบบโมดูลาร์ช่วยให้สามารถปรับขนาดและความยืดหยุ่นในการบำรุงรักษาได้ โมดูลพลังงานแบบ hot-swappable ช่วยให้สามารถเพิ่มความจุได้โดยไม่หยุดทำงาน ความซ้ำซ้อนโมดูล N+1 ภายใน UPS แต่ละตัวรักษาความพร้อมใช้งานระหว่างความล้มเหลวของโมดูล การกำหนดขนาดที่เหมาะสมผ่านความเป็นโมดูลาร์ปรับปรุงประสิทธิภาพที่โหลดบางส่วน ระบบโมดูลาร์แบบกระจายวาง UPS ขนาดเล็กใกล้กับโหลดมากขึ้น Galaxy VX ของ Schneider Electric บรรลุประสิทธิภาพ 97% ผ่านสถาปัตยกรรมโมดูลาร์ ลดความต้องการการระบายความร้อน 40%

โทโพโลยี Double-conversion online ให้การปรับสภาพพลังงานที่เหนือกว่าสำหรับโหลด GPU ที่อ่อนไหว เครื่องแปลงกระแสไฟฟ้าขาเข้าแปลง AC เป็น DC ชาร์จแบตเตอรี่และป้อนอินเวอร์เตอร์ อินเวอร์เตอร์สร้างเอาต์พุต AC ที่สะอาดซึ่งแยกจากการรบกวนสาธารณูปโภค Static bypass ช่วยให้สามารถบำรุงรักษาได้โดยไม่หยุดชะงัก หม้อแปลงเอาต์พุตให้การแยก galvanic เมื่อจำเป็น โทโพโลยีนี้กรองฮาร์มอนิก แก้ไขตัวประกอบกำลังไฟฟ้า และควบคุมแรงดันภายใน ±1% ระบบ UPS ที่ได้รับการรับรองจาก NVIDIA รักษา THD ต่ำกว่า 3% ซึ่งสำคัญต่อเสถียรภาพของ GPU

การเพิ่มประสิทธิภาพลดต้นทุนการดำเนินงานและความต้องการการระบายความร้อนอย่างมีนัยสำคัญ โหมด ECO ทำงานในโหมด bypass โดยเข้าสู่ double-conversion เฉพาะระหว่างเหตุการณ์ บรรลุประสิทธิภาพ 99% อย่างไรก็ตาม เวลาการถ่ายโอนและการกรองที่ลดลงทำให้โหมด ECO ไม่เหมาะสำหรับโหลด GPU ระบบจัดการโมดูลแบบแปรผันปิดใช้งานโมดูลที่ไม่จำเป็น ปรับปรุงประสิทธิภาพโหลดบางส่วน การชาร์จแบตเตอรี่แบบ float ที่เพิ่มประสิทธิภาพลดการสูญเสีย ระบบ UPS ประสิทธิภาพสูงประหยัด 50,000 ดอลลาร์ต่อปีต่อ MW ในค่าไฟฟ้า การออกแบบ UPS แบบกำหนดเองของ Google บรรลุประสิทธิภาพ 97.5% ที่โหลดปกติ

การกำหนดค่าและการจัดการ PDU

PDU อัจฉริยะให้การตรวจสอบและควบคุมพลังงานอย่างละเอียดในระดับตู้ Rack การตรวจสอบวงจรย่อยติดตามโหลดของวงจรแต่ละวงจรเพื่อป้องกันการโอเวอร์โหลด การสลับระดับเต้ารับช่วยให้สามารถเปิด-ปิดอุปกรณ์เฉพาะจากระยะไกลได้ การตรวจสอบสภาพแวดล้อมรวมเซ็นเซอร์อุณหภูมิและความชื้น การเชื่อมต่อเครือข่ายช่วยให้สามารถจัดการและแจ้งเตือนจากส่วนกลางได้ ความสามารถเหล่านี้ป้องกันเหตุการณ์ความร้อน 47 ครั้งที่ CoreWeave ผ่านการตรวจจับความผิดปกติของพลังงานตั้งแต่เนิ่นๆ

การกระจายไฟฟ้าสามเฟสเพิ่มความจุสูงสุดในขณะที่ลดความต้องการทองแดง การกำหนดค่า Wye 415/240V ส่งมอบกำลังไฟเกิน 100kW ต่อตู้ Rack โดยใช้ส่วนประกอบมาตรฐาน การกำหนดค่า Delta ให้แรงดันไฟฟ้าสายที่สูงกว่าแต่ทำให้การต่อลงดินซับซ้อนขึ้น การปรับสมดุลเฟสมีความสำคัญเนื่องจากโหลดที่ไม่สมดุลลดความจุและสร้างกระแสนิวทรัล PDU เลือกเฟสอัตโนมัติปรับสมดุลโหลดแบบไดนามิก การจัดการเฟสที่เหมาะสมปรับปรุงความจุพลังงาน 15% ที่สถานที่ Facebook ที่มีอยู่

การประสานงานการป้องกันวงจรรับประกันการตัดแบบเลือกสรรเพื่อแยกความผิดพลาดโดยไม่เกิดการลุกลาม เบรกเกอร์ต้นทางต้องอนุญาตให้อุปกรณ์ปลายทางเคลียร์ความผิดพลาดก่อน การศึกษาการประสานงานกระแส-เวลาตรวจสอบการเลือกสรรตลอดลำดับชั้นการกระจาย การลด Arc flash ลดพลังงานเหตุการณ์ผ่านการจำกัดกระแส การป้องกัน Ground fault ป้องกันความเสียหายของอุปกรณ์และอันตรายต่อบุคลากร การประสานงานที่ครอบคลุมป้องกันความล้มเหลวแบบลูกโซ่ระหว่าง 89% ของความผิดพลาดทางไฟฟ้าที่ Microsoft

ความแม่นยำในการวัดช่วยให้สามารถวางแผนความจุที่แม่นยำและการจัดสรรต้นทุน มิเตอร์ระดับรายได้บรรลุความแม่นยำ 0.5% สำหรับวัตถุประสงค์การเรียกเก็บเงิน เครื่องวิเคราะห์คุณภาพไฟฟ้าจับฮาร์มอนิก ทรานเซียนต์ และการตก การจับคลื่นรูปคลื่นให้การวิเคราะห์นิติเวชของเหตุการณ์ไฟฟ้า การรวมเข้ากับระบบ DCIM ช่วยให้สามารถจัดการพลังงานอย่างครอบคลุม การวัดที่แม่นยำระบุความจุพลังงานที่ถูกกักไว้มูลค่า 3 ล้านดอลลาร์ที่ Uber ผ่านการใช้ประโยชน์ที่ดีขึ้น

การกำหนดค่า PDU แบบซ้ำซ้อนขจัดจุดล้มเหลวเดียวในระดับตู้ Rack อุปกรณ์สายคู่เชื่อมต่อกับฟีด PDU แยกจากแหล่งที่แตกต่างกัน สวิตช์ถ่ายโอนอัตโนมัติให้ความซ้ำซ้อนสำหรับอุปกรณ์สายเดี่ยว การปรับสมดุลโหลดระหว่าง PDU ป้องกันการโอเวอร์โหลดระหว่างความล้มเหลว การสลับแบบซิงโครไนซ์ป้องกันความขัดแย้งของเฟสระหว่างการถ่ายโอน ความซ้ำซ้อนนี้บรรลุความล้มเหลวของ GPU ที่เกี่ยวข้องกับพลังงานเป็นศูนย์ที่ Scale AI ตลอดสองปี

การรวมและการซิงโครไนซ์เครื่องกำเนิดไฟฟ้า

การกำหนดขนาดเครื่องกำเนิดไฟฟ้าต้องรองรับลักษณะการโหลดแบบบล็อกของโครงสร้างพื้นฐาน GPU การรับโหลดแบบขั้นตอนโดยทั่วไปถึง 50-70% ของพิกัดเครื่องกำเนิดไฟฟ้า เครื่องกำเนิดไฟฟ้าหลายตัวในการกำหนดค่า N+1 ให้ความซ้ำซ้อนและการแบ่งปันโหลด เครื่องกำเนิดไฟฟ้า 2MW ในการกำหนดค่าขนานขยายขนาดเพื่อตอบสนองความต้องการเกิน 10MW การกำหนดขนาดเกิน 25% รองรับการเติบโตในอนาคตและการเสื่อมสภาพ การทดสอบ Load bank ตรวจสอบประสิทธิภาพก่อนการใช้งาน สถานที่ Dojo ของ Tesla ใช้งานเครื่องกำเนิดไฟฟ้า 2.5MW สิบสองตัวให้กำลังไฟ 25MW พร้อมความซ้ำซ้อน N+2

ระบบซิงโครไนซ์รับประกันการถ่ายโอนที่ราบรื่นระหว่างสาธารณูปโภคและพลังงานเครื่องกำเนิดไฟฟ้า การถ่ายโอนแบบ Closed transition ป้องกันการหยุดชะงักชั่วขณะเพื่อรักษาการทำงานของ GPU รีเลย์ Sync check ตรวจสอบเฟส ความถี่ และการจับคู่แรงดันก่อนการขนาน การควบคุมการแบ่งปันโหลดปรับสมดุลเครื่องกำเนิดไฟฟ้าหลายตัวเพื่อป้องกันการโอเวอร์โหลด การโหลดแบบ soft ค่อยๆ ถ่ายโอนโหลดเพื่อป้องกันทรานเซียนต์ การซิงโครไนซ์ขั้นสูงลดการรบกวนการถ่ายโอน 95% ที่คลัสเตอร์ GPU ของ Oracle

ระบบเชื้อเพลิงต้องการการออกแบบอย่างรอบคอบเพื่อรับประกันเวลาทำงานที่ขยายออกไปในระหว่างภัยพิบัติ ถังเก็บขนาดใหญ่ให้เวลาทำงาน 48-72 ชั่วโมงที่โหลดเต็ม ถังรายวันใกล้เครื่องกำเนิดไฟฟ้าจ่ายความต้องการทันที ปั๊มเชื้อเพลิงและการกรองแบบซ้ำซ้อนป้องกันจุดล้มเหลวเดียว การจัดการเชื้อเพลิงอัตโนมัติตรวจสอบการบริโภคและกำหนดตารางการจัดส่ง ผู้ให้บริการคลาวด์รักษาสัญญาเชื้อเพลิงที่รับประกันการจัดส่งลำดับความสำคัญในระหว่างเหตุฉุกเฉิน ระบบเชื้อเพลิงของ Amazon รองรับเวลาทำงาน 96 ชั่วโมงพร้อมการเติมเชื้อเพลิงตามสัญญาทุก 24 ชั่วโมง

อุปกรณ์สวิตช์เกียร์ขนานจัดการปฏิสัมพันธ์ที่ซับซ้อนระหว่างแหล่งหลายแหล่ง ตัวควบคุมลอจิกที่ตั้งโปรแกรมได้จัดการลำดับการถ่ายโอนและการป้องกัน โครงการลำดับความสำคัญโหลดลดโหลดที่ไม่สำคัญเพื่อรักษาการทำงานของ GPU การซิงโครไนซ์อัตโนมัติช่วยให้การเปลี่ยนแหล่งราบรื่น การแยกความผิดพลาดป้องกันความล้มเหลวเดียวที่ส่งผลกระทบต่อระบบทั้งหมด ความซับซ้อนนี้ต้องการการทดสอบและบำรุงรักษาที่ซับซ้อน เกียร์ขนานที่กำหนดค่าอย่างเหมาะสมป้องกันการหยุดชะงักที่อาจเกิดขึ้น 31 ครั้งที่ Meta ในปีที่แล้ว

การปฏิบัติตามข้อกำหนดการปล่อยมลพิษจำกัดการติดตั้งเครื่องกำเนิดไฟฟ้าในพื้นที่เมืองมากขึ้น เครื่องยนต์ Tier 4 Final ลดการปล่อย NOx 90% แต่มีค่าใช้จ่ายสูงกว่า 40% ระบบ Selective catalytic reduction ต้องการการจัดเก็บและการฉีดยูเรีย ตัวกรองอนุภาคดีเซลต้องการรอบการฟื้นฟูเป็นระยะ การตรวจสอบการปล่อยมลพิษอย่างต่อเนื่องอาจจำเป็นในพื้นที่ที่ไม่บรรลุเป้าหมาย เชื้อเพลิงทางเลือกเช่นก๊าซธรรมชาติลดการปล่อยมลพิษแต่ลดเวลาตอบสนอง ศูนย์ข้อมูลในแคลิฟอร์เนียใช้เซลล์เชื้อเพลิงเพิ่มมากขึ้นเพื่อหลีกเลี่ยงข้อจำกัดการปล่อยมลพิษทั้งหมด

การลดฮาร์มอนิกและคุณภาพไฟฟ้า

โหลด GPU สร้าง

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING