โครงสร้างพื้นฐานทางกายภาพสำหรับ GPU 1200W: ข้อกำหนดด้านไฟฟ้า ระบบระบายความร้อน และการออกแบบตู้แร็ค

ยุคของ GPU 1200W มาถึงแล้ว ระบบ GB200 (1200W ต่อ Superchip) เริ่มจัดส่งตลอดปี 2025 โดย GB300 Blackwell Ultra (1400W) อยู่ในขั้นตอนการผลิตแล้ว แพลตฟอร์ม Vera Rubin ของ NVIDIA พร้อมตัวอย่างทดสอบ...

โครงสร้างพื้นฐานทางกายภาพสำหรับ GPU 1200W: ข้อกำหนดด้านไฟฟ้า ระบบระบายความร้อน และการออกแบบตู้แร็ค

โครงสร้างพื้นฐานทางกายภาพสำหรับ GPU 1200W: ข้อกำหนดด้านไฟฟ้า ระบบระบายความร้อน และการออกแบบตู้แร็ค

อัปเดตวันที่ 8 ธันวาคม 2025

การกระโดดจากการใช้พลังงาน GPU 700W ไปเป็น 1200W ไม่ใช่แค่การเพิ่มขึ้นกว่า 70% เท่านั้น แต่ยังทำลายทุกสมมติฐานที่เคยเป็นแนวทางในการออกแบบศูนย์ข้อมูลในช่วงสิบปีที่ผ่านมาโดยสิ้นเชิง ต้องการโครงสร้างพื้นฐานที่คล้ายกับโรงงานอุตสาหกรรมมากกว่าสภาพแวดล้อม IT แบบดั้งเดิม¹ NVIDIA B200 และ GB300 Blackwell Ultra ปัจจุบันต้องการ 1200-1400W ต่อชิป ในขณะที่แพลตฟอร์ม Vera Rubin ที่กำลังจะมาถึงจะผลักดันข้อกำหนดให้สูงขึ้นไปอีก² องค์กรที่กำลังสร้างโครงสร้างพื้นฐานในวันนี้ต้องเตรียมพร้อมสำหรับ GPU ที่สร้างความร้อนเทียบเท่าเครื่องทำความร้อนในบ้านพักอาศัย มีน้ำหนัก 30 กิโลกรัมพร้อมอุปกรณ์ระบายความร้อน และต้องการระบบจ่ายไฟที่ยืมมาจากสถานีชาร์จรถยนต์ไฟฟ้า

อัปเดตเดือนธันวาคม 2025: ยุคของ GPU 1200W มาถึงแล้ว ระบบ GB200 (1200W ต่อ Superchip) เริ่มจัดส่งตลอดปี 2025 โดย GB300 Blackwell Ultra (1400W) อยู่ในขั้นตอนการผลิตแล้ว แพลตฟอร์ม Vera Rubin ของ NVIDIA พร้อมตัวอย่างทดสอบที่จัดส่งตั้งแต่เดือนกันยายน 2025 จะต้องการพลังงานสูงถึง 600kW ต่อแร็คสำหรับการกำหนดค่า NVL144 ซึ่งเพิ่มขึ้น 5 เท่าจากระบบ GB200 NVL72 ปัจจุบัน องค์กรที่เตรียมโครงสร้างพื้นฐานสำหรับ 1200W ในปี 2024 ตอนนี้ต้องเผชิญกับความจริงที่ว่าชิป 2000W+ อยู่ในแผนปี 2027 การตัดสินใจด้านโครงสร้างพื้นฐานที่บันทึกไว้ที่นี่ยังคงเป็นพื้นฐาน แต่การติดตั้งที่มองไปข้างหน้าควรวางแผนสำหรับความหนาแน่นของพลังงานที่สูงขึ้นอย่างมาก

ความท้าทายด้านโครงสร้างพื้นฐานทวีคูณเมื่อคูณด้วยขนาด ตู้แร็คเดียวที่มี GPU 1200W แปดตัวใช้พลังงาน 10kW สำหรับการประมวลผลเพียงอย่างเดียว แต่อุปกรณ์สนับสนุนผลักดันการบริโภคทั้งหมดไปที่ 15-18kW ต่อแร็ค³ การออกแบบศูนย์ข้อมูลล่าสุดของ Microsoft รองรับชิป 1200W แล้ว โดยสิ่งอำนวยความสะดวกมีลักษณะคล้ายโรงหลอมอะลูมิเนียมมากกว่าห้องเซิร์ฟเวอร์⁴ การเตรียมการต้องใช้เวลานำ 18-24 เดือนสำหรับการอัพเกรดระบบไฟฟ้า การติดตั้งระบบระบายความร้อน และการเสริมความแข็งแรงของโครงสร้างที่มีค่าใช้จ่าย 5-8 ล้านดอลลาร์ต่อเมกะวัตต์ก่อนที่จะซื้อ GPU แม้แต่ตัวเดียว

ผู้นำร่องเผชิญกับบทเรียนที่เจ็บปวดเกี่ยวกับการประเมินข้อกำหนดโครงสร้างพื้นฐานต่ำเกินไป Cerebras ติดตั้งเครื่อง wafer-scale 23kW ของพวกเขาโดยคิดว่าพลังงานเป็นความท้าทายหลัก แต่กลับพบว่าการสั่นสะเทือนจากปั๊มระบายความร้อนทำให้ชิปล้มเหลว⁵ ซูเปอร์คอมพิวเตอร์ Dojo ของ Tesla ต้องการการออกแบบสิ่งอำนวยความสะดวกใหม่ทั้งหมดเมื่อชิป 1000W+ ร้อนเกินไปแม้จะมีความจุระบายความร้อนที่ดูเหมือนเพียงพอ⁶ ทุกองค์กรที่ติดตั้ง GPU รุ่นใหม่ค้นพบโหมดความล้มเหลวใหม่ที่ต้องการการแก้ไขที่มีค่าใช้จ่ายสูง ทำให้การเตรียมการอย่างเหมาะสมมีความสำคัญในการหลีกเลี่ยงความผิดพลาดหลายล้านดอลลาร์

สถาปัตยกรรมการจ่ายไฟเข้าสู่ดินแดนใหม่

การกระจายพลังงาน 208V แบบดั้งเดิมกลายเป็นสิ่งที่เป็นไปไม่ได้ทางกายภาพที่โหลด 1200W การจ่าย 1200W ที่ 208V ต้องการ 5.8 แอมป์ต่อเฟสบนไฟฟ้าสามเฟส แต่เมื่อคำนึงถึงการลดพิกัด 80% ตามรหัสไฟฟ้าหมายความว่าต้องใช้วงจร 7.2 แอมป์⁷ กระแสไฟฟ้าจะต้องใช้สาย 6 AWG หนาเท่านิ้วหัวแม่มือสำหรับ GPU แต่ละตัว สร้างมัดสายที่ไม่สามารถใส่ในตู้แร็คมาตรฐานได้ทางกายภาพ ทองแดงเพียงอย่างเดียวจะมีค่าใช้จ่าย 500 ดอลลาร์ต่อ GPU ในวัตถุดิบก่อนค่าแรงติดตั้ง

การกระจายพลังงาน 480V กลายเป็นทางออกเดียวที่เป็นไปได้สำหรับชิป 1200W ที่ 480V สามเฟส 1200W ต้องการเพียง 1.5 แอมป์ต่อเฟส จัดการได้ด้วยสาย 12 AWG⁸ ศูนย์ข้อมูลในยุโรปได้เปรียบจากการกระจาย 400V มาตรฐาน อธิบายได้ว่าทำไม hyperscaler หลายรายจึงให้ความสำคัญกับการติดตั้งในแถบนอร์ดิกสำหรับโครงสร้างพื้นฐานรุ่นใหม่ สิ่งอำนวยความสะดวกในอเมริกาเหนือต้องการการอัพเกรดหม้อแปลงจากการกระจาย 208V เป็น 480V เพิ่มค่าใช้จ่าย 500,000 ดอลลาร์ต่อเมกะวัตต์ในอุปกรณ์แปลง⁹

การกระจายกระแสตรงขจัดความไม่มีประสิทธิภาพในการแปลงหลายครั้งที่รบกวนระบบ AC การแปลง AC เป็น DC แบบดั้งเดิมสูญเสียพลังงาน 8-10% ผ่านการสูญเสียของหม้อแปลงและวงจรเรียงกระแส¹⁰ ศูนย์ข้อมูลของ Google แสดงให้เห็นการกระจาย 380V DC บรรลุประสิทธิภาพ 99% จากสาธารณูปโภคถึงชิป¹¹ สำหรับ GPU 1200W การกระจาย DC ประหยัด 120W ต่อชิปในการสูญเสียการแปลงเพียงอย่างเดียว พลังงานที่ประหยัดได้เท่ากับข้อกำหนดการระบายความร้อนสำหรับความร้อนจากการแปลง ทำให้ประโยชน์ด้านประสิทธิภาพทวีคูณ

การออกแบบแหล่งจ่ายไฟวิวัฒนาการเป็นระบบการจัดการพลังงานที่ซับซ้อน PSU ทั่วไปมีพิกัดสูงสุดที่ 2000W ด้วยประสิทธิภาพ 80 Plus Titanium ที่ 94%¹² การรองรับ GPU 1200W แปดตัวต้องการแหล่งจ่าย 3000W+ หลายตัวพร้อมความซ้ำซ้อน N+1 Delta Electronics พัฒนาชั้นวางจ่ายไฟ 4000W โดยเฉพาะสำหรับการติดตั้ง GPU ความหนาแน่นสูง ใช้ทรานซิสเตอร์ GaN เพื่อบรรลุประสิทธิภาพ 97%¹³ ชั้นวางจ่ายไฟแต่ละอันมีราคา 15,000 ดอลลาร์แต่ประหยัดค่าไฟฟ้า 50,000 ดอลลาร์ต่อปีสำหรับการทำงานต่อเนื่อง

การจัดการพลังงานชั่วคราวกลายเป็นสิ่งสำคัญเมื่อ GPU เปลี่ยนจากโหมดว่างเป็นโหลดเต็มในไมโครวินาที GPU 1200W ที่เปลี่ยนจากโหมดว่าง 200W เป็นพลังงานเต็มสร้างโหลดขั้น 1000W ที่ทำให้กริดไฟฟ้าไม่เสถียร¹⁴ ธนาคารตัวเก็บประจุทำให้การเปลี่ยนแปลงเหล่านี้ราบรื่นแต่ต้องการการกำหนดขนาดอย่างระมัดระวัง: เล็กเกินไปและแรงดันตกทำให้ระบบล่ม ใหญ่เกินไปและค่าใช้จ่ายเพิ่มขึ้นโดยไม่จำเป็น การจ่ายพลังงาน GPU สมัยใหม่รวมอาร์เรย์ตัวเก็บประจุ 50,000 ไมโครฟารัดที่มีค่าใช้จ่าย 5,000 ดอลลาร์ต่อแร็คแต่ป้องกันความล้มเหลวที่เกิดจากพลังงาน

การระบายความร้อน 1200W ต้องการของเหลว ไม่มีทางเลือก

การระบายความร้อนด้วยอากาศกลายเป็นสิ่งที่เป็นไปไม่ได้ทางเทอร์โมไดนามิกสำหรับ GPU 1200W ไม่ว่าจะมีความคิดสร้างสรรค์ทางวิศวกรรมเพียงใด การกำจัดความร้อน 1200W ด้วยอากาศต้องการ 400 CFM พร้อมการเพิ่มอุณหภูมิ 30°F¹⁵ GPU แปดตัวต้องการ 3,200 CFM สร้างลมแรง 100+ ไมล์ต่อชั่วโมงในตู้แร็คเซิร์ฟเวอร์ พลังงานพัดลมเพียงอย่างเดียวจะบริโภค 500W เพิ่มความร้อนที่ต้องกำจัด แม้ว่าอัตราการไหลของอากาศจะเป็นไปได้ ระดับเสียงจะเกิน 110 dBA ทำให้เกิดความเสียหายต่อการได้ยินอย่างถาวรภายในไม่กี่นาที¹⁶

การระบายความร้อนด้วยของเหลวโดยตรงไปยัง cold plate กลายเป็นทางออกขั้นต่ำที่เป็นไปได้ Direct Liquid Cooling ของ CoolIT Systems รองรับ 1500W ต่อ GPU โดยใช้ cold plate พิเศษที่มี microchannel เล็กกว่าเส้นผมมนุษย์¹⁷ ระบบรักษาอุณหภูมิชิปต่ำกว่า 80°C โดยใช้น้ำเข้า 30°C ที่อัตราการไหล 2 ลิตรต่อนาที วิศวกรรมคล้ายกับการแข่งรถ Formula 1 มากกว่า IT แบบดั้งเดิม โดยมีความคลาดเคลื่อนวัดเป็นไมโครเมตรและความต้านทานความร้อนในเศษส่วนขององศาเซลเซียสต่อวัตต์

การระบายความร้อนแบบจมให้การกำจัดความร้อนที่เหนือกว่าสำหรับการติดตั้งความหนาแน่นสูงมาก SmartPodX ของ Submer รองรับ 100kW ใน 60 ตารางฟุตโดยใช้การจมในของเหลว dielectric¹⁸ การไม่มีอากาศขจัดจุดร้อนและความแตกต่างของอุณหภูมิที่รบกวนการระบายความร้อนด้วยอากาศและ cold plate GRC รายงานว่า GPU 1200W ทำงานเย็นกว่า 15°C ในการจมเมื่อเทียบกับการระบายความร้อนด้วยของเหลวโดยตรง¹⁹ เทคโนโลยีต้องการการออกแบบโครงสร้างพื้นฐานใหม่ทั้งหมดแต่เปิดใช้งานความหนาแน่นที่เป็นไปไม่ได้ด้วยวิธีอื่น

การระบายความร้อนแบบสองเฟสใช้ประโยชน์จากฟิสิกส์การเปลี่ยนเฟสเพื่อการกำจัดความร้อนสูงสุด ของเหลว Novec ของ 3M เดือดที่ 50°C โดยการระเหยดูดซับความร้อนมากกว่าของเหลวเฟสเดียว 10 เท่า²⁰ Intel แสดงให้เห็นการระบายความร้อนแบบสองเฟสกำจัดความร้อน 2000W จากชิปทดลองขณะรักษาอุณหภูมิ junction ที่ 60°C²¹ เทคโนโลยียังคงเป็นการทดลองสำหรับ GPU แต่แสดงถึงวิวัฒนาการที่เป็นไปได้สำหรับชิป 1500W+ ในอนาคต ผู้นำร่องต้องออกแบบสิ่งอำนวยความสะดวกพร้อมเส้นทางการอัพเกรดแบบสองเฟส

โครงสร้างพื้นฐานการระบายความร้อนปรับขนาดตามสัดส่วนกับพลังงาน GPU สิ่งอำนวยความสะดวก 10MW ที่มี GPU 1200W สร้างความร้อนเทียบเท่าบ้าน 2,500 หลังในฤดูหนาว²² cooling tower ต้องรองรับการไหลของน้ำคอนเดนเซอร์ 35,000 แกลลอนต่อนาที dry cooler สำหรับภูมิภาคที่ขาดแคลนน้ำต้องการความจุเพิ่ม 50% และบริโภคพลังงานเพิ่ม 20% โครงสร้างพื้นฐานขยายไปไกลเกินกว่าห้องเซิร์ฟเวอร์เข้าสู่ระบบเครื่องกลขนาดอุตสาหกรรมที่มีค่าใช้จ่าย 2-3 ล้านดอลลาร์ต่อเมกะวัตต์

วิศวกรรมโครงสร้างเผชิญกับโหลดมหาศาล

น้ำหนัก GPU เพิ่มขึ้นอย่างมากพร้อมระบบระบายความร้อนแบบรวม GPU 1200W เปล่ามีน้ำหนัก 5 กก. แต่การเพิ่ม cold plate manifold และสารหล่อเย็นทำให้น้ำหนักรวมเป็น 15 กก. ต่อ GPU²³ เซิร์ฟเวอร์ GPU แปดตัวเข้าใกล้ 200 กก. เมื่อโหลดเต็ม เกินพิกัดพื้นยกส่วนใหญ่ที่ 150 กก. ต่อตารางเมตร การกระจุกตัวของน้ำหนักสร้างโหลดจุดที่แตกคอนกรีตและงอตัวรองรับเหล็กเมื่อเวลาผ่านไป

การสั่นสะเทือนจากระบบระบายความร้อนสร้างความท้าทายด้านโครงสร้างที่ไม่คาดคิด ปั๊มไหลสูงสำหรับการระบายความร้อนด้วยของเหลวสร้างการสั่นสะเทือนที่ความถี่ 50-120 Hz ที่เรโซแนนซ์กับโครงสร้างอาคาร²⁴ Cerebras ค้นพบว่าการสั่นสะเทือนของปั๊มทำให้เกิดข้อผิดพลาดหน่วยความจำ GPU ผ่านความเครียดทางกลบนจุดบัดกรี²⁵ การติดตั้งแบบแยกกลายเป็นสิ่งจำเป็น โดยใช้ระบบสปริง-แดมเปอร์ที่เพิ่ม 10,000 ดอลลาร์ต่อแร็คแต่ป้องกันความล้มเหลวที่เกิดจากการสั่นสะเทือน

การพิจารณาด้านแผ่นดินไหวทวีคูณสำหรับโครงสร้างพื้นฐาน GPU น้ำหนักมาก รหัสอาคารแคลิฟอร์เนียต้องการการยึดสำหรับอุปกรณ์ที่เกิน 400 ปอนด์ แต่ตู้แร็ค GPU 1200W เข้าใกล้ 2,000 ปอนด์เมื่อโหลดเต็ม²⁶ การยึดแผ่นดินไหวต้องทนต่อความเร่งแนวนอน 1.5g โดยไม่พลิกคว่ำ ระบบการยึดมีค่าใช้จ่าย 5,000 ดอลลาร์ต่อแร็คและต้องการการวิเคราะห์โครงสร้างเพื่อให้แน่ใจว่าแผ่นพื้นสามารถรับโหลดได้ ศูนย์ข้อมูลของญี่ปุ่นใช้ระบบแยกฐานที่อนุญาตให้มีการเคลื่อนที่แนวนอน 30 ซม. ระหว่างแผ่นดินไหว

การกระจายของเหลวเพิ่มโหลดไฮโดรสแตติกที่ไม่ค่อยได้รับการพิจารณาในการออกแบบศูนย์ข้อมูล ลูประบายความร้อนสำหรับ GPU 1200W มีสารหล่อเย็น 500+ ลิตรต่อแร็ค หนัก 500 กก. นอกเหนือจากน้ำหนักอุปกรณ์²⁷ ท่อวิ่งต้องรองรับน้ำหนักนี้บวกกับแรงไดนามิกจากอัตราการไหล 20+ ลิตรต่อนาที การรั่วไหลภัยพิบัติปล่อยของเหลวเพียงพอที่จะท่วมพื้นศูนย์ข้อมูลทั้งหมด ระบบควบคุมรองกลายเป็นสิ่งจำเป็น เพิ่มค่าก่อสร้าง 20% แต่ป้องกันภัยพิบัติด้านสิ่งแวดล้อม

พื้นเข้าถึงต้องการการออกแบบวิศวกรรมใหม่ทั้งหมดสำหรับโครงสร้างพื้นฐาน 1200W พื้นยกแบบดั้งเดิม 2 ฟุตไม่สามารถรองรับน้ำหนักอุปกรณ์หรือบรรจุสายเคเบิลและท่อที่ต้องการ การติดตั้ง 1200W สมัยใหม่ใช้พื้นยก 4 ฟุตพร้อมตะแกรงเหล็กแทนกระเบื้อง²⁸ plenum ที่ลึกกว่ารองรับท่อระบายความร้อน 12 นิ้วและมัดสายเคเบิลขนาดใหญ่ ค่าก่อสร้างเพิ่มขึ้น 40% แต่ให้พื้นที่โครงสร้างพื้นฐานและความสามารถในการรับโหลดที่จำเป็น

โครงสร้างพื้นฐานเครือข่ายและสายเคเบิลปรับขนาดตามไปด้วย

GPU 1200W แต่ละตัวต้องการการเชื่อมต่อเครือข่ายความเร็วสูงหลายตัวเพื่อป้องกันไม่ให้กลายเป็นเกาะประมวลผล B200 ของ NVIDIA รองรับพอร์ต 400GbE แปดพอร์ตต่อ GPU สำหรับแบนด์วิดท์รวม 3.2Tb/s²⁹ GPU แปดตัวต้องการสายเครือข่าย 64 เส้นบวกความซ้ำซ้อน สร้างมัดสายเส้นผ่านศูนย์กลาง 8 นิ้ว สายเพียงอย่างเดียวมีน้ำหนัก 200 กก. ต่อแร็คและมีค่าใช้จ่าย 50,000 ดอลลาร์ในสาย DAC ความเร็วสูงหรือ 100,000 ดอลลาร์สำหรับสายออปติคัลแอคทีฟ

สายไฟกลายเป็นความท้าทายด้านโครงสร้างพื้นฐานที่สำคัญ GPU 1200W แต่ละตัวต้องการสายจ่ายไฟเฉพาะเพื่อป้องกันความล้มเหลวแบบลูกโซ่ การใช้ 480V ลดขนาดสาย แต่ข้อกำหนดด้านความปลอดภัยบังคับให้มีการป้องกันวงจรแต่ละตัว ตู้แร็คที่มี GPU แปดตัวต้องการสายไฟ 24 เส้น (สามเฟสต่อ GPU) บวกกราวด์และนิวทรัล ระบบรางสายต้องรองรับน้ำหนักสาย 100 กก. ต่อเมตรในขณะที่รักษาการแยกที่เหมาะสมระหว่างสายไฟและสายข้อมูล

โครงสร้างพื้นฐานออปติคัลกลายเป็นสิ่งจำเป็นสำหรับข้อกำหนดแบนด์วิดท์ สายทองแดงไม่สามารถรองรับ 400GbE เกิน 3 เมตร บังคับให้ใช้การเชื่อมต่อออปติคัลสำหรับ topology ที่มีความหมายใดๆ³⁰ ทรานซีฟเวอร์ออปติคัลแต่ละตัวบริโภค 15W และมีราคา 3,000 ดอลลาร์ เพิ่มพลังงาน 1kW และ 200,000 ดอลลาร์ในทรานซีฟเวอร์สำหรับระบบ GPU แปดตัวที่เชื่อมต่อเต็มรูปแบบ โครงสร้างพื้นฐานออปติคัลต้องการเครื่องมือทำความสะอาดเฉพาะ อุปกรณ์ทดสอบ และความเชี่ยวชาญที่หลายองค์กรขาด

การจัดการสายส่งผลต่อประสิทธิภาพการระบายความร้อนมากกว่าที่ส่วนใหญ่ตระหนัก การวางสายที่ไม่ดีจำกัดการไหลของอากาศในระบบอากาศ/ของเหลวแบบไฮบริด สร้างจุดร้อนที่กระตุ้นการลดความเร็วเนื่องจากความร้อน การจัดการสายที่เหมาะสมรักษาพื้นที่เปิด 40% สำหรับการไหลของอากาศในขณะที่จัดระเบียบสายสำหรับการเข้าถึงการบำรุงรักษา³¹ ระบบสายแบบมีโครงสร้างใช้ความยาวที่วัดไว้ล่วงหน้าและเส้นทางการวางที่กำหนดแต่ต้องการเวลาติดตั้ง 2-3 เท่า การลงทุนคืนทุนผ่านเวลาบำรุงรักษาที่ลดลงและประสิทธิภาพการระบายความร้อนที่ดีขึ้น

เครือข่ายการจัดการต้องการการแยกจากเส้นทางข้อมูลเพื่อป้องกันการขาดแคลน control plane GPU 1200W แต่ละตัวต้องการการเชื่อมต่อ IPMI/Redfish สำหรับการจัดการ out-of-band ต้องการสวิตช์เครือข่ายและสายเพิ่มเติม³² การตรวจสอบสิ่งแวดล้อมเพิ่มเซ็นเซอร์หลายร้อยตัวต่อแร็คสำหรับอุณหภูมิ ความชื้น ความดัน และการตรวจจับการรั่วไหล โครงสร้างพื้นฐานการจัดการสร้าง telemetry หลายกิกะบิตที่

[เนื้อหาถูกตัดสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING