การติดตั้ง GB200 NVL72: การจัดการ GPU 72 ตัวในระบบระบายความร้อนด้วยของเหลว

ระบบ GB200 NVL72 เริ่มจัดส่งให้ผู้ให้บริการคลาวด์รายใหญ่ตั้งแต่เดือนธันวาคม 2024 โดยการผลิตจำนวนมากเข้าสู่ระดับเต็มกำลังในไตรมาส 2-3 ปี 2025 นักวิเคราะห์ปรับการคาดการณ์การจัดส่งปี 2025 เป็น 25,000-35,000 ตู้...

การติดตั้ง GB200 NVL72: การจัดการ GPU 72 ตัวในระบบระบายความร้อนด้วยของเหลว

การติดตั้ง GB200 NVL72: การจัดการ GPU 72 ตัวในระบบระบายความร้อนด้วยของเหลว

อัปเดต 8 ธันวาคม 2025

GPU เจ็ดสิบสองตัวที่ทำงานเป็นหน่วยประมวลผลเดียวกลายเป็นความจริงในระดับการผลิตแล้ว GB200 NVL72 ใช้พลังงาน 120 กิโลวัตต์และให้ประสิทธิภาพการประมวลผล AI 1.4 เอกซาฟลอปส์ในตู้แร็คเดียว¹ สถาปัตยกรรมนี้ทำลายขอบเขตแบบดั้งเดิมระหว่างโหนดอย่างสิ้นเชิง สร้างผืนผ้าการประมวลผลที่สอดคล้องกันซึ่งสามารถประมวลผลโมเดลที่มีพารามิเตอร์ระดับล้านล้านตัวโดยไม่มีบทลงโทษจากการประมวลผลแบบกระจายที่รบกวนคลัสเตอร์แบบธรรมดา องค์กรที่ติดตั้งระบบเหล่านี้เผชิญกับความท้าทายทางวิศวกรรมที่นิยามใหม่ว่าทีมโครงสร้างพื้นฐานถือว่าอะไรเป็นไปได้

อัปเดตธันวาคม 2025: ระบบ GB200 NVL72 เริ่มจัดส่งให้ผู้ให้บริการคลาวด์รายใหญ่ตั้งแต่เดือนธันวาคม 2024 โดยการผลิตจำนวนมากเข้าสู่ระดับเต็มกำลังในไตรมาส 2-3 ปี 2025 นักวิเคราะห์ปรับการคาดการณ์การจัดส่งปี 2025 เป็น 25,000-35,000 ตู้ (ลดลงจากการคาดการณ์เริ่มต้นที่ 50,000-80,000) เนื่องจากข้อกำหนดในการปรับปรุงห่วงโซ่อุปทาน NVIDIA ได้เปิดตัวรุ่นต่อไป GB300 NVL72 ที่งาน GTC 2025 แล้ว โดยมี GPU Blackwell Ultra พร้อมหน่วยความจำ HBM3e 288GB กำลังไฟ 1.4kW ต่อ GPU และประสิทธิภาพสูงขึ้น 50% (1,100 PFLOPS FP4 inference) ระบบ GB300 เข้าสู่การผลิตในไตรมาส 3 ปี 2025 โดย Quanta เริ่มจัดส่งในเดือนกันยายน องค์กรที่วางแผนการติดตั้งใหม่ควรประเมินความพร้อมของ GB300 เทียบกับความต้องการ GB200 ในทันที

ตัวเลขเพียงอย่างเดียวก็ทำให้สถาปนิกศูนย์ข้อมูลที่มีประสบการณ์ตกตะลึง: หน่วยความจำ HBM3e 13.5 เทราไบต์เข้าถึงได้ด้วยความเร็ว 576 เทราไบต์ต่อวินาที เชื่อมต่อผ่าน NVLink รุ่นที่ห้าที่ให้แบนด์วิดท์ GPU-to-GPU 130 เทราไบต์ต่อวินาที² แต่ละตู้แร็คหนัก 3,000 กิโลกรัมและต้องการความสามารถในการระบายความร้อน 2.4 เมกะวัตต์ผ่านระบบระบายความร้อนด้วยของเหลวที่บังคับใช้³ คู่มือการติดตั้งแบบดั้งเดิมไม่เกี่ยวข้องอีกต่อไปเมื่อระบบเดียวมีราคา 3 ล้านดอลลาร์และสามารถฝึกโมเดลระดับ GPT-4 ได้ในหลักสัปดาห์แทนที่จะเป็นหลักเดือน

CoreWeave สั่งซื้อระบบ GB200 NVL72 มูลค่า 2.3 พันล้านดอลลาร์สำหรับการจัดส่งในปี 2025 โดยวางเดิมพันกลยุทธ์โครงสร้างพื้นฐานทั้งหมดไว้กับความสามารถของแพลตฟอร์มในการครองตลาดการฝึกและการอนุมานโมเดลภาษาขนาดใหญ่⁴ Lambda Labs สั่งซื้อล่วงหน้า 200 ยูนิตแม้ต้องสร้างสิ่งอำนวยความสะดวกใหม่ทั้งหมดเพื่อรองรับข้อกำหนดด้านพลังงานและการระบายความร้อน⁵ การแย่งชิงระบบเหล่านี้เผยให้เห็นความจริงพื้นฐาน: องค์กรที่ไม่สามารถติดตั้งโครงสร้างพื้นฐาน GB200 NVL72 เสี่ยงต่อการไม่เกี่ยวข้องในการพัฒนา foundation model

สถาปัตยกรรมนิยามขอบเขตการประมวลผลใหม่

GB200 NVL72 เชื่อมต่อ Grace-Blackwell Superchip 36 ตัวผ่านระบบสวิตช์ NVLink สองระดับที่สร้างความสอดคล้องทางการประมวลผลที่ไม่เคยมีมาก่อน Superchip แต่ละตัวรวม CPU Grace ที่ใช้ Arm กับ GPU Blackwell สองตัว เชื่อมต่อผ่าน NVLink-C2C ด้วยแบนด์วิดท์แบบสองทิศทาง 900GB/s⁶ GPU 72 ตัวแชร์หน่วยความจำและสื่อสารเหมือนเป็นโปรเซสเซอร์ขนาดใหญ่ตัวเดียว ขจัดค่าใช้จ่ายในการซิงโครไนซ์ที่จำกัดการฝึกแบบกระจายดั้งเดิม

NVLink Switch Trays เป็นกระดูกสันหลังของระบบ โดยมีเทรย์ 9 อันที่แต่ละอันรองรับชิป NVLink Switch 4 ตัว สวิตช์เหล่านี้ให้การเชื่อมต่อแบบ all-to-all ระหว่าง GPU ด้วยความเร็ว 1.8TB/s ต่อ GPU ทำให้ GPU ใดก็ได้สามารถเข้าถึงตำแหน่งหน่วยความจำใดก็ได้ในระบบภายใน 300 นาโนวินาที⁷ ความสม่ำเสมอของเวลาแฝงหมายความว่านักพัฒนาสามารถถือว่าระบบทั้งหมดเป็น GPU ตัวเดียวที่มีทรัพยากร 72 เท่า ทำให้การพัฒนาซอฟต์แวร์ง่ายขึ้นอย่างมาก

สถาปัตยกรรมหน่วยความจำทำลายทุกสถิติในประวัติศาสตร์การประมวลผล ระบบให้หน่วยความจำ HBM3e 13.5TB พร้อมแบนด์วิดท์รวม 576TB/s รวมถึง LPDDR5X เพิ่มเติมอีก 2.25TB ที่ CPU Grace เข้าถึงได้⁸ ความสอดคล้องของหน่วยความจำขยายไปทั่วโปรเซสเซอร์ทั้งหมด ทำให้ CPU และ GPU แชร์โครงสร้างข้อมูลโดยไม่ต้องคัดลอกอย่างชัดแจ้ง โมเดลภาษาขนาดใหญ่ที่ก่อนหน้านี้ต้องการ model parallelism ที่ซับซ้อนข้ามหลายโหนด ตอนนี้พอดีทั้งหมดภายในพื้นที่หน่วยความจำของ NVL72 ตัวเดียว

การระบายความร้อนกลายเป็นส่วนสำคัญของสถาปัตยกรรมแทนที่จะเป็นสิ่งที่คิดทีหลัง NVIDIA บังคับใช้การระบายความร้อนด้วยของเหลวพร้อมข้อกำหนดที่เข้มงวด: อุณหภูมิขาเข้าระหว่าง 20-25°C อัตราการไหล 80 ลิตรต่อนาที และความดันตกไม่เกิน 1.5 บาร์⁹ ระบบระบายความร้อนรักษาอุณหภูมิจุดเชื่อมต่อต่ำกว่า 75°C แม้มีการสร้างความร้อนต่อเนื่อง 120kW การเบี่ยงเบนจากข้อกำหนดจะทริกเกอร์การลดความเร็วอัตโนมัติที่สามารถลดประสิทธิภาพได้ถึง 60% ทำให้การระบายความร้อนสำคัญพอๆ กับทรัพยากรการประมวลผล

การจ่ายพลังงานต้องการการออกแบบโครงสร้างพื้นฐานใหม่ทั้งหมด ระบบดึงกระแส 120kW อย่างต่อเนื่องผ่านชั้นวางพลังงาน 30kW สี่ชุด แต่ละชุดต้องการอินพุตสามเฟส 480V¹⁰ การแปลงพลังงานเกิดขึ้นในสองขั้นตอน: AC เป็น 54V DC ในชั้นวางพลังงาน จากนั้น 54V เป็นแรงดันไฟฟ้าที่จุดใช้งานบนบอร์ดประมวลผล สถาปัตยกรรมบรรลุประสิทธิภาพการแปลง 97% แต่ยังคงสร้างความร้อนเสีย 3.6kW เฉพาะจากการแปลงพลังงาน

ความท้าทายในการติดตั้งทางกายภาพเพิ่มขึ้นทวีคูณ

การติดตั้ง GB200 NVL72 ต้องการความแม่นยำระดับทหารและอุปกรณ์เฉพาะทาง ระบบมาถึงในสี่ส่วนประกอบแยกกัน: ตู้แร็คประมวลผลหนัก 1,500 กก. ตู้แร็ค NVLink Switch ที่ 800 กก. CDU ที่ 400 กก. และหน่วยจ่ายไฟที่ 300 กก.¹¹ ประตูศูนย์ข้อมูลมาตรฐานไม่สามารถรองรับความกว้างได้ ต้องถอดกรอบประตูและบางครั้งผนัง ทีมติดตั้งของ Introl ใช้ลิฟต์ไฮดรอลิกเฉพาะทางที่รองรับน้ำหนัก 2,000 กก. เพื่อวางตำแหน่งส่วนประกอบโดยไม่ทำลายพื้นผิว

การรับน้ำหนักพื้นเป็นปัญหาโครงสร้างที่ต้องพิจารณาทันที ตู้แร็คประมวลผลรวมน้ำหนัก 1,500 กก. ไว้ในพื้นที่เพียง 0.8 ตารางเมตร สร้างน้ำหนักจุดที่ 1,875 กก./ม²¹² พื้นยกมาตรฐานที่รองรับ 1,000 กก./ม² ต้องใช้แผ่นเสริมเหล็กเพื่อกระจายน้ำหนัก สิ่งอำนวยความสะดวกหลายแห่งเลือกการติดตั้งบนพื้นคอนกรีตพร้อมแผ่นคอนกรีตเสริมเหล็กที่เทเฉพาะสำหรับการติดตั้ง NVL72 โซนแผ่นดินไหวต้องการการยึดเพิ่มเติมเพื่อป้องกันการเคลื่อนที่ระหว่างแผ่นดินไหว

การจัดการสายเคเบิลกลายเป็นปริศนาสามมิติที่มีการเชื่อมต่อเกิน 5,000 จุด ระบบใช้สายเคเบิลทองแดง NVLink 144 เส้นสำหรับการเชื่อมต่อระหว่าง GPU สายเคเบิลออปติคอล 288 เส้นสำหรับการเชื่อมต่อเครือข่าย ท่อระบายความร้อนด้วยของเหลว 72 ท่อ และสายไฟหลายร้อยเส้น¹³ NVIDIA ให้ความยาวสายเคเบิลที่แน่นอนและแผนภาพการเดินสาย เนื่องจากการเบี่ยงเบนทำให้เกิดปัญหาความสมบูรณ์ของสัญญาณที่ความเร็ว 1.8TB/s ทีมติดตั้งใช้เวลา 60-80 ชั่วโมงเฉพาะในการจัดการสายเคเบิล โดยใช้แว่น augmented reality เพื่อตรวจสอบว่าทุกการเชื่อมต่อตรงกับข้อกำหนด

โครงสร้างพื้นฐานการระบายความร้อนด้วยของเหลวต้องการความสะอาดระดับเภสัชกรรม วงจรระบายความร้อนมีสารหล่อเย็นสูตรพิเศษ 200 ลิตรที่ต้องรักษาระดับการนำไฟฟ้า pH และอนุภาคที่เฉพาะเจาะจง¹⁴ อนุภาคปนเปื้อนเพียงชิ้นเดียวสามารถอุดตัน microchannel cold plates ที่ระบายความร้อนชิปแต่ละตัว ทีมติดตั้งล้างระบบทั้งหมดสามครั้งด้วยน้ำ deionized ก่อนใส่สารหล่อเย็น กระบวนการใช้เวลา 12-16 ชั่วโมงและต้องใช้อุปกรณ์ปั๊มเฉพาะทาง

การรวมเครือข่ายต้องการการจัดเตรียมแบนด์วิดท์ที่ไม่เคยมีมาก่อน NVL72 แต่ละตัวต้องการการเชื่อมต่อ 400GbE แปดพอร์ตสำหรับการเชื่อมต่อภายนอก รวมเป็น 3.2Tb/s ต่อระบบ¹⁵ ข้อกำหนดแบนด์วิดท์เกินการเชื่อมต่อภายนอกทั้งหมดของสิ่งอำนวยความสะดวกหลายแห่ง องค์กรมักติดตั้งสายไฟเบอร์ออปติคอลเฉพาะจากระบบ NVL72 ไปยังเราเตอร์หลัก ข้ามสถาปัตยกรรมสวิตชิ่งแบบ top-of-rack ดั้งเดิม การออกแบบเครือข่ายต้องคำนึงถึงรูปแบบการจราจร east-west เมื่อระบบ NVL72 แลกเปลี่ยน checkpoints และ gradients ระหว่างการฝึกแบบกระจาย

การจัดการซอฟต์แวร์ในระดับสุดขีด

การจัดการ GPU 72 ตัวเป็นระบบที่สอดคล้องกันต้องการการเปลี่ยนแปลงสถาปัตยกรรมซอฟต์แวร์พื้นฐาน ซอฟต์แวร์ NVLink Switch System ของ NVIDIA สร้างพื้นที่หน่วยความจำเดียวข้าม GPU ทั้งหมด แต่แอปพลิเคชันต้องออกแบบมาเพื่อใช้ประโยชน์จากความสามารถนี้ เฟรมเวิร์กการฝึกแบบกระจายดั้งเดิมอย่าง Horovod และ PyTorch Distributed กลายเป็นค่าใช้จ่ายที่ไม่จำเป็น นักพัฒนาใช้ไลบรารี Transformer Engine ของ NVIDIA ที่แบ่งโมเดลข้าม GPU 72 ตัวโดยอัตโนมัติโดยไม่ต้องมีการแทรกแซงด้วยตนเอง¹⁶

แพลตฟอร์มการจัดการ container มีปัญหากับโมเดลทรัพยากรของ NVL72 Kubernetes เห็นระบบเป็น GPU แยก 72 ตัวโดยค่าเริ่มต้น นำไปสู่ความขัดแย้งในการจัดตารางและการแยกส่วนทรัพยากร NVIDIA ให้ device plugins แบบกำหนดเองที่นำเสนอ NVL72 เป็นหน่วยที่สามารถจัดตารางได้หน่วยเดียว แต่สิ่งนี้ทำลายความเข้ากันได้กับแพลตฟอร์ม ML มาตรฐาน¹⁷ องค์กรมักอุทิศระบบ NVL72 ทั้งหมดให้กับ workloads เดียวแทนที่จะพยายามทำ multi-tenancy

การจัดการหน่วยความจำต้องพิจารณาผลกระทบ NUMA อย่างรอบคอบแม้จะมีพื้นที่หน่วยความจำรวม CPU Grace แต่ละตัวมีหน่วยความจำ LPDDR5X ในเครื่องด้วยแบนด์วิดท์ 500GB/s ไปยัง GPU ในเครื่อง แต่เพียง 100GB/s ไปยัง GPU ระยะไกล¹⁸ ประสิทธิภาพที่เหมาะสมต้องการอัลกอริทึมการวางข้อมูลที่ลดการเข้าถึงหน่วยความจำข้ามซ็อกเก็ต ไลบรารี Magnum IO ของ NVIDIA จัดการการปรับปรุงบางส่วนโดยอัตโนมัติ แต่แอปพลิเคชันแบบกำหนดเองต้องมีการรับรู้ NUMA อย่างชัดแจ้ง

การจัดการความล้มเหลวกลายเป็นเรื่องซับซ้อนเมื่อ GPU 72 ตัวทำงานเป็นหนึ่งเดียว ความล้มเหลวของ GPU ตัวเดียวตามปกติหมายถึงการสูญเสีย 1/8 ของการประมวลผลของโหนด ใน NVL72 GPU ที่ล้มเหลวหนึ่งตัวสามารถทำให้ระบบทั้งหมดไม่เสถียรเนื่องจากการพึ่งพาโทโพโลยี NVLink NVIDIA ใช้การแยกความผิดพลาดระดับฮาร์ดแวร์ที่กำหนดค่าเส้นทาง NVLink ใหม่แบบไดนามิกรอบส่วนประกอบที่ล้มเหลว แต่ประสิทธิภาพลดลง 15-20% ต่อ GPU ที่ล้มเหลว¹⁹ การติดตั้งส่วนใหญ่รักษาระบบ NVL72 สำรองแทนที่จะพยายามซ่อมแซมบนยูนิตการผลิต

การตรวจสอบประสิทธิภาพสร้างปริมาณ telemetry ที่ท่วมท้น GPU แต่ละตัวสร้างเมตริกมากกว่า 10,000 ตัวต่อวินาทีครอบคลุมอุณหภูมิ พลังงาน แบนด์วิดท์หน่วยความจำ และการใช้งานการประมวลผล²⁰ คูณด้วย GPU 72 ตัวรวมถึง CPU และสวิตช์ NVL72 ตัวเดียวสร้างเมตริก 1 ล้านตัวต่อวินาที ระบบตรวจสอบแบบดั้งเดิมไม่สามารถจัดการปริมาณนี้ได้ องค์กรติดตั้งฐานข้อมูล time-series เฉพาะและใช้การวิเคราะห์ที่ขับเคลื่อนด้วย AI เพื่อระบุความผิดปกติในสตรีม telemetry

โมเดลเศรษฐกิจท้าทายความคิดแบบเดิม

ป้ายราคา 3 ล้านดอลลาร์ของ GB200 NVL72 ดูเหลือเชื่อจนกว่าจะเปรียบเทียบกับทางเลือกอื่น การสร้างการประมวลผลที่เทียบเท่าจากระบบ DGX H100 แยกต่างหากจะต้องใช้โหนด 9 โหนดมีค่าใช้จ่าย 2.7 ล้านดอลลาร์ แต่ใช้พลังงานสูงกว่า 5 เท่าและพื้นที่แร็คมากกว่า 10 เท่า²¹ สถาปัตยกรรมที่สอดคล้องกันของ NVL72 ขจัดค่าใช้จ่ายในการสื่อสารระหว่างโหนด ให้ throughput จริงดีกว่า 30% สำหรับการฝึกโมเดลขนาดใหญ่ เบี้ยประกันคุ้มค่าผ่านเวลาการฝึกที่ลดลงและต้นทุนการดำเนินงานที่ต่ำกว่า

เศรษฐศาสตร์พลังงานเอื้อ NVL72 แม้จะดึงกระแส 120kW ระบบแบบกระจายดั้งเดิมที่บรรลุการประมวลผลที่คล้ายกันจะใช้ 400-500kW รวมค่าใช้จ่ายเครือข่าย²² ที่อัตราค่าไฟอุตสาหกรรม $0.10 ต่อ kWh การประหยัดพลังงานเท่ากับ $300,000 ต่อปี ภาระการระบายความร้อนที่ลดลงประหยัดได้อีก $100,000 ต่อปี ตลอดระยะเวลาค่าเสื่อมราคาสามปีทั่วไป การประหยัดพลังงานชดเชยเกือบครึ่งหนึ่งของเบี้ยประกันเริ่มต้น

การลดเวลาการฝึกแปลงโดยตรงเป็นความได้เปรียบในการแข่งขัน OpenAI ประมาณการว่าการฝึก GPT-4 บนระบบ NVL72 จะเสร็จใน 45 วันเทียบกับ 90 วันบนโครงสร้างพื้นฐานก่อนหน้า²³ สำหรับองค์กรที่ใช้จ่าย 1 ล้านดอลลาร์ต่อวันสำหรับทรัพยากรการประมวลผล การประหยัดเวลาพิสูจน์เบี้ยประกันฮาร์ดแวร์ที่สมเหตุสมผลใดๆ ความได้เปรียบของผู้เคลื่อนไหวก่อนในตลาด AI ทำให้ความเร็วมีค่าเกินกว่าการคำนวณทางการเงินล้วนๆ

อัตราการใช้งานปรับปรุงอย่างมากด้วยสถาปัตยกรรมรวม คลัสเตอร์แบบดั้งเดิมบรรลุการใช้งาน GPU 50-60% เนื่องจากค่าใช้จ่ายในการสื่อสารและการซิงโครไนซ์²⁴ ระบบ NVL72 รักษาการใช้งาน 85-90% โดยขจัดคอขวดระหว่างโหนด การใช้งานที่ปรับปรุงหมายความว่า NVL72 แต่ละตัวให้การประมวลผลที่มีประสิทธิภาพเท่ากับ GPU แบบดั้งเดิม 120-130 ตัว เปลี่ยนเศรษฐศาสตร์ของโครงสร้างพื้นฐาน AI ขนาดใหญ่

ต้นทุนการดำเนินงานทำให้นักวิเคราะห์การเงินหลายคนประหลาดใจ ความซับซ้อนของระบบต้องการทีมวิศวกรเฉพาะที่มีเงินเดือนมากกว่า $200,000 สารหล่อเย็นเพียงอย่างเดียวมีค่าใช้จ่าย $10,000 ต่อปีพร้อมการทดสอบรายไตรมาสที่ $2,000 สินค้าคงคลังอะไหล่สำหรับ NVL72 ตัวเดียวผูกทุน $500,000 แต่ต้นทุนเหล่านี้ไม่สำคัญเมื่อเทียบกับต้นทุนโอกาสของการไม่มีการประมวลผลเพียงพอสำหรับการพัฒนาโมเดล

การติดตั้งจริงเผยความเป็นจริงในการดำเนินงาน

โครงสร้างพื้นฐานการฝึก Claude 3 ของ Anthropic

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING