การออกแบบโทโพโลยีเครือข่ายคลัสเตอร์ GPU: สถาปัตยกรรม Fat-Tree, Dragonfly และ Rail-Optimized
อัปเดตวันที่ 11 ธันวาคม 2025
อัปเดตเดือนธันวาคม 2025: DGX SuperPOD กำหนดใช้โทโพโลยี fat-tree สามชั้นพร้อมสวิตช์ Quantum-2 InfiniBand (400Gb/s) การศึกษาของ Meta พบว่าข้อผิดพลาดในการกำหนดค่าเครือข่ายทำให้เกิดความล้มเหลวของงาน GPU สำคัญ 10.7% แบนด์วิดท์แบบ full bisection มีความสำคัญอย่างยิ่งสำหรับการฝึกแบบกระจายที่รูปแบบการสื่อสารเปลี่ยนแปลงตลอดเวลา Google TPU pods ใช้ 3D torus; AWS Trainium ใช้โทโพโลยีที่ปรับให้เหมาะกับ workload
สถาปัตยกรรมอ้างอิง DGX SuperPOD ของ NVIDIA กำหนดใช้โทโพโลยีเครือข่าย fat-tree สามชั้นที่เชื่อมต่อระบบ DGX ได้สูงสุด 32 ระบบโดยใช้สวิตช์ Quantum-2 InfiniBand ที่ความเร็ว 400 Gb/s ต่อพอร์ต[^1] สถาปัตยกรรมนี้ให้แบนด์วิดท์แบบ full bisection หมายความว่าแบนด์วิดท์รวมระหว่างสองส่วนใดๆ ของคลัสเตอร์เท่ากับแบนด์วิดท์รวมที่เข้าสู่แต่ละส่วน โทโพโลยี fat-tree ครองตลาดการติดตั้งคลัสเตอร์ GPU เพราะให้ประสิทธิภาพที่คาดการณ์ได้ไม่ว่าคู่ GPU ใดจะสื่อสารกัน ซึ่งเป็นคุณสมบัติสำคัญสำหรับการฝึกแบบกระจายที่รูปแบบการสื่อสารเปลี่ยนแปลงตลอดเวลา
การเลือกโทโพโลยีเครือข่ายส่งผลโดยตรงต่อประสิทธิภาพการฝึก ต้นทุน และความซับซ้อนในการดำเนินงาน การศึกษาของ Meta พบว่าข้อผิดพลาดในการกำหนดค่าเครือข่ายทำให้เกิดความล้มเหลวของงานสำคัญ 10.7% ในคลัสเตอร์ GPU ของพวกเขา โดยความแออัดที่ขึ้นกับโทโพโลยีมีส่วนทำให้ประสิทธิภาพผันแปร[^2] Google TPU pods ใช้โทโพโลยี 3D torus ที่ช่วยให้เชื่อมต่อโดยตรงระหว่าง accelerators ที่อยู่ใกล้กัน ในขณะที่คลัสเตอร์ AWS Trainium ใช้โทโพโลยีที่แตกต่างกันซึ่งปรับให้เหมาะกับรูปแบบ workload ของพวกเขา[^3] การเข้าใจข้อแลกเปลี่ยนของโทโพโลยีช่วยให้องค์กรเลือกสถาปัตยกรรมที่ตรงกับความต้องการ workload เฉพาะและข้อจำกัดด้านงบประมาณ
พื้นฐานโทโพโลยี Fat-tree
โทโพโลยี fat-tree มีต้นกำเนิดจากงานของ Charles Leiserson ในปี 1985 ที่แสดงให้เห็นว่าโครงสร้างแบบต้นไม้สามารถบรรลุแบนด์วิดท์แบบ full bisection ได้หากความจุของลิงก์เพิ่มขึ้นเมื่อเข้าใกล้ root[^4] การใช้งานสมัยใหม่ใช้ลิงก์ที่มีความจุเท่ากันตลอด โดยบรรลุแบนด์วิดท์เต็มผ่านเส้นทางขนานหลายเส้นทางแทนที่จะเป็นลิงก์ที่หนาขึ้น
สถาปัตยกรรม fat-tree สามชั้น
Fat-tree สามชั้นประกอบด้วยสวิตช์ leaf ที่เชื่อมต่อกับเซิร์ฟเวอร์ สวิตช์ spine ที่รวบรวมทราฟฟิกจาก leaf และสวิตช์ core ที่ให้การเชื่อมต่อเต็มรูปแบบระหว่าง spines[^5] สวิตช์ leaf แต่ละตัวเชื่อมต่อกับสวิตช์ spine ทุกตัว และ spine แต่ละตัวเชื่อมต่อกับสวิตช์ core ทุกตัว เครือข่ายของการเชื่อมต่อสร้างเส้นทางที่มีต้นทุนเท่ากันหลายเส้นทางระหว่างเซิร์ฟเวอร์สองตัวใดๆ
NVIDIA แนะนำ fat-tree สำหรับคลัสเตอร์ DGX เนื่องจากลักษณะความหน่วงและแบนด์วิดท์ที่คาดการณ์ได้[^6] โทโพโลยีนี้รับประกันว่าการดำเนินการแบบ collective เช่น all-reduce จะได้รับประสิทธิภาพที่สม่ำเสมอไม่ว่า GPU จะถูกวางไว้ที่ใด งานฝึกไม่จำเป็นต้องพิจารณาโทโพโลยีเครือข่ายเมื่อทำการจัดตาราง ทำให้การจัดการคลัสเตอร์ง่ายขึ้น
อัตราส่วน Oversubscription
แบนด์วิดท์แบบ full bisection ต้องการความจุสวิตช์ที่มีราคาแพงที่ชั้นบน การติดตั้งหลายแห่งยอมรับ oversubscription ซึ่งแบนด์วิดท์ uplink รวมจากชั้นล่างเกินความจุที่มีอยู่ที่ชั้นบน[^7] อัตราส่วน oversubscription 2:1 หมายความว่ามีเพียงครึ่งหนึ่งของทราฟฟิกเท่านั้นที่สามารถผ่านชั้นบนพร้อมกันได้
Oversubscription เหมาะกับ workloads ที่มี locality ซึ่งการสื่อสารส่วนใหญ่เกิดขึ้นภายใน racks หรือ pods อย่างไรก็ตาม การฝึกแบบกระจายที่มีรูปแบบการสื่อสารแบบ all-to-all ทำให้ลิงก์ที่ oversubscribed อิ่มตัว ทำให้เกิดความแออัดและประสิทธิภาพลดลง คลัสเตอร์ฝึก AI มักต้องการการออกแบบแบบไม่ oversubscribed แม้จะมีต้นทุนสูงกว่า[^8]
Radix และการขยายขนาด
Switch radix กำหนดจำนวนพอร์ตที่สวิตช์แต่ละตัวมี ซึ่งส่งผลต่อทั้งขนาดและต้นทุน สวิตช์ 64 พอร์ตที่สร้าง fat-tree สามชั้นโดยมี 32 downlinks และ 32 uplinks สามารถขยายได้ถึง 32,768 endpoints[^9] สวิตช์ที่มี radix สูงกว่าลดจำนวนสวิตช์ที่ต้องการแต่เพิ่มต้นทุนต่อสวิตช์
สวิตช์ Quantum-2 ของ NVIDIA มี 64 พอร์ตที่ความเร็ว 400 Gb/s ทำให้สามารถติดตั้ง fat-tree ขนาดใหญ่ได้ด้วยจำนวนสวิตช์ที่เหมาะสม[^10] รุ่น Quantum-X800 ที่กำลังจะมาถึงเพิ่มความเร็วพอร์ตเป็น 800 Gb/s เพิ่มแบนด์วิดท์รวมเป็นสองเท่าโดยไม่เปลี่ยนโครงสร้างโทโพโลยี
โทโพโลยี Rail-optimized
โทโพโลยี rail-optimized เกิดขึ้นจากการตระหนักว่าเซิร์ฟเวอร์ GPU ประกอบด้วย GPU หลายตัวที่แชร์ interconnects ภายในความเร็วสูง แทนที่จะปฏิบัติต่อ GPU แต่ละตัวอย่างเป็นอิสระ การออกแบบ rail-optimized จะจัดการเชื่อมต่อเครือข่ายให้สอดคล้องกับตำแหน่ง GPU ภายในเซิร์ฟเวอร์[^11]
ทำความเข้าใจ GPU rails
ระบบ DGX H100 ประกอบด้วย GPU แปดตัวที่เชื่อมต่อผ่าน NVLink โดย GPU แต่ละตัวยังเชื่อมต่อกับ network interface card (NIC)[^12] NIC แปดตัวสอดคล้องกับ "rails" แปดเส้นที่ครอบคลุมทั้งคลัสเตอร์ Rail 0 เชื่อมต่อ GPU 0 จากทุกเซิร์ฟเวอร์ rail 1 เชื่อมต่อ GPU 1 และต่อไปเรื่อยๆ การสื่อสารภายใน rail ผ่าน switch hops น้อยกว่าการสื่อสารข้าม rail
NVIDIA NVLink Switch เชื่อมต่อ GPU ภายในและข้ามเซิร์ฟเวอร์ที่แบนด์วิดท์รวม 900 GB/s ต่อ GPU[^13] NVLink domain จัดการการสื่อสาร GPU-to-GPU ส่วนใหญ่ โดยเครือข่าย InfiniBand จัดการการสื่อสารระหว่าง NVLink domains โทโพโลยี rail-optimized จัดเส้นทาง InfiniBand ให้สอดคล้องกับ NVLink domains เพื่อลดทราฟฟิก InfiniBand
ข้อพิจารณาในการใช้งาน
การติดตั้งแบบ rail-optimized ต้องการการเดินสายอย่างระมัดระวังเพื่อรักษาการจัดตำแหน่ง rail ข้าม racks และ pods[^14] การเชื่อมต่อที่เดินสายผิดทำลาย rail locality ทำให้ทราฟฟิกต้องผ่าน switch hops เพิ่มเติม วินัยในการจัดการสายเคเบิลพิสูจน์แล้วว่าจำเป็นสำหรับการได้รับประโยชน์จาก rail optimization
โทโพโลยีนี้ลดความต้องการสวิตช์เมื่อเทียบกับ full fat-tree ที่ขนาดเท่ากัน การประหยัดมาจากการกำจัดความจุ cross-rail switching ที่ workloads แบบ rail-optimized ไม่ค่อยใช้[^15] องค์กรต้องตรวจสอบว่ารูปแบบ workload ของพวกเขาแสดง rail locality จริงก่อนที่จะตัดสินใจใช้การออกแบบแบบ rail-optimized
โทโพโลยี Dragonfly
โทโพโลยี dragonfly จัดระเบียบสวิตช์เป็นกลุ่มที่มีการเชื่อมต่อภายในกลุ่มหนาแน่นและลิงก์ระหว่างกลุ่มแบบเบาบาง[^16] การออกแบบลดจำนวนสวิตช์เมื่อเทียบกับ fat-tree ในขณะที่รักษาความยาวเส้นทางที่เหมาะสมระหว่าง endpoints สองจุดใดๆ
โครงสร้าง Dragonfly
Dragonfly ประกอบด้วยกลุ่ม แต่ละกลุ่มมีสวิตช์หลายตัวที่เชื่อมต่อเต็มรูปแบบภายในกลุ่ม Global links เชื่อมต่อสวิตช์แต่ละตัวกับสวิตช์ในกลุ่มอื่น[^17] Endpoints สองจุดใดๆ เชื่อมต่อผ่านไม่เกินสาม hops: local switch ไปยัง group switch ไปยัง remote group switch ไปยังปลายทาง
จำนวน hop ที่ลดลงทำให้ความหน่วงต่ำลงสำหรับการติดตั้งขนาดใหญ่ สวิตช์น้อยลงลดต้นทุนทุนและการใช้พลังงาน อย่างไรก็ตาม dragonfly ให้แบนด์วิดท์ bisection ต่ำกว่า fat-tree ทำให้มีความอ่อนไหวต่อความแออัดภายใต้รูปแบบทราฟฟิกบางรูปแบบมากกว่า[^18]
ข้อกำหนด Adaptive routing
ประสิทธิภาพของ dragonfly ขึ้นอยู่กับ adaptive routing ที่กระจายทราฟฟิกข้ามเส้นทางที่มีอยู่อย่างมาก[^19] Static routing รวมทราฟฟิกไว้ที่ลิงก์เฉพาะ ทำให้เกิดความแออัดในขณะที่เส้นทางอื่นยังไม่ถูกใช้งาน สวิตช์ต้องตรวจสอบการใช้งานลิงก์และเปลี่ยนทราฟฟิกไปยังเส้นทางที่มีโหลดน้อยกว่าแบบไดนามิก
NVIDIA InfiniBand รองรับ adaptive routing ที่เหมาะสมสำหรับการติดตั้ง dragonfly[^20] ความสามารถนี้ต้องการการกำหนดค่าและการทดสอบเพื่อให้แน่ใจว่าอัลกอริทึม routing ตอบสนองต่อรูปแบบทราฟฟิก workload อย่างเหมาะสม Adaptive routing ที่กำหนดค่าผิดอาจทำงานได้แย่กว่า static routing
ความอ่อนไหวต่อ Workload
Dragonfly เหมาะกับ workloads ที่มีรูปแบบการสื่อสารแบบ localized ที่เก็บทราฟฟิกส่วนใหญ่ไว้ภายในกลุ่ม[^21] Workloads ที่สร้างทราฟฟิกแบบ uniform random ข้าม endpoints ทั้งหมดทำให้ลิงก์ระหว่างกลุ่มรับภาระเกินความจุ โทโพโลยีทำงานได้ดีสำหรับ inference serving ที่มี request affinity แต่อาจมีปัญหากับการฝึกขนาดใหญ่ที่ใช้ global collectives
องค์กรที่ประเมิน dragonfly ควรระบุลักษณะรูปแบบการสื่อสาร workload ที่คาดหวังก่อนการติดตั้ง เครื่องมือจำลองสามารถสร้างโมเดลประสิทธิภาพที่คาดหวังภายใต้ทราฟฟิกจริง ระบุจุดที่อาจเกิดความแออัดที่ต้องการการปรับโทโพโลยี[^22]
โทโพโลยี Torus และ mesh
โทโพโลยี torus เชื่อมต่อโหนดในรูปแบบกริดปกติพร้อมการเชื่อมต่อแบบ wraparound ที่ขอบเขต Google TPU pods ใช้โทโพโลยี 3D torus ที่ให้การเชื่อมต่อเพื่อนบ้านโดยตรงโดยไม่ต้องผ่านสวิตช์[^23]
เครือข่ายแบบ direct เทียบกับแบบ switched
เครือข่าย torus เชื่อมต่อแต่ละโหนดโดยตรงกับเพื่อนบ้าน กำจัดสวิตช์จากเส้นทางการสื่อสาร[^24] การเชื่อมต่อโดยตรงลดความหน่วงสำหรับการสื่อสารระหว่างเพื่อนบ้านซึ่งพบบ่อยในอัลกอริทึมแบบขนานหลายตัว อย่างไรก็ตาม การสื่อสารระหว่างโหนดที่อยู่ห่างไกลผ่านโหนดตัวกลางหลายตัว เพิ่มความหน่วงและใช้แบนด์วิดท์ที่แต่ละ hop
เครือข่ายแบบ switched เช่น fat-tree ให้ความหน่วงที่เท่ากันระหว่าง endpoints สองจุดใดๆ โดยไม่คำนึงถึงตำแหน่งทางกายภาพ ความสม่ำเสมอทำให้การเขียนโปรแกรมและการกระจายโหลดง่ายขึ้น เครือข่าย torus ต้องการการวาง placement ที่ตระหนักถึงโทโพโลยีเพื่อลดระยะทางการสื่อสาร[^25]
การเลือกมิติ
โทโพโลยี torus ที่มีมิติสูงกว่าลด diameter (จำนวน hop สูงสุด) โดยแลกกับจำนวนการเชื่อมต่อต่อโหนดที่เพิ่มขึ้น[^26] 3D torus ที่มี N โหนดต่อมิติมี diameter 3N/2 ในขณะที่ 2D torus มี diameter N การเลือก 3D torus ของ Google สร้างสมดุลระหว่างจำนวนการเชื่อมต่อกับ diameter
ข้อจำกัดทางกายภาพส่งผลต่อการเลือกมิติ 2D torus แมปได้อย่างเป็นธรรมชาติกับแถวและคอลัมน์ในห้องเครื่อง 3D torus ต้องการ racks ที่ซ้อนกันหรือการเชื่อมต่อที่ครอบคลุมระยะทางมาก ความยาวสายเคเบิลใน torus ที่มีมิติสูงอาจกลายเป็นปัญหาในระดับขนาดใหญ่[^27]
กรอบการเลือกโทโพโลยี
การเลือกโทโพโลยีเครือข่ายต้องประเมินลักษณะ workload ข้อกำหนดขนาด ข้อจำกัดงบประมาณ และความสามารถในการดำเนินงาน
การวิเคราะห์ Workload
Workloads ที่แตกต่างกันสร้างความกดดันต่อเครือข่ายแตกต่างกัน การฝึกโมเดลภาษาขนาดใหญ่สร้างรูปแบบการสื่อสารแบบ all-to-all ที่ต้องการแบนด์วิดท์ bisection สูง[^28] Inference serving ที่มี batching แสดงการสื่อสารที่ localized มากขึ้นภายในกลุ่ม GPU ที่ให้บริการคำขอ Data preprocessing อาจสร้างรูปแบบ shuffle ที่มีการสื่อสารแบบสุ่ม
องค์กรควร profile workloads ที่คาดหวังเพื่อทำความเข้าใจรูปแบบการสื่อสาร การตรวจสอบคลัสเตอร์ production เปิดเผยรูปแบบทราฟฟิกจริงสำหรับ workloads ที่มีอยู่ ประเภท workload ใหม่อาจต้องการการประมาณตามการวิเคราะห์อัลกอริทึมหรือคำแนะนำจากผู้จำหน่าย
ข้อพิจารณาด้านขนาด
คลัสเตอร์ขนาดเล็กที่มี GPU หลายสิบตัวอาจไม่จำเป็นต้องมีการปรับโทโพโลยีที่ซับซ้อน สวิตช์ high-radix ตัวเดียวที่เชื่อมต่อ GPU ทั้งหมดให้การเชื่อมต่อเต็มรูปแบบโดยไม่มีความซับซ้อนแบบหลายชั้น[^29] การเลือกโทโพโลยีมีความสำคัญมากที่สุดสำหรับคลัสเตอร์ที่ครอบคลุม GPU หลายร้อยถึงหลายพันตัวที่ต้นทุนสวิตช์และการเดินสายกลายเป็นเรื่องสำคัญ
การเติบโตในอนาคตส่งผลต่อการเลือกโทโพโลยี Fat-tree ขยายโดยการเพิ่มสวิตช์ leaf และเซิร์ฟเวอร์ในขณะที่รักษาแบนด์วิดท์ bisection เต็มรูปแบบ Dragonfly ขยายโดยการเพิ่มกลุ่มแต่อาจต้องการการปรับสมดุล global links การวางแผนสำหรับการเติบโตหลีกเลี่ยงการเปลี่ยนแปลงโทโพโลยีที่รบกวนการดำเนินงาน[^30]
ปัจจัยทางเศรษฐกิจ
ต้นทุนสวิตช์และสายเคเบิลแตกต่างกันอย่างมากระหว่างโทโพโลยี Fat-tree ต้องการสวิตช์มากกว่า dragonfly ที่ขนาดเทียบเท่ากัน การออกแบบแบบ rail-optimized ลด InfiniBand switching แต่ต้องการระบบ NVLink Switch[^31] การวิเคราะห์ต้นทุนรวมต้องรวมสวิตช์ สายเคเบิล optics พลังงาน การระบายความร้อน และพื้นที่ rack
ต้นทุนการดำเนินงานก็แตกต่างกันด้วย โทโพโลยีที่ซับซ้อนต้องการความสามารถในการตรวจสอบและแก้ไขปัญหาที่ซับซ้อนกว่า การฝึกเจ้าหน้าที่ปฏิบัติการเกี่ยวกับข้อพิจารณาเฉพาะโทโพโลยีเพิ่มต้นทุน โทโพโลยีที่ง่ายกว่าอาจคุ้มค่ากับการแลกเปลี่ยนประสิทธิภาพเล็กน้อยผ่านภาระการดำเนินงานที่ลดลง
การใช้งานและการติดตั้ง
การใช้งานโทโพโลยีเครือข่ายต้องการการวางแผนอย่างรอบคอบที่ครอบคลุมโครงสร้างพื้นฐานทางกายภาพ การกำหนดค่าสวิตช์ และการทดสอบตรวจสอบ
การวางแผนโครงสร้างพื้นฐานทางกายภาพ
การติดตั้งเครือข่ายความเร็วสูงต้องการการเดินสายที่มีโครงสร้างรองรับการเชื่อมต่อหลายพันจุดที่ความเร็ว 400 Gb/s หรือสูงกว่า[^32] การเดินสายเคเบิลต้องลดการละเมิด bend radius และการเสื่อมของสัญญาณ การจัดเรียงแบบ hot aisle/cold aisle ต้องรองรับเส้นทางสายเคเบิลโดยไม่กีดขวาง
[เนื้อหาถูกตัดทอนสำหรับการแปล]