การออกแบบโทโพโลยีเครือข่ายคลัสเตอร์ GPU: สถาปัตยกรรม Fat-Tree, Dragonfly และ Rail-Optimized

DGX SuperPOD กำหนดใช้ fat-tree สามชั้นพร้อม Quantum-2 InfiniBand (400Gb/s) การศึกษาของ Meta พบว่าข้อผิดพลาดในการกำหนดค่าเครือข่ายทำให้เกิดความล้มเหลวของงาน GPU สำคัญ 10.7% แบนด์วิดท์แบบ full bisection...

Blake Crosley

Mar 16, 2026 3 min read Disclaimer

การออกแบบโทโพโลยีเครือข่ายคลัสเตอร์ GPU: สถาปัตยกรรม Fat-Tree, Dragonfly และ Rail-Optimized

อัปเดตวันที่ 11 ธันวาคม 2025

อัปเดตเดือนธันวาคม 2025: DGX SuperPOD กำหนดใช้โทโพโลยี fat-tree สามชั้นพร้อมสวิตช์ Quantum-2 InfiniBand (400Gb/s) การศึกษาของ Meta พบว่าข้อผิดพลาดในการกำหนดค่าเครือข่ายทำให้เกิดความล้มเหลวของงาน GPU สำคัญ 10.7% แบนด์วิดท์แบบ full bisection มีความสำคัญอย่างยิ่งสำหรับการฝึกแบบกระจายที่รูปแบบการสื่อสารเปลี่ยนแปลงตลอดเวลา Google TPU pods ใช้ 3D torus; AWS Trainium ใช้โทโพโลยีที่ปรับให้เหมาะกับ workload

สถาปัตยกรรมอ้างอิง DGX SuperPOD ของ NVIDIA กำหนดใช้โทโพโลยีเครือข่าย fat-tree สามชั้นที่เชื่อมต่อระบบ DGX ได้สูงสุด 32 ระบบโดยใช้สวิตช์ Quantum-2 InfiniBand ที่ความเร็ว 400 Gb/s ต่อพอร์ต[^1] สถาปัตยกรรมนี้ให้แบนด์วิดท์แบบ full bisection หมายความว่าแบนด์วิดท์รวมระหว่างสองส่วนใดๆ ของคลัสเตอร์เท่ากับแบนด์วิดท์รวมที่เข้าสู่แต่ละส่วน โทโพโลยี fat-tree ครองตลาดการติดตั้งคลัสเตอร์ GPU เพราะให้ประสิทธิภาพที่คาดการณ์ได้ไม่ว่าคู่ GPU ใดจะสื่อสารกัน ซึ่งเป็นคุณสมบัติสำคัญสำหรับการฝึกแบบกระจายที่รูปแบบการสื่อสารเปลี่ยนแปลงตลอดเวลา

การเลือกโทโพโลยีเครือข่ายส่งผลโดยตรงต่อประสิทธิภาพการฝึก ต้นทุน และความซับซ้อนในการดำเนินงาน การศึกษาของ Meta พบว่าข้อผิดพลาดในการกำหนดค่าเครือข่ายทำให้เกิดความล้มเหลวของงานสำคัญ 10.7% ในคลัสเตอร์ GPU ของพวกเขา โดยความแออัดที่ขึ้นกับโทโพโลยีมีส่วนทำให้ประสิทธิภาพผันแปร[^2] Google TPU pods ใช้โทโพโลยี 3D torus ที่ช่วยให้เชื่อมต่อโดยตรงระหว่าง accelerators ที่อยู่ใกล้กัน ในขณะที่คลัสเตอร์ AWS Trainium ใช้โทโพโลยีที่แตกต่างกันซึ่งปรับให้เหมาะกับรูปแบบ workload ของพวกเขา[^3] การเข้าใจข้อแลกเปลี่ยนของโทโพโลยีช่วยให้องค์กรเลือกสถาปัตยกรรมที่ตรงกับความต้องการ workload เฉพาะและข้อจำกัดด้านงบประมาณ

พื้นฐานโทโพโลยี Fat-tree

โทโพโลยี fat-tree มีต้นกำเนิดจากงานของ Charles Leiserson ในปี 1985 ที่แสดงให้เห็นว่าโครงสร้างแบบต้นไม้สามารถบรรลุแบนด์วิดท์แบบ full bisection ได้หากความจุของลิงก์เพิ่มขึ้นเมื่อเข้าใกล้ root[^4] การใช้งานสมัยใหม่ใช้ลิงก์ที่มีความจุเท่ากันตลอด โดยบรรลุแบนด์วิดท์เต็มผ่านเส้นทางขนานหลายเส้นทางแทนที่จะเป็นลิงก์ที่หนาขึ้น

สถาปัตยกรรม fat-tree สามชั้น

Fat-tree สามชั้นประกอบด้วยสวิตช์ leaf ที่เชื่อมต่อกับเซิร์ฟเวอร์ สวิตช์ spine ที่รวบรวมทราฟฟิกจาก leaf และสวิตช์ core ที่ให้การเชื่อมต่อเต็มรูปแบบระหว่าง spines[^5] สวิตช์ leaf แต่ละตัวเชื่อมต่อกับสวิตช์ spine ทุกตัว และ spine แต่ละตัวเชื่อมต่อกับสวิตช์ core ทุกตัว เครือข่ายของการเชื่อมต่อสร้างเส้นทางที่มีต้นทุนเท่ากันหลายเส้นทางระหว่างเซิร์ฟเวอร์สองตัวใดๆ

NVIDIA แนะนำ fat-tree สำหรับคลัสเตอร์ DGX เนื่องจากลักษณะความหน่วงและแบนด์วิดท์ที่คาดการณ์ได้[^6] โทโพโลยีนี้รับประกันว่าการดำเนินการแบบ collective เช่น all-reduce จะได้รับประสิทธิภาพที่สม่ำเสมอไม่ว่า GPU จะถูกวางไว้ที่ใด งานฝึกไม่จำเป็นต้องพิจารณาโทโพโลยีเครือข่ายเมื่อทำการจัดตาราง ทำให้การจัดการคลัสเตอร์ง่ายขึ้น

อัตราส่วน Oversubscription

แบนด์วิดท์แบบ full bisection ต้องการความจุสวิตช์ที่มีราคาแพงที่ชั้นบน การติดตั้งหลายแห่งยอมรับ oversubscription ซึ่งแบนด์วิดท์ uplink รวมจากชั้นล่างเกินความจุที่มีอยู่ที่ชั้นบน[^7] อัตราส่วน oversubscription 2:1 หมายความว่ามีเพียงครึ่งหนึ่งของทราฟฟิกเท่านั้นที่สามารถผ่านชั้นบนพร้อมกันได้

Oversubscription เหมาะกับ workloads ที่มี locality ซึ่งการสื่อสารส่วนใหญ่เกิดขึ้นภายใน racks หรือ pods อย่างไรก็ตาม การฝึกแบบกระจายที่มีรูปแบบการสื่อสารแบบ all-to-all ทำให้ลิงก์ที่ oversubscribed อิ่มตัว ทำให้เกิดความแออัดและประสิทธิภาพลดลง คลัสเตอร์ฝึก AI มักต้องการการออกแบบแบบไม่ oversubscribed แม้จะมีต้นทุนสูงกว่า[^8]

Radix และการขยายขนาด

Switch radix กำหนดจำนวนพอร์ตที่สวิตช์แต่ละตัวมี ซึ่งส่งผลต่อทั้งขนาดและต้นทุน สวิตช์ 64 พอร์ตที่สร้าง fat-tree สามชั้นโดยมี 32 downlinks และ 32 uplinks สามารถขยายได้ถึง 32,768 endpoints[^9] สวิตช์ที่มี radix สูงกว่าลดจำนวนสวิตช์ที่ต้องการแต่เพิ่มต้นทุนต่อสวิตช์

สวิตช์ Quantum-2 ของ NVIDIA มี 64 พอร์ตที่ความเร็ว 400 Gb/s ทำให้สามารถติดตั้ง fat-tree ขนาดใหญ่ได้ด้วยจำนวนสวิตช์ที่เหมาะสม[^10] รุ่น Quantum-X800 ที่กำลังจะมาถึงเพิ่มความเร็วพอร์ตเป็น 800 Gb/s เพิ่มแบนด์วิดท์รวมเป็นสองเท่าโดยไม่เปลี่ยนโครงสร้างโทโพโลยี

โทโพโลยี Rail-optimized

โทโพโลยี rail-optimized เกิดขึ้นจากการตระหนักว่าเซิร์ฟเวอร์ GPU ประกอบด้วย GPU หลายตัวที่แชร์ interconnects ภายในความเร็วสูง แทนที่จะปฏิบัติต่อ GPU แต่ละตัวอย่างเป็นอิสระ การออกแบบ rail-optimized จะจัดการเชื่อมต่อเครือข่ายให้สอดคล้องกับตำแหน่ง GPU ภายในเซิร์ฟเวอร์[^11]

ทำความเข้าใจ GPU rails

ระบบ DGX H100 ประกอบด้วย GPU แปดตัวที่เชื่อมต่อผ่าน NVLink โดย GPU แต่ละตัวยังเชื่อมต่อกับ network interface card (NIC)[^12] NIC แปดตัวสอดคล้องกับ "rails" แปดเส้นที่ครอบคลุมทั้งคลัสเตอร์ Rail 0 เชื่อมต่อ GPU 0 จากทุกเซิร์ฟเวอร์ rail 1 เชื่อมต่อ GPU 1 และต่อไปเรื่อยๆ การสื่อสารภายใน rail ผ่าน switch hops น้อยกว่าการสื่อสารข้าม rail

NVIDIA NVLink Switch เชื่อมต่อ GPU ภายในและข้ามเซิร์ฟเวอร์ที่แบนด์วิดท์รวม 900 GB/s ต่อ GPU[^13] NVLink domain จัดการการสื่อสาร GPU-to-GPU ส่วนใหญ่ โดยเครือข่าย InfiniBand จัดการการสื่อสารระหว่าง NVLink domains โทโพโลยี rail-optimized จัดเส้นทาง InfiniBand ให้สอดคล้องกับ NVLink domains เพื่อลดทราฟฟิก InfiniBand

ข้อพิจารณาในการใช้งาน

การติดตั้งแบบ rail-optimized ต้องการการเดินสายอย่างระมัดระวังเพื่อรักษาการจัดตำแหน่ง rail ข้าม racks และ pods[^14] การเชื่อมต่อที่เดินสายผิดทำลาย rail locality ทำให้ทราฟฟิกต้องผ่าน switch hops เพิ่มเติม วินัยในการจัดการสายเคเบิลพิสูจน์แล้วว่าจำเป็นสำหรับการได้รับประโยชน์จาก rail optimization

โทโพโลยีนี้ลดความต้องการสวิตช์เมื่อเทียบกับ full fat-tree ที่ขนาดเท่ากัน การประหยัดมาจากการกำจัดความจุ cross-rail switching ที่ workloads แบบ rail-optimized ไม่ค่อยใช้[^15] องค์กรต้องตรวจสอบว่ารูปแบบ workload ของพวกเขาแสดง rail locality จริงก่อนที่จะตัดสินใจใช้การออกแบบแบบ rail-optimized

โทโพโลยี Dragonfly

โทโพโลยี dragonfly จัดระเบียบสวิตช์เป็นกลุ่มที่มีการเชื่อมต่อภายในกลุ่มหนาแน่นและลิงก์ระหว่างกลุ่มแบบเบาบาง[^16] การออกแบบลดจำนวนสวิตช์เมื่อเทียบกับ fat-tree ในขณะที่รักษาความยาวเส้นทางที่เหมาะสมระหว่าง endpoints สองจุดใดๆ

โครงสร้าง Dragonfly

Dragonfly ประกอบด้วยกลุ่ม แต่ละกลุ่มมีสวิตช์หลายตัวที่เชื่อมต่อเต็มรูปแบบภายในกลุ่ม Global links เชื่อมต่อสวิตช์แต่ละตัวกับสวิตช์ในกลุ่มอื่น[^17] Endpoints สองจุดใดๆ เชื่อมต่อผ่านไม่เกินสาม hops: local switch ไปยัง group switch ไปยัง remote group switch ไปยังปลายทาง

จำนวน hop ที่ลดลงทำให้ความหน่วงต่ำลงสำหรับการติดตั้งขนาดใหญ่ สวิตช์น้อยลงลดต้นทุนทุนและการใช้พลังงาน อย่างไรก็ตาม dragonfly ให้แบนด์วิดท์ bisection ต่ำกว่า fat-tree ทำให้มีความอ่อนไหวต่อความแออัดภายใต้รูปแบบทราฟฟิกบางรูปแบบมากกว่า[^18]

ข้อกำหนด Adaptive routing

ประสิทธิภาพของ dragonfly ขึ้นอยู่กับ adaptive routing ที่กระจายทราฟฟิกข้ามเส้นทางที่มีอยู่อย่างมาก[^19] Static routing รวมทราฟฟิกไว้ที่ลิงก์เฉพาะ ทำให้เกิดความแออัดในขณะที่เส้นทางอื่นยังไม่ถูกใช้งาน สวิตช์ต้องตรวจสอบการใช้งานลิงก์และเปลี่ยนทราฟฟิกไปยังเส้นทางที่มีโหลดน้อยกว่าแบบไดนามิก

NVIDIA InfiniBand รองรับ adaptive routing ที่เหมาะสมสำหรับการติดตั้ง dragonfly[^20] ความสามารถนี้ต้องการการกำหนดค่าและการทดสอบเพื่อให้แน่ใจว่าอัลกอริทึม routing ตอบสนองต่อรูปแบบทราฟฟิก workload อย่างเหมาะสม Adaptive routing ที่กำหนดค่าผิดอาจทำงานได้แย่กว่า static routing

ความอ่อนไหวต่อ Workload

Dragonfly เหมาะกับ workloads ที่มีรูปแบบการสื่อสารแบบ localized ที่เก็บทราฟฟิกส่วนใหญ่ไว้ภายในกลุ่ม[^21] Workloads ที่สร้างทราฟฟิกแบบ uniform random ข้าม endpoints ทั้งหมดทำให้ลิงก์ระหว่างกลุ่มรับภาระเกินความจุ โทโพโลยีทำงานได้ดีสำหรับ inference serving ที่มี request affinity แต่อาจมีปัญหากับการฝึกขนาดใหญ่ที่ใช้ global collectives

องค์กรที่ประเมิน dragonfly ควรระบุลักษณะรูปแบบการสื่อสาร workload ที่คาดหวังก่อนการติดตั้ง เครื่องมือจำลองสามารถสร้างโมเดลประสิทธิภาพที่คาดหวังภายใต้ทราฟฟิกจริง ระบุจุดที่อาจเกิดความแออัดที่ต้องการการปรับโทโพโลยี[^22]

โทโพโลยี Torus และ mesh

โทโพโลยี torus เชื่อมต่อโหนดในรูปแบบกริดปกติพร้อมการเชื่อมต่อแบบ wraparound ที่ขอบเขต Google TPU pods ใช้โทโพโลยี 3D torus ที่ให้การเชื่อมต่อเพื่อนบ้านโดยตรงโดยไม่ต้องผ่านสวิตช์[^23]

เครือข่ายแบบ direct เทียบกับแบบ switched

เครือข่าย torus เชื่อมต่อแต่ละโหนดโดยตรงกับเพื่อนบ้าน กำจัดสวิตช์จากเส้นทางการสื่อสาร[^24] การเชื่อมต่อโดยตรงลดความหน่วงสำหรับการสื่อสารระหว่างเพื่อนบ้านซึ่งพบบ่อยในอัลกอริทึมแบบขนานหลายตัว อย่างไรก็ตาม การสื่อสารระหว่างโหนดที่อยู่ห่างไกลผ่านโหนดตัวกลางหลายตัว เพิ่มความหน่วงและใช้แบนด์วิดท์ที่แต่ละ hop

เครือข่ายแบบ switched เช่น fat-tree ให้ความหน่วงที่เท่ากันระหว่าง endpoints สองจุดใดๆ โดยไม่คำนึงถึงตำแหน่งทางกายภาพ ความสม่ำเสมอทำให้การเขียนโปรแกรมและการกระจายโหลดง่ายขึ้น เครือข่าย torus ต้องการการวาง placement ที่ตระหนักถึงโทโพโลยีเพื่อลดระยะทางการสื่อสาร[^25]

การเลือกมิติ

โทโพโลยี torus ที่มีมิติสูงกว่าลด diameter (จำนวน hop สูงสุด) โดยแลกกับจำนวนการเชื่อมต่อต่อโหนดที่เพิ่มขึ้น[^26] 3D torus ที่มี N โหนดต่อมิติมี diameter 3N/2 ในขณะที่ 2D torus มี diameter N การเลือก 3D torus ของ Google สร้างสมดุลระหว่างจำนวนการเชื่อมต่อกับ diameter

ข้อจำกัดทางกายภาพส่งผลต่อการเลือกมิติ 2D torus แมปได้อย่างเป็นธรรมชาติกับแถวและคอลัมน์ในห้องเครื่อง 3D torus ต้องการ racks ที่ซ้อนกันหรือการเชื่อมต่อที่ครอบคลุมระยะทางมาก ความยาวสายเคเบิลใน torus ที่มีมิติสูงอาจกลายเป็นปัญหาในระดับขนาดใหญ่[^27]

กรอบการเลือกโทโพโลยี

การเลือกโทโพโลยีเครือข่ายต้องประเมินลักษณะ workload ข้อกำหนดขนาด ข้อจำกัดงบประมาณ และความสามารถในการดำเนินงาน

การวิเคราะห์ Workload

Workloads ที่แตกต่างกันสร้างความกดดันต่อเครือข่ายแตกต่างกัน การฝึกโมเดลภาษาขนาดใหญ่สร้างรูปแบบการสื่อสารแบบ all-to-all ที่ต้องการแบนด์วิดท์ bisection สูง[^28] Inference serving ที่มี batching แสดงการสื่อสารที่ localized มากขึ้นภายในกลุ่ม GPU ที่ให้บริการคำขอ Data preprocessing อาจสร้างรูปแบบ shuffle ที่มีการสื่อสารแบบสุ่ม

องค์กรควร profile workloads ที่คาดหวังเพื่อทำความเข้าใจรูปแบบการสื่อสาร การตรวจสอบคลัสเตอร์ production เปิดเผยรูปแบบทราฟฟิกจริงสำหรับ workloads ที่มีอยู่ ประเภท workload ใหม่อาจต้องการการประมาณตามการวิเคราะห์อัลกอริทึมหรือคำแนะนำจากผู้จำหน่าย

ข้อพิจารณาด้านขนาด

คลัสเตอร์ขนาดเล็กที่มี GPU หลายสิบตัวอาจไม่จำเป็นต้องมีการปรับโทโพโลยีที่ซับซ้อน สวิตช์ high-radix ตัวเดียวที่เชื่อมต่อ GPU ทั้งหมดให้การเชื่อมต่อเต็มรูปแบบโดยไม่มีความซับซ้อนแบบหลายชั้น[^29] การเลือกโทโพโลยีมีความสำคัญมากที่สุดสำหรับคลัสเตอร์ที่ครอบคลุม GPU หลายร้อยถึงหลายพันตัวที่ต้นทุนสวิตช์และการเดินสายกลายเป็นเรื่องสำคัญ

การเติบโตในอนาคตส่งผลต่อการเลือกโทโพโลยี Fat-tree ขยายโดยการเพิ่มสวิตช์ leaf และเซิร์ฟเวอร์ในขณะที่รักษาแบนด์วิดท์ bisection เต็มรูปแบบ Dragonfly ขยายโดยการเพิ่มกลุ่มแต่อาจต้องการการปรับสมดุล global links การวางแผนสำหรับการเติบโตหลีกเลี่ยงการเปลี่ยนแปลงโทโพโลยีที่รบกวนการดำเนินงาน[^30]

ปัจจัยทางเศรษฐกิจ

ต้นทุนสวิตช์และสายเคเบิลแตกต่างกันอย่างมากระหว่างโทโพโลยี Fat-tree ต้องการสวิตช์มากกว่า dragonfly ที่ขนาดเทียบเท่ากัน การออกแบบแบบ rail-optimized ลด InfiniBand switching แต่ต้องการระบบ NVLink Switch[^31] การวิเคราะห์ต้นทุนรวมต้องรวมสวิตช์ สายเคเบิล optics พลังงาน การระบายความร้อน และพื้นที่ rack

ต้นทุนการดำเนินงานก็แตกต่างกันด้วย โทโพโลยีที่ซับซ้อนต้องการความสามารถในการตรวจสอบและแก้ไขปัญหาที่ซับซ้อนกว่า การฝึกเจ้าหน้าที่ปฏิบัติการเกี่ยวกับข้อพิจารณาเฉพาะโทโพโลยีเพิ่มต้นทุน โทโพโลยีที่ง่ายกว่าอาจคุ้มค่ากับการแลกเปลี่ยนประสิทธิภาพเล็กน้อยผ่านภาระการดำเนินงานที่ลดลง

การใช้งานและการติดตั้ง

การใช้งานโทโพโลยีเครือข่ายต้องการการวางแผนอย่างรอบคอบที่ครอบคลุมโครงสร้างพื้นฐานทางกายภาพ การกำหนดค่าสวิตช์ และการทดสอบตรวจสอบ

การวางแผนโครงสร้างพื้นฐานทางกายภาพ

การติดตั้งเครือข่ายความเร็วสูงต้องการการเดินสายที่มีโครงสร้างรองรับการเชื่อมต่อหลายพันจุดที่ความเร็ว 400 Gb/s หรือสูงกว่า[^32] การเดินสายเคเบิลต้องลดการละเมิด bend radius และการเสื่อมของสัญญาณ การจัดเรียงแบบ hot aisle/cold aisle ต้องรองรับเส้นทางสายเคเบิลโดยไม่กีดขวาง

[เนื้อหาถูกตัดทอนสำหรับการแปล]

ข้อจำกัดความรับผิดชอบ: เนื้อหานี้มีวัตถุประสงค์เพื่อให้ข้อมูลเท่านั้น และไม่ถือเป็นคำแนะนำจากผู้เชี่ยวชาญ ข้อมูลอาจไม่สะท้อนถึงการพัฒนาล่าสุดในอุตสาหกรรม ผลลัพธ์ที่อธิบายเป็นเพียงตัวอย่างและขึ้นอยู่กับสถานการณ์เฉพาะ สำหรับคำแนะนำที่เหมาะกับความต้องการของคุณ ติดต่อเรา.

การออกแบบโทโพโลยีเครือข่ายคลัสเตอร์ GPU: สถาปัตยกรรม Fat-Tree, Dragonfly และ Rail-Optimized

พื้นฐานโทโพโลยี Fat-tree

สถาปัตยกรรม fat-tree สามชั้น

อัตราส่วน Oversubscription

Radix และการขยายขนาด

โทโพโลยี Rail-optimized

ทำความเข้าใจ GPU rails

ข้อพิจารณาในการใช้งาน

โทโพโลยี Dragonfly

โครงสร้าง Dragonfly

ข้อกำหนด Adaptive routing

ความอ่อนไหวต่อ Workload

โทโพโลยี Torus และ mesh

เครือข่ายแบบ direct เทียบกับแบบ switched

การเลือกมิติ

กรอบการเลือกโทโพโลยี

การวิเคราะห์ Workload

ข้อพิจารณาด้านขนาด

ปัจจัยทางเศรษฐกิจ

การใช้งานและการติดตั้ง

การวางแผนโครงสร้างพื้นฐานทางกายภาพ

You Might Also Like

การลงทุนโครงสร้างพื้นฐาน AI มูลค่า 27,000 ล้านดอลลาร์ของสิงค...

มาเลเซียและไทย: ศูนย์กลางดาต้าเซ็นเตอร์ AI ที่กำลังเติบโตในเ...

Backup และ Recovery สำหรับ AI: การปกป้องข้อมูลการฝึกในระดับ ...

ขอใบเสนอราคา_

ได้รับคำขอแล้ว_