การเพิ่มประสิทธิภาพแบนด์วิดท์สำหรับการฝึกแบบกระจาย: การจัดการทราฟฟิกเครือข่าย 400Gbps+
อัปเดต 8 ธันวาคม 2025
อัปเดตธันวาคม 2025: โมเดล Frontier ปัจจุบันต้องการ interconnect 800Gbps+ ต่อ GPU โดย GB200 NVL72 ใช้แบนด์วิดท์ NVLink 1.8TB/s ภายใน rack NCCL 2.20+ ได้รับการปรับปรุงสำหรับสถาปัตยกรรม Blackwell Ring-allreduce ถูกแทนที่มากขึ้นด้วย hierarchical algorithm ที่ปรับให้เหมาะสมสำหรับ topology แบบหลาย rack การบีบอัด gradient ทำได้ 100 เท่า ด้วยการฝึก FP8 บน Blackwell DeepSpeed-Ulysses ของ Microsoft เปิดใช้งานการฝึกที่มี context window 100K+ ผ่านการสื่อสาร sequence parallelism ที่ปรับปรุงแล้ว
การฝึกแบบกระจายของ GPT-4 สร้างทราฟฟิกเครือข่าย 400 เทราไบต์ทุกชั่วโมงผ่าน GPU 25,000 ตัว โดยคอขวดแบนด์วิดท์ใดๆ อาจทำให้เสียเวลาคอมพิวต์ที่ว่างเปล่าหลายล้านดอลลาร์ เมื่อ Meta ฝึกโมเดล LLaMA เครือข่ายของพวกเขารักษาทราฟฟิกการแลกเปลี่ยน gradient ที่ 1.6 เทราบิตต่อวินาที ต้องการการเพิ่มประสิทธิภาพที่ซับซ้อนเพื่อป้องกันไม่ให้การสื่อสารกลายเป็นปัจจัยจำกัด ความแตกต่างระหว่างการใช้เครือข่ายที่ปรับปรุงแล้วและแบบพื้นฐานสามารถขยายเวลาฝึกได้ 3 เท่า และเพิ่มต้นทุน $50 ล้านสำหรับการฝึกโมเดลขนาดใหญ่ คู่มือนี้ตรวจสอบเทคนิคที่พิสูจน์แล้วสำหรับการจัดการความต้องการแบนด์วิดท์ที่สูงมากในการฝึก AI แบบกระจาย
รูปแบบทราฟฟิกเครือข่ายในการฝึกแบบกระจาย
การดำเนินการ All-reduce ครอบงำการสื่อสารการฝึกแบบกระจาย โดยใช้ 89% ของแบนด์วิดท์เครือข่ายระหว่างการฝึกโมเดลขนาดใหญ่ การวนซ้ำการฝึกแต่ละครั้งต้องการให้ GPU ทุกตัวแชร์ gradient ที่คำนวณได้กับ GPU อื่นทั้งหมด สร้างรูปแบบการสื่อสาร N-to-N ที่สร้าง N²/2 network flow สำหรับโมเดลพารามิเตอร์ 70B ที่ฝึกบน GPU 512 ตัว สิ่งนี้แปลเป็นข้อมูล gradient 280GB ที่ต้องซิงโครไนซ์ทุก 2 วินาที ต้องการแบนด์วิดท์รวม 140GB/s หรือ 1.12Tbps
สถาปัตยกรรม Parameter server สร้างรูปแบบทราฟฟิกที่แตกต่างกันพร้อมคอขวดแบบรวมศูนย์ Worker node ส่ง gradient ไปยัง parameter server ซึ่งรวบรวมและแจกจ่าย weight ที่อัปเดต รูปแบบ hub-and-spoke นี้รวมความต้องการแบนด์วิดท์ที่ parameter server ซึ่งต้องจัดการปริมาณ gradient 2N เท่า โมเดลแนะนำของ Amazon ที่ใช้ parameter server เห็นทราฟฟิก 90% ไหลผ่านเพียง 10% ของ node ต้องการการวางแผน network topology อย่างระมัดระวังเพื่อป้องกันความแออัด
Pipeline parallelism สร้างทราฟฟิก point-to-point ระหว่าง pipeline stage ที่อยู่ติดกัน Activation ไหลไปข้างหน้าผ่าน pipeline ในขณะที่ gradient ไหลย้อนกลับ สร้างรูปแบบทราฟฟิกแบบสองทิศทาง แต่ละขอบเขต pipeline ถ่ายโอนข้อมูล activation ประมาณ 10GB ต่อ batch สำหรับโมเดลขนาดใหญ่ การใช้งาน pipeline ของ DeepSpeed ของ Microsoft บรรลุประสิทธิภาพแบนด์วิดท์ 95% ผ่านการจัดตารางอย่างระมัดระวังที่ทับซ้อนการคำนวณกับการสื่อสาร
ทราฟฟิก Data parallelism ปรับขนาดเชิงเส้นตามขนาดโมเดลแต่คงที่ตามจำนวน GPU แต่ละ GPU ต้องรับ gradient tensor เต็มโดยไม่คำนึงถึงระดับ parallelism โมเดลพารามิเตอร์ 175B สร้างข้อมูล gradient 700GB ต่อการวนซ้ำไม่ว่าจะฝึกบน 100 หรือ 1,000 GPU ลักษณะนี้ทำให้ความต้องการแบนด์วิดท์คาดเดาได้แต่มากสำหรับโมเดลขนาดใหญ่
Tensor parallelism สร้างการสื่อสารแบบละเอียดภายใน layer ของโมเดล การคูณเมทริกซ์ที่แบ่งข้าม GPU ต้องการการแลกเปลี่ยนผลลัพธ์ระหว่างกลางกลางการคำนวณ สิ่งนี้สร้างทราฟฟิกที่ไวต่อ latency พร้อมความต้องการการซิงโครไนซ์ที่เข้มงวด การใช้งาน Megatron ของ NVIDIA ปกปิด 70% ของ latency การสื่อสาร tensor parallel ผ่านการทับซ้อนการคำนวณ แต่ยังคงต้องการแบนด์วิดท์ 200Gb/s ระหว่าง GPU ที่เป็น tensor-parallel
เทคนิคและกลยุทธ์การเพิ่มประสิทธิภาพ
การบีบอัด Gradient ลดปริมาณการสื่อสาร 10-100 เท่าโดยมีผลกระทบต่อความแม่นยำน้อยมาก Sparsification ส่งเฉพาะ gradient top-k โดยทั่วไปคือ 1% ที่ใหญ่ที่สุดตามขนาด Quantization ลดความแม่นยำ gradient จาก 32-bit เป็น 8-bit หรือแม้แต่การแทนค่า 1-bit กลไก Error feedback สะสมข้อผิดพลาดการบีบอัดในท้องถิ่น รักษาคุณสมบัติการลู่เข้า 1-bit Adam ของ Microsoft บรรลุการบีบอัด 94% โดยไม่สูญเสียความแม่นยำสำหรับการฝึก BERT
Algorithm Ring-allreduce ลดความต้องการแบนด์วิดท์เมื่อเทียบกับวิธี broadcast แบบพื้นฐาน Gradient ไหลรอบ logical ring โดยแต่ละ GPU รับจากเพื่อนบ้านหนึ่งและส่งไปยังอีกตัว สิ่งนี้ต้องการเพียง (N-1)/N ของข้อมูลที่จะผ่าน link เดียว บรรลุการใช้แบนด์วิดท์ที่เหมาะสม ไลบรารี NCCL ของ NVIDIA ใช้ ring algorithm ที่เหมาะสมกับแบนด์วิดท์ซึ่งบรรลุ 90% ของความจุเครือข่ายทางทฤษฎี
Hierarchical reduction ใช้ประโยชน์จาก network topology เพื่อลดทราฟฟิกข้าม switch การ reduction ในท้องถิ่นภายใน rack นำหน้าการ reduction ทั่วโลกข้าม rack สิ่งนี้ลดทราฟฟิก inter-rack ตามจำนวน GPU ต่อ rack โดยทั่วไป 8 เท่า TPU pod ของ Google ใช้ hierarchical reduction สามระดับ รักษา 70% ของทราฟฟิกภายใน switch ในท้องถิ่น การออกแบบ hierarchy ที่เหมาะสมสามารถลดความต้องการ wide-area network ได้ 90%
Gradient accumulation ข้าม microbatch หลายตัวกระจายค่าใช้จ่ายการสื่อสาร แทนที่จะซิงโครไนซ์หลังจากแต่ละ microbatch gradient สะสมในท้องถิ่นก่อนการซิงโครไนซ์เป็นระยะ สิ่งนี้ลดความถี่การสื่อสารตามสัดส่วนของขั้นตอนการสะสม การฝึก GPT-3 ของ OpenAI สะสม gradient ข้าม 8 microbatch ลดทราฟฟิกเครือข่าย 87.5% ด้วยผลลัพธ์ทางคณิตศาสตร์เทียบเท่า
การจัดตาราง Communication ทับซ้อนการถ่ายโอนข้อมูลกับการคำนวณเพื่อซ่อน latency ในขณะที่ layer N คำนวณ gradient ของ layer N-1 ถ่ายโอนในเบื้องหลัง การ pipelining นี้ต้องการเพียงแบนด์วิดท์ที่เพียงพอเพื่อจับคู่อัตราการคำนวณแทนที่จะเป็นความจุ burst สูงสุด การจัดตารางที่เหมาะสมบรรลุการใช้ GPU 95% แม้จะมีการสื่อสารเครือข่ายอย่างต่อเนื่อง ตัวจัดตารางการสื่อสารของ DeepSpeed ปรับรูปแบบการทับซ้อนโดยอัตโนมัติตามข้อมูล profiling
การออกแบบโครงสร้างพื้นฐานสำหรับแบนด์วิดท์สูง
Network topology ส่งผลกระทบอย่างมากต่อแบนด์วิดท์ที่ทำได้และประสิทธิภาพการฝึก สถาปัตยกรรม Fat-tree ให้แบนด์วิดท์ bisection เต็มที่ทำให้การสื่อสาร any-to-any ที่ line rate การออกแบบ Leaf-spine ที่มี oversubscription 3:1 สมดุลต้นทุนและประสิทธิภาพสำหรับ workload ส่วนใหญ่ Topology แบบ Dragonfly ลดจำนวน switch ในขณะที่รักษาแบนด์วิดท์สูงผ่าน intelligent routing Research SuperCluster ของ Meta ใช้เครือข่าย Clos สามชั้นที่บรรลุแบนด์วิดท์รวม 2Pbps
การปรับใช้ InfiniBand ส่งมอบแบนด์วิดท์และ latency ที่เหนือกว่าเมื่อเทียบกับ Ethernet สำหรับ AI workload NDR 400Gb/s InfiniBand ให้ 400Gbps ต่อพอร์ตด้วย latency ต่ำกว่าไมโครวินาที RDMA bypass kernel network stack ลด CPU overhead เกือบเป็นศูนย์ Adaptive routing ปรับสมดุลโหลดโดยอัตโนมัติข้าม path หลายเส้น ซูเปอร์คอมพิวเตอร์ Selene ของ NVIDIA ใช้ InfiniBand โดยเฉพาะ บรรลุประสิทธิภาพการปรับขนาด 95% ถึง 4,480 GPU
วิวัฒนาการของ Ethernet นำประสิทธิภาพที่แข่งขันได้ในราคาต่ำกว่า InfiniBand มาตรฐาน 400GbE และ 800GbE ที่กำลังเกิดขึ้นเข้าใกล้ระดับแบนด์วิดท์ InfiniBand RoCEv2 (RDMA over Converged Ethernet) เปิดใช้งาน kernel bypass บนเครือข่าย Ethernet อย่างไรก็ตาม Ethernet ต้องการการกำหนดค่าอย่างระมัดระวังของ flow control, QoS และการจัดการความแออัด EFA (Elastic Fabric Adapter) ของ Amazon แสดงให้เห็นว่า Ethernet สามารถจับคู่ InfiniBand สำหรับ workload เฉพาะ
การเลือก Switch ส่งผลกระทบทั้งแบนด์วิดท์และลักษณะ latency อย่างมีนัยสำคัญ Switch Broadcom Tomahawk ให้ความหนาแน่นพอร์ตสูงในราคาแข่งขันแต่ latency สูงกว่า Switch Intel Tofino ที่โปรแกรมได้เปิดใช้งาน algorithm congestion control แบบกำหนดเอง Switch NVIDIA Spectrum รวมเข้ากับหน่วยความจำ GPU สำหรับการวางข้อมูลโดยตรง Switch buffer depth ต้องรองรับ burst traffic โดยไม่ drop packet การเลือก switch ที่เหมาะสมสามารถปรับปรุงแบนด์วิดท์ที่มีประสิทธิภาพได้ 30%
การออกแบบ Cable plant ส่งผลต่อ signal integrity ที่ความเร็วสูง สาย Direct Attach Copper (DAC) ทำงานสำหรับการเดินสายต่ำกว่า 3 เมตรที่ 400Gbps Active Optical Cable (AOC) ขยายระยะเป็น 100 เมตรด้วยการใช้พลังงานต่ำกว่า Single-mode fiber เปิดใช้งานการปรับใช้ระดับ campus แต่ต้องการ transceiver ราคาแพง คุณภาพสายส่งผลโดยตรงต่อ bit error rate ซึ่งกระตุ้นการส่งซ้ำที่ลดแบนด์วิดท์ที่มีประสิทธิภาพ Data center ของ Google มาตรฐาน AOC สำหรับประสิทธิภาพที่สอดคล้อง
Congestion Control และการจัดการทราฟฟิก
Algorithm TCP congestion control มีปัญหากับเครือข่ายแบนด์วิดท์สูง latency ต่ำที่พบทั่วไปใน AI cluster Algorithm แบบดั้งเดิมเช่น CUBIC ใช้แบนด์วิดท์ที่มีอยู่ไม่เต็มที่เนื่องจากอัตราการเติบโตแบบอนุรักษ์นิยม Data Center TCP (DCTCP) ใช้ ECN marking เพื่อรักษา queue ตื้นและการใช้งานสูง Swift congestion control ของ Google บรรลุการใช้ link 99% ด้วย latency ระดับไมโครวินาที การเลือก congestion control ที่เหมาะสมปรับปรุงแบนด์วิดท์ที่มีประสิทธิภาพได้ 40%
การกำหนดค่า Quality of Service (QoS) ให้ความสำคัญกับทราฟฟิก gradient เหนือ flow เสริม DSCP marking ระบุทราฟฟิกการฝึกสำหรับการปฏิบัติที่ดีกว่า Priority Flow Control (PFC) ป้องกัน packet loss สำหรับทราฟฟิกสำคัญ Weighted fair queuing จัดสรรแบนด์วิดท์ตามสัดส่วนข้าม traffic class ที่แตกต่างกัน กลไกเหล่านี้รับรองว่าทราฟฟิกการฝึกได้รับแบนด์วิดท์ที่จำเป็นแม้จะมี workload ที่แข่งขัน โครงสร้างพื้นฐาน AI ของ Microsoft Azure ใช้ 8 QoS class สำหรับการแยกทราฟฟิก
Load balancing ข้าม path หลายเส้นทางเพิ่มการใช้แบนด์วิดท์รวมสูงสุด Equal-Cost Multi-Path (ECMP) routing กระจาย flow ข้าม link ขนาน Adaptive routing ปรับไดนามิกตามความแออัดและความล้มเหลว Per-packet spraying บรรลุ load balance ที่ละเอียดที่สุดแต่อาจทำให้เกิดการเรียงลำดับใหม่ Fabric ของ Facebook ใช้ adaptive routing บรรลุการใช้งาน 95% ข้าม link ทั้งหมดพร้อมกัน
การจัดการ Buffer ป้องกัน packet loss ในขณะที่ลด latency Buffer ตื้นลด queuing delay แต่เสี่ยง drop ระหว่าง burst Buffer ลึกรองรับ traffic burst แต่เพิ่ม latency Active Queue Management (AQM) ปรับ drop probability แบบไดนามิกตาม queue occupancy ขนาด buffer ที่เหมาะสมสำหรับ AI workload โดยทั่วไปคือ 100-200 ไมโครวินาทีของแบนด์วิดท์ link การสมดุลนี้ส่งผลกระทบอย่างมีนัยสำคัญต่อ throughput ที่มีประสิทธิภาพ
กลไก Flow control ป้องกัน sender เร็วจากการครอบงำ receiver ช้า Credit-based flow control ใน InfiniBand ป้องกันความแออัดที่แหล่ง Priority Flow Control ของ Ethernet สามารถทำให้เกิด head-of-line blocking หากกำหนดค่าไม่ถูกต้อง Receiver-driven flow control อนุญาตการจับคู่ rate ที่แม่นยำ การกำหนดค่า flow control ที่เหมาะสมป้องกัน packet loss ที่จะกระตุ้นการส่งซ้ำที่แพง
การตรวจสอบและวิเคราะห์ประสิทธิภาพ
Metric การใช้แบนด์วิดท์เผยให้เห็นว่าความจุเครือข่ายจำกัดประสิทธิภาพการฝึกหรือไม่ การใช้ link ควรเฉลี่ย 60-80% ด้วย peak ต่ำกว่า 95% เพื่อรองรับ burst การตรวจจับ Microburst ต้องการการสุ่มตัวอย่างต่ำกว่ามิลลิวินาทีเพื่อจับความแออัดชั่วคราว การใช้งานสูงอย่างต่อเนื่องบ่งชี้ความจำเป็นในการขยายความจุ การตรวจสอบของ Alibaba แสดงการใช้งานเฉลี่ย 73% ข้ามเครือข่ายการฝึกของพวกเขาด้วย peak 92%
Latency profiling ระบุคอขวดการสื่อสารที่ส่งผลกระทบต่อเวลาการวนซ้ำการฝึก เวลาเสร็จสิ้น All-reduce ส่งผลโดยตรงต่อการใช้ GPU และความเร็วการฝึก Tail latency สำคัญกว่าค่าเฉลี่ยสำหรับการดำเนินการที่ซิงโครไนซ์ การมีส่วนร่วมของเครือข่ายต่อเวลาการวนซ้ำทั้งหมดควรต่ำกว่า 25% เครื่องมือ Profiling ต้องเชื่อมโยงเหตุการณ์เครือข่ายกับ GPU timeline สำหรับการระบุที่แม่นยำ
การตรวจสอบ Packet loss ตรวจจับปัญหาเครือข่ายก่อนที่จะส่งผลกระทบอย่างมีนัยสำคัญต่อการฝึก แม้อัตรา loss 0.01% สามารถลดแบนด์วิดท์ที่มีประสิทธิภาพได้ 10% เนื่องจากการส่งซ้ำ รูปแบบ loss เผยให้เห็นว่าปัญหาเป็นระบบหรือสุ่ม ความสัมพันธ์กับ switch หรือ link เฉพาะระบุส่วนประกอบที่ล้มเหลว การแจ้งเตือนอัตโนมัติเกี่ยวกับ packet loss ป้องกันความล่าช้าในการฝึกที่ยาวนาน
การวิเคราะห์รูปแบบทราฟฟิกปรับการกำหนดค่าเครือข่ายให้เหมาะสมสำหรับ workload จริง Heat map แสดงรูปแบบการสื่อสารระหว่างคู่ GPU การวิเคราะห์เวลาเผยรูปแบบเป็นระยะและความผิดปกติ ทราฟฟิกที่ไม่สมดุลบ่งชี้กลยุทธ์ parallelization ที่ไม่เหมาะสม การวิเคราะห์นี้แนะนำการเพิ่มประสิทธิภาพ topology และ
[เนื้อหาถูกตัดทอนสำหรับการแปล]