เครือข่าย 800G สำหรับ AI: การวางแผน GPU Fabric รุ่นถัดไปของคุณ
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: แพลตฟอร์ม NVIDIA Quantum-X800 InfiniBand และ Spectrum-X800 Ethernet เริ่มส่งมอบในปริมาณมากแล้ว Microsoft Azure กำลังติดตั้ง 800G full fat-tree non-blocking fabrics สำหรับคลัสเตอร์ GB200/GB300 Ultra Ethernet Consortium เร่งพัฒนาการปรับปรุงเฉพาะสำหรับ AI ขณะที่การทดสอบ 1.6T เริ่มต้นขึ้น ความหนาแน่นของพลังงานยังคงเป็นข้อจำกัดในการติดตั้ง—โมดูล 800G ใช้พลังงาน 14-20W ต่อพอร์ต สร้างความท้าทายต่อการออกแบบระบบระบายความร้อนของแร็ค
การส่งมอบพอร์ตสวิตช์ส่วนใหญ่ในคลัสเตอร์ AI ในช่วงปี 2025 ทำงานที่ความเร็ว 800 กิกะบิตต่อวินาที¹ ภายในปี 2027 ส่วนใหญ่จะเปลี่ยนไปเป็น 1.6 เทราบิต ภายในปี 2030 พอร์ตส่วนใหญ่จะทำงานที่ 3.2 เทราบิต² นี่หมายความว่าชั้นไฟฟ้าของเครือข่ายดาต้าเซ็นเตอร์จะต้องเปลี่ยนใหม่ในแต่ละรุ่นของแบนด์วิดท์ ซึ่งเป็นวงจรการอัปเกรดที่รวดเร็วกว่าที่เคยเห็นในเครือข่ายองค์กรแบบดั้งเดิมมาก องค์กรที่วางแผนโครงสร้างพื้นฐาน AI ต้องคำนึงถึงการเปลี่ยนแปลงเครือข่ายที่จะเกิดขึ้นเร็วกว่าเทคโนโลยีรุ่นใดๆ ก่อนหน้านี้
รายได้ด้านเครือข่ายของ NVIDIA เพิ่มขึ้นเกือบเป็นสองเท่าเมื่อเทียบกับปีก่อนหน้าสู่ 7.3 พันล้านดอลลาร์ ขับเคลื่อนโดยการนำ Spectrum-X Ethernet, InfiniBand XDR และระบบ NVLink scale-up มาใช้อย่างแข็งแกร่ง³ Spectrum-X ทะลุอัตราการทำงานประจำปี 10 พันล้านดอลลาร์⁴ การลงทุนนี้ส่งสัญญาณว่าเครือข่ายสำหรับ AI เป็นตลาดที่แตกต่างจากเครือข่ายดาต้าเซ็นเตอร์แบบดั้งเดิม โดยมีข้อกำหนดและเศรษฐศาสตร์ที่สมเหตุสมผลสำหรับการพัฒนาผลิตภัณฑ์เฉพาะทางและการวางแผนโครงสร้างพื้นฐาน
800G กลายเป็นมาตรฐานปี 2025
การวิจัยในอุตสาหกรรมและ roadmap ของผู้ผลิตวางตำแหน่ง 800G optics เป็นเทคโนโลยีหลักสำหรับการติดตั้งคลัสเตอร์ AI ใหม่และดาต้าเซ็นเตอร์ขนาดใหญ่ในปี 2025 โดยเฉพาะในฟอร์มแฟกเตอร์ OSFP และ QSFP-DD⁵ ผู้ผลิตและนักวิเคราะห์คาดว่าทรานซีฟเวอร์ 800G จะเป็นเสาหลักใน AI fabrics ขนาดใหญ่ โดยมีการทดสอบเบื้องต้นสำหรับ 1.6T อยู่ในระหว่างการพัฒนา⁶
การเปิดตัวแพลตฟอร์ม NVIDIA Blackwell Ultra อย่างรวดเร็วได้ขับเคลื่อนความต้องการที่แข็งแกร่งสำหรับสวิตช์ InfiniBand 800 Gbps ผลักดันยอดขายสวิตช์ InfiniBand พุ่งสูงขึ้นในไตรมาส 2 ปี 2025⁷ ในขณะที่ยอดขายสวิตช์ InfiniBand ในเครือข่าย back-end ของ AI พุ่งสูงขึ้น Ethernet ยังคงครองตำแหน่งนำโดยรวม สวิตช์ 800 Gbps คิดเป็นสัดส่วนหลักของการส่งมอบและรายได้สวิตช์ทั้ง Ethernet และ InfiniBand ในเครือข่าย back-end ของ AI⁸
การติดตั้ง NVIDIA GB200 และ GB300 ล่าสุดของ Microsoft สื่อสารผ่าน NVLink และ NVSwitch ด้วยความเร็วเทราไบต์ต่อวินาทีในระดับแร็ค⁹ เพื่อเชื่อมต่อข้ามหลายแร็คเข้าสู่พ็อด Azure ใช้ทั้ง InfiniBand และ Ethernet fabrics ที่ให้ 800 Gbps ในสถาปัตยกรรม full fat-tree non-blocking¹⁰ แนวทางไฮบริดนี้สะท้อนบทบาทที่เสริมกันของเทคโนโลยีเครือข่ายต่างๆ ในโครงสร้างพื้นฐาน AI ขนาดใหญ่
การเชื่อมต่อออปติคอลที่ขับเคลื่อนด้วย AI รวมถึงโมดูล 400G และ 800G จะเติบโตในอัตราทบต้นมากกว่า 22% ต่อปีจนถึงปี 2030 ส่วนใหญ่เนื่องจากคลัสเตอร์การฝึกและ inference ของ AI ขนาดใหญ่¹¹ วิถีการเติบโตนี้สมเหตุสมผลกับการลงทุนโครงสร้างพื้นฐานที่คาดการณ์การขยายตัวของข้อกำหนดเครือข่าย AI หลายปี
แพลตฟอร์มเครือข่าย 800G ของ NVIDIA
NVIDIA Quantum-X800 InfiniBand และ Spectrum-X800 Ethernet เป็นแพลตฟอร์มเครือข่ายแรกของโลกที่สามารถส่งข้อมูลแบบ end-to-end 800Gb/s¹² แพลตฟอร์ม Quantum-X800 ที่สร้างมาเฉพาะสำหรับโมเดล AI ระดับ trillion-parameter ประกอบด้วยสวิตช์ Quantum-X800 InfiniBand, ConnectX-8 SuperNIC, ConnectX-9 SuperNIC และสาย LinkX และทรานซีฟเวอร์¹³
สวิตช์ Quantum-X800 InfiniBand ให้การเชื่อมต่อ 144 พอร์ตที่ 800 Gb/s ต่อพอร์ต¹⁴ ความหนาแน่นของพอร์ตช่วยให้สร้าง fabrics ขนาดใหญ่ด้วยชั้นสวิตช์ที่น้อยลง ลด latency และความซับซ้อน สำหรับองค์กรที่ฝึกโมเดล AI ขนาดใหญ่ที่สุด InfiniBand ยังคงให้ latency ต่ำที่สุดและความสม่ำเสมอของประสิทธิภาพที่ดีที่สุดในระดับ scale
สวิตช์ NVIDIA Quantum-X และ Spectrum-X Photonics ผสานรวม silicon photonics เข้าไปในแพ็คเกจสวิตช์โดยตรง ให้ 128 ถึง 512 พอร์ตที่ 800 Gb/s พร้อมแบนด์วิดท์รวมตั้งแต่ 100 Tb/s ถึง 400 Tb/s¹⁵ การผสานรวมนี้ให้ประสิทธิภาพการใช้พลังงานดีขึ้น 3.5 เท่าและความยืดหยุ่นดีขึ้น 10 เท่าเมื่อเทียบกับ optics แบบดั้งเดิม¹⁶
Cisco Nexus Hyperfabric AI พร้อมสวิตช์ Cisco G200 Silicon One ที่จัดการผ่านคลาวด์ให้ Ethernet 800G ความหนาแน่นสูง พร้อมสั่งซื้อได้ในตัวเลือกการติดตั้งใน AI PODs¹⁷ ความร่วมมือระหว่าง Cisco และ NVIDIA ในเครือข่าย AI แสดงให้เห็นว่าผู้ผลิตเครือข่ายองค์กรแบบดั้งเดิมกำลังปรับตัวเข้ากับข้อกำหนดโครงสร้างพื้นฐาน AI อย่างไร
การพิจารณา InfiniBand เทียบกับ Ethernet
Ethernet จะครองการติดตั้ง AI ขององค์กรส่วนใหญ่เนื่องจากข้อได้เปรียบด้านต้นทุนและระบบนิเวศ ในขณะที่ InfiniBand จะยังคงเป็นตัวเลือกสำหรับคลัสเตอร์ AI และ HPC ระดับ extreme-scale¹⁸ ความแตกต่างนี้สำคัญสำหรับการวางแผนโครงสร้างพื้นฐาน: องค์กรควรเลือกเทคโนโลยีตามลักษณะของ workload แทนที่จะใช้ตัวเลือกที่คุ้นเคยเป็นค่าเริ่มต้น
InfiniBand ให้ latency ต่ำกว่าประมาณ 1-2 ไมโครวินาทีและความสม่ำเสมอของประสิทธิภาพที่ดีกว่าในระดับ scale¹⁹ Ethernet พร้อม RoCEv2 ให้ latency ประมาณ 5-10 ไมโครวินาทีและสามารถปรับแต่งสำหรับ AI workloads ได้²⁰ ความแตกต่างของ latency สำคัญสำหรับงานฝึกที่การดำเนินการแบบ collective ต้องซิงโครไนซ์ข้าม GPU หลายพันตัว Inference workloads ที่มีข้อกำหนดการซิงโครไนซ์ต่ำกว่าอาจไม่ได้รับประโยชน์จากข้อได้เปรียบด้าน latency ของ InfiniBand
นักวิเคราะห์คาดการณ์ว่า Ethernet จะกลายเป็นเทคโนโลยีที่โดดเด่นกว่าสำหรับเครือข่าย AI แซงหน้า InfiniBand เมื่อ 800G เติบโตและ 1.6T เริ่มเป็นรูปเป็นร่าง²¹ การเป็นสมาชิกก่อตั้งของ NVIDIA ใน Ultra Ethernet Consortium และการเปิดตัวสวิตช์ Spectrum-X 800G Ethernet ที่ปรับแต่งสำหรับ AI ส่งสัญญาณความมั่นใจในอนาคตของ Ethernet สำหรับ AI²² Ultra Ethernet Consortium พัฒนาการปรับปรุงเฉพาะสำหรับ AI workloads
การติดตั้ง 800G Ethernet fabric ประสิทธิภาพสูงแบบ lossless จะเพิ่มมูลค่าสูงสุดจากการลงทุน AI²³ เครือข่ายทำหน้าที่เป็นระบบประสาทส่วนกลาง สำคัญอย่างยิ่งสำหรับการเพิ่มประสิทธิภาพและผลตอบแทนจากการลงทุน การปรับแต่ง network fabric อย่างละเอียดจะเร่งเวลาการทำงานให้เสร็จและรับประกันการใช้ GPU อย่างมีประสิทธิภาพสูง²⁴
ความท้าทายในการย้ายระบบและการวางแผน
800G optics นำมาซึ่งความท้าทายใหม่ที่องค์กรต้องจัดการระหว่างการวางแผนย้ายระบบ ความหนาแน่นของพลังงานและความร้อนเพิ่มขึ้นอย่างมาก โดยโมดูล 800G ใช้พลังงาน 14-20 วัตต์หรือมากกว่า สร้างความตึงเครียดต่อการออกแบบระบบระบายความร้อนของสวิตช์และงบประมาณพลังงานของแร็ค²⁵ องค์กรต้องตรวจสอบว่าโครงสร้างพื้นฐานที่มีอยู่สามารถรองรับข้อกำหนดพลังงานและการระบายความร้อนที่เพิ่มขึ้นได้
การจัดการไฟเบอร์ซับซ้อนขึ้น การย้ายไปสู่ 800G มักต้องการจำนวนไฟเบอร์ที่มากขึ้น สาย MTP และข้อกำหนดด้าน polarity และความสะอาดที่เข้มงวดขึ้น²⁶ โครงสร้างพื้นฐานชั้นกายภาพที่ใช้งานได้สำหรับ 100G หรือ 400G อาจไม่รองรับ 800G โดยไม่อัปเกรด การลงทุนโรงงานสายเคเบิลควรคาดการณ์ข้อกำหนดแบนด์วิดท์ในอนาคตเพื่อหลีกเลี่ยงการเปลี่ยนโครงสร้างพื้นฐานซ้ำแล้วซ้ำเล่า
การทำงานร่วมกันและการตรวจสอบข้ามผู้ผลิตสวิตช์และ NICs ต้องการการวางแผนอย่างรอบคอบ²⁷ สภาพแวดล้อมหลายผู้ผลิตอาจพบปัญหาความเข้ากันได้ที่การติดตั้งจากผู้ผลิตเดียวหลีกเลี่ยงได้ องค์กรควรตรวจสอบการทำงานร่วมกันในสภาพแวดล้อมห้องทดลองก่อนการติดตั้งในการผลิต
วงจรการอัปเกรดที่รวดเร็วจาก 800G ไปสู่ 1.6T ไปสู่ 3.2T ในเวลาน้อยกว่าห้าปีแตกต่างจากการเปลี่ยนแปลงเครือข่ายในประวัติศาสตร์ การวางแผนควรคำนึงถึงการเปลี่ยนโครงสร้างพื้นฐานบ่อยกว่าที่เครือข่ายดาต้าเซ็นเตอร์แบบดั้งเดิมเคยประสบ การออกแบบแบบโมดูลาร์ที่ช่วยให้อัปเกรดในระดับส่วนประกอบได้อาจลดต้นทุนการเปลี่ยนทั้งหมด
คำแนะนำเชิงกลยุทธ์
องค์กรที่วางแผนโครงสร้างพื้นฐาน AI ควรประเมินข้อกำหนดเครือข่ายอย่างเข้มงวดเท่ากับการเลือก GPU เครือข่ายกำหนดว่าทรัพยากร GPU ราคาแพงจะถูกใช้งานอย่างมีประสิทธิภาพเพียงใด การลงทุนในเครือข่ายไม่เพียงพอสร้างคอขวดที่ทำให้เสียความจุของ GPU
สำหรับการติดตั้ง AI ใหม่ในปี 2025 ควรกำหนด 800G เป็นข้อกำหนดเริ่มต้นสำหรับการเชื่อมต่อระดับ spine การเชื่อมต่อระดับ leaf อาจใช้ 400G ขึ้นอยู่กับการกำหนดค่า GPU และความทนทานต่อ oversubscription การลงทุนในโครงสร้างพื้นฐาน 800G ให้พื้นที่สำหรับการเติบโตของ workload และเตรียมพร้อมสำหรับการเปลี่ยนแปลงในอนาคต
InfiniBand ยังคงเหมาะสมสำหรับคลัสเตอร์ฝึก AI ขนาดใหญ่ที่สุดที่การลด latency โดยตรงปรับปรุงประสิทธิภาพการฝึก การติดตั้ง AI ขององค์กร บริการ AI บนคลาวด์ และ inference workloads โดยทั่วไปได้รับประโยชน์จากข้อได้เปรียบด้านต้นทุนและการผสานรวมระบบนิเวศของ Ethernet โดยไม่สูญเสียประสิทธิภาพที่มีความหมาย
ข้อจำกัดด้านพลังงานและการระบายความร้อนอาจจำกัดการนำ 800G มาใช้มากกว่าข้อกำหนดแบนด์วิดท์ องค์กรควรตรวจสอบความจุของโครงสร้างพื้นฐานก่อนที่จะตัดสินใจติดตั้ง 800G งบประมาณพลังงานสำหรับเครือข่ายอาจแข่งขันกับข้อกำหนดพลังงาน GPU ในสถานที่ที่มีข้อจำกัด
กรอบการตัดสินใจอย่างรวดเร็ว
การเลือกเทคโนโลยี:
| ถ้า Workload ของคุณคือ... | เลือก | เหตุผล |
|---|---|---|
| การฝึก LLM (>1000 GPUs) | InfiniBand 800G | latency 1-2µs ความสม่ำเสมอดีที่สุด |
| AI ขององค์กร/inference | Ethernet 800G | คุ้มค่า ผสานรวมระบบนิเวศได้ดี |
| ไฮบริดฝึก + inference | Dual fabric | InfiniBand สำหรับฝึก Ethernet สำหรับ inference |
| AI บนคลาวด์ | ขึ้นอยู่กับผู้ให้บริการ | GCP ใช้ Ethernet เท่านั้น AWS/Azure มีทั้งสองแบบ |
การวางแผนแบนด์วิดท์:
| ขนาดคลัสเตอร์ | Spine | Leaf | Oversubscription |
|---|---|---|---|
| <256 GPUs | 400G | 100G | 4:1 ยอมรับได้ |
| 256-1024 GPUs | 800G | 400G | 2:1 แนะนำ |
| 1024-4096 GPUs | 800G | 800G | 1:1 (non-blocking) |
| >4096 GPUs | Multi-tier 800G | 800G | การออกแบบ Fat-tree |
ประเด็นสำคัญ
สำหรับ network architects: - 800G เป็นมาตรฐานปี 2025 วางแผนสำหรับ 1.6T ภายในปี 2027 และ 3.2T ภายในปี 2030 - NVIDIA Quantum-X800 ให้ 144 พอร์ต × 800Gb/s ต่อสวิตช์ - InfiniBand: ~1-2µs latency; Ethernet พร้อม RoCEv2: ~5-10µs - การใช้พลังงาน: โมดูล 800G ใช้ 14-20W ส่งผลต่องบประมาณแร็ค
สำหรับนักวางแผนโครงสร้างพื้นฐาน: - ชั้นไฟฟ้าของเครือข่ายต้องเปลี่ยนใหม่ในแต่ละรุ่นของแบนด์วิดท์ - 800G optics ต้องการจำนวนไฟเบอร์มากขึ้น สาย MTP และความสะอาดที่เข้มงวดขึ้น - การตรวจสอบการทำงานร่วมกันสำคัญอย่างยิ่งในสภาพแวดล้อมหลายผู้ผลิต - การออกแบบแบบโมดูลาร์ลดต้นทุนการเปลี่ยนทั้งหมดระหว่างการเปลี่ยนผ่าน
สำหรับการวางแผนเชิงกลยุทธ์: - คาดว่า Ethernet จะแซงหน้า InfiniBand สำหรับเครือข่าย AI เมื่อ 800G เติบโต - NVIDIA Spectrum-X มีอัตราการทำงานประจำปี 10 พันล้านดอลลาร์—เครือข่าย AI เป็นตลาดที่แตกต่าง - Ultra Ethernet Consortium กำลังพัฒนาการปรับปรุงเฉพาะสำหรับ AI - การลงทุนเครือข่ายกำหนดการใช้ GPU—การลงทุนไม่เพียงพอเสียทรัพยากรประมวลผล
เครือข่ายเป็นส่วนประกอบที่สำคัญแต่มักถูกประเมินต่ำเกินไปของต้นทุนโครงสร้างพื้นฐาน AI การลงทุนที่จำเป็นเพื่อสนับสนุนคลัสเตอร์ GPU ด้วยแบนด์วิดท์ที่เหมาะสมสมเหตุสมผลกับการวางแผนอย่างรอบคอบและการประเมินผู้ผลิต องค์กรที่ถือว่าเครือข่ายเป็นเรื่องรอง จะพบว่าข้อจำกัดของเครือข่ายจำกัดความสามารถ AI ที่การลงทุน GPU ของพวกเขาสามารถเปิดใช้งานได้
เอกสารอ้างอิง
-
Dell'Oro Group. "Beyond the GPU Arms Race — The Potential Role of OXC in Building Next Gen AI Infrastructure." 2025. https://www.delloro.com/beyond-the-gpu-arms-race-the-potential-role-of-oxc-in-building-next-gen-ai-infrastructure/
-
Dell'Oro Group. "Beyond the GPU Arms Race."
-
NVIDIA Newsroom. "NVIDIA Announces New Switches Optimized for Trillion-Parameter GPU Computing and AI Infrastructure." 2025. https://nvidianews.nvidia.com/news/networking-switches-gpu-computing-ai
-
NVIDIA Newsroom. "NVIDIA Announces New Switches."
-
QSFP DD 800G. "2025 800G Optical Module Trends for AI Data Centers." 2025. https://qsfpdd800g.com/blogs/artical/2025-800g-optical-module-trends-ai-data-centers
-
QSFP DD 800G. "2025 800G Optical Module Trends."
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand in the AI race." 2025. https://www.lightwaveonline.com/home/article/55315256/ethernet-maintains-a-lead-over-infiniband-in-the-ai-race
-
Lightwave Online. "Ethernet maintains a lead over InfiniBand."
-
Microsoft Blog. "Inside the world's most powerful AI datacenter." September 18, 2025. https://blogs.microsoft.com/blog/2025/09/18/inside-the-worlds-most-powerf
[เนื้อหาถูกตัดสำหรับการแปล]