สวิตช์ InfiniBand: NVIDIA Quantum-X800 และเจเนอเรชัน XDR ที่ขับเคลื่อนซูเปอร์คอมพิวเตอร์ AI
อัปเดตวันที่ 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: ตลาด InfiniBand มีมูลค่าถึง 25.7 พันล้านดอลลาร์ในปี 2025 คาดการณ์ว่าจะเติบโตถึง 127 พันล้านดอลลาร์ภายในปี 2030 (CAGR 38%) Quantum-X800 มอบ 144 พอร์ต 800Gbps XDR พร้อมพลังประมวลผลในเครือข่าย 14.4 TFLOPS (เพิ่มขึ้น 9 เท่าจาก NDR) เวลาแฝง port-to-port ต่ำกว่า 100ns Stargate ที่มี GB200 64,000 ตัว และ Oracle zetta-scale supercluster ที่มี GPU 131,000 ตัว ทำงานบน InfiniBand
ยอดขายสวิตช์ InfiniBand พุ่งสูงขึ้นในไตรมาส 2 ปี 2025 เนื่องจากแพลตฟอร์ม Blackwell Ultra ของ NVIDIA กระตุ้นความต้องการเครือข่าย 800Gbps¹ ตลาด InfiniBand ซึ่งมีมูลค่า 25.74 พันล้านดอลลาร์ในปี 2025 คาดการณ์ว่าจะเติบโตถึง 126.99 พันล้านดอลลาร์ภายในปี 2030 ด้วยอัตราการเติบโตต่อปีแบบทบต้นที่ 37.60%² แม้ว่า Ethernet จะยังคงครองตลาดโดยรวมสำหรับเครือข่าย back-end ของ AI แต่ InfiniBand ครองตลาดในการใช้งานที่ต้องการประสิทธิภาพสูงสุด ซึ่งเวลาแฝงที่วัดเป็นหลักร้อยนาโนวินาทีเป็นตัวกำหนดประสิทธิภาพการฝึก
แพลตฟอร์ม Quantum-X800 เป็นคำตอบของ NVIDIA สำหรับความต้องการโมเดลระดับล้านล้านพารามิเตอร์ ด้วย 144 พอร์ตของการเชื่อมต่อ 800Gbps พลังประมวลผลในเครือข่าย 14.4 teraflops ผ่าน SHARP v4 และเวลาแฝง port-to-port ต่ำกว่า 100 นาโนวินาที เจเนอเรชัน XDR เพิ่มแบนด์วิดท์เป็นสองเท่าพร้อมมอบพลังประมวลผลในเครือข่ายมากกว่าแพลตฟอร์ม NDR รุ่นก่อนหน้าถึง 9 เท่า³ การติดตั้งขนาดใหญ่รวมถึงระบบ GB200 64,000 ตัวของ Stargate และ zetta-scale supercluster ที่มี GPU 131,000 ตัวของ Oracle ต่างพึ่งพา NVIDIA InfiniBand เพื่อรักษาการซิงโครไนซ์ที่แม่นยำซึ่งการฝึก AI แบบกระจายต้องการ⁴
วิวัฒนาการจาก NDR สู่ XDR
เจเนอเรชัน InfiniBand พัฒนาผ่านการเพิ่มความเร็วแบบมาตรฐาน: QDR (40Gbps), FDR (56Gbps), EDR (100Gbps), HDR (200Gbps), NDR (400Gbps) และตอนนี้ XDR (800Gbps)⁵ แต่ละเจเนอเรชันเพิ่มแบนด์วิดท์ต่อพอร์ตเป็นสองเท่าในขณะที่รักษาเวลาแฝงต่ำและความน่าเชื่อถือระดับฮาร์ดแวร์ที่ทำให้ InfiniBand แตกต่างจากทางเลือก Ethernet
NDR (Next Data Rate) เปิดตัวในปี 2021 มอบพอร์ต 400Gbps โดยใช้ SerDes แบบ PAM-4 สี่เลนที่ทำงานที่ 51.6 GHz⁶ ASIC Quantum-2 ที่ขับเคลื่อนสวิตช์ NDR มี 256 SerDes เลนพร้อมแบนด์วิดท์ทางเดียว 25.6Tbps ประมวลผล 66.5 พันล้านแพ็กเก็ตต่อวินาทีผ่าน 64 พอร์ตของการเชื่อมต่อ 400Gbps⁷ NDR นำขั้วต่อ OSFP มาสู่ InfiniBand ทำให้สามารถเชื่อมต่อได้หนึ่งหรือสองลิงก์ในการกำหนดค่า 2x (NDR200) หรือ 4x (NDR400)⁸
ข้อกำหนด XDR (eXtreme Data Rate) เผยแพร่โดย InfiniBand Trade Association ในเดือนตุลาคม 2023 เพิ่มแบนด์วิดท์เป็นสองเท่าเพื่อตอบสนองความต้องการของศูนย์ข้อมูล AI และ HPC⁹ การรองรับ SerDes ที่ 200Gbps ต่อเลนทำให้พอร์ต 800Gbps เป็นไปได้ โดยการเชื่อมต่อ switch-to-switch สามารถทำได้ถึง 1.6Tbps¹⁰ XDR เปิดตัว SHARP เจเนอเรชันที่สี่ การปรับปรุงเวลาแฝงต่ำพิเศษ ความสามารถในการซ่อมแซมตัวเอง และการผสานรวม silicon photonics¹¹
แผนงานดำเนินต่อไปสู่เทคโนโลยี GDR (Giga Data Rate) ที่ให้ 1.6Tbps ต่อพอร์ตสำหรับเจเนอเรชันในอนาคต เพื่อให้แน่ใจว่า InfiniBand รักษาตำแหน่งผู้นำด้านประสิทธิภาพ¹²
สถาปัตยกรรมแพลตฟอร์ม NVIDIA Quantum-X800
แพลตฟอร์ม Quantum-X800 มอบการใช้งาน XDR InfiniBand ครั้งแรก ออกแบบมาโดยเฉพาะสำหรับโมเดล AI ระดับล้านล้านพารามิเตอร์¹³ สวิตช์ Q3400-RA ขนาด 4U ใช้เทคโนโลยี SerDes 200Gbps ต่อเลน ซึ่งเป็นซิลิกอนสวิตช์ตัวแรกที่บรรลุระดับความเร็วนี้¹⁴
ความหนาแน่นของพอร์ตเพิ่มขึ้นอย่างมาก สวิตช์มี 144 พอร์ตของการเชื่อมต่อ 800Gbps กระจายอยู่ใน 72 ช่อง OSFP¹⁵ High radix ทำให้โทโพโลยีของแฟบริกมีประสิทธิภาพ โดย fat-tree สองระดับสามารถเชื่อมต่อ ConnectX-8 NIC ได้ถึง 10,368 ตัวด้วยเวลาแฝงต่ำสุดและ job locality ที่เหมาะสมที่สุด¹⁶
ข้อมูลจำเพาะด้านประสิทธิภาพมุ่งเป้าไปที่ภาระงาน AI ที่ต้องการมากที่สุด เวลาแฝง port-to-port วัดได้ต่ำกว่า 100 นาโนวินาที¹⁷ Adaptive routing กระจายทราฟฟิกข้ามเส้นทางที่มีอยู่แบบไดนามิก การควบคุมความแออัดแบบ telemetry-based ป้องกันความอิ่มตัวของเครือข่ายก่อนที่จะส่งผลกระทบต่อการใช้งาน GPU¹⁸
ตู้สวิตช์คู่ในรุ่นเช่น Q3200-RA มี 72 พอร์ต 800Gbps ผ่านแบนด์วิดท์ switch-to-switch รวม 1.6Tbps ทำให้โทโพโลยี spine-leaf ที่คลัสเตอร์ AI ขนาดใหญ่ต้องการเป็นไปได้¹⁹ ความสามารถเราเตอร์ที่เป็นตัวเลือกอำนวยความสะดวกในการขยายคลัสเตอร์ InfiniBand ข้ามหลายไซต์ รองรับสภาพแวดล้อมการฝึกแบบกระจายที่ครอบคลุมหลายสถานที่ทางภูมิศาสตร์²⁰
SHARP in-network computing ขจัดคอขวด
Scalable Hierarchical Aggregation and Reduction Protocol (SHARP) ของ NVIDIA เป็นข้อได้เปรียบทางเทคโนโลยีที่สำคัญที่สุดของ InfiniBand เหนือทางเลือก Ethernet โดยการถ่ายโอน collective operations เช่น all-reduce และ broadcast ไปยังสวิตช์เครือข่าย SHARP ลดปริมาณการถ่ายโอนข้อมูลอย่างมากและลด server jitter ระหว่างการฝึกแบบกระจาย²¹
วิวัฒนาการผ่านสี่เจเนอเรชันขยายความสามารถของ SHARP อย่างต่อเนื่อง:
SHARPv1 มุ่งเน้นที่การ reduction operations ของข้อความขนาดเล็กสำหรับการคำนวณทางวิทยาศาสตร์ แสดงให้เห็นการปรับปรุงประสิทธิภาพอย่างมากที่ไลบรารี MPI ชั้นนำนำไปใช้²²
SHARPv2 เปิดตัวพร้อมสวิตช์ HDR 200Gbps Quantum เพิ่มการรองรับภาระงาน AI รวมถึง reduction operations ของข้อความขนาดใหญ่ การทดสอบแสดงการปรับปรุงประสิทธิภาพการฝึก BERT 17%²³
SHARPv3 เปิดใช้งาน in-network computing แบบ multi-tenant ทำให้ภาระงาน AI หลายตัวสามารถใช้ความสามารถของ SHARP ได้พร้อมกัน Microsoft Azure แสดงให้เห็นประโยชน์ด้านประสิทธิภาพเกือบหนึ่งระดับความสำคัญสำหรับ AllReduce latency โดยใช้เจเนอเรชันนี้²⁴
SHARPv4 มาเป็นมาตรฐานกับสวิตช์ Quantum-X800 และ Quantum-X Photonics ทำให้ in-network aggregation และ reduction ลด overhead การสื่อสาร GPU-to-GPU ให้น้อยที่สุด²⁵ เมื่อรวมกับการรองรับความแม่นยำ FP8 SHARP v4 เร่งการฝึกโมเดลระดับล้านล้านพารามิเตอร์โดยลดทั้งความต้องการแบนด์วิดท์และการประมวลผล มอบการ convergence ที่เร็วขึ้นและ throughput ที่สูงขึ้น²⁶
เทคโนโลยีนี้ผสานรวมกับ NVIDIA Collective Communication Library (NCCL) ทำให้เฟรมเวิร์กการฝึก AI แบบกระจายใช้ SHARP ได้โดยอัตโนมัติ ผู้ให้บริการรายงานการปรับปรุงประสิทธิภาพ 10-20% สำหรับภาระงาน AI ผ่านการผสานรวม SHARP²⁷ สวิตช์เครือข่ายทำ aggregation และ reduction โดยตรง ข้าม CPU และ GPU สำหรับงานเหล่านี้ในขณะที่เพิ่มแบนด์วิดท์ AllReduce เป็นสองเท่าเมื่อเทียบกับการกำหนดค่าที่ไม่ใช้ SHARP²⁸
ConnectX-8 SuperNIC มอบ endpoint 800Gbps
แพลตฟอร์ม Quantum-X800 จับคู่กับอะแดปเตอร์ ConnectX-8 SuperNIC เพื่อให้ได้ throughput 800Gbps แบบ end-to-end²⁹ C8180 เป็น SuperNIC 800Gbps dual-protocol ตัวแรกของ NVIDIA ที่รองรับทั้ง InfiniBand และ Ethernet ออกแบบมาสำหรับคลัสเตอร์ AI high-performance computing เครือข่าย supercomputing และสถาปัตยกรรมศูนย์ข้อมูลยุคใหม่³⁰
ข้อมูลจำเพาะทางเทคนิคผลักดันความสามารถของอะแดปเตอร์ไปข้างหน้าอย่างมาก อินเทอร์เฟซ OSFP พอร์ตเดียวมอบ 800Gbps XDR InfiniBand หรือสองพอร์ต 400Gbps Ethernet³¹ การเชื่อมต่อ PCIe Gen6 x16 ให้แบนด์วิดท์อินเทอร์เฟซโฮสต์ที่ตรงกับความเร็วเครือข่าย³² Auto-negotiation รองรับความเข้ากันได้ย้อนหลังข้ามความเร็ว InfiniBand XDR, NDR, NDR200, HDR, HDR100, EDR, FDR และ SDR³³
นวัตกรรมสถาปัตยกรรมขยายเกินกว่าแบนด์วิดท์ดิบ ConnectX-8 ผสานรวมการรองรับ PCIe Gen6 แบบ native พร้อม PCIe switching fabric บนบอร์ด ขจัดความต้องการ PCIe switch ภายนอก³⁴ อะแดปเตอร์มี 48 เลนของ PCIe Gen6 หลังอินเทอร์เฟซขั้วต่อ x16³⁵ การรองรับ SHARP แบบ native เร่ง aggregation และ reduction operations โดยตรงในฮาร์ดแวร์อะแดปเตอร์³⁶
เทคโนโลยี Socket Direct ตอบสนองสถาปัตยกรรมเซิร์ฟเวอร์ dual-socket การเข้าถึงโดยตรงจาก CPU แต่ละตัวไปยังเครือข่ายผ่านอินเทอร์เฟซ PCIe เฉพาะปรับปรุงประสิทธิภาพในระบบที่โทโพโลยี CPU-to-network ส่งผลกระทบต่อเวลาแฝง³⁷ GB300 NVL72 เป็นการใช้งานครั้งแรกของความสามารถ PCIe Gen6 SuperNIC เชื่อมต่อกับ Grace CPU ที่ความเร็ว Gen5 ในขณะที่รักษาลิงก์ Gen6 ไปยัง B300 GPU³⁸
Unified Fabric Manager จัดการในระดับขนาดใหญ่
แพลตฟอร์ม UFM ปฏิวัติการจัดการแฟบริก InfiniBand โดยรวม real-time network telemetry เข้ากับการวิเคราะห์ที่ขับเคลื่อนด้วย AI³⁹ โซลูชันแบบ host-based ให้การมองเห็นที่สมบูรณ์เหนือการจัดการแฟบริก การเราติ้ง การ provisioning และการแก้ไขปัญหา
สถาปัตยกรรม UFM ครอบคลุมหลายส่วนประกอบ UFM Server รักษาการมองเห็นแฟบริกที่สมบูรณ์และจัดการการเราติ้งข้ามอุปกรณ์ทั้งหมด Managed Switching Devices รวมถึง fabric switches, gateways และ routers ภายใต้การควบคุมของ UFM UFM Host Agents ที่เป็นตัวเลือกบน compute nodes ให้ข้อมูลโฮสต์ท้องถิ่นและฟังก์ชันการจัดการอุปกรณ์⁴⁰
สามระดับแพลตฟอร์มตอบสนองความต้องการการดำเนินงานที่แตกต่างกัน:
UFM Telemetry รวบรวม counter ที่ไม่ซ้ำกันกว่า 120 รายการต่อพอร์ต รวมถึง bit error rate อุณหภูมิ histograms และ retransmissions⁴¹ ข้อมูลนี้ช่วยให้คาดการณ์สายเคเบิลที่มีปัญหาก่อนที่ความล้มเหลวจะส่งผลกระทบต่อภาระงานการผลิต
UFM Enterprise เพิ่มการตรวจสอบเครือข่าย การจัดการ การเพิ่มประสิทธิภาพภาระงาน และการตรวจสอบการกำหนดค่าเป็นระยะ⁴² การผสานรวม job scheduler กับ Slurm และ Platform LSF ทำให้การ provisioning เครือข่ายอัตโนมัติสอดคล้องกับการจัดตารางภาระงาน การผสานรวม OpenStack และ Azure รองรับโมเดลการใช้งานแบบคลาวด์⁴³
UFM Cyber-AI ให้ความสามารถในการบำรุงรักษาเชิงป้องกันและความปลอดภัยทางไซเบอร์เพื่อลดต้นทุนการดำเนินงาน supercomputing⁴⁴ การใช้งานแบบ appliance เฉพาะทำให้การวิเคราะห์แฟบริกที่ขับเคลื่อนด้วย AI บน on-premises เป็นไปได้
UFM SDK เสนอการผสานรวมกับบุคคลที่สามอย่างกว้างขวาง รวมถึง Grafana, FluentD, Zabbix และ Slurm plug-ins ผ่านการเข้าถึง REST API⁴⁵ โครงการโอเพนซอร์สเปิดใช้งานการผสานรวม SLURM สำหรับตรวจสอบแบนด์วิดท์เครือข่าย ความแออัด ข้อผิดพลาด และการใช้ทรัพยากรข้าม job compute nodes
การใช้งานซูเปอร์คอมพิวเตอร์รายใหญ่ยืนยันแพลตฟอร์ม
ระบบ AI ที่ใหญ่ที่สุดในโลกใช้มาตรฐานเครือข่าย NVIDIA InfiniBand การใช้งานปัจจุบันและที่วางแผนไว้แสดงให้เห็นความสามารถของแพลตฟอร์ม Quantum ในระดับขนาดใหญ่
Stargate AI Data Center เริ่มติดตั้งระบบ GB200 64,000 ตัวในเดือนมีนาคม 2025 เชื่อมต่อด้วย InfiniBand 800Gbps สำหรับบริการ AI ระดับ multi-exaflop⁴⁶ การใช้งานนี้เป็นหนึ่งในการใช้งาน XDR ขนาดใหญ่ครั้งแรก
xAI Colossus ดำเนินการ H100 GPU 100,000 ตัวโดยใช้สวิตช์ Quantum-2 รักษาเวลาแฝงกรณีเลวร้ายที่สุดที่ 850 นาโนวินาทีข้ามสามระดับเครือข่าย⁴⁷ คลัสเตอร์ Memphis ฝึกโมเดลภาษาขนาดใหญ่ตระกูล Grok ของ xAI
Oracle Zetta-scale Supercluster วางแผน GB200 GPU 131,000 ตัวเชื่อมต่อผ่าน Quantum InfiniBand fabric แสดงให้เห็นความมุ่งมั่นของผู้ให้บริการคลาวด์ต่อ InfiniBand สำหรับโครงสร้างพื้นฐาน AI ประสิทธิภาพสูงสุด⁴⁸
El Capitan ที่ Lawrence Livermore National Laboratory จะเกิน 2 exaflops โดยใช้ InfiniBand 200Gbps แสดงให้เห็นความเกี่ยวข้องอย่างต่อเนื่องของเครือข่ายระดับ NDR สำหรับการคำนวณทางวิทยาศาสตร์⁴⁹
JUPITER (250 ล้านยูโร) และ Blue Lion (250 ล้านยูโร) ในยุโรปเลือกแฟบริก Quantum-2 ที่ตรงตามข้อกำหนดประสิทธิภาพพลังงานที่เข้มงวดในขณะที่มอบประสิทธิภาพที่ภาระงานทางวิทยาศาสตร์ต้องการ⁵⁰
รายได้เครือข่ายของ NVIDIA ถึง 10 พันล้านดอลลาร์ต่อปี เกือบทั้งหมดเชื่อมโยงกับแฟบริก InfiniBand ที่ขับเคลื่อนคลาวด์ AI เชิงพาณิชย์⁵¹ Microsoft Azure และ Oracle Cloud Infrastructure เป็นผู้นำร่อง Quantum InfiniBand ในกลุ่ม hyperscale providers⁵²
ตำแหน่ง InfiniBand เทียบกับ Ethernet
พลวัตตลาดสะท้อนตำแหน่งที่แตกต่างกันของแต่ละเทคโนโลยี เมื่อ Dell'Oro Group เริ่มครอบคลุมเครือข่าย AI back-end ในปลายปี 2023 InfiniBand มีส่วนแบ่งตลาดมากกว่า 80%⁵³ Ethernet ได้เพิ่มส่วนแบ่งตั้งแต่นั้นผ่านการนำไปใช้โดย hyperscaler และข้อได้เปรียบด้านต้นทุน รักษาความเป็นผู้นำตลาดโดยรวมในปี 2025⁵⁴
ลักษณะประสิทธิภาพทำให้เทคโนโลยีทั้งสองแตกต่างกัน InfiniBand มอบเวลาแฝงต่ำกว่าไมโครวินาทีผ่าน RDMA ที่เร่งด้วยฮาร์ดแวร์และ in-network computing Ethernet บรรลุ throughput ที่แข่งขันได้เมื่อกำหนดค่าอย่างเหมาะสมกับ RoCE แต่ต้องการการกำหนดค่าเครือข่าย lossless อย่างรอบคอบและขาดความสามารถ in-network compute ที่เทียบเท่า
โครงสร้างต้นทุนเอื้อประโยชน์ต่อ Ethernet สำหรับการใช้งานหลายรูปแบบ บริษัทระดับ tier 2 และ tier 3 ที่ใช้งานคลัสเตอร์ GPU 256-1,024 ตัวมักพบว่า Ethernet กับ RoCE มอบประสิทธิภาพที่ยอมรับได้ในราคาประมาณครึ่งหนึ่งของต้นทุนเครือข่าย⁵⁵ คุณค่าของ InfiniBand แข็งแกร่งขึ้นในระดับขนาดใหญ่ที่ SHARP in-network computing และขอบเขตเวลาแฝงที่แคบกว่าแปลง
[เนื้อหาถูกตัดทอนสำหรับการแปล]