InfiniBand vs Ethernet สำหรับ GPU Clusters: คู่มือการตัดสินใจสถาปัตยกรรมเครือข่าย 800G
อัปเดต 8 ธันวาคม 2025
อัปเดตธันวาคม 2025: NVIDIA Spectrum-X 800G Ethernet เริ่มจัดส่งและได้รับการรับรองสำหรับการติดตั้ง Blackwell แล้ว ซึ่งลดช่องว่างข้อได้เปรียบของ InfiniBand สำหรับ workloads เฉพาะทาง NDR 400G InfiniBand ยังคงครองตลาดสำหรับ training clusters โดย XDR 800G กำลังเปิดตัว Ultra Ethernet Consortium ได้เผยแพร่ข้อกำหนด UEC 1.0 ในปี 2024 โดยคาดว่าผลิตภัณฑ์ที่เป็นไปตามมาตรฐานจะออกมาในปี 2025-2026 เครือข่าย AI cluster มีแนวโน้มเป็นแบบ hybrid มากขึ้น—InfiniBand สำหรับ training, Ethernet สำหรับ inference ออปติกส์ 1.6T เริ่มปรากฏใน roadmaps สำหรับปี 2026-2027
เครือข่ายที่เชื่อมต่อ GPU 10,000 ตัวเป็นตัวกำหนดว่าจะทำงานเป็น supercomputer แบบรวมศูนย์หรือเป็นเพียงคอลเลกชันของโปรเซสเซอร์ที่แยกจากกันราคาแพง แต่ทีมโครงสร้างพื้นฐานส่วนใหญ่ตัดสินใจมูลค่า 50 ล้านดอลลาร์นี้โดยอาศัยการตลาดของผู้ขายมากกว่าการวิเคราะห์ทางวิศวกรรม¹ Meta เลือกใช้ Ethernet เป็นมาตรฐานหลังจากพบว่าข้อได้เปรียบด้านประสิทธิภาพ 15% ของ InfiniBand ไม่สามารถรองรับต้นทุนรวมการเป็นเจ้าของที่สูงกว่า 2.3 เท่าสำหรับฝูง GPU 600,000 ตัวของพวกเขา² ในขณะเดียวกัน OpenAI ยกความดีความชอบให้กับการควบคุมความแออัดที่เหนือกว่าของ InfiniBand ที่ทำให้การ training GPT-4 เสร็จเร็วขึ้น 40% เมื่อเทียบกับความพยายามเบื้องต้นที่ใช้ Ethernet³ ประสบการณ์ที่ขัดแย้งกันนี้เผยให้เห็นความจริงพื้นฐาน: การเลือก "ที่ถูกต้อง" ขึ้นอยู่กับลักษณะของ workload, เป้าหมายการขยายขนาด และข้อจำกัดทางเศรษฐกิจโดยสิ้นเชิง
การตัดสินใจด้านสถาปัตยกรรมเครือข่ายส่งผลกระทบต่อทุกแง่มุมของโครงสร้างพื้นฐาน AI เป็นเวลาหลายปี ระบบนิเวศแบบปิดของ InfiniBand ผูกมัดองค์กรกับ roadmap ของ NVIDIA แต่ให้ประสิทธิภาพที่คาดเดาได้สำหรับ distributed training มาตรฐานเปิดของ Ethernet ช่วยให้มีความยืดหยุ่นของผู้ขายและการปรับต้นทุนให้เหมาะสม แต่ต้องมีการปรับแต่งที่ซับซ้อนเพื่อให้เทียบเท่าประสิทธิภาพพร้อมใช้งานของ InfiniBand การเลือกส่งผลไม่เพียงแค่การติดตั้งปัจจุบัน แต่รวมถึงความสามารถในการขยายขนาดในอนาคต เนื่องจากการเปลี่ยนเทคโนโลยีในภายหลังหมายถึงการเปลี่ยน switches, สายเคเบิล และ network cards มูลค่าหลายล้านดอลลาร์
ความเสี่ยงเพิ่มขึ้นในแต่ละรุ่นของฮาร์ดแวร์ Spectrum-X ของ NVIDIA สัญญาว่าจะนำประสิทธิภาพเหมือน InfiniBand มาสู่ Ethernet ที่ความเร็ว 800Gbps ซึ่งอาจทำให้ข้อได้เปรียบของ InfiniBand ล้าสมัย⁴ Ultra Ethernet Consortium ของ Intel ผลักดันมาตรฐานเปิดที่อาจแบ่งแยกตลาดต่อไป⁵ องค์กรที่กำลังติดตั้งโครงสร้างพื้นฐานในวันนี้ต้องคาดการณ์ว่าเทคโนโลยีใดจะครองตลาดในปี 2030 เมื่อการลงทุนปัจจุบันหมดค่าเสื่อมราคาเต็มที่ การคาดการณ์ที่ผิดพลาดจะทำให้สินทรัพย์ติดค้างและจำกัดความสามารถในขณะที่การแข่งขัน AI ทวีความรุนแรงขึ้น
สถาปัตยกรรมทางเทคนิคเผยให้เห็นความแตกต่างพื้นฐาน
InfiniBand เกิดจากข้อกำหนดของ supercomputing ที่ไมโครวินาทีกำหนดความสำเร็จหรือความล้มเหลว สถาปัตยกรรมนี้ถือว่าการส่งข้อมูลแบบ lossless ผ่านการควบคุมการไหลแบบ credit-based ที่ผู้ส่งจะส่งเมื่อผู้รับรับประกันความพร้อมใช้งานของ buffer เท่านั้น⁶ สิ่งนี้ขจัด packet drops แต่ต้องการการเชื่อมต่อที่แน่นระหว่าง endpoints อุปกรณ์ InfiniBand ทุกตัวมีส่วนร่วมในการตัดสินใจ routing แบบรวมศูนย์ของ subnet manager สร้างเส้นทางที่กำหนดได้ซึ่งปรับให้เหมาะกับรูปแบบการจราจรเฉพาะ วิธีนี้ให้ latency ต่ำกว่าไมโครวินาทีที่สม่ำเสมอ แต่มีปัญหากับ workloads แบบไดนามิกที่เบี่ยงเบนจากรูปแบบที่คาดหวัง
Ethernet วิวัฒนาการมาจากเครือข่ายท้องถิ่นที่ความเรียบง่ายและการทำงานร่วมกันได้มีความสำคัญมากกว่าประสิทธิภาพสูงสุด สถาปัตยกรรมนี้ถือว่าการส่งแบบ lossy พร้อมการจัดส่งแบบ best-effort โดยพึ่งพาโปรโตคอลระดับสูงกว่าเพื่อความน่าเชื่อถือ Packet drops จะกระตุ้นอัลกอริทึมควบคุมความแออัดที่ลดอัตราการส่ง ป้องกันเครือข่ายล่มแต่เพิ่มความแปรปรวนของ latency การตัดสินใจ routing แบบกระจายของ Ethernet ช่วยให้ขยายขนาดได้มหาศาลและมีความยืดหยุ่น แต่สร้างประสิทธิภาพที่ไม่สามารถคาดเดาได้ภายใต้โหลด Ethernet สำหรับ data center สมัยใหม่เพิ่มคุณสมบัติเช่น Priority Flow Control และ Explicit Congestion Notification เพื่อเข้าใกล้พฤติกรรม lossless ของ InfiniBand⁷
ความสามารถ RDMA (Remote Direct Memory Access) ทำให้ทั้งสองเทคโนโลยีแตกต่างจากเครือข่ายแบบดั้งเดิม InfiniBand มี RDMA ในตัว ช่วยให้ถ่ายโอนหน่วยความจำโดยตรงระหว่างระบบโดยไม่ต้องใช้ CPU⁸ RDMA บน InfiniBand ให้ latency 0.5 ไมโครวินาทีสำหรับข้อความขนาดเล็ก ดีกว่าเครือข่ายแบบ kernel-based 10 เท่า Ethernet เพิ่ม RDMA ผ่าน RoCE (RDMA over Converged Ethernet) ให้ประสิทธิภาพใกล้เคียงกันเมื่อกำหนดค่าอย่างถูกต้อง อย่างไรก็ตาม RoCE ต้องการสภาพเครือข่ายที่สมบูรณ์แบบซึ่งพิสูจน์ได้ว่ายากที่จะรักษาในระดับใหญ่
สถาปัตยกรรม switching แตกต่างกันอย่างมากระหว่างเทคโนโลยี InfiniBand switches ทำงานเป็น crossbar fabrics ที่มี bandwidth แบบ non-blocking ระหว่างพอร์ตทั้งหมด⁹ HDR InfiniBand switch 40 พอร์ตให้ aggregate bandwidth 16Tb/s พร้อม latency ที่สม่ำเสมอไม่ว่ารูปแบบการจราจรจะเป็นอย่างไร Ethernet switches ใช้สถาปัตยกรรม shared memory พร้อม statistical multiplexing ให้ความหนาแน่นพอร์ตสูงกว่าแต่ประสิทธิภาพแปรผันภายใต้ความแออัด ความแตกต่างด้านสถาปัตยกรรมหมายความว่า InfiniBand รักษาประสิทธิภาพที่คาดเดาได้ในขณะที่ Ethernet ให้เศรษฐศาสตร์ที่ดีกว่า
Management planes สะท้อนแนวทางปรัชญาที่แตกต่างกัน Subnet Manager ของ InfiniBand ให้การควบคุมแบบรวมศูนย์พร้อมการมองเห็น topology และ traffic ทั้งหมด¹⁰ Manager คำนวณเส้นทางที่เหมาะสม จัดการความล้มเหลว และรักษา quality of service โดยไม่ต้องมีการแทรกแซงด้วยตนเอง Ethernet พึ่งพาโปรโตคอลแบบกระจายเช่น spanning tree, OSPF หรือ BGP ที่ต้องการการกำหนดค่าอย่างระมัดระวัง Software-defined networking นำการควบคุมแบบรวมศูนย์มาสู่ Ethernet แต่เพิ่มความซับซ้อนและจุดล้มเหลวที่อาจเกิดขึ้น ความแตกต่างด้านการจัดการส่งผลต่อ overhead ในการดำเนินงานอย่างมากในระดับใหญ่
ตัวชี้วัดประสิทธิภาพนอกเหนือจาก bandwidth ดิบ
การวัด Latency เผยให้เห็นความแตกต่างที่ละเอียดอ่อนระหว่างเทคโนโลยี InfiniBand HDR ให้ latency แบบ port-to-port 0.6 ไมโครวินาทีอย่างสม่ำเสมอสำหรับทุกขนาดข้อความ¹¹ Ethernet ที่ 100Gbps แสดง latency พื้นฐาน 1.2 ไมโครวินาทีที่ลดลงเป็น 50+ ไมโครวินาทีภายใต้ความแออัด ความแตกต่างพื้นฐาน 2 เท่ากลายเป็น 100 เท่าภายใต้โหลด สำหรับ distributed training ที่การซิงโครไนซ์ gradient เกิดขึ้นหลายล้านครั้ง ความแตกต่างระดับไมโครวินาทีทบต้นเป็นชั่วโมงของเวลา training เพิ่มเติม
ประสิทธิภาพ Bandwidth เล่าเรื่องที่แตกต่างจากข้อมูลจำเพาะทางการตลาด InfiniBand ให้ 95% ของ bandwidth ทางทฤษฎีสำหรับการถ่ายโอนขนาดใหญ่เนื่องจาก encoding ที่มีประสิทธิภาพและ protocol overhead น้อยที่สุด¹² InfiniBand 200Gbps รักษา throughput จริง 190Gbps overhead ของ Ethernet แตกต่างกันตามการกำหนดค่า: Ethernet มาตรฐานให้ประสิทธิภาพ 85% ในขณะที่ RoCE v2 ถึง 92% ด้วยการปรับแต่งที่เหมาะสม ช่องว่างประสิทธิภาพแคบลงที่ความเร็ว 800Gbps ที่ทั้งสองเทคโนโลยีใช้ PAM4 encoding ที่คล้ายกัน
พฤติกรรมความแออัดแยกเทคโนโลยีออกอย่างมาก การควบคุมการไหลแบบ credit-based ของ InfiniBand ป้องกันความแออัดโดยหยุดการส่งก่อน buffers จะล้น¹³ ประสิทธิภาพลดลงอย่างค่อยเป็นค่อยไปเมื่อโหลดเพิ่มขึ้น packet drops ของ Ethernet กระตุ้นอัลกอริทึม backoff แบบ TCP ที่สร้างรูปแบบ throughput แบบฟันเลื่อย สถานการณ์ Incast ที่ผู้ส่งหลายรายครอบงำผู้รับเดียวทำให้ประสิทธิภาพล่มอย่างรุนแรงบน Ethernet ที่ปรับแต่งไม่ดี InfiniBand จัดการสถานการณ์เดียวกันโดยมีการลดลงน้อยที่สุด
การทดสอบความสามารถในการขยายขนาดเปิดเผยข้อจำกัดทางสถาปัตยกรรม InfiniBand fabrics ขยายขนาดได้ถึง 48,000 โหนดใน subnet เดียวด้วย three-tier fat tree topologies¹⁴ การติดตั้งที่ใหญ่กว่าต้องใช้หลาย subnets เชื่อมต่อผ่าน routers ซึ่งเพิ่มความซับซ้อน Ethernet ขยายขนาดได้ถึงหลายล้านโหนดโดยใช้ hierarchical routing แต่ต้องมีการออกแบบอย่างระมัดระวังเพื่อรักษาประสิทธิภาพ Data centers ของ Facebook เชื่อมต่อเซิร์ฟเวอร์ 100,000+ เครื่องโดยใช้ Ethernet พร้อมโปรโตคอลที่กำหนดเองสำหรับ traffic engineering¹⁵ ตัวอย่างเหล่านี้แสดงให้เห็นว่าทั้งสองเทคโนโลยีขยายขนาดได้ แต่ผ่านกลไกที่แตกต่างกัน
ตัวชี้วัดความน่าเชื่อถือเอื้อประโยชน์ต่อ InfiniBand เล็กน้อยในสภาพแวดล้อมที่ควบคุมได้ การส่งแบบ lossless และการย้ายเส้นทางอัตโนมัติของ InfiniBand ให้การจัดส่ง packet 99.999%¹⁶ Ethernet ที่มี redundancy ที่เหมาะสมถึงความน่าเชื่อถือ 99.995% ซึ่งยอมรับได้สำหรับ workloads ส่วนใหญ่ อย่างไรก็ตาม การรวมตัวที่แน่นกว่าของ InfiniBand หมายความว่าความล้มเหลวของส่วนประกอบเดียวสามารถทำให้ fabrics ทั้งหมดไม่เสถียร การเชื่อมต่อแบบหลวมของ Ethernet กักเก็บความล้มเหลวได้ดีกว่า ป้องกันผลกระทบแบบลูกโซ่ ความแตกต่างด้านความน่าเชื่อถือมีความสำคัญมากที่สุดสำหรับ training jobs ที่ทำงานยาวนานที่การหยุดชะงักใดๆ เสียเวลา compute มูลค่าหลายล้าน
การวิเคราะห์ต้นทุนทำลายความเชื่อแบบเดิม
ต้นทุนฮาร์ดแวร์บอกเล่าเพียงบางส่วนของเรื่องราวทางเศรษฐกิจ InfiniBand HDR adapters มีราคา $2,000-3,000 ต่อพอร์ตเมื่อเทียบกับ $800-1,500 สำหรับ Ethernet cards ที่เทียบเท่า¹⁷ InfiniBand switch 40 พอร์ตมีราคา $50,000 เทียบกับ $25,000 สำหรับ Ethernet การเดินสายเพิ่มค่าใช้จ่ายอีก: InfiniBand DAC cables มีราคา $500-800 ในขณะที่ Ethernet ที่เทียบเท่ามีราคา $200-400 สำหรับ GPU cluster 1,000 ตัว ต้นทุนฮาร์ดแวร์ InfiniBand คือ $15 ล้านเทียบกับ $7 ล้านสำหรับ Ethernet ค่าใช้จ่ายเพิ่มเติม $8 ล้านที่ดูเหมือนจะเป็นไปไม่ได้
ค่าใช้จ่ายในการดำเนินงานเปลี่ยนการคำนวณอย่างมีนัยสำคัญ การจัดการอัตโนมัติของ InfiniBand ลด overhead ในการบริหารลง 60% เมื่อเทียบกับ Ethernet¹⁸ วิศวกรเครือข่ายหนึ่งคนสามารถจัดการพอร์ต InfiniBand 10,000 พอร์ตเทียบกับพอร์ต Ethernet 4,000 พอร์ตที่ต้องกำหนดค่าด้วยตนเอง การประหยัดแรงงานมีมูลค่า $500,000 ต่อปีสำหรับการติดตั้งขนาดใหญ่ ประสิทธิภาพที่สูงกว่าของ InfiniBand ยังลดการใช้พลังงานลง 15% ประหยัด $200,000 ต่อปีสำหรับสิ่งอำนวยความสะดวกระดับเมกะวัตต์
การอนุญาตใช้งานซอฟต์แวร์สร้างค่าใช้จ่ายที่ซ่อนเร้นซึ่งหลายคนมองข้าม OFED (OpenFabrics Enterprise Distribution) stack ของ InfiniBand เป็น open source พร้อมสัญญาสนับสนุนเสริม¹⁹ Enterprise Ethernet มักต้องการใบอนุญาตซอฟต์แวร์ราคาแพงสำหรับคุณสมบัติขั้นสูง: VMware NSX มีราคา $5,000 ต่อ CPU, Cisco ACI มีราคา $50,000 ต่อ switch²⁰ ใบอนุญาตเหล่านี้สามารถเกินต้นทุนฮาร์ดแวร์ตลอดวงจรชีวิตการติดตั้งห้าปี โครงการ open networking เช่น SONiC ลดต้นทุนซอฟต์แวร์ Ethernet แต่ต้องการการลงทุนด้านวิศวกรรม
โมเดล Total Cost of Ownership ขึ้นอยู่กับสมมติฐานการใช้งานอย่างมาก หากข้อได้เปรียบด้านประสิทธิภาพ 15% ของ InfiniBand แปลเป็น training ที่เร็วขึ้น 15% การประหยัดเวลาจะรองรับราคาที่สูงกว่าสำหรับองค์กรที่ความเร็วกำหนดข้อได้เปรียบในการแข่งขัน องค์กรที่ใช้จ่าย $1 ล้านต่อเดือนสำหรับ GPU compute ประหยัด $150,000 ผ่านการเสร็จสิ้นที่เร็วขึ้น ในสามปี การประหยัดเกินค่าใช้จ่ายเพิ่มเติมของ InfiniBand อย่างไรก็ตาม หาก workloads ไม่ได้รับประโยชน์จากข้อได้เปรียบของ InfiniBand ค่าใช้จ่ายเพิ่มเติมจะกลายเป็นการสูญเปล่าล้วนๆ
ต้นทุน vendor lock-in พิสูจน์ได้ว่ายากที่จะวัดปริมาณ แต่ส่งผลกระทบต่อเศรษฐศาสตร์ระยะยาวอย่างมีนัยสำคัญ InfiniBand ผูกมัดองค์กรกับระบบนิเวศของ NVIDIA จำกัดอำนาจการเจรจาและตัวเลือกเทคโนโลยี²¹ ความหลากหลายของผู้ขาย Ethernet ช่วยให้การเสนอราคาแข่งขันที่ลดต้นทุน 20-30% อย่างไรก็ตาม การสลับระหว่างผู้ขาย Ethernet ต้องมีการวิศวกรรมใหม่ที่มีค่าใช้จ่ายหลายล้าน ความเป็นอิสระจากผู้ขายที่แท้จริงยังคงเป็นภาพลวงตาไม่ว่าจะเลือกเทคโนโลยีใด
ความสมบูรณ์ของระบบนิเวศซอฟต์แวร์แตกต่างกันอย่างมาก
ความเสถียรของ driver ส่งผลต่อความน่าเชื่อถือในการผลิตมากกว่าข้อมูลจำเพาะฮาร์ดแวร์ Mellanox OFED drivers ของ InfiniBand ผ่านการทดสอบอย่างกว้างขวางกับ NVIDIA GPUs รับประกันความเข้ากันได้ทั่วทั้ง software stacks²² OFED เวอร์ชัน 5.8 รองรับทุกเวอร์ชัน CUDA อย่างราบรื่น คุณภาพ Ethernet driver แตกต่างกันตามผู้ขาย: ice driver ของ Intel พิสูจน์แล้วว่าแข็งแกร่งมาก ในขณะที่ผู้ขายบางรายจัดส่ง drivers ที่ kernel panic ภายใต้โหลด ปัญหา driver ทำให้เกิดความล้มเหลวลึกลับที่เสียเวลาหลายสัปดาห์ในการ debugging
การรวมเข้ากับ framework กำหนดประสิทธิภาพของนักพัฒนา PyTorch และ TensorFlow ปรับแต่งสำหรับ InfiniBand ผ่านการรองรับ UCX แบบ native ให้ประสิทธิภาพใกล้ทฤษฎีโดยไม่ต้องปรับแต่ง²³ NCCL (NVIDIA Collective Communications Library) มีการปรับแต่งเฉพาะสำหรับ InfiniBand ที่เร่งการดำเนินการ all-reduce ได้ 30%²⁴ การรองรับ Ethernet มีอยู่แต่ต้องมีการกำหนดค่าด้วยตนเองของพารามิเตอร์ RoCE, อัลกอริทึมควบคุมความแออัด และขนาด buffer ช่องว่างการรวมแคบลงเมื่อ frameworks เพิ่มการปรับแต่ง Ethernet แต่ InfiniBand รักษาข้อได้เปรียบด้านความง่ายในการใช้งาน
เครื่องมือการจัดการสะท้อนความแตกต่างด้านความสมบูรณ์ของระบบนิเวศ UFM (Unified Fabric Manager) ของ NVIDIA ให้การตรวจสอบ InfiniBand ที่ครอบคลุม ตรวจจับปัญหาอัตโนมัติ
[เนื้อหาถูกตัดสำหรับการแปล]