NVLink และเครือข่าย Scale-up: เมื่อ 800G Ethernet ยังไม่เพียงพอ

NVLink 5 ให้แบนด์วิดท์ 1.8TB/s ต่อ GPU (18 ลิงก์ × 100GB/s)—มากกว่า PCIe Gen5 ถึง 14 เท่า GB200 NVL72 เชื่อมต่อ 72 GPU ด้วยแบนด์วิดท์รวม 130TB/s NVSwitch เปิดใช้งาน 576 GPU ในโครงข่ายแบบ non-blocking ด้วยแบนด์วิดท์รวม 1PB/s...

NVLink และเครือข่าย Scale-up: เมื่อ 800G Ethernet ยังไม่เพียงพอ

NVLink และเครือข่าย Scale-up: เมื่อ 800G Ethernet ยังไม่เพียงพอ

อัปเดต 11 ธันวาคม 2025

อัปเดตธันวาคม 2025: NVLink 5 ให้แบนด์วิดท์ 1.8TB/s ต่อ GPU (18 ลิงก์ × 100GB/s)—มากกว่า PCIe Gen5 ถึง 14 เท่า GB200 NVL72 เชื่อมต่อ 72 GPU ด้วยแบนด์วิดท์รวม 130TB/s NVSwitch เปิดใช้งาน 576 GPU ในโครงข่ายแบบ non-blocking ด้วยแบนด์วิดท์รวม 1PB/s NVLink เจเนอเรชันที่ 5 มีแบนด์วิดท์มากกว่าเจเนอเรชันแรก (2014) ถึง 12 เท่า เครือข่าย Scale-up สร้างความสามารถที่เครือข่าย Scale-out ไม่สามารถเทียบได้

GPU NVIDIA Blackwell ตัวเดียวรองรับการเชื่อมต่อ NVLink ได้สูงสุด 18 ลิงก์ที่ความเร็ว 100 กิกะไบต์ต่อวินาทีต่อลิงก์ ให้แบนด์วิดท์รวม 1.8 เทราไบต์ต่อวินาที—มากกว่า PCIe Gen5 ถึง 14 เท่า¹ ระบบ GB200 NVL72 เชื่อมต่อ 72 GPU ในโดเมน NVLink เดียวด้วยแบนด์วิดท์รวม 130 เทราไบต์ต่อวินาที² NVLink Switch ของ NVIDIA เปิดใช้งาน 576 GPU ในโครงข่ายคอมพิวต์แบบ non-blocking ด้วยแบนด์วิดท์รวมกว่า 1 เพตะไบต์ต่อวินาที³ เครือข่าย Scale-up สร้างความสามารถของโครงสร้างพื้นฐานที่เครือข่าย Ethernet และ InfiniBand แบบ Scale-out ไม่สามารถเทียบได้

ความแตกต่างระหว่างเครือข่าย Scale-up และ Scale-out กำหนดสถาปัตยกรรมโครงสร้างพื้นฐาน AI สมัยใหม่ NVLink และ NVSwitch จัดการการสื่อสารภายในโหนดและแร็ค ให้แบนด์วิดท์และเวลาแฝงที่จำเป็นสำหรับ tensor parallelism ในโมเดลขนาดใหญ่ InfiniBand และ Ethernet จัดการการสื่อสารระหว่างแร็ค ให้ความครอบคลุมที่จำเป็นสำหรับ data parallelism ข้าม GPU หลายพันตัว การเข้าใจว่าเทคโนโลยีใดเหมาะกับงานใด กำหนดว่าการลงทุนโครงสร้างพื้นฐานจะให้ประสิทธิภาพตามที่คาดหวังหรือไม่

NVLink เจเนอเรชันที่ 5 เพิ่มแบนด์วิดท์เป็นสองเท่าเมื่อเทียบกับเจเนอเรชันก่อนหน้า⁴ แต่ละลิงก์ทำงานที่ 100 กิกะไบต์ต่อวินาทีแบบสองทิศทาง โดย 18 ลิงก์ต่อ Blackwell GPU ให้แบนด์วิดท์รวม 1.8 เทราไบต์ต่อวินาที⁵ การปรับปรุงนี้เกินแบนด์วิดท์ PCIe Gen5 มากกว่า 14 เท่า⁶

วิวัฒนาการข้ามเจเนอเรชันแสดงให้เห็นแนวโน้ม:

เจเนอเรชัน สถาปัตยกรรม ลิงก์ แบนด์วิดท์ต่อ GPU
ที่ 1 (2018) Volta V100 6 300 GB/s
ที่ 2 (2020) Ampere A100 12 600 GB/s
ที่ 3 (2022) Hopper H100 18 900 GB/s
ที่ 4 (2024) Blackwell B200 18 1.8 TB/s

NVLink เจเนอเรชันที่ 5 มีแบนด์วิดท์มากกว่า NVLink เจเนอเรชันแรกที่เปิดตัวในปี 2014 ถึง 12 เท่า⁷ การเพิ่มเป็นสองเท่าจาก Hopper ไปยัง Blackwell สะท้อนความต้องการแบนด์วิดท์ที่เพิ่มขึ้นของโมเดลระดับล้านล้านพารามิเตอร์

การเพิ่มแบนด์วิดท์ต่อลิงก์จาก 50 กิกะไบต์ต่อวินาทีใน NVLink 4 เป็น 100 กิกะไบต์ต่อวินาทีใน NVLink 5 ทำให้การกำหนดค่า 18 ลิงก์เดิมสามารถเพิ่มปริมาณงานรวมเป็นสองเท่า⁸ สถาปัตยกรรมยังคงจำนวนลิงก์เท่าเดิมในขณะที่ปรับปรุงอัตราสัญญาณ

วิวัฒนาการสถาปัตยกรรม NVSwitch

NVIDIA เปิดตัว NVSwitch พร้อมกับระบบ DGX-2 ในปี 2018 เพื่อเปิดใช้งานการเชื่อมต่อเต็มรูปแบบระหว่าง GPU ภายในระบบเดียว⁹ NVSwitch ทำหน้าที่เป็นสวิตช์ crossbar ความเร็วสูงแบบ non-blocking สำหรับทราฟฟิก NVLink ทำให้ทุก GPU ในระบบสามารถสื่อสารกับ GPU อื่นๆ ทุกตัวที่ความเร็วเต็มที่¹⁰

DGX-2 มี 16 V100 GPU เชื่อมต่อผ่าน NVSwitch เจเนอเรชันแรก¹¹ ชิป NVSwitch แต่ละตัวมี 18 พอร์ต NVLink พร้อมความจุสวิตชิ่งรวม 900 กิกะไบต์ต่อวินาที¹² ชิป 100 วัตต์ที่ผลิตด้วย TSMC 12nm มีทรานซิสเตอร์ 2 พันล้านตัว¹³

NVSwitch เจเนอเรชันที่ 2 มาพร้อมกับ DGX A100 ในปี 2020 รองรับ NVLink 3.0 ที่ 600 กิกะไบต์ต่อวินาทีต่อ GPU¹⁴ ชิป NVSwitch 6 ตัวสร้างโทโพโลยีเครือข่ายที่เชื่อมต่อกันอย่างสมบูรณ์สำหรับ A100 GPU 8 ตัว¹⁵

NVSwitch เจเนอเรชันที่ 3 สำหรับ Hopper เพิ่มเป็น 25.6 เทราบิตต่อวินาทีแบนด์วิดท์สองทิศทางรวมต่อชิป¹⁶ ชิป NVSwitch 4 ตัวในระบบ HGX H100 และ HGX H200 แต่ละระบบให้แบนด์วิดท์เครือข่ายสองทิศทาง 3.6 เทราไบต์ต่อวินาทีข้าม GPU 8 ตัว¹⁷ NVSwitch เจเนอเรชันที่ 3 เปิดตัวฟังก์ชัน SHARP สำหรับการคำนวณในเครือข่าย รวบรวมและอัปเดตผลลัพธ์ข้ามหน่วย GPU หลายตัวโดยไม่ต้องเดินทางไปกลับไปยัง GPU แต่ละตัว¹⁸

NVSwitch เจเนอเรชันที่ 4 สำหรับ Blackwell มี 72 พอร์ต NVLink 5.0 ต่อชิป¹⁹ NVLink 5 Switch ให้ 144 พอร์ต NVLink พร้อมความจุสวิตชิ่งแบบ non-blocking 14.4 เทราไบต์ต่อวินาที²⁰ เจเนอเรชันนี้เปิดตัวการสวิตชิ่งระดับแร็ค ย้าย NVSwitch จากเซิร์ฟเวอร์ไปยังถาดสวิตช์เฉพาะ

สถาปัตยกรรม Scale-up ของ GB200 NVL72

GB200 NVL72 เชื่อมต่อ Grace CPU 36 ตัวและ Blackwell GPU 72 ตัวในการออกแบบระดับแร็คพร้อมระบายความร้อนด้วยของเหลว²¹ โดเมน NVLink 72-GPU ทำหน้าที่เป็น GPU ขนาดใหญ่ตัวเดียวและให้การอนุมานโมเดลภาษาขนาดใหญ่ระดับล้านล้านพารามิเตอร์แบบเรียลไทม์เร็วกว่าเจเนอเรชันก่อนหน้า 30 เท่า²²

สถาปัตยกรรมทางกายภาพกระจายส่วนประกอบข้ามถาดคอมพิวต์และถาดสวิตช์²³ แต่ละถาดคอมพิวต์มี GB200 Superchip 2 ตัว โดยแต่ละ Superchip ประกอบด้วย B200 GPU 2 ตัวและ Grace CPU 1 ตัว²⁴ ระบบมีถาดคอมพิวต์ 18 ถาดรวม GPU 72 ตัว

ถาดสวิตช์ NVLink 9 ตัวให้การเชื่อมต่อแบบ full-mesh²⁵ แต่ละถาดสวิตช์มีชิป NVLink Switch 2 ตัวพร้อมพอร์ต NVLink รวม 144 พอร์ต²⁶ สวิตช์ 9 ตัวเชื่อมต่อพอร์ต NVLink 18 พอร์ตบน Blackwell GPU ทุกตัวอย่างสมบูรณ์²⁷

ไม่มีการเชื่อมต่อ GPU-to-GPU โดยตรงภายในเซิร์ฟเวอร์หรือถาดคอมพิวต์เดียว²⁸ การสื่อสารทั้งหมดผ่านโครงข่าย NVSwitch ภายนอก²⁹ สถาปัตยกรรมนี้ทำให้ GPU ทั้ง 72 ตัวเทียบเท่ากันจากมุมมองการเชื่อมต่อ—GPU ใดก็ได้สามารถสื่อสารกับ GPU อื่นใดก็ได้ที่แบนด์วิดท์และเวลาแฝงเดียวกัน³⁰

แบนด์วิดท์รวม NVLink 130 เทราไบต์ต่อวินาทีเปิดใช้งาน tensor parallelism ข้าม GPU ทั้ง 72 ตัว³¹ โมเดลขนาดใหญ่ที่เกินความจุหน่วยความจำ GPU เดียวสามารถกระจาย tensor ข้ามโดเมนทั้งหมดโดยมีค่าใช้จ่ายการสื่อสารน้อยที่สุด สถาปัตยกรรมนี้ขจัดขอบเขตแบบดั้งเดิมระหว่างเครือข่ายเซิร์ฟเวอร์และแร็คสำหรับภาระงาน Scale-up

เครือข่าย Scale-up เทียบกับ Scale-out

เครือข่าย Scale-up (NVLink) และเครือข่าย Scale-out (InfiniBand และ Ethernet) ให้บริการวัตถุประสงค์ที่แตกต่างกันโดยพื้นฐานในโครงสร้างพื้นฐาน AI³²

NVLink เชี่ยวชาญในการสื่อสารที่รวดเร็วระหว่าง GPU ภายในโดเมนเดียว—เร็วกว่า InfiniBand มาก ด้วยแบนด์วิดท์ในระดับเทราไบต์ต่อวินาทีสำหรับการเชื่อมต่อภายใน³³ เวลาแฝงต่ำและแบนด์วิดท์สูงรองรับ tensor parallelism ซึ่งน้ำหนักโมเดลกระจายข้าม GPU และต้องซิงโครไนซ์ในทุกเลเยอร์ แบนด์วิดท์ 1.8 เทราไบต์ต่อวินาทีต่อ GPU ของ NVLink เปิดใช้งานการซิงโครไนซ์นี้โดยไม่กลายเป็นคอขวด

NVLink ไม่ช่วยเมื่อการสื่อสารข้ามขอบเขตโหนด³⁴ เครือข่ายระหว่างโหนดต้องการ InfiniBand หรือ Ethernet โดยไม่คำนึงถึงความสามารถ NVLink ภายในโหนด เทคโนโลยีทำงานในเลเยอร์ที่แตกต่างกันของลำดับชั้น

InfiniBand ให้มาตรฐานอุตสาหกรรมสำหรับการเชื่อมต่อโหนดเซิร์ฟเวอร์หลายพันตัว³⁵ Remote Direct Memory Access (RDMA) อนุญาตให้เซิร์ฟเวอร์แลกเปลี่ยนข้อมูลโดยตรงระหว่างพื้นที่หน่วยความจำ ข้ามค่าใช้จ่าย CPU และ OS³⁶ คุณสมบัตินี้พิสูจน์ว่าจำเป็นสำหรับการฝึกแบบกระจายขนาดใหญ่โดยใช้ data parallelism ซึ่งแต่ละโหนดประมวลผลแบตช์ที่แตกต่างกันและซิงโครไนซ์ gradient

InfiniBand ยังคงเป็นมาตรฐานทองคำสำหรับการฝึก AI ในระดับใหญ่ เชื่อมต่อซูเปอร์คอมพิวเตอร์ชั้นนำของโลกมากกว่า 270 เครื่อง³⁷ การกำหนดเส้นทางแบบปรับตัว การควบคุมความแออัด และความสามารถ RDMA ได้รับการออกแบบมาโดยเฉพาะสำหรับการคำนวณประสิทธิภาพสูงแบบซิงโครนัส

Ethernet กำลังแซงหน้า InfiniBand สำหรับการปรับใช้ Scale-out³⁸ Spectrum-X ของ NVIDIA นำนวัตกรรม InfiniBand มาสู่ Ethernet รวมถึงการควบคุมความแออัดที่ขับเคลื่อนด้วยเทเลเมทรี การปรับสมดุลโหลดแบบปรับตัว และการวางข้อมูลโดยตรง³⁹ ระบบขนาดใหญ่ที่ใช้ Spectrum-X บรรลุปริมาณข้อมูล 95% โดยไม่มีการลดลงของเวลาแฝงแอปพลิเคชัน เมื่อเทียบกับปริมาณงานเพียง 60% จากโครงข่าย Ethernet มาตรฐาน⁴⁰

โมเดลลำดับชั้นรวมเทคโนโลยีเหล่านี้อย่างเหมาะสม NVLink จัดการ Scale-up ภายในแร็ค ให้แบนด์วิดท์ประมาณ 18 เท่าของเครือข่าย Scale-out⁴¹ InfiniBand หรือ Ethernet จัดการ Scale-out ระหว่างแร็ค ให้ความครอบคลุมข้ามโหนดหลายพัน ถาด GPU แต่ละตัวในระบบ GB200 NVL72 รวม NIC RDMA 800 กิกะบิตต่อวินาทีสำหรับการสื่อสารระหว่างแร็ค⁴²

โดเมน 576-GPU และสถาปัตยกรรม SuperPOD

NVLink Switch เปิดใช้งาน GPU 576 ตัวที่เชื่อมต่อกันอย่างสมบูรณ์ในโครงข่ายคอมพิวต์แบบ non-blocking⁴³ แร็ค GB200 NVL72 8 ตัวสร้าง SuperPOD สร้าง supernode ของ GPU 576 ตัวพร้อมแบนด์วิดท์รวมกว่า 1 เพตะไบต์ต่อวินาทีและหน่วยความจำเร็ว 240 เทราไบต์⁴⁴

DGX SuperPOD สร้างบนหน่วยที่ปรับขนาดได้ (SU) แต่ละหน่วยประกอบด้วยระบบ DGX GB200 8 ระบบ⁴⁵ การออกแบบแบบโมดูลาร์เปิดใช้งานการปรับใช้ SuperPOD อย่างรวดเร็วในทุกขนาด สถาปัตยกรรมอ้างอิงรวมข้อมูลจำเพาะสำหรับ InfiniBand, เครือข่าย NVLink, โทโพโลยีโครงข่าย Ethernet, ระบบจัดเก็บข้อมูล, เค้าโครงแร็ค และการเดินสาย⁴⁶

โดเมน 576-GPU รักษาโทโพโลยี NVLink ที่เชื่อมต่อกันอย่างสมบูรณ์ข้ามแร็คทั้งหมดใน SuperPOD⁴⁷ GPU ใดก็ได้สามารถสื่อสารกับ GPU อื่นใดก็ได้ที่ 1.8 เทราไบต์ต่อวินาทีโดยไม่ต้องผ่านเครือข่าย Scale-out⁴⁸ ขนาดโดเมนตรงกับความต้องการของโมเดลรากฐานที่ใหญ่ที่สุดที่กำลังฝึกอยู่ในปัจจุบัน

การปรับใช้ SuperPOD ต้องติดตั้งในสถานที่⁴⁹ ลูกค้าเป็นเจ้าของและจัดการฮาร์ดแวร์ภายในศูนย์ข้อมูลของตนเองหรือสถานที่ทางการค้าที่โฮสต์ร่วม สถาปัตยกรรมสะท้อนระบบวิจัยและพัฒนาภายในของ NVIDIA ซึ่งหมายความว่าซอฟต์แวร์โครงสร้างพื้นฐาน แอปพลิเคชัน และการสนับสนุนได้รับการทดสอบบนการกำหนดค่าที่เหมือนกัน⁵⁰

ผู้ให้บริการคลาวด์ Microsoft Azure, Oracle Cloud และ CoreWeave มุ่งมั่นที่จะรองรับสถาปัตยกรรม X800 เมื่อพร้อมใช้งานในปี 2025⁵¹ การปรับใช้บนคลาวด์ขยายความสามารถ SuperPOD ไปยังองค์กรที่ไม่สามารถพิสูจน์โครงสร้างพื้นฐานในสถานที่เฉพาะได้

การปรับใช้ Enterprise Kubernetes

ระบบ Multi-Node NVLink (MNNVL) ต้องการการกำหนดค่า Kubernetes เฉพาะทาง⁵² Kubernetes ไม่รู้จักสถาปัตยกรรม MNNVL ของ NVIDIA โดยกำเนิด ทำให้การจัดการภาระงานและการจัดตารางซับซ้อนกว่าการปรับใช้ GPU มาตรฐาน⁵³

ข้อกำหนดการปรับใช้รวมถึง Kubernetes 1.32 หรือใหม่กว่าและ NVIDIA GPU Operator เวอร์ชัน 25.3 ขึ้นไป⁵⁴ เวอร์ชัน GPU Operator ต้องรวมไดรเวอร์ Dynamic Resource Allocation (DRA) ซึ่งให้การสนับสนุนทรัพยากรเครือข่ายเร่งความเร็ว GB200 และคุณสมบัติ ComputeDomain⁵⁵ NVIDIA Network Operator จัดการการกำหนดค่าเครือข่าย

บริการ IMEX รองรับการส่งออกและนำเข้าหน่วยความจำ GPU ข้ามโดเมน OS ในการปรับใช้ NVLink แบบหลายโหนด⁵⁶ บริการเปิดใช้งานการสื่อสาร peer-to-peer NVLink และการดำเนินการหน่วยความจำร่วมข้ามโดเมน

เมื่อภาระงานแบบกระจายกำหนดเป้าหมายพูลโหนด MNNVL แพลตฟอร์มจะสร้าง ComputeDomain Custom Resource Definition (CRD) เพื่อจัดการการกำหนด NVLink domain⁵⁷ การอ้างอิงถึง ComputeDomain แนบกับข้อมูลจำเพาะภาระงานโดยอัตโนมัติเป็น resource claim ทำให้ตัวจัดตารางสามารถผูกภาระงานกับโดเมน NVLink เฉพาะ⁵⁸

กฎ pod affinity ใช้คีย์ป้ายกำกับ MNNVL (nvidia.com/gpu.clique) เป็น topology key⁵⁹ การกำหนดค่าทำให้มั่นใจว่า pod ภายในภาระงานแบบกระจายลงบนโหนดที่มีการเชื่อมต่อ NVLink รักษาโทโพโลยีที่จำเป็นสำหรับประสิทธิภาพ⁶⁰

ข้อพิจารณาการวางแผนโครงสร้างพื้นฐาน

องค์กรที่ประเมินโครงสร้างพื้นฐาน NVLink ควรพิจารณาลักษณะภาระงานก่อน Tensor parallelism ข้ามโมเดลขนาดใหญ่ได้รับประโยชน์โดยตรงจากแบนด์วิดท์ NVLink Data parallelism ข้ามโมเดลขนาดเล็กจำนวนมากอาจไม่ต้องการความสามารถของ NVLink และสามารถบรรลุประสิทธิภาพที่เพียงพอด้วยเครือข่าย Scale-out เพียงอย่างเดียว

GB200 NVL72 แสดงถึงความมุ่งมั่นด้านโครงสร้างพื้นฐานที่สำคัญ ข้อกำหนดการระบายความร้อนด้วยของเหลว การรวมระดับแร็ค และเครือข่ายเฉพาะทางเกินความซับซ้อนของสถาปัตยกรรมระบายความร้อนด้วยอากาศที่มีศูนย์กลางที่เซิร์ฟเวอร์ องค์กรควรตรวจสอบว่าภาระงานต้องการความสามารถเหล่านี้ก่อนมุ่งมั่น

โครงสร้างพื้นฐานพลังงานและการระบายความร้อนต้องรองรับการระบายความร้อนด้วยของเหลวตั้งแต่การปรับใช้เริ่มต้น GB200 NVL72 ไม่สามารถทำงานด้วยการระบายความร้อนด้วยอากาศได้ การปรับปรุงสถานที่สำหรับการระบายความร้อนด้วยของเหลวหลังการปรับใช้มีราคาแพงและก่อกวน

การวางแผนเครือข่ายควรตอบสนองทั้งข้อกำหนด Scale-up และ Scale-out โครงข่าย NVLink จัดการการสื่อสารภายในแร็ค แต่ระหว่าง

ขอใบเสนอราคา_

แจ้งรายละเอียดโครงการของคุณ เราจะตอบกลับภายใน 72 ชั่วโมง

> TRANSMISSION_COMPLETE

ได้รับคำขอแล้ว_

ขอบคุณสำหรับคำสอบถาม ทีมงานจะตรวจสอบคำขอและติดต่อกลับภายใน 72 ชั่วโมง

QUEUED FOR PROCESSING