UALink และ CXL 4.0: มาตรฐานเปิดที่กำลังเปลี่ยนโฉมสถาปัตยกรรมคลัสเตอร์ GPU
ข้อกำหนด UALink 1.0 ที่เผยแพร่ในเดือนเมษายน 2025 ช่วยให้สามารถขยายขนาดได้ถึง 1,024 แอคเซเลอเรเตอร์ภายใต้ fabric เดียว ท้าทายระบบนิเวศ NVLink และ NVSwitch ที่เป็นกรรมสิทธิ์ของ Nvidia โดยตรง เจ็ดเดือนต่อมา CXL Consortium ได้เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 ซึ่งเพิ่มแบนด์วิดท์เป็นสองเท่าที่ 128 GT/s และรองรับการรวมหน่วยความจำข้ามแร็คหลายตู้ มาตรฐานเปิดทั้งสองนี้ถือเป็นความท้าทายที่สำคัญที่สุดต่อการครอบงำด้านอินเตอร์คอนเนกต์ของ Nvidia นับตั้งแต่บริษัทเปิดตัว NVLink ในปี 2016
สรุปสั้น
UALink 1.0 ให้ความเร็ว 200 GT/s ต่อเลน พร้อมรองรับแอคเซเลอเรเตอร์ได้ถึง 1,024 ตัว เทียบกับ NVLink ที่รองรับได้สูงสุด 576 GPU CXL 4.0 เพิ่มแบนด์วิดท์หน่วยความจำเป็นสองเท่าที่ 128 GT/s และนำเสนอ bundled ports สำหรับ workloads ด้าน AI ที่ต้องการหน่วยความจำที่ใช้ร่วมกันระดับเทราไบต์ ฮาร์ดแวร์ที่รองรับ UALink จะเปิดตัวในช่วงปลายปี 2026 จาก AMD, Intel และ Astera Labs ขณะที่การติดตั้ง CXL 4.0 แบบหลายแร็คมีเป้าหมายในปี 2027 สำหรับทีมโครงสร้างพื้นฐานที่กำลังวางแผนคลัสเตอร์ GPU รุ่นถัดไป ข้อกำหนดเหล่านี้ส่งสัญญาณถึงการเปลี่ยนแปลงไปสู่สถาปัตยกรรมที่เป็นกลางต่อผู้ขาย ช่วยลดการพึ่งพาผู้ขายรายเดียวในขณะที่ยังสามารถขยายขนาดได้อย่างไม่เคยมีมาก่อน
ภูมิทัศน์อินเตอร์คอนเนกต์ในปี 2025
อินเตอร์คอนเนกต์ของ GPU กำหนดว่าคลัสเตอร์ AI จะขยายขนาดได้อย่างมีประสิทธิภาพเพียงใด ยิ่งแอคเซเลอเรเตอร์สามารถแลกเปลี่ยนข้อมูลได้เร็วเท่าไหร่ โมเดลที่สามารถฝึกได้ก็จะยิ่งใหญ่ขึ้น และสามารถให้บริการ inference ได้อย่างมีประสิทธิภาพมากขึ้น
เทคโนโลยีอินเตอร์คอนเนกต์ในปัจจุบัน
| เทคโนโลยี | เจ้าของ | แบนด์วิดท์ | ขนาดสูงสุด | สถานะ |
|---|---|---|---|---|
| NVLink 5.0 | Nvidia | 1.8 TB/s ต่อ GPU | 576 GPUs | ผลิตจริง (Blackwell) |
| NVLink 4.0 | Nvidia | 900 GB/s ต่อ GPU | 256 GPUs | ผลิตจริง (Hopper) |
| Infinity Fabric | AMD | ~1.075 TB/s ต่อการ์ด | 8 GPUs (direct mesh) | ผลิตจริง (MI300X) |
| UALink 1.0 | Consortium | 800 GB/s (4 lanes) | 1,024 แอคเซเลอเรเตอร์ | ข้อกำหนดเผยแพร่เมษายน 2025 |
| CXL 4.0 | Consortium | 128 GT/s | หลายแร็ค | ข้อกำหนดเผยแพร่พ.ย. 2025 |
NVLink ของ Nvidia ครองตลาดการติดตั้งจริง แต่ ระบบ GB200 NVL72 แสดงให้เห็นทั้งพลังและข้อจำกัด: GPU Blackwell 72 ตัวเชื่อมต่อกันด้วยแบนด์วิดท์รวม 130 TB/s แต่จำกัดอยู่เฉพาะในระบบนิเวศที่เป็นกรรมสิทธิ์ของ Nvidia เท่านั้น
UALink 1.0: ทำลายการผูกขาดผู้ขาย
การก่อตั้ง Consortium
Ultra Accelerator Link Consortium จดทะเบียนในเดือนตุลาคม 2024 โดยมีสมาชิกผู้ก่อตั้งได้แก่ AMD, Astera Labs, AWS, Cisco, Google, HPE, Intel, Meta และ Microsoft ความพยายามนี้สร้างขึ้นจากงานที่ AMD และ Broadcom ประกาศในเดือนธันวาคม 2023
ภายในเดือนมกราคม 2025 Alibaba Cloud, Apple และ Synopsys เข้าร่วมในระดับคณะกรรมการ ทำให้จำนวนสมาชิกทั้งหมดเพิ่มเป็น 75 องค์กร
ข้อกำหนดทางเทคนิค
ข้อกำหนด UALink 200G 1.0 กำหนดอินเตอร์คอนเนกต์ที่มีความหน่วงต่ำและแบนด์วิดท์สูงสำหรับการสื่อสารระหว่างแอคเซเลอเรเตอร์และสวิตช์ใน AI computing pods
| ข้อกำหนด | UALink 1.0 |
|---|---|
| อัตราข้อมูลต่อเลน | 200 GT/s แบบสองทิศทาง |
| อัตราสัญญาณ | 212.5 GT/s (รวม FEC overhead) |
| ความกว้างลิงก์ | x1, x2, x4 |
| แบนด์วิดท์สูงสุด | 800 GB/s (x4 config) |
| ขนาดสูงสุด | 1,024 แอคเซเลอเรเตอร์ |
| ความยาวสาย | <4 เมตร (ปรับให้เหมาะสม) |
| เป้าหมายความหน่วง | <1 µs round-trip (payloads 64B/640B) |
สวิตช์ UALink กำหนด หนึ่งพอร์ตต่อแอคเซเลอเรเตอร์ และใช้ตัวระบุเฉพาะ 10 บิตสำหรับการ routing ที่แม่นยำทั่วทั้ง fabric
UALink vs NVLink: เปรียบเทียบตรงๆ
| ตัวชี้วัด | UALink 1.0 | NVLink 4.0 (Hopper) | NVLink 5.0 (Blackwell) |
|---|---|---|---|
| แบนด์วิดท์ต่อ GPU | 800 GB/s | 900 GB/s | 1.8 TB/s |
| ลิงก์ต่อ GPU | 4 | 18 | 18 |
| จำนวน GPU สูงสุด | 1,024 | 256 | 576 |
| การผูกขาดผู้ขาย | มาตรฐานเปิด | Nvidia เท่านั้น | Nvidia เท่านั้น |
| ความพร้อมใช้งานของฮาร์ดแวร์ | ปลายปี 2026/2027 | ผลิตจริง | ผลิตจริง |
NVLink 5.0 ให้แบนด์วิดท์ต่อการเชื่อมต่อ มากกว่า 3 เท่า ของ UALink 1.0 (2,538 GB/s vs 800 GB/s) อย่างไรก็ตาม UALink รองรับ ขนาดคลัสเตอร์สูงสุดเกือบ 2 เท่า (1,024 vs 576 GPUs) และทำงานข้ามผู้ขายหลายราย
ความแตกต่างด้านปรัชญาการออกแบบ
NVLink ปรับให้เหมาะสมสำหรับ คลัสเตอร์ GPU ที่หนาแน่นและเป็นเนื้อเดียวกัน ที่แบนด์วิดท์สูงสุดระหว่างแอคเซเลอเรเตอร์ที่อัดแน่นมีความสำคัญที่สุด เทคโนโลยีนี้เป็นเลิศในระบบ DGX และแร็ค NVL72 ที่ส่วนประกอบทั้งหมดมาจาก Nvidia
UALink มุ่งเป้าไปที่ สถาปัตยกรรมระดับแร็คแบบโมดูลาร์ ที่องค์กรสามารถผสมผสานแอคเซเลอเรเตอร์จากผู้ขายหลายรายหรือต้องการคลัสเตอร์เชิงตรรกะขนาดใหญ่กว่า มาตรฐานเปิดนี้ช่วยให้ AMD MI-series, Intel Gaudi และแอคเซเลอเรเตอร์ในอนาคตสามารถสื่อสารผ่าน fabric ร่วมกัน
ตำแหน่งปัจจุบันของ AMD
Infinity Fabric ของ AMD เชื่อมต่อ GPU MI300X หรือ MI355X ได้ถึง 8 ตัวในรูปแบบ fully connected mesh แต่ละ MI300X มี ลิงก์ Infinity Fabric 7 เส้น พร้อม 16 lanes ต่อลิงก์ ให้แบนด์วิดท์ peer-to-peer ประมาณ 1.075 TB/s
ข้อจำกัด: การขยายเกิน 8 GPUs ต้องใช้ Ethernet networking แผนงานของ AMD รวมถึง AFL (Accelerated Fabric Link) ที่ทำงานบนลิงก์ PCIe Gen7 รวมถึงการนำ UALink มาใช้เพื่อความเข้ากันได้ข้ามผู้ขายหลายราย
CXL 4.0: หน่วยความจำไร้ขอบเขต
ปัญหากำแพงหน่วยความจำ
workloads ด้าน AI พบปัญหาคอขวดด้านหน่วยความจำมากขึ้นก่อนถึงขีดจำกัดด้านการประมวลผล โมเดลภาษาขนาดใหญ่ต้องการ หน่วยความจำระดับเทราไบต์ สำหรับ KV caches ระหว่าง inference ขณะที่การ training ต้องการมากกว่านั้นสำหรับ activations และ optimizer states
สถาปัตยกรรมเซิร์ฟเวอร์แบบดั้งเดิมเชื่อมต่อหน่วยความจำโดยตรงกับ CPUs ทำให้เกิดความจุที่สูญเปล่าเมื่อ workloads แตกต่างกัน CXL แยกหน่วยความจำออกจากการประมวลผล ทำให้สามารถ จัดสรรแบบไดนามิกข้ามโหนด
ข้อกำหนด CXL 4.0
CXL Consortium เปิดตัว CXL 4.0 ที่งาน Supercomputing 2025 เมื่อวันที่ 18 พฤศจิกายน 2025
| ข้อกำหนด | CXL 3.0/3.1 | CXL 4.0 |
|---|---|---|
| อัตราสัญญาณ | 64 GT/s | 128 GT/s |
| รุ่น PCIe | PCIe 6.0 | PCIe 7.0 |
| แบนด์วิดท์ | 256 GB/s (x16) | 512 GB/s (x16) |
| Retimers | 2 | 4 |
| ความกว้างลิงก์ | x16, x8, x4, x1 | x16, x8, x4, x2, x1 |
| โทโพโลยี | แร็คเดียว | หลายแร็ค |
คุณสมบัติสำคัญของ CXL 4.0
Bundled Ports: CXL 4.0 นำเสนอ port aggregation ที่ช่วยให้ hosts และ devices สามารถรวมพอร์ตทางกายภาพหลายพอร์ตเป็นการเชื่อมต่อเชิงตรรกะเดียว ซึ่งให้แบนด์วิดท์สูงขึ้นในขณะที่รักษา โมเดลซอฟต์แวร์ที่เรียบง่าย ที่ระบบมองเห็นเป็นอุปกรณ์เดียว
ระยะทางที่ขยายได้: Retimers สี่ตัวช่วยให้ การกำหนดค่าหลายแร็ค โดยไม่สูญเสียคุณภาพสัญญาณ CXL 3.x จำกัดการติดตั้งไว้ที่โทโพโลยีแร็คเดียว; CXL 4.0 ขยายการรวมหน่วยความจำข้ามทางเดินของศูนย์ข้อมูล
ความจุหน่วยความจำ: การรวมหน่วยความจำ CXL ช่วยให้ หน่วยความจำมากกว่า 100 เทราไบต์ เชื่อมต่อกับ CPU เดียว มีคุณค่าสำหรับองค์กรที่ขุดข้อมูลขนาดใหญ่หรือรัน workloads ด้าน AI ที่ใช้หน่วยความจำมาก
Native x2 Links: ตัวเลือก ความกว้างลิงก์ x2 ใหม่ ลดต้นทุนสำหรับแอปพลิเคชันที่ต้องการแบนด์วิดท์ปานกลาง ปรับปรุงเศรษฐศาสตร์ของ CXL สำหรับการติดตั้งที่ edge
ประสิทธิภาพการรวมหน่วยความจำ CXL
การสาธิตที่ CXL DevCon 2025 แสดงให้เห็นเซิร์ฟเวอร์สองเครื่องพร้อม NVIDIA H100 GPUs ที่รันโมเดล OPT-6.7B:
| การกำหนดค่า | ประสิทธิภาพ |
|---|---|
| CXL Memory Pool | Baseline |
| 200G RDMA | ช้ากว่า 3.8 เท่า |
| 100G RDMA | ช้ากว่า 6.5 เท่า |
CXL ให้การเข้าถึงแบบ memory-semantic ด้วยความหน่วงใน ช่วง 200-500 ns เทียบกับ ~100 µs สำหรับ NVMe และ >10 ms สำหรับการแบ่งปันหน่วยความจำแบบ storage-based
การประหยัดพลังงานและประสิทธิภาพ
การวิจัยแสดงให้เห็นว่า CXL สามารถ [ลดการใช้พลังงานหน่วยความจำได้ 20-30%](https://computeexpresslink.org/blog/over