CXL 4.0 และสงครามอินเตอร์คอนเนกต์: หน่วยความจำ AI กำลังเปลี่ยนรูปแบบสถาปัตยกรรมศูนย์ข้อมูลอย่างไร
12 ธันวาคม 2025
อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน เพิ่มแบนด์วิดท์เป็นสองเท่าที่ 128 GT/s พร้อม PCIe 7.0 และแนะนำพอร์ตรวมสำหรับการเชื่อมต่อ 1.5 TB/s Panmnesia เริ่มให้ตัวอย่าง fabric switch CXL 3.2 ตัวแรกของอุตสาหกรรมพร้อมการกำหนดเส้นทางตามพอร์ต ในขณะเดียวกัน UALink ตั้งเป้าหมายการใช้งานปลายปี 2026 และ Huawei ได้เปิดซอร์ส UB-Mesh เป็นทางเลือก
สรุป
CXL 4.0 แสดงถึงรุ่นถัดไปของเทคโนโลยีอินเตอร์คอนเนกต์หน่วยความจำ ทำให้สามารถใช้หน่วยความจำรวมมากกว่า 100 เทราไบต์พร้อมความสอดคล้องของแคชทั่วทั้งโครงสร้างพื้นฐาน AI คุณสมบัติพอร์ตรวมของสเปกช่วยให้รวมพอร์ตทางกายภาพหลายพอร์ตเป็นการเชื่อมต่อเชิงตรรกะเดียวที่ให้แบนด์วิดท์รวม 1.5 TB/s fabric switch CXL 3.2 ของ Panmnesia เป็นฮาร์ดแวร์ตัวแรกที่ใช้การกำหนดเส้นทางตามพอร์ตสำหรับคลัสเตอร์ AI หลายแร็ค ภูมิทัศน์อินเตอร์คอนเนกต์ที่กว้างขึ้นยังคงแตกกระจายในขณะที่ UALink, Ultra Ethernet และ UB-Mesh ของ Huawei แข่งขันกันสำหรับช่องทางที่แตกต่างกัน
เกิดอะไรขึ้น
CXL Consortium เปิดตัวสเปก Compute Express Link 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 ที่ SC251 สเปกเปลี่ยนจาก PCIe 6.x (64 GT/s) เป็น PCIe 7.0 (128 GT/s) เพิ่มแบนด์วิดท์ที่มีอยู่เป็นสองเท่าในขณะที่รักษารูปแบบ FLIT 256 ไบต์ที่แนะนำใน CXL 3.x2
"การเปิดตัวสเปก CXL 4.0 กำหนดหลักหมุดใหม่สำหรับการพัฒนาการเชื่อมต่อหน่วยความจำที่สอดคล้องกัน เพิ่มแบนด์วิดท์เป็นสองเท่าเมื่อเทียบกับรุ่นก่อนหน้าพร้อมคุณสมบัติใหม่ที่ทรงพลัง" Derek Rohde ประธาน CXL Consortium และวิศวกรหลักที่ NVIDIA กล่าว3
สี่วันก่อนหน้านั้น ในวันที่ 12 พฤศจิกายน สตาร์ทอัพเกาหลี Panmnesia ประกาศความพร้อมตัวอย่างของ Fabric Switch PCIe 6.0/CXL 3.2: ซิลิกอนตัวแรกที่ใช้การกำหนดเส้นทางตามพอร์ต (PBR) สำหรับ fabric CXL4
ภูมิทัศน์อินเตอร์คอนเนกต์ยังคงแตกกระจาย UALink ตั้งเป้าหมายการใช้งานศูนย์ข้อมูลปลายปี 2026 Huawei ประกาศว่าจะเปิดซอร์สโปรโตคอล UB-Mesh ซึ่งออกแบบมาเพื่อแทนที่ PCIe, CXL, NVLink และ TCP/IP ด้วยมาตรฐานรวม5
ทำไมสิ่งนี้จึงสำคัญสำหรับโครงสร้างพื้นฐาน
หน่วยความจำกลายเป็นสิ่งที่ประกอบได้: CXL 4.0 ทำให้สามารถรวมหน่วยความจำในระดับใหญ่ได้ ภาระงาน AI inference ที่ต้องการหลายร้อยเทราไบต์ตอนนี้สามารถเข้าถึงพูลหน่วยความจำที่แชร์ข้ามแร็คพร้อมความสอดคล้องของแคช ไม่ใช่แค่ภายในเซิร์ฟเวอร์เดียว
แบนด์วิดท์ตรงกับความต้องการ AI: พอร์ตรวม CXL 4.0 พร้อมลิงก์ x16 ที่ 128 GT/s ให้ 768 GB/s ในแต่ละทิศทาง (แบนด์วิดท์รวม 1.536 TB/s ระหว่างอุปกรณ์และ CPU)6 การให้บริการ LLM inference ได้รับประโยชน์โดยตรงจากความจุนี้
คลัสเตอร์ AI หลายแร็ค: การกำหนดเส้นทางตามพอร์ตใน CXL 3.2/4.0 ช่วยให้ fabric switch เชื่อมต่ออุปกรณ์หลายพันตัวข้ามหลายแร็คโดยไม่เกิดความหน่วงเวลาเครือข่ายยาว Panmnesia อ้างว่า "ความหน่วงระดับนาโนวินาทีสองหลัก" สำหรับการเข้าถึงหน่วยความจำ7
ความเสี่ยงจากการแตกกระจายของมาตรฐาน: สี่ระบบนิเวศอินเตอร์คอนเนกต์ที่แข่งขันกัน (CXL/PCIe, UALink, Ultra Ethernet, NVLink) บังคับให้ผู้วางแผนโครงสร้างพื้นฐานเดิมพันกับผู้ชนะ อุปกรณ์ที่ซื้อวันนี้อาจเผชิญความท้าทายด้านความสามารถในการทำงานร่วมกันในปี 2027
รายละเอียดทางเทคนิค
สเปก CXL 4.0
| คุณสมบัติ | CXL 3.x | CXL 4.0 |
|---|---|---|
| โปรโตคอลพื้นฐาน | PCIe 6.x | PCIe 7.0 |
| ความเร็วถ่ายโอน | 64 GT/s | 128 GT/s |
| ขนาด FLIT | 256B | 256B |
| Retimer ที่รองรับ | 2 | 4 |
| ตัวเลือกความกว้างลิงก์ | มาตรฐาน | เพิ่ม Native x2 |
| พอร์ตรวม | ไม่ | ใช่ |
สถาปัตยกรรมพอร์ตรวม
พอร์ตรวมของ CXL 4.0 รวมพอร์ตอุปกรณ์ CXL ทางกายภาพหลายพอร์ตเป็นเอนทิตีเชิงตรรกะเดียว:8
- โฮสต์และอุปกรณ์ Type 1/2 สามารถรวมพอร์ตทางกายภาพหลายพอร์ต
- ซอฟต์แวร์ระบบเห็นอุปกรณ์เดียวแม้จะมีการเชื่อมต่อทางกายภาพหลายตัว
- ปรับให้เหมาะสมสำหรับโหมด FLIT 256B กำจัด overhead ของ FLIT เดิม 68B
- ช่วยให้มีแบนด์วิดท์รวม 1.5+ TB/s ต่อการเชื่อมต่อเชิงตรรกะ
Fabric Switch CXL 3.2 ของ Panmnesia
ซิลิกอน switch CXL 3.2 ตัวแรกประกอบด้วย:9
| สเปก | รายละเอียด |
|---|---|
| การรองรับโปรโตคอล | ไฮบริด PCIe Gen 6.0 + CXL 3.2 |
| อัตราข้อมูล | 64 GT/s |
| โหมดการกำหนดเส้นทาง | PBR (ตามพอร์ต) และ HBR (ตามลำดับชั้น) |
| โปรโตคอลย่อย CXL | CXL.cache, CXL.mem, CXL.io |
| จำนวนเลน | 256 เลน fan-out สูง |
| ความหน่วง | นาโนวินาทีสองหลัก |
| ความเข้ากันได้ย้อนหลัง | รุ่น PCIe/CXL ก่อนหน้าทั้งหมด |
แอปพลิเคชันเป้าหมายรวมถึง DLRM (โมเดลแนะนำ Deep Learning), LLM inference, ภาระงาน RAG และการจำลอง HPC ที่ใช้ MPI
มาตรฐานอินเตอร์คอนเนกต์ที่แข่งขันกัน
| มาตรฐาน | เจ้าของ | วัตถุประสงค์ | แบนด์วิดท์ | ขนาด | กำหนดการ |
|---|---|---|---|---|---|
| CXL 4.0 | Consortium | ความสอดคล้องหน่วยความจำ | 128 GT/s | หลายแร็ค | ปลาย 2026-2027 |
| NVLink 5 | NVIDIA | GPU-GPU | 1.8 TB/s | 576 GPUs | มีอยู่แล้ว |
| UALink 1.0 | Consortium นำโดย AMD | Accelerator-accelerator | 200 Gb/s/เลน | 1,024 อุปกรณ์ | ปลาย 2026 |
| Ultra Ethernet | UEC | เครือข่าย scale-out | ใช้ Ethernet | 10,000+ endpoint | 2026+ |
| UB-Mesh | Huawei | อินเตอร์คอนเนกต์รวม | 1+ TB/s/อุปกรณ์ | 1M โปรเซสเซอร์ | Open source |
กรอบการตัดสินใจอินเตอร์คอนเนกต์
เมื่อไหร่ควรใช้มาตรฐานใด:
| กรณีการใช้งาน | ตัวเลือกที่ดีที่สุด | ทำไม |
|---|---|---|
| GPU-ถึง-GPU ภายในโหนด | NVLink | แบนด์วิดท์สูงสุด (1.8 TB/s) ความหน่วงต่ำสุด |
| GPU-ถึง-GPU ข้ามโหนด | UALink | ทางเลือกมาตรฐานเปิดแทน NVLink |
| การขยายหน่วยความจำ | CXL | ความสอดคล้องแคชกับ CPU การรวมหน่วยความจำ |
| เครือข่าย scale-out | Ultra Ethernet / InfiniBand | ออกแบบสำหรับคลัสเตอร์ 10,000+ endpoint |
| ระบบนิเวศรวมของจีน | UB-Mesh | หลีกเลี่ยงข้อจำกัด IP ตะวันตก |
การวางตำแหน่ง UALink vs. CXL
UALink ไม่ได้แข่งขันโดยตรงกับ CXL พวกเขาให้บริการวัตถุประสงค์ที่แตกต่างกัน:10
- UALink: การขยาย GPU-ถึง-GPU สำหรับคลัสเตอร์ accelerator (scale-up)
- CXL: ความสอดคล้อง CPU-หน่วยความจำและการรวมหน่วยความจำ (การขยายหน่วยความจำ)
- Ultra Ethernet: เครือข่าย scale-out ข้ามศูนย์ข้อมูล
"UALink ทำงานร่วมกับ PCIe และ CXL แต่มีเพียง UALink เท่านั้นที่มีผลในการรวมทรัพยากรที่จัดสรร UALink ถูกออกแบบมาเพื่อเชื่อมต่อหน่วย GPU หลักของคุณสำหรับการขยาย GPU-ถึง-GPU" Michael Posner รองประธานฝ่ายจัดการผลิตภัณฑ์ที่ Synopsys อธิบาย11
UB-Mesh ของ Huawei
แนวทางทางเลือกของ Huawei มุ่งหมายที่จะแทนที่อินเตอร์คอนเนกต์ที่มีอยู่ทั้งหมด:12
- เป้าหมายแบนด์วิดท์ 1 TB/s+ ต่ออุปกรณ์
- ความหน่วง ~150 ns ต่อ hop (ปรับปรุงจากไมโครวินาทีเป็นนาโนวินาที)
- ความหมาย load/store แบบซิงโครนัส vs. ตามแพ็กเก็ต
- ใบอนุญาต open source ประกาศกันยายน 2025
- ขยายได้ถึง 1 ล้านโปรเซสเซอร์ในสถาปัตยกรรม "SuperNode"
การยอมรับในอุตสาหกรรมยังคงไม่แน่นอนเนื่องจากความกังวลทางภูมิรัฐศาสตร์และโมเมนตัมของมาตรฐานที่มีอยู่
อะไรต่อไป
ปลาย 2026: Switch UALink เข้าสู่ศูนย์ข้อมูล; ผลิตภัณฑ์ CXL 4.0 เริ่มให้ตัวอย่าง
ปลาย 2026-2027: ระบบหลายแร็ค CXL 4.0 เข้าสู่การใช้งานจริง13
Q4 2026: Upscale AI ตั้งเป้าส่งมอบ switch UALink14
กำลังดำเนินการ: หน่วยงานมาตรฐานนำทางการอยู่ร่วมกันของ CXL, UALink และ Ultra Ethernet UB-Mesh ของ Huawei แสวงหาการยอมรับนอกตลาดตะวันตก
ภูมิทัศน์อินเตอร์คอนเนกต์จะยังคงแตกกระจายอย่างน้อยจนถึงปี 2027 ไม่มีมาตรฐานเดียวที่ตอบโจทย์กรณีการใช้งานทั้งหมด: การรวมหน่วยความจำ (CXL) การขยาย accelerator (UALink/NVLink) และ fabric เครือข่าย (Ultra Ethernet/InfiniBand)
ประเด็นสำคัญ
สำหรับผู้วางแผนโครงสร้างพื้นฐาน: - CXL 4.0 ช่วยให้มีพูลหน่วยความจำ 100+ TB พร้อมความสอดคล้องแคชข้ามแร็ค - Panmnesia กำลังให้ตัวอย่าง fabric switch CXL 3.2 ตัวแรกพร้อมการกำหนดเส้นทางตามพอร์ต - วางแผนสำหรับการอยู่ร่วมกันของมาตรฐาน: CXL + UALink + Ultra Ethernet/InfiniBand - กำหนดการใช้งานปลาย 2026-2027 สำหรับระบบการผลิต CXL 4.0
สำหรับทีมปฏิบัติการ: - CXL รักษาความเข้ากันได้ย้อนหลังกับรุ่นก่อนหน้า - การกำหนดเส้นทางตามพอร์ตทำให้การจัดการ fabric หลายแร็คง่ายขึ้น - ความหน่วงนาโนวินาทีสองหลักสำหรับการเข้าถึงหน่วยความจำข้าม switch - ติดตาม Panmnesia, XConn และผู้จำหน่าย switch CXL อื่นๆ สำหรับความพร้อม
สำหรับการวางแผนเชิงกลยุทธ์: - ไม่มีมาตรฐานอินเตอร์คอนเนกต์เดียวที่จะ "ชนะ" เพราะเลเยอร์ที่แตกต่างกันให้บริการวัตถุประสงค์ที่แตกต่างกัน - การรวมหน่วยความจำกลายเป็นไปได้สำหรับ AI inference ในขนาดใหญ่ - UB-Mesh ของ Huawei สร้างระบบนิเวศคู่ขนานสำหรับตลาดจีนเป็นหลัก - การตัดสินใจเรื่องอุปกรณ์ในปี 2025-2026 จะส่งผลต่อความสามารถในการทำงานร่วมกันจนถึงปี 2030
เอกสารอ้างอิง
สำหรับการใช้งานโครงสร้างพื้นฐาน AI ด้วยสถาปัตยกรรมอินเตอร์คอนเนกต์ขั้นสูง ติดต่อ Introl
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." 18 พฤศจิกายน 2025 ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." พฤศจิกายน 2025 ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." 18 พฤศจิกายน 2025 ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." 12 พฤศจิกายน 2025 ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." สิงหาคม 2025 ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." พฤศจิกายน 2025 ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." พฤศจิกายน 2025 ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." 24 พฤศจิกายน 2025 ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." พฤศจิกายน 2025 ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025 ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025 ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." สิงหาคม 2025 ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." พฤศจิกายน 2025 ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." 2 ธันวาคม 2025 ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." พฤศจิกายน 2025 ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." พฤศจิกายน 2025 ↩
-
CXL Consortium. "CXL 4.0 White Paper." พฤศจิกายน 2025 ↩