CXL 4.0 และสงครามอินเตอร์คอนเนกต์: หน่วยความจำ AI กำลังเปลี่ยนโฉมสถาปัตยกรรมดาต้าเซ็นเตอร์อย่างไร
12 ธันวาคม 2025
อัปเดตธันวาคม 2025: CXL Consortium เปิดตัว CXL 4.0 เมื่อวันที่ 18 พฤศจิกายน เพิ่มแบนด์วิดท์เป็นสองเท่าที่ 128 GT/s พร้อม PCIe 7.0 และแนะนำ bundled ports สำหรับการเชื่อมต่อ 1.5 TB/s Panmnesia เริ่มให้ตัวอย่าง CXL 3.2 fabric switch ตัวแรกของอุตสาหกรรมที่มี port-based routing ในขณะเดียวกัน UALink มุ่งเป้าไปที่การใช้งานปลายปี 2026 และ Huawei เปิดซอร์ส UB-Mesh เป็นทางเลือกอื่น
สรุปย่อ
CXL 4.0 เป็นตัวแทนของเทคโนโลยีอินเตอร์คอนเนกต์หน่วยความจำรุ่นถัดไป ทำให้สามารถรวมหน่วยความจำ pooled ได้มากกว่า 100 เทราไบต์พร้อม cache coherency ทั่วทั้งโครงสร้างพื้นฐาน AI ฟีเจอร์ bundled ports ของข้อกำหนดนี้ช่วยให้สามารถรวมพอร์ตทางกายภาพหลายพอร์ตเป็นการเชื่อมต่อแบบ logical เดียวที่ให้แบนด์วิดท์รวม 1.5 TB/s CXL 3.2 fabric switch ของ Panmnesia ถือเป็นฮาร์ดแวร์ตัวแรกที่นำ port-based routing มาใช้สำหรับคลัสเตอร์ AI หลายแร็ค ภูมิทัศน์อินเตอร์คอนเนกต์ในวงกว้างยังคงแตกแยกมากขึ้นเมื่อ UALink, Ultra Ethernet และ UB-Mesh ของ Huawei แข่งขันกันในกลุ่มเฉพาะที่แตกต่างกัน
เกิดอะไรขึ้น
CXL Consortium เปิดตัวข้อกำหนด Compute Express Link 4.0 เมื่อวันที่ 18 พฤศจิกายน 2025 ที่งาน SC251 ข้อกำหนดนี้เปลี่ยนจาก PCIe 6.x (64 GT/s) เป็น PCIe 7.0 (128 GT/s) เพิ่มแบนด์วิดท์ที่มีอยู่เป็นสองเท่าในขณะที่ยังคงรักษารูปแบบ FLIT 256 ไบต์ที่นำมาใช้กับ CXL 3.x2
"การเปิดตัวข้อกำหนด CXL 4.0 ถือเป็นก้าวสำคัญใหม่ในการพัฒนาการเชื่อมต่อหน่วยความจำแบบ coherent โดยเพิ่มแบนด์วิดท์เป็นสองเท่าเมื่อเทียบกับรุ่นก่อนหน้าพร้อมฟีเจอร์ใหม่ที่ทรงพลัง" Derek Rohde ประธาน CXL Consortium และ Principal Engineer ที่ NVIDIA กล่าว3
สี่วันก่อนหน้านั้น ในวันที่ 12 พฤศจิกายน สตาร์ทอัพเกาหลี Panmnesia ประกาศความพร้อมของตัวอย่าง PCIe 6.0/CXL 3.2 Fabric Switch: เป็นซิลิคอนตัวแรกที่นำ port-based routing (PBR) มาใช้สำหรับ CXL fabrics4
ภูมิทัศน์อินเตอร์คอนเนกต์ยังคงแตกแยกต่อไป UALink มุ่งเป้าไปที่การใช้งานดาต้าเซ็นเตอร์ปลายปี 2026 Huawei ประกาศว่าจะเปิดซอร์สโปรโตคอล UB-Mesh ของตน ซึ่งออกแบบมาเพื่อทดแทน PCIe, CXL, NVLink และ TCP/IP ด้วยมาตรฐานรวม5
ทำไมจึงสำคัญสำหรับโครงสร้างพื้นฐาน
หน่วยความจำกลายเป็น Composable: CXL 4.0 ทำให้สามารถ memory pooling ในระดับขนาดใหญ่ได้ AI inference workloads ที่ต้องการหน่วยความจำหลายร้อยเทราไบต์สามารถเข้าถึง memory pools ที่แชร์กันข้ามแร็คพร้อม cache coherency ได้แล้ว ไม่ใช่แค่ภายในเซิร์ฟเวอร์เดียว
แบนด์วิดท์ตอบโจทย์ความต้องการ AI: CXL 4.0 bundled port ที่มี x16 links ที่ 128 GT/s ให้แบนด์วิดท์ 768 GB/s ในแต่ละทิศทาง (แบนด์วิดท์รวม 1.536 TB/s ระหว่างอุปกรณ์และ CPU)6 LLM inference serving ได้รับประโยชน์โดยตรงจากความจุนี้
คลัสเตอร์ AI หลายแร็ค: Port-based routing ใน CXL 3.2/4.0 ช่วยให้ fabric switches สามารถเชื่อมต่ออุปกรณ์นับพันข้ามแร็คหลายตัวได้โดยไม่เกิด network latency ที่ยาวนาน Panmnesia อ้างว่ามี "latency ระดับสิบกว่านาโนวินาที" สำหรับการเข้าถึงหน่วยความจำ7
ความเสี่ยงจากการแตกแยกของมาตรฐาน: ระบบนิเวศอินเตอร์คอนเนกต์ที่แข่งขันกันสี่ระบบ (CXL/PCIe, UALink, Ultra Ethernet, NVLink) บังคับให้ผู้วางแผนโครงสร้างพื้นฐานต้องเลือกเดิมพันว่าฝ่ายใดจะชนะ อุปกรณ์ที่ซื้อวันนี้อาจเผชิญกับความท้าทายด้าน interoperability ในปี 2027
รายละเอียดทางเทคนิค
ข้อกำหนด CXL 4.0
| ฟีเจอร์ | CXL 3.x | CXL 4.0 |
|---|---|---|
| Base Protocol | PCIe 6.x | PCIe 7.0 |
| Transfer Speed | 64 GT/s | 128 GT/s |
| FLIT Size | 256B | 256B |
| Retimers Supported | 2 | 4 |
| Link Width Options | Standard | เพิ่ม Native x2 |
| Bundled Ports | ไม่มี | มี |
สถาปัตยกรรม Bundled Ports
Bundled ports ของ CXL 4.0 รวม CXL device ports ทางกายภาพหลายพอร์ตเป็น logical entity เดียว:8
- Host และ Type 1/2 device สามารถรวมพอร์ตทางกายภาพหลายพอร์ตได้
- System software มองเห็นอุปกรณ์เดียวแม้จะมีการเชื่อมต่อทางกายภาพหลายตัว
- ปรับให้เหมาะสมสำหรับ 256B Flit Mode ขจัด overhead ของ legacy 68B Flit
- ให้แบนด์วิดท์รวม 1.5+ TB/s ต่อการเชื่อมต่อแบบ logical
Panmnesia CXL 3.2 Fabric Switch
CXL 3.2 switch silicon ตัวแรกประกอบด้วย:9
| ข้อมูลจำเพาะ | รายละเอียด |
|---|---|
| Protocol Support | PCIe Gen 6.0 + CXL 3.2 hybrid |
| Data Rate | 64 GT/s |
| Routing Modes | PBR (port-based) และ HBR (hierarchy-based) |
| CXL Subprotocols | CXL.cache, CXL.mem, CXL.io |
| Lane Count | 256-lane high fan-out |
| Latency | ระดับสิบกว่านาโนวินาที |
| Backward Compatibility | PCIe/CXL ทุกรุ่นก่อนหน้า |
แอปพลิเคชันเป้าหมายรวมถึง DLRM (Deep Learning Recommendation Models), LLM inference, RAG workloads และ MPI-based HPC simulations
มาตรฐานอินเตอร์คอนเนกต์ที่แข่งขันกัน
| มาตรฐาน | เจ้าของ | วัตถุประสงค์ | แบนด์วิดท์ | ขนาด | ไทม์ไลน์ |
|---|---|---|---|---|---|
| CXL 4.0 | Consortium | Memory coherency | 128 GT/s | หลายแร็ค | ปลาย 2026-2027 |
| NVLink 5 | NVIDIA | GPU-GPU | 1.8 TB/s | 576 GPUs | พร้อมใช้งาน |
| UALink 1.0 | AMD-led consortium | Accelerator-accelerator | 200 Gb/s/lane | 1,024 อุปกรณ์ | ปลาย 2026 |
| Ultra Ethernet | UEC | Scale-out networking | Ethernet-based | 10,000s endpoints | 2026+ |
| UB-Mesh | Huawei | Unified interconnect | 1+ TB/s/อุปกรณ์ | 1M processors | เปิดซอร์สแล้ว |
กรอบการตัดสินใจเลือกอินเตอร์คอนเนกต์
เมื่อใดควรใช้มาตรฐานใด:
| กรณีการใช้งาน | เหมาะสมที่สุด | เหตุผล |
|---|---|---|
| GPU-to-GPU ภายในโหนด | NVLink | แบนด์วิดท์สูงสุด (1.8 TB/s), latency ต่ำสุด |
| GPU-to-GPU ข้ามโหนด | UALink | มาตรฐานเปิดทางเลือกแทน NVLink |
| Memory expansion | CXL | Cache coherency กับ CPU, memory pooling |
| Scale-out networking | Ultra Ethernet / InfiniBand | ออกแบบสำหรับคลัสเตอร์ 10,000+ endpoints |
| Unified China ecosystem | UB-Mesh | หลีกเลี่ยงข้อจำกัด IP ของตะวันตก |
การวางตำแหน่ง UALink vs. CXL
UALink ไม่ได้แข่งขันโดยตรงกับ CXL ทั้งสองรับใช้วัตถุประสงค์ที่แตกต่างกัน:10
- UALink: GPU-to-GPU scaling สำหรับ accelerator clusters (scale-up)
- CXL: CPU-memory coherency และ memory pooling (memory expansion)
- Ultra Ethernet: Scale-out networking ข้ามดาต้าเซ็นเตอร์
"UALink ทำงานร่วมกับ PCIe และ CXL แต่เฉพาะ UALink เท่านั้นที่มีผลในการรวมทรัพยากรที่จัดสรร UALink ออกแบบมาเพื่อเชื่อมต่อหน่วย GPU หลักของคุณสำหรับ GPU-to-GPU scaling" Michael Posner รองประธานฝ่าย Product Management ที่ Synopsys อธิบาย11
Huawei UB-Mesh
แนวทางทางเลือกของ Huawei มุ่งเป้าที่จะทดแทนอินเตอร์คอนเนกต์ที่มีอยู่ทั้งหมด:12
- เป้าหมายแบนด์วิดท์ 1 TB/s+ ต่ออุปกรณ์
- ~150 ns hop latency (ปรับปรุงจากไมโครวินาทีเป็นนาโนวินาที)
- Synchronous load/store semantics เทียบกับ packet-based
- ประกาศ open-source license เดือนกันยายน 2025
- Scale ได้ถึง 1 ล้าน processors ในสถาปัตยกรรม "SuperNode"
การนำไปใช้ในอุตสาหกรรมยังคงไม่แน่นอนเนื่องจากความกังวลด้านภูมิรัฐศาสตร์และโมเมนตัมของมาตรฐานที่มีอยู่
อะไรจะเกิดขึ้นต่อไป
ปลายปี 2026: UALink switches เข้าถึงดาต้าเซ็นเตอร์; ผลิตภัณฑ์ CXL 4.0 เริ่มให้ตัวอย่าง
ปลาย 2026-2027: ระบบ CXL 4.0 หลายแร็คเข้าสู่การใช้งานจริง13
Q4 2026: Upscale AI เป้าหมายส่งมอบ UALink switch14
ต่อเนื่อง: หน่วยงานมาตรฐานนำทางการอยู่ร่วมกันของ CXL, UALink และ Ultra Ethernet UB-Mesh ของ Huawei แสวงหาการนำไปใช้นอกตลาดตะวันตก
ภูมิทัศน์อินเตอร์คอนเนกต์จะยังคงแตกแยกอย่างน้อยจนถึงปี 2027 ไม่มีมาตรฐานเดียวที่ตอบโจทย์ทุกกรณีการใช้งาน: memory pooling (CXL), accelerator scaling (UALink/NVLink) และ network fabric (Ultra Ethernet/InfiniBand)
ประเด็นสำคัญ
สำหรับผู้วางแผนโครงสร้างพื้นฐาน: - CXL 4.0 ทำให้สามารถมี memory pools 100+ TB พร้อม cache coherency ข้ามแร็ค - Panmnesia ให้ตัวอย่าง CXL 3.2 fabric switch ตัวแรกที่มี port-based routing - วางแผนสำหรับการอยู่ร่วมกันของมาตรฐาน: CXL + UALink + Ultra Ethernet/InfiniBand - ไทม์ไลน์การใช้งาน CXL 4.0 ในระบบ production ปลาย 2026-2027
สำหรับทีมปฏิบัติการ: - CXL รักษา backward compatibility กับรุ่นก่อนหน้า - Port-based routing ทำให้การจัดการ fabric หลายแร็คง่ายขึ้น - Latency ระดับสิบกว่านาโนวินาทีสำหรับการเข้าถึงหน่วยความจำข้าม switches - ติดตาม Panmnesia, XConn และผู้จำหน่าย CXL switch รายอื่นสำหรับความพร้อมใช้งาน
สำหรับการวางแผนเชิงกลยุทธ์: - ไม่มีมาตรฐานอินเตอร์คอนเนกต์ใดจะ "ชนะ" เพราะ layers ที่แตกต่างกันรับใช้วัตถุประสงค์ที่แตกต่างกัน - Memory pooling กลายเป็นไปได้สำหรับ AI inference ในระดับใหญ่ - UB-Mesh ของ Huawei สร้างระบบนิเวศคู่ขนานสำหรับตลาดจีนเป็นหลัก - การตัดสินใจด้านอุปกรณ์ในปี 2025-2026 จะส่งผลต่อ interoperability จนถึงปี 2030
เอกสารอ้างอิง
สำหรับการใช้งานโครงสร้างพื้นฐาน AI ด้วยสถาปัตยกรรมอินเตอร์คอนเนกต์ขั้นสูง ติดต่อ Introl
-
CXL Consortium. "CXL Consortium Releases the Compute Express Link 4.0 Specification." November 18, 2025. ↩
-
VideoCardz. "CXL 4.0 spec moves to PCIe 7.0, doubles bandwidth over CXL 3.0." November 2025. ↩
-
Business Wire. "CXL Consortium Releases the Compute Express Link 4.0 Specification Increasing Speed and Bandwidth." November 18, 2025. ↩
-
Business Wire. "Panmnesia Announces Sample Availability of PCIe 6.0/CXL 3.2 Fabric Switch." November 12, 2025. ↩
-
Tom's Hardware. "Huawei to open-source its UB-Mesh data center-scale interconnect soon." August 2025. ↩
-
Datacenter.news. "CXL 4.0 doubles bandwidth, introduces bundled ports for data centres." November 2025. ↩
-
Panmnesia. "Press Release: PCIe 6.0/CXL 3.2 Fabric Switch." November 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth and stretches memory pooling to multi-rack setups." November 24, 2025. ↩
-
TechPowerUp. "Panmnesia Samples Industry's First PCIe 6.0/CXL 3.2 Fabric Switch." November 2025. ↩
-
Semi Engineering. "New Data Center Protocols Tackle AI." 2025. ↩
-
Synopsys. "Ultra Ethernet UaLink AI Networks." 2025. ↩
-
ServeTheHome. "Huawei Presents UB-Mesh Interconnect for Large AI SuperNodes at Hot Chips 2025." August 2025. ↩
-
Blocks and Files. "CXL 4.0 doubles bandwidth." November 2025. ↩
-
HPCwire. "Upscale AI Eyes Late 2026 for Scale-Up UALink Switch." December 2, 2025. ↩
-
EE Times. "CXL Adds Port Bundling to Quench AI Thirst." November 2025. ↩
-
SDxCentral. "Compute Express Link Consortium debuts 4.0 spec to push past bandwidth bottlenecks." November 2025. ↩
-
CXL Consortium. "CXL 4.0 White Paper." November 2025. ↩