Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar
13 Desember 2025
Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan penggabungan memori berbasis CXL dalam infrastruktur AI mereka.
TL;DR
CXL 4.0 memungkinkan penggabungan memori pada skala yang belum pernah ada sebelumnya, memungkinkan beban kerja inference AI mengakses lebih dari 100 terabyte memori bersama dengan cache coherency di beberapa rack. Bundled ports dari spesifikasi ini menggabungkan beberapa koneksi fisik menjadi satu attachment logis yang memberikan bandwidth 1,5 TB/s. Untuk perencana infrastruktur, keputusan utama melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (switch CXL 2.0/3.0 yang sudah tersedia), dan bagaimana CXL melengkapi daripada menggantikan NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.
Masalah Memory Wall
Large language models menghadapi kendala fundamental: kapasitas memori GPU. Beban kerja inference AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache tumbuh seiring dengan panjang konteks.[^1] Satu permintaan inference dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.
Masalah ini semakin intensif pada skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh secara linear dengan ukuran batch dan panjang sequence. GPU VRAM tetap terbatas pada 80GB (H100) atau 192GB (B200).[^2]
Solusi tradisional tidak mencukupi:
| Pendekatan | Keterbatasan |
|---|---|
| Menambah lebih banyak GPU | Peningkatan biaya linear, memori masih terisolasi per GPU |
| NVMe offloading | ~100 μs latensi, 100x lebih lambat dari DRAM |
| RDMA-based sharing | Masih 10-20 μs latensi, networking yang kompleks |
| Memori GPU yang lebih besar | Supply terbatas, mahal |
CXL mengubah persamaan ini dengan memungkinkan penggabungan memori dengan latensi mirip DRAM (200-500 ns) di seluruh data center.[^3]
Tinjauan Teknis Mendalam CXL 4.0
Evolusi dari CXL 1.0 ke 4.0
CXL telah berkembang pesat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:
| Generasi | Rilis | Basis PCIe | Kecepatan | Kemajuan Utama |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Coherent memory attach dasar |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Dukungan fabric, peer-to-peer, 4.096 node |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Bundled ports, multi-rack, RAS yang ditingkatkan |
CXL 2.0 memperkenalkan konsep dasar penggabungan memori. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke host yang berbeda.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.
CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLITs dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.
CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur yang kritis untuk deployment AI multi-rack.
Arsitektur Bundled Ports
Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports menggabungkan beberapa port perangkat CXL fisik menjadi satu entitas logis.[^6]
Cara kerja bundled ports:
- Host dan perangkat Type 1/2 menggabungkan beberapa port fisik
- Software sistem melihat perangkat tunggal meskipun ada beberapa koneksi fisik
- Bandwidth teragregasi di semua bundled ports
- Dioptimalkan untuk mode 256-byte FLIT, menghilangkan overhead legacy
Perhitungan bandwidth:
| Konfigurasi | Arah | Bandwidth |
|---|---|---|
| Single x16 port @ 128 GT/s | Unidirectional | 256 GB/s |
| Single x16 port @ 128 GT/s | Bidirectional | 512 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Unidirectional | 768 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Bidirectional | 1.536 GB/s |
Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s mewakili sekitar 30% dari bandwidth tersebut—cukup untuk banyak kasus penggunaan ekspansi memori di mana kapasitas lebih penting daripada bandwidth puncak.
Fondasi PCIe 7.0
CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]
- Transfer rate 128 GT/s: Dua kali lipat dari 64 GT/s PCIe 6.0
- Sinyal PAM4: Skema encoding yang sama dengan PCIe 6.0
- FEC yang ditingkatkan: Forward error correction untuk integritas sinyal
- Dukungan optik: Memungkinkan koneksi jangkauan lebih jauh
Spesifikasi mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan latensi untuk operasi time-sensitive.[^9]
Kapabilitas Multi-Rack Fabric
CXL 4.0 memperpanjang jangkauan melalui dua mekanisme:
Empat retimer didukung: Generasi sebelumnya memungkinkan dua retimer. Empat retimer memungkinkan koneksi fisik yang lebih panjang melintasi beberapa rack tanpa degradasi sinyal.[^10]
Native x2 width: Sebelumnya mode fallback yang terdegradasi, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out yang lebih tinggi di mana banyak koneksi bandwidth rendah melayani lebih banyak endpoint.[^11]
Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kemampuan yang secara eksplisit ditargetkan CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]
Kasus Penggunaan CXL untuk Infrastruktur AI
KV Cache Offloading untuk Inference LLM
Kasus penggunaan jangka pendek dengan dampak tertinggi: offloading KV cache dari GPU VRAM ke memori yang terpasang CXL.
Masalah: Inference LLM dengan konteks panjang menghasilkan KV cache yang masif. Model parameter 70B dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau beberapa GPU.
Solusi CXL: Simpan KV cache dalam pool memori CXL bersama sambil menjaga layer hot di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]
- Dua GPU H100 (80GB masing-masing) menjalankan OPT-6.7B
- KV cache di-offload ke shared CXL memory pool
- Speedup 3,8x vs 200G RDMA
- Speedup 6,5x vs 100G RDMA
- Peningkatan >5x vs KV cache berbasis SSD
Penelitian dari akademisi mengkonfirmasi peluang tersebut. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai peningkatan throughput hingga 21,9x dengan meng-offload token page selection ke accelerator dalam memori CXL.[^15]
Ekspansi Memori untuk Training
Beban kerja training mendapat manfaat dari kapasitas memori yang diperluas untuk:
- Batch size yang lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
- Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
- Optimizer state: Optimizer Adam memerlukan 2x parameter untuk momentum/variance
Ekspansi memori CXL memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan pada node tunggal, mengurangi overhead komunikasi.
Beban Kerja Ilmiah dan HPC
Proyek Crete PNNL menggunakan pool CXL untuk berbagi memori throughput tinggi di seluruh node komputasi dalam simulasi ilmiah.[^16] Kasus penggunaan meliputi:
- Molecular dynamics dengan neighbor list besar
- Graph analytics pada dataset trillion-edge
- Database in-memory yang melebihi kapasitas server tunggal
Lanskap Interconnect
CXL vs NVLink vs UALink
Memahami di mana CXL cocok memerlukan pengenalan bahwa teknologi ini melayani tujuan yang berbeda:
| Standar | Tujuan Utama | Terbaik Untuk |
|---|---|---|
| CXL | Memory coherency + pooling | Ekspansi CPU-memory, shared memory pools |
| NVLink | Penskalaan GPU-to-GPU | Komunikasi GPU dalam node |
| UALink | Interconnect accelerator | Alternatif standar terbuka untuk NVLink |
| Ultra Ethernet | Scale-out networking | Multi-rack, 10.000+ endpoint |
CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per port x16.[^18]
Teknologi saling melengkapi daripada bersaing:
- Dalam node GPU: NVLink menghubungkan GPU
- Antar node: UALink atau InfiniBand/Ethernet
- Ekspansi memori: CXL menambah kapasitas ke CPU dan accelerator
- Pool memori fabric-wide: Switch CXL memungkinkan berbagi di seluruh host
Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan training AI 5,3x lebih cepat dan pengurangan latensi inference 6x vs baseline PCIe/RDMA.[^19]
Kerangka Keputusan: Kapan Menggunakan Apa
| Skenario | Interconnect yang Direkomendasikan | Alasan |
|---|---|---|
| Training multi-GPU dalam server | NVLink | Bandwidth tertinggi, latensi terendah |
| Pod inference multi-GPU (non-NVIDIA) | UALink | Standar terbuka, bandwidth tinggi |
| Perluas memori melampaui VRAM | CXL | Cache coherency, latensi mirip DRAM |
| Cluster GPU multi-rack | InfiniBand atau Ultra Ethernet | Dirancang untuk scale-out |
| Pool memori bersama di seluruh server | Switch CXL | Memory pooling dengan coherency |
| Pasar China/terbatas | Pertimbangkan UB-Mesh | Menghindari dependensi IP Barat |
Ekosistem CXL: Vendor dan Produk
Memory Expanders
Tiga produsen DRAM utama semua mengirimkan CXL memory expanders:
| Vendor | Produk | Kapasitas | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Produksi massal 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Produksi massal akhir 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Diumumkan[^23] |
CMS (Computational Memory Solution) SK Hynix menambahkan kemampuan komputasi langsung di modul memori—implementasi awal processing-near-memory untuk CXL.
Vendor Switch
Switch CXL memungkinkan penggabungan memori di beberapa host:
| Vendor | Produk | Generasi | Status | Fitur Utama |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Shipping | Switch 256-lane, pertama di pasar[^24] |
| XConn | Apollo | CXL 2.0 | Shipping | Demonstrasi memory pooling di SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov 2025 | Implementasi PBR pertama[^26] |
| Astera Labs | Leo | CXL 2.0 | Shipping | Smart memory controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Shipping | Memory expansion controller[^28] |
CXL 3.2 Fabric Switch Panmnesia mewakili lompatan generasi: silikon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]
Vendor Controller
Controller memori CXL menerjemahkan antara protokol CXL dan DRAM:
| Vendor | Peran | Produk Utama |
|---|---|---|
| Marvell | Controller | Controller CXL Structera[^30] |
| Montage | Controller | Chip buffer memori CXL |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | Seri SMC 2000 |
Structera Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) pada platform Intel dan AMD.[^31]
Panduan Perencanaan Deployment
Timeline
| Periode | Generasi CXL | Kemampuan yang Diharapkan | Rekomendasi |
|---|---|---|---|
| Sekarang-Q2 2026 | CXL 2.0 | Ekspansi memori, pooling dasar | Evaluasi produksi |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K node | Adopsi awal untuk AI |
| 2027+ | CXL 4.0 | Pooling multi-rack, 1,5 TB/s | Perencanaan dimulai sekarang |
ABI Research mengharapkan solusi CXL 3.0/3.1 dengan dukungan software yang cukup untuk adopsi komersial pada 2027.[^32]
Apa yang Perlu Dievaluasi Sekarang
Segera (2025): 1. Uji CXL 2.0 memory expanders pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory pooling