Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar
13 Desember 2025
Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan memory pooling berbasis CXL dalam infrastruktur AI mereka.
Ringkasan
CXL 4.0 memungkinkan memory pooling dalam skala yang belum pernah ada sebelumnya, memungkinkan workload inferensi AI mengakses 100+ terabyte memori bersama dengan cache coherency di seluruh multiple rack. Bundled ports dalam spesifikasi ini mengagregasi beberapa koneksi fisik menjadi single logical attachment yang memberikan bandwidth 1,5 TB/s. Bagi perencana infrastruktur, keputusan kunci melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (CXL 2.0/3.0 switch sudah tersedia), dan bagaimana CXL melengkapi—bukan menggantikan—NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.
Masalah Memory Wall
Model bahasa besar menghadapi kendala fundamental: kapasitas memori GPU. Workload inferensi AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache berkembang seiring panjang konteks.[^1] Satu permintaan inferensi dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.
Masalah ini semakin intensif dalam skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh linear dengan batch size dan sequence length. GPU VRAM tetap pada 80GB (H100) atau 192GB (B200).[^2]
Solusi tradisional tidak memadai:
| Pendekatan | Keterbatasan |
|---|---|
| Tambah lebih banyak GPU | Peningkatan biaya linear, memori tetap terisolasi per GPU |
| NVMe offloading | ~100 μs latensi, 100x lebih lambat dari DRAM |
| RDMA-based sharing | Masih 10-20 μs latensi, networking kompleks |
| Memori GPU lebih besar | Pasokan terbatas, mahal |
CXL mengubah persamaan ini dengan memungkinkan memory pooling dengan latensi seperti DRAM (200-500 ns) di seluruh data center.[^3]
Pendalaman Teknis CXL 4.0
Evolusi dari CXL 1.0 ke 4.0
CXL telah matang dengan cepat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:
| Generasi | Rilis | Basis PCIe | Kecepatan | Kemajuan Utama |
|---|---|---|---|---|
| CXL 1.0/1.1 | 2019/2020 | PCIe 5.0 | 32 GT/s | Basic coherent memory attach |
| CXL 2.0 | 2022 | PCIe 5.0 | 32 GT/s | Switching, memory pooling, multi-device |
| CXL 3.0/3.1 | 2023/2024 | PCIe 6.0 | 64 GT/s | Fabric support, peer-to-peer, 4.096 node |
| CXL 4.0 | Nov 2025 | PCIe 7.0 | 128 GT/s | Bundled ports, multi-rack, enhanced RAS |
CXL 2.0 memperkenalkan konsep dasar memory pooling. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke berbagai host.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.
CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLIT dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.
CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur-fitur kritis untuk deployment AI multi-rack.
Arsitektur Bundled Ports
Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports mengagregasi beberapa physical CXL device ports menjadi satu logical entity.[^6]
Cara kerja bundled ports:
- Host dan perangkat Type 1/2 menggabungkan beberapa physical ports
- System software melihat satu perangkat meskipun ada beberapa koneksi fisik
- Bandwidth diagregasi di seluruh bundled ports
- Dioptimalkan untuk 256-byte FLIT mode, menghilangkan legacy overhead
Perhitungan bandwidth:
| Konfigurasi | Arah | Bandwidth |
|---|---|---|
| Single x16 port @ 128 GT/s | Unidirectional | 256 GB/s |
| Single x16 port @ 128 GT/s | Bidirectional | 512 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Unidirectional | 768 GB/s |
| 3 bundled x16 ports @ 128 GT/s | Bidirectional | 1.536 GB/s |
Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s merepresentasikan sekitar 30% dari bandwidth tersebut—cukup untuk banyak use case memory expansion di mana kapasitas lebih penting daripada peak bandwidth.
Fondasi PCIe 7.0
CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]
- 128 GT/s transfer rate: Dua kali lipat dari 64 GT/s PCIe 6.0
- PAM4 signaling: Skema encoding yang sama seperti PCIe 6.0
- Improved FEC: Forward error correction untuk integritas sinyal
- Optical support: Memungkinkan koneksi jangkauan lebih jauh
Spesifikasi ini mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan untuk latensi pada operasi time-sensitive.[^9]
Kapabilitas Multi-Rack Fabric
CXL 4.0 memperluas jangkauan melalui dua mekanisme:
Empat retimer didukung: Generasi sebelumnya mengizinkan dua retimer. Empat retimer memungkinkan koneksi fisik lebih panjang yang membentang di beberapa rack tanpa degradasi sinyal.[^10]
Native x2 width: Sebelumnya merupakan degraded fallback mode, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out lebih tinggi di mana banyak koneksi bandwidth lebih rendah melayani lebih banyak endpoint.[^11]
Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kapabilitas yang secara eksplisit ditargetkan oleh CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]
Use Case CXL untuk Infrastruktur AI
KV Cache Offloading untuk Inferensi LLM
Use case dampak tertinggi dalam jangka pendek: offloading KV cache dari GPU VRAM ke memori yang terhubung CXL.
Masalahnya: Inferensi LLM dengan konteks panjang menghasilkan KV cache yang masif. Model 70B parameter dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau multiple GPU.
Solusi CXL: Simpan KV cache di pooled CXL memory sambil menyimpan hot layers di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]
- Dua GPU H100 (masing-masing 80GB) menjalankan OPT-6.7B
- KV cache di-offload ke shared CXL memory pool
- 3,8x speedup vs 200G RDMA
- 6,5x speedup vs 100G RDMA
- >5x improvement vs SSD-based KV cache
Penelitian dari akademisi mengkonfirmasi peluang ini. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai hingga 21,9x throughput improvement dengan melakukan offload token page selection ke accelerator dalam CXL memory.[^15]
Memory Expansion untuk Training
Workload training mendapat manfaat dari kapasitas memori yang diperluas untuk:
- Batch size lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
- Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
- Optimizer state: Adam optimizer memerlukan 2x parameter untuk momentum/variance
CXL memory expansion memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan di single node, mengurangi overhead komunikasi.
Workload Scientific dan HPC
Proyek Crete dari PNNL menggunakan CXL pools untuk high-throughput memory sharing di seluruh compute nodes dalam simulasi ilmiah.[^16] Use case meliputi:
- Molecular dynamics dengan large neighbor lists
- Graph analytics pada dataset trillion-edge
- In-memory databases yang melebihi kapasitas single-server
Lanskap Interconnect
CXL vs NVLink vs UALink
Memahami posisi CXL memerlukan pengakuan bahwa teknologi-teknologi ini melayani tujuan berbeda:
| Standar | Tujuan Utama | Terbaik Untuk |
|---|---|---|
| CXL | Memory coherency + pooling | CPU-memory expansion, shared memory pools |
| NVLink | GPU-to-GPU scaling | Komunikasi GPU dalam node |
| UALink | Accelerator interconnect | Alternatif open standard untuk NVLink |
| Ultra Ethernet | Scale-out networking | Multi-rack, 10.000+ endpoint |
CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per x16 port.[^18]
Teknologi-teknologi ini saling melengkapi, bukan bersaing:
- Dalam GPU node: NVLink menghubungkan GPU
- Antar node: UALink atau InfiniBand/Ethernet
- Memory expansion: CXL menambah kapasitas ke CPU dan accelerator
- Fabric-wide memory pools: CXL switch memungkinkan sharing di seluruh host
Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan 5,3x training AI lebih cepat dan 6x pengurangan latensi inferensi vs baseline PCIe/RDMA.[^19]
Kerangka Keputusan: Kapan Menggunakan Apa
| Skenario | Interconnect yang Direkomendasikan | Alasan |
|---|---|---|
| Multi-GPU training dalam server | NVLink | Bandwidth tertinggi, latensi terendah |
| Multi-GPU inference pod (non-NVIDIA) | UALink | Open standard, bandwidth tinggi |
| Expand memory di luar VRAM | CXL | Cache coherency, latensi seperti DRAM |
| Multi-rack GPU cluster | InfiniBand atau Ultra Ethernet | Dirancang untuk scale-out |
| Shared memory pool di seluruh server | CXL switch | Memory pooling dengan coherency |
| China/pasar terbatas | Pertimbangkan UB-Mesh | Menghindari ketergantungan IP Barat |
Ekosistem CXL: Vendor dan Produk
Memory Expander
Tiga produsen DRAM utama semuanya memproduksi CXL memory expander:
| Vendor | Produk | Kapasitas | Interface | Status |
|---|---|---|---|---|
| Samsung | CMM-D | 256 GB | CXL 2.0 | Produksi massal 2025[^20] |
| SK Hynix | CMM-DDR5 | 128 GB | CXL 2.0 | Produksi massal akhir 2024[^21] |
| Micron | CZ120 | 256 GB | CXL 2.0 | Sampling[^22] |
| SK Hynix | CMS | 512 GB | CXL (compute-enabled) | Diumumkan[^23] |
CMS (Computational Memory Solution) dari SK Hynix menambahkan kapabilitas komputasi langsung dalam modul memori—implementasi awal processing-near-memory untuk CXL.
Vendor Switch
CXL switch memungkinkan memory pooling di seluruh multiple host:
| Vendor | Produk | Generasi | Status | Fitur Utama |
|---|---|---|---|---|
| XConn | XC50256 | CXL 2.0 | Tersedia | 256-lane switch, pertama ke pasar[^24] |
| XConn | Apollo | CXL 2.0 | Tersedia | Demonstrasi memory pooling di SC25[^25] |
| Panmnesia | Fabric Switch | CXL 3.2 | Sampling Nov 2025 | Implementasi PBR pertama[^26] |
| Astera Labs | Leo | CXL 2.0 | Tersedia | Smart memory controller[^27] |
| Microchip | SMC 2000 | CXL 2.0 | Tersedia | Memory expansion controller[^28] |
CXL 3.2 Fabric Switch dari Panmnesia merepresentasikan lompatan generasi: silicon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]
Vendor Controller
CXL memory controller menerjemahkan antara protokol CXL dan DRAM:
| Vendor | Peran | Produk Utama |
|---|---|---|
| Marvell | Controller | Structera CXL controllers[^30] |
| Montage | Controller | CXL memory buffer chips |
| Astera Labs | Controller | Leo smart memory controller |
| Microchip | Controller | SMC 2000 series |
Structera dari Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) di platform Intel dan AMD.[^31]
Panduan Perencanaan Deployment
Timeline
| Periode | Generasi CXL | Kapabilitas yang Diharapkan | Rekomendasi |
|---|---|---|---|
| Sekarang-Q2 2026 | CXL 2.0 | Memory expansion, basic pooling | Evaluasi produksi |
| Q3 2026-Q4 2026 | CXL 3.0/3.1 | Fabric, peer-to-peer, 4K node | Adopsi awal untuk AI |
| 2027+ | CXL 4.0 | Multi-rack pooling, 1,5 TB/s | Perencanaan dimulai sekarang |
ABI Research memperkirakan solusi CXL 3.0/3.1 dengan dukungan software yang memadai untuk adopsi komersial pada 2027.[^32]
Yang Perlu Dievaluasi Sekarang
Segera (2025): 1. Uji CXL 2.0 memory expander pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory p
[Konten terpotong untuk terjemahan]