Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

Panduan implementasi CXL 4.0 lengkap yang mencakup bundled ports, penggabungan memori multi-rack, offloading KV cache, ekosistem vendor, dan timeline perencanaan 2026-2027.

Madison Kersh

Apr 27, 2026 8 min read Disclaimer

Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

13 Desember 2025

Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan penggabungan memori berbasis CXL dalam infrastruktur AI mereka.

TL;DR

CXL 4.0 memungkinkan penggabungan memori pada skala yang belum pernah ada sebelumnya, memungkinkan beban kerja inference AI mengakses lebih dari 100 terabyte memori bersama dengan cache coherency di beberapa rack. Bundled ports dari spesifikasi ini menggabungkan beberapa koneksi fisik menjadi satu attachment logis yang memberikan bandwidth 1,5 TB/s. Untuk perencana infrastruktur, keputusan utama melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (switch CXL 2.0/3.0 yang sudah tersedia), dan bagaimana CXL melengkapi daripada menggantikan NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.

Masalah Memory Wall

Large language models menghadapi kendala fundamental: kapasitas memori GPU. Beban kerja inference AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache tumbuh seiring dengan panjang konteks.[^1] Satu permintaan inference dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.

Masalah ini semakin intensif pada skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh secara linear dengan ukuran batch dan panjang sequence. GPU VRAM tetap terbatas pada 80GB (H100) atau 192GB (B200).[^2]

Solusi tradisional tidak mencukupi:

Pendekatan	Keterbatasan
Menambah lebih banyak GPU	Peningkatan biaya linear, memori masih terisolasi per GPU
NVMe offloading	~100 μs latensi, 100x lebih lambat dari DRAM
RDMA-based sharing	Masih 10-20 μs latensi, networking yang kompleks
Memori GPU yang lebih besar	Supply terbatas, mahal

CXL mengubah persamaan ini dengan memungkinkan penggabungan memori dengan latensi mirip DRAM (200-500 ns) di seluruh data center.[^3]

Tinjauan Teknis Mendalam CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

CXL telah berkembang pesat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:

Generasi	Rilis	Basis PCIe	Kecepatan	Kemajuan Utama
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Coherent memory attach dasar
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Dukungan fabric, peer-to-peer, 4.096 node
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, RAS yang ditingkatkan

CXL 2.0 memperkenalkan konsep dasar penggabungan memori. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke host yang berbeda.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.

CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLITs dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.

CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur yang kritis untuk deployment AI multi-rack.

Arsitektur Bundled Ports

Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports menggabungkan beberapa port perangkat CXL fisik menjadi satu entitas logis.[^6]

Cara kerja bundled ports:

Host dan perangkat Type 1/2 menggabungkan beberapa port fisik
Software sistem melihat perangkat tunggal meskipun ada beberapa koneksi fisik
Bandwidth teragregasi di semua bundled ports
Dioptimalkan untuk mode 256-byte FLIT, menghilangkan overhead legacy

Perhitungan bandwidth:

Konfigurasi	Arah	Bandwidth
Single x16 port @ 128 GT/s	Unidirectional	256 GB/s
Single x16 port @ 128 GT/s	Bidirectional	512 GB/s
3 bundled x16 ports @ 128 GT/s	Unidirectional	768 GB/s
3 bundled x16 ports @ 128 GT/s	Bidirectional	1.536 GB/s

Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s mewakili sekitar 30% dari bandwidth tersebut—cukup untuk banyak kasus penggunaan ekspansi memori di mana kapasitas lebih penting daripada bandwidth puncak.

Fondasi PCIe 7.0

CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]

Transfer rate 128 GT/s: Dua kali lipat dari 64 GT/s PCIe 6.0
Sinyal PAM4: Skema encoding yang sama dengan PCIe 6.0
FEC yang ditingkatkan: Forward error correction untuk integritas sinyal
Dukungan optik: Memungkinkan koneksi jangkauan lebih jauh

Spesifikasi mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan latensi untuk operasi time-sensitive.[^9]

Kapabilitas Multi-Rack Fabric

CXL 4.0 memperpanjang jangkauan melalui dua mekanisme:

Empat retimer didukung: Generasi sebelumnya memungkinkan dua retimer. Empat retimer memungkinkan koneksi fisik yang lebih panjang melintasi beberapa rack tanpa degradasi sinyal.[^10]

Native x2 width: Sebelumnya mode fallback yang terdegradasi, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out yang lebih tinggi di mana banyak koneksi bandwidth rendah melayani lebih banyak endpoint.[^11]

Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kemampuan yang secara eksplisit ditargetkan CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]

Kasus Penggunaan CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inference LLM

Kasus penggunaan jangka pendek dengan dampak tertinggi: offloading KV cache dari GPU VRAM ke memori yang terpasang CXL.

Masalah: Inference LLM dengan konteks panjang menghasilkan KV cache yang masif. Model parameter 70B dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau beberapa GPU.

Solusi CXL: Simpan KV cache dalam pool memori CXL bersama sambil menjaga layer hot di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]

Dua GPU H100 (80GB masing-masing) menjalankan OPT-6.7B
KV cache di-offload ke shared CXL memory pool
Speedup 3,8x vs 200G RDMA
Speedup 6,5x vs 100G RDMA
Peningkatan >5x vs KV cache berbasis SSD

Penelitian dari akademisi mengkonfirmasi peluang tersebut. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai peningkatan throughput hingga 21,9x dengan meng-offload token page selection ke accelerator dalam memori CXL.[^15]

Ekspansi Memori untuk Training

Beban kerja training mendapat manfaat dari kapasitas memori yang diperluas untuk:

Batch size yang lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
Optimizer state: Optimizer Adam memerlukan 2x parameter untuk momentum/variance

Ekspansi memori CXL memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan pada node tunggal, mengurangi overhead komunikasi.

Beban Kerja Ilmiah dan HPC

Proyek Crete PNNL menggunakan pool CXL untuk berbagi memori throughput tinggi di seluruh node komputasi dalam simulasi ilmiah.[^16] Kasus penggunaan meliputi:

Molecular dynamics dengan neighbor list besar
Graph analytics pada dataset trillion-edge
Database in-memory yang melebihi kapasitas server tunggal

Lanskap Interconnect

CXL vs NVLink vs UALink

Memahami di mana CXL cocok memerlukan pengenalan bahwa teknologi ini melayani tujuan yang berbeda:

Standar	Tujuan Utama	Terbaik Untuk
CXL	Memory coherency + pooling	Ekspansi CPU-memory, shared memory pools
NVLink	Penskalaan GPU-to-GPU	Komunikasi GPU dalam node
UALink	Interconnect accelerator	Alternatif standar terbuka untuk NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10.000+ endpoint

CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per port x16.[^18]

Teknologi saling melengkapi daripada bersaing:

Dalam node GPU: NVLink menghubungkan GPU
Antar node: UALink atau InfiniBand/Ethernet
Ekspansi memori: CXL menambah kapasitas ke CPU dan accelerator
Pool memori fabric-wide: Switch CXL memungkinkan berbagi di seluruh host

Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan training AI 5,3x lebih cepat dan pengurangan latensi inference 6x vs baseline PCIe/RDMA.[^19]

Kerangka Keputusan: Kapan Menggunakan Apa

Skenario	Interconnect yang Direkomendasikan	Alasan
Training multi-GPU dalam server	NVLink	Bandwidth tertinggi, latensi terendah
Pod inference multi-GPU (non-NVIDIA)	UALink	Standar terbuka, bandwidth tinggi
Perluas memori melampaui VRAM	CXL	Cache coherency, latensi mirip DRAM
Cluster GPU multi-rack	InfiniBand atau Ultra Ethernet	Dirancang untuk scale-out
Pool memori bersama di seluruh server	Switch CXL	Memory pooling dengan coherency
Pasar China/terbatas	Pertimbangkan UB-Mesh	Menghindari dependensi IP Barat

Ekosistem CXL: Vendor dan Produk

Memory Expanders

Tiga produsen DRAM utama semua mengirimkan CXL memory expanders:

Vendor	Produk	Kapasitas	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Produksi massal 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Produksi massal akhir 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	Diumumkan[^23]

CMS (Computational Memory Solution) SK Hynix menambahkan kemampuan komputasi langsung di modul memori—implementasi awal processing-near-memory untuk CXL.

Vendor Switch

Switch CXL memungkinkan penggabungan memori di beberapa host:

Vendor	Produk	Generasi	Status	Fitur Utama
XConn	XC50256	CXL 2.0	Shipping	Switch 256-lane, pertama di pasar[^24]
XConn	Apollo	CXL 2.0	Shipping	Demonstrasi memory pooling di SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling Nov 2025	Implementasi PBR pertama[^26]
Astera Labs	Leo	CXL 2.0	Shipping	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Shipping	Memory expansion controller[^28]

CXL 3.2 Fabric Switch Panmnesia mewakili lompatan generasi: silikon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]

Vendor Controller

Controller memori CXL menerjemahkan antara protokol CXL dan DRAM:

Vendor	Peran	Produk Utama
Marvell	Controller	Controller CXL Structera[^30]
Montage	Controller	Chip buffer memori CXL
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	Seri SMC 2000

Structera Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) pada platform Intel dan AMD.[^31]

Panduan Perencanaan Deployment

Timeline

Periode	Generasi CXL	Kemampuan yang Diharapkan	Rekomendasi
Sekarang-Q2 2026	CXL 2.0	Ekspansi memori, pooling dasar	Evaluasi produksi
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K node	Adopsi awal untuk AI
2027+	CXL 4.0	Pooling multi-rack, 1,5 TB/s	Perencanaan dimulai sekarang

ABI Research mengharapkan solusi CXL 3.0/3.1 dengan dukungan software yang cukup untuk adopsi komersial pada 2027.[^32]

Apa yang Perlu Dievaluasi Sekarang

Segera (2025): 1. Uji CXL 2.0 memory expanders pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory pooling

Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

TL;DR

Masalah Memory Wall

Tinjauan Teknis Mendalam CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

Arsitektur Bundled Ports

Fondasi PCIe 7.0

Kapabilitas Multi-Rack Fabric

Kasus Penggunaan CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inference LLM

Ekspansi Memori untuk Training

Beban Kerja Ilmiah dan HPC

Lanskap Interconnect

CXL vs NVLink vs UALink

Kerangka Keputusan: Kapan Menggunakan Apa

Ekosistem CXL: Vendor dan Produk

Memory Expanders

Vendor Switch

Vendor Controller

Panduan Perencanaan Deployment

Timeline

Apa yang Perlu Dievaluasi Sekarang

You Might Also Like

Penjadwalan Beban Kerja AI: Mengoptimalkan Pemanfaatan GPU d...

Operasi Keamanan Infrastruktur AI: Persyaratan SOC untuk Clu...

Pembangunan Infrastruktur AI Senilai $600B: CapEx Hyperscale...

Minta Penawaran_

Permintaan Diterima_