Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

Panduan deployment CXL 4.0 lengkap mencakup bundled ports, multi-rack memory pooling, KV cache offloading, ekosistem vendor, dan timeline perencanaan 2026-2027.

Blake Crosley

Mar 29, 2026 8 min read Disclaimer

Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

13 Desember 2025

Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan memory pooling berbasis CXL dalam infrastruktur AI mereka.

Ringkasan

CXL 4.0 memungkinkan memory pooling dalam skala yang belum pernah ada sebelumnya, memungkinkan workload inferensi AI mengakses 100+ terabyte memori bersama dengan cache coherency di seluruh multiple rack. Bundled ports dalam spesifikasi ini mengagregasi beberapa koneksi fisik menjadi single logical attachment yang memberikan bandwidth 1,5 TB/s. Bagi perencana infrastruktur, keputusan kunci melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (CXL 2.0/3.0 switch sudah tersedia), dan bagaimana CXL melengkapi—bukan menggantikan—NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.

Masalah Memory Wall

Model bahasa besar menghadapi kendala fundamental: kapasitas memori GPU. Workload inferensi AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache berkembang seiring panjang konteks.[^1] Satu permintaan inferensi dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.

Masalah ini semakin intensif dalam skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh linear dengan batch size dan sequence length. GPU VRAM tetap pada 80GB (H100) atau 192GB (B200).[^2]

Solusi tradisional tidak memadai:

Pendekatan	Keterbatasan
Tambah lebih banyak GPU	Peningkatan biaya linear, memori tetap terisolasi per GPU
NVMe offloading	~100 μs latensi, 100x lebih lambat dari DRAM
RDMA-based sharing	Masih 10-20 μs latensi, networking kompleks
Memori GPU lebih besar	Pasokan terbatas, mahal

CXL mengubah persamaan ini dengan memungkinkan memory pooling dengan latensi seperti DRAM (200-500 ns) di seluruh data center.[^3]

Pendalaman Teknis CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

CXL telah matang dengan cepat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:

Generasi	Rilis	Basis PCIe	Kecepatan	Kemajuan Utama
CXL 1.0/1.1	2019/2020	PCIe 5.0	32 GT/s	Basic coherent memory attach
CXL 2.0	2022	PCIe 5.0	32 GT/s	Switching, memory pooling, multi-device
CXL 3.0/3.1	2023/2024	PCIe 6.0	64 GT/s	Fabric support, peer-to-peer, 4.096 node
CXL 4.0	Nov 2025	PCIe 7.0	128 GT/s	Bundled ports, multi-rack, enhanced RAS

CXL 2.0 memperkenalkan konsep dasar memory pooling. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke berbagai host.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.

CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLIT dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.

CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur-fitur kritis untuk deployment AI multi-rack.

Arsitektur Bundled Ports

Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports mengagregasi beberapa physical CXL device ports menjadi satu logical entity.[^6]

Cara kerja bundled ports:

Host dan perangkat Type 1/2 menggabungkan beberapa physical ports
System software melihat satu perangkat meskipun ada beberapa koneksi fisik
Bandwidth diagregasi di seluruh bundled ports
Dioptimalkan untuk 256-byte FLIT mode, menghilangkan legacy overhead

Perhitungan bandwidth:

Konfigurasi	Arah	Bandwidth
Single x16 port @ 128 GT/s	Unidirectional	256 GB/s
Single x16 port @ 128 GT/s	Bidirectional	512 GB/s
3 bundled x16 ports @ 128 GT/s	Unidirectional	768 GB/s
3 bundled x16 ports @ 128 GT/s	Bidirectional	1.536 GB/s

Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s merepresentasikan sekitar 30% dari bandwidth tersebut—cukup untuk banyak use case memory expansion di mana kapasitas lebih penting daripada peak bandwidth.

Fondasi PCIe 7.0

CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]

128 GT/s transfer rate: Dua kali lipat dari 64 GT/s PCIe 6.0
PAM4 signaling: Skema encoding yang sama seperti PCIe 6.0
Improved FEC: Forward error correction untuk integritas sinyal
Optical support: Memungkinkan koneksi jangkauan lebih jauh

Spesifikasi ini mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan untuk latensi pada operasi time-sensitive.[^9]

Kapabilitas Multi-Rack Fabric

CXL 4.0 memperluas jangkauan melalui dua mekanisme:

Empat retimer didukung: Generasi sebelumnya mengizinkan dua retimer. Empat retimer memungkinkan koneksi fisik lebih panjang yang membentang di beberapa rack tanpa degradasi sinyal.[^10]

Native x2 width: Sebelumnya merupakan degraded fallback mode, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out lebih tinggi di mana banyak koneksi bandwidth lebih rendah melayani lebih banyak endpoint.[^11]

Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kapabilitas yang secara eksplisit ditargetkan oleh CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]

Use Case CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inferensi LLM

Use case dampak tertinggi dalam jangka pendek: offloading KV cache dari GPU VRAM ke memori yang terhubung CXL.

Masalahnya: Inferensi LLM dengan konteks panjang menghasilkan KV cache yang masif. Model 70B parameter dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau multiple GPU.

Solusi CXL: Simpan KV cache di pooled CXL memory sambil menyimpan hot layers di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]

Dua GPU H100 (masing-masing 80GB) menjalankan OPT-6.7B
KV cache di-offload ke shared CXL memory pool
3,8x speedup vs 200G RDMA
6,5x speedup vs 100G RDMA
>5x improvement vs SSD-based KV cache

Penelitian dari akademisi mengkonfirmasi peluang ini. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai hingga 21,9x throughput improvement dengan melakukan offload token page selection ke accelerator dalam CXL memory.[^15]

Memory Expansion untuk Training

Workload training mendapat manfaat dari kapasitas memori yang diperluas untuk:

Batch size lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
Optimizer state: Adam optimizer memerlukan 2x parameter untuk momentum/variance

CXL memory expansion memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan di single node, mengurangi overhead komunikasi.

Workload Scientific dan HPC

Proyek Crete dari PNNL menggunakan CXL pools untuk high-throughput memory sharing di seluruh compute nodes dalam simulasi ilmiah.[^16] Use case meliputi:

Molecular dynamics dengan large neighbor lists
Graph analytics pada dataset trillion-edge
In-memory databases yang melebihi kapasitas single-server

Lanskap Interconnect

CXL vs NVLink vs UALink

Memahami posisi CXL memerlukan pengakuan bahwa teknologi-teknologi ini melayani tujuan berbeda:

Standar	Tujuan Utama	Terbaik Untuk
CXL	Memory coherency + pooling	CPU-memory expansion, shared memory pools
NVLink	GPU-to-GPU scaling	Komunikasi GPU dalam node
UALink	Accelerator interconnect	Alternatif open standard untuk NVLink
Ultra Ethernet	Scale-out networking	Multi-rack, 10.000+ endpoint

CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per x16 port.[^18]

Teknologi-teknologi ini saling melengkapi, bukan bersaing:

Dalam GPU node: NVLink menghubungkan GPU
Antar node: UALink atau InfiniBand/Ethernet
Memory expansion: CXL menambah kapasitas ke CPU dan accelerator
Fabric-wide memory pools: CXL switch memungkinkan sharing di seluruh host

Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan 5,3x training AI lebih cepat dan 6x pengurangan latensi inferensi vs baseline PCIe/RDMA.[^19]

Kerangka Keputusan: Kapan Menggunakan Apa

Skenario	Interconnect yang Direkomendasikan	Alasan
Multi-GPU training dalam server	NVLink	Bandwidth tertinggi, latensi terendah
Multi-GPU inference pod (non-NVIDIA)	UALink	Open standard, bandwidth tinggi
Expand memory di luar VRAM	CXL	Cache coherency, latensi seperti DRAM
Multi-rack GPU cluster	InfiniBand atau Ultra Ethernet	Dirancang untuk scale-out
Shared memory pool di seluruh server	CXL switch	Memory pooling dengan coherency
China/pasar terbatas	Pertimbangkan UB-Mesh	Menghindari ketergantungan IP Barat

Ekosistem CXL: Vendor dan Produk

Memory Expander

Tiga produsen DRAM utama semuanya memproduksi CXL memory expander:

Vendor	Produk	Kapasitas	Interface	Status
Samsung	CMM-D	256 GB	CXL 2.0	Produksi massal 2025[^20]
SK Hynix	CMM-DDR5	128 GB	CXL 2.0	Produksi massal akhir 2024[^21]
Micron	CZ120	256 GB	CXL 2.0	Sampling[^22]
SK Hynix	CMS	512 GB	CXL (compute-enabled)	Diumumkan[^23]

CMS (Computational Memory Solution) dari SK Hynix menambahkan kapabilitas komputasi langsung dalam modul memori—implementasi awal processing-near-memory untuk CXL.

Vendor Switch

CXL switch memungkinkan memory pooling di seluruh multiple host:

Vendor	Produk	Generasi	Status	Fitur Utama
XConn	XC50256	CXL 2.0	Tersedia	256-lane switch, pertama ke pasar[^24]
XConn	Apollo	CXL 2.0	Tersedia	Demonstrasi memory pooling di SC25[^25]
Panmnesia	Fabric Switch	CXL 3.2	Sampling Nov 2025	Implementasi PBR pertama[^26]
Astera Labs	Leo	CXL 2.0	Tersedia	Smart memory controller[^27]
Microchip	SMC 2000	CXL 2.0	Tersedia	Memory expansion controller[^28]

CXL 3.2 Fabric Switch dari Panmnesia merepresentasikan lompatan generasi: silicon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]

Vendor Controller

CXL memory controller menerjemahkan antara protokol CXL dan DRAM:

Vendor	Peran	Produk Utama
Marvell	Controller	Structera CXL controllers[^30]
Montage	Controller	CXL memory buffer chips
Astera Labs	Controller	Leo smart memory controller
Microchip	Controller	SMC 2000 series

Structera dari Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) di platform Intel dan AMD.[^31]

Panduan Perencanaan Deployment

Timeline

Periode	Generasi CXL	Kapabilitas yang Diharapkan	Rekomendasi
Sekarang-Q2 2026	CXL 2.0	Memory expansion, basic pooling	Evaluasi produksi
Q3 2026-Q4 2026	CXL 3.0/3.1	Fabric, peer-to-peer, 4K node	Adopsi awal untuk AI
2027+	CXL 4.0	Multi-rack pooling, 1,5 TB/s	Perencanaan dimulai sekarang

ABI Research memperkirakan solusi CXL 3.0/3.1 dengan dukungan software yang memadai untuk adopsi komersial pada 2027.[^32]

Yang Perlu Dievaluasi Sekarang

Segera (2025): 1. Uji CXL 2.0 memory expander pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory p

[Konten terpotong untuk terjemahan]

Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

Ringkasan

Masalah Memory Wall

Pendalaman Teknis CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

Arsitektur Bundled Ports

Fondasi PCIe 7.0

Kapabilitas Multi-Rack Fabric

Use Case CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inferensi LLM

Memory Expansion untuk Training

Workload Scientific dan HPC

Lanskap Interconnect

CXL vs NVLink vs UALink

Kerangka Keputusan: Kapan Menggunakan Apa

Ekosistem CXL: Vendor dan Produk

Memory Expander

Vendor Switch

Vendor Controller

Panduan Perencanaan Deployment

Timeline

Yang Perlu Dievaluasi Sekarang

You Might Also Like

Ledakan Infrastruktur AI Senilai $27 Miliar di Singapura: Pe...

Malaysia dan Thailand: Pusat Data Center AI yang Berkembang ...

Backup dan Recovery untuk AI: Melindungi Data Training Skala...

Minta Penawaran_

Permintaan Diterima_