Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

Panduan implementasi CXL 4.0 lengkap yang mencakup bundled ports, penggabungan memori multi-rack, offloading KV cache, ekosistem vendor, dan timeline perencanaan 2026-2027.

Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

Panduan Perencanaan Infrastruktur CXL 4.0: Penggabungan Memori untuk AI Skala Besar

13 Desember 2025

Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan penggabungan memori berbasis CXL dalam infrastruktur AI mereka.


TL;DR

CXL 4.0 memungkinkan penggabungan memori pada skala yang belum pernah ada sebelumnya, memungkinkan beban kerja inference AI mengakses lebih dari 100 terabyte memori bersama dengan cache coherency di beberapa rack. Bundled ports dari spesifikasi ini menggabungkan beberapa koneksi fisik menjadi satu attachment logis yang memberikan bandwidth 1,5 TB/s. Untuk perencana infrastruktur, keputusan utama melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (switch CXL 2.0/3.0 yang sudah tersedia), dan bagaimana CXL melengkapi daripada menggantikan NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.


Masalah Memory Wall

Large language models menghadapi kendala fundamental: kapasitas memori GPU. Beban kerja inference AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache tumbuh seiring dengan panjang konteks.[^1] Satu permintaan inference dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.

Masalah ini semakin intensif pada skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh secara linear dengan ukuran batch dan panjang sequence. GPU VRAM tetap terbatas pada 80GB (H100) atau 192GB (B200).[^2]

Solusi tradisional tidak mencukupi:

Pendekatan Keterbatasan
Menambah lebih banyak GPU Peningkatan biaya linear, memori masih terisolasi per GPU
NVMe offloading ~100 μs latensi, 100x lebih lambat dari DRAM
RDMA-based sharing Masih 10-20 μs latensi, networking yang kompleks
Memori GPU yang lebih besar Supply terbatas, mahal

CXL mengubah persamaan ini dengan memungkinkan penggabungan memori dengan latensi mirip DRAM (200-500 ns) di seluruh data center.[^3]


Tinjauan Teknis Mendalam CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

CXL telah berkembang pesat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:

Generasi Rilis Basis PCIe Kecepatan Kemajuan Utama
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Coherent memory attach dasar
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Dukungan fabric, peer-to-peer, 4.096 node
CXL 4.0 Nov 2025 PCIe 7.0 128 GT/s Bundled ports, multi-rack, RAS yang ditingkatkan

CXL 2.0 memperkenalkan konsep dasar penggabungan memori. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke host yang berbeda.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.

CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLITs dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.

CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur yang kritis untuk deployment AI multi-rack.

Arsitektur Bundled Ports

Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports menggabungkan beberapa port perangkat CXL fisik menjadi satu entitas logis.[^6]

Cara kerja bundled ports:

  1. Host dan perangkat Type 1/2 menggabungkan beberapa port fisik
  2. Software sistem melihat perangkat tunggal meskipun ada beberapa koneksi fisik
  3. Bandwidth teragregasi di semua bundled ports
  4. Dioptimalkan untuk mode 256-byte FLIT, menghilangkan overhead legacy

Perhitungan bandwidth:

Konfigurasi Arah Bandwidth
Single x16 port @ 128 GT/s Unidirectional 256 GB/s
Single x16 port @ 128 GT/s Bidirectional 512 GB/s
3 bundled x16 ports @ 128 GT/s Unidirectional 768 GB/s
3 bundled x16 ports @ 128 GT/s Bidirectional 1.536 GB/s

Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s mewakili sekitar 30% dari bandwidth tersebut—cukup untuk banyak kasus penggunaan ekspansi memori di mana kapasitas lebih penting daripada bandwidth puncak.

Fondasi PCIe 7.0

CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]

  • Transfer rate 128 GT/s: Dua kali lipat dari 64 GT/s PCIe 6.0
  • Sinyal PAM4: Skema encoding yang sama dengan PCIe 6.0
  • FEC yang ditingkatkan: Forward error correction untuk integritas sinyal
  • Dukungan optik: Memungkinkan koneksi jangkauan lebih jauh

Spesifikasi mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan latensi untuk operasi time-sensitive.[^9]

Kapabilitas Multi-Rack Fabric

CXL 4.0 memperpanjang jangkauan melalui dua mekanisme:

Empat retimer didukung: Generasi sebelumnya memungkinkan dua retimer. Empat retimer memungkinkan koneksi fisik yang lebih panjang melintasi beberapa rack tanpa degradasi sinyal.[^10]

Native x2 width: Sebelumnya mode fallback yang terdegradasi, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out yang lebih tinggi di mana banyak koneksi bandwidth rendah melayani lebih banyak endpoint.[^11]

Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kemampuan yang secara eksplisit ditargetkan CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]


Kasus Penggunaan CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inference LLM

Kasus penggunaan jangka pendek dengan dampak tertinggi: offloading KV cache dari GPU VRAM ke memori yang terpasang CXL.

Masalah: Inference LLM dengan konteks panjang menghasilkan KV cache yang masif. Model parameter 70B dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau beberapa GPU.

Solusi CXL: Simpan KV cache dalam pool memori CXL bersama sambil menjaga layer hot di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]

  • Dua GPU H100 (80GB masing-masing) menjalankan OPT-6.7B
  • KV cache di-offload ke shared CXL memory pool
  • Speedup 3,8x vs 200G RDMA
  • Speedup 6,5x vs 100G RDMA
  • Peningkatan >5x vs KV cache berbasis SSD

Penelitian dari akademisi mengkonfirmasi peluang tersebut. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai peningkatan throughput hingga 21,9x dengan meng-offload token page selection ke accelerator dalam memori CXL.[^15]

Ekspansi Memori untuk Training

Beban kerja training mendapat manfaat dari kapasitas memori yang diperluas untuk:

  • Batch size yang lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
  • Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
  • Optimizer state: Optimizer Adam memerlukan 2x parameter untuk momentum/variance

Ekspansi memori CXL memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan pada node tunggal, mengurangi overhead komunikasi.

Beban Kerja Ilmiah dan HPC

Proyek Crete PNNL menggunakan pool CXL untuk berbagi memori throughput tinggi di seluruh node komputasi dalam simulasi ilmiah.[^16] Kasus penggunaan meliputi:

  • Molecular dynamics dengan neighbor list besar
  • Graph analytics pada dataset trillion-edge
  • Database in-memory yang melebihi kapasitas server tunggal

Lanskap Interconnect

Memahami di mana CXL cocok memerlukan pengenalan bahwa teknologi ini melayani tujuan yang berbeda:

Standar Tujuan Utama Terbaik Untuk
CXL Memory coherency + pooling Ekspansi CPU-memory, shared memory pools
NVLink Penskalaan GPU-to-GPU Komunikasi GPU dalam node
UALink Interconnect accelerator Alternatif standar terbuka untuk NVLink
Ultra Ethernet Scale-out networking Multi-rack, 10.000+ endpoint

CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per port x16.[^18]

Teknologi saling melengkapi daripada bersaing:

  • Dalam node GPU: NVLink menghubungkan GPU
  • Antar node: UALink atau InfiniBand/Ethernet
  • Ekspansi memori: CXL menambah kapasitas ke CPU dan accelerator
  • Pool memori fabric-wide: Switch CXL memungkinkan berbagi di seluruh host

Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan training AI 5,3x lebih cepat dan pengurangan latensi inference 6x vs baseline PCIe/RDMA.[^19]

Kerangka Keputusan: Kapan Menggunakan Apa

Skenario Interconnect yang Direkomendasikan Alasan
Training multi-GPU dalam server NVLink Bandwidth tertinggi, latensi terendah
Pod inference multi-GPU (non-NVIDIA) UALink Standar terbuka, bandwidth tinggi
Perluas memori melampaui VRAM CXL Cache coherency, latensi mirip DRAM
Cluster GPU multi-rack InfiniBand atau Ultra Ethernet Dirancang untuk scale-out
Pool memori bersama di seluruh server Switch CXL Memory pooling dengan coherency
Pasar China/terbatas Pertimbangkan UB-Mesh Menghindari dependensi IP Barat

Ekosistem CXL: Vendor dan Produk

Memory Expanders

Tiga produsen DRAM utama semua mengirimkan CXL memory expanders:

Vendor Produk Kapasitas Interface Status
Samsung CMM-D 256 GB CXL 2.0 Produksi massal 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Produksi massal akhir 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) Diumumkan[^23]

CMS (Computational Memory Solution) SK Hynix menambahkan kemampuan komputasi langsung di modul memori—implementasi awal processing-near-memory untuk CXL.

Vendor Switch

Switch CXL memungkinkan penggabungan memori di beberapa host:

Vendor Produk Generasi Status Fitur Utama
XConn XC50256 CXL 2.0 Shipping Switch 256-lane, pertama di pasar[^24]
XConn Apollo CXL 2.0 Shipping Demonstrasi memory pooling di SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling Nov 2025 Implementasi PBR pertama[^26]
Astera Labs Leo CXL 2.0 Shipping Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 Shipping Memory expansion controller[^28]

CXL 3.2 Fabric Switch Panmnesia mewakili lompatan generasi: silikon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]

Vendor Controller

Controller memori CXL menerjemahkan antara protokol CXL dan DRAM:

Vendor Peran Produk Utama
Marvell Controller Controller CXL Structera[^30]
Montage Controller Chip buffer memori CXL
Astera Labs Controller Leo smart memory controller
Microchip Controller Seri SMC 2000

Structera Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) pada platform Intel dan AMD.[^31]


Panduan Perencanaan Deployment

Timeline

Periode Generasi CXL Kemampuan yang Diharapkan Rekomendasi
Sekarang-Q2 2026 CXL 2.0 Ekspansi memori, pooling dasar Evaluasi produksi
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K node Adopsi awal untuk AI
2027+ CXL 4.0 Pooling multi-rack, 1,5 TB/s Perencanaan dimulai sekarang

ABI Research mengharapkan solusi CXL 3.0/3.1 dengan dukungan software yang cukup untuk adopsi komersial pada 2027.[^32]

Apa yang Perlu Dievaluasi Sekarang

Segera (2025): 1. Uji CXL 2.0 memory expanders pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory pooling

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING