Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

Panduan deployment CXL 4.0 lengkap mencakup bundled ports, multi-rack memory pooling, KV cache offloading, ekosistem vendor, dan timeline perencanaan 2026-2027.

Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

Panduan Perencanaan Infrastruktur CXL 4.0: Memory Pooling untuk AI Skala Besar

13 Desember 2025

Update Desember 2025: CXL Consortium merilis CXL 4.0 pada 18 November 2025, menggandakan bandwidth menjadi 128 GT/s melalui PCIe 7.0 dan memperkenalkan bundled ports untuk koneksi 1,5 TB/s. Panduan ini membahas perencanaan deployment untuk organisasi yang bersiap mengimplementasikan memory pooling berbasis CXL dalam infrastruktur AI mereka.


Ringkasan

CXL 4.0 memungkinkan memory pooling dalam skala yang belum pernah ada sebelumnya, memungkinkan workload inferensi AI mengakses 100+ terabyte memori bersama dengan cache coherency di seluruh multiple rack. Bundled ports dalam spesifikasi ini mengagregasi beberapa koneksi fisik menjadi single logical attachment yang memberikan bandwidth 1,5 TB/s. Bagi perencana infrastruktur, keputusan kunci melibatkan pemahaman kapan mengadopsi CXL (2026-2027 untuk produksi), produk mana yang perlu dievaluasi sekarang (CXL 2.0/3.0 switch sudah tersedia), dan bagaimana CXL melengkapi—bukan menggantikan—NVLink dan UALink. Panduan ini menyediakan kedalaman teknis dan kerangka keputusan yang diperlukan untuk merencanakan deployment CXL.


Masalah Memory Wall

Model bahasa besar menghadapi kendala fundamental: kapasitas memori GPU. Workload inferensi AI modern secara rutin melebihi 80-120 GB per GPU, dan key-value (KV) cache berkembang seiring panjang konteks.[^1] Satu permintaan inferensi dengan context window 128K dapat mengonsumsi puluhan gigabyte hanya untuk penyimpanan KV cache.

Masalah ini semakin intensif dalam skala besar. Model weights untuk frontier LLM mengonsumsi ratusan gigabyte. Kebutuhan KV cache tumbuh linear dengan batch size dan sequence length. GPU VRAM tetap pada 80GB (H100) atau 192GB (B200).[^2]

Solusi tradisional tidak memadai:

Pendekatan Keterbatasan
Tambah lebih banyak GPU Peningkatan biaya linear, memori tetap terisolasi per GPU
NVMe offloading ~100 μs latensi, 100x lebih lambat dari DRAM
RDMA-based sharing Masih 10-20 μs latensi, networking kompleks
Memori GPU lebih besar Pasokan terbatas, mahal

CXL mengubah persamaan ini dengan memungkinkan memory pooling dengan latensi seperti DRAM (200-500 ns) di seluruh data center.[^3]


Pendalaman Teknis CXL 4.0

Evolusi dari CXL 1.0 ke 4.0

CXL telah matang dengan cepat sejak diperkenalkan pada 2019. Setiap generasi memperluas kapabilitas:

Generasi Rilis Basis PCIe Kecepatan Kemajuan Utama
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s Basic coherent memory attach
CXL 2.0 2022 PCIe 5.0 32 GT/s Switching, memory pooling, multi-device
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s Fabric support, peer-to-peer, 4.096 node
CXL 4.0 Nov 2025 PCIe 7.0 128 GT/s Bundled ports, multi-rack, enhanced RAS

CXL 2.0 memperkenalkan konsep dasar memory pooling. Beberapa perangkat memori Type 3 terhubung ke switch, membentuk pool bersama dari mana switch secara dinamis mengalokasikan sumber daya ke berbagai host.[^4] Ini memungkinkan peningkatan utilisasi memori dari tipikal 50-60% menjadi 85%+ di seluruh cluster.

CXL 3.0 menambahkan kapabilitas fabric yang mendukung multi-level switching dan hingga 4.096 node dengan port-based routing (PBR).[^5] Perpindahan ke 256-byte FLIT dan 64 GT/s PCIe 6.0 menggandakan bandwidth yang tersedia.

CXL 4.0 menggandakan bandwidth lagi sambil memperkenalkan fitur-fitur kritis untuk deployment AI multi-rack.

Arsitektur Bundled Ports

Fitur paling signifikan CXL 4.0 untuk high-performance computing: bundled ports mengagregasi beberapa physical CXL device ports menjadi satu logical entity.[^6]

Cara kerja bundled ports:

  1. Host dan perangkat Type 1/2 menggabungkan beberapa physical ports
  2. System software melihat satu perangkat meskipun ada beberapa koneksi fisik
  3. Bandwidth diagregasi di seluruh bundled ports
  4. Dioptimalkan untuk 256-byte FLIT mode, menghilangkan legacy overhead

Perhitungan bandwidth:

Konfigurasi Arah Bandwidth
Single x16 port @ 128 GT/s Unidirectional 256 GB/s
Single x16 port @ 128 GT/s Bidirectional 512 GB/s
3 bundled x16 ports @ 128 GT/s Unidirectional 768 GB/s
3 bundled x16 ports @ 128 GT/s Bidirectional 1.536 GB/s

Sebagai konteks, memori HBM3e pada H200 memberikan bandwidth 4,8 TB/s.[^7] Koneksi bundled CXL 4.0 pada 1,5 TB/s merepresentasikan sekitar 30% dari bandwidth tersebut—cukup untuk banyak use case memory expansion di mana kapasitas lebih penting daripada peak bandwidth.

Fondasi PCIe 7.0

CXL 4.0 dibangun di atas peningkatan physical layer PCIe 7.0:[^8]

  • 128 GT/s transfer rate: Dua kali lipat dari 64 GT/s PCIe 6.0
  • PAM4 signaling: Skema encoding yang sama seperti PCIe 6.0
  • Improved FEC: Forward error correction untuk integritas sinyal
  • Optical support: Memungkinkan koneksi jangkauan lebih jauh

Spesifikasi ini mempertahankan format 256-byte FLIT dari CXL 3.x sambil menambahkan varian yang dioptimalkan untuk latensi pada operasi time-sensitive.[^9]

Kapabilitas Multi-Rack Fabric

CXL 4.0 memperluas jangkauan melalui dua mekanisme:

Empat retimer didukung: Generasi sebelumnya mengizinkan dua retimer. Empat retimer memungkinkan koneksi fisik lebih panjang yang membentang di beberapa rack tanpa degradasi sinyal.[^10]

Native x2 width: Sebelumnya merupakan degraded fallback mode, link x2 sekarang beroperasi pada performa penuh. Ini memungkinkan konfigurasi fan-out lebih tinggi di mana banyak koneksi bandwidth lebih rendah melayani lebih banyak endpoint.[^11]

Fitur-fitur ini bergabung untuk memungkinkan "multi-rack memory pooling"—kapabilitas yang secara eksplisit ditargetkan oleh CXL Consortium untuk deployment produksi akhir 2026-2027.[^12]


Use Case CXL untuk Infrastruktur AI

KV Cache Offloading untuk Inferensi LLM

Use case dampak tertinggi dalam jangka pendek: offloading KV cache dari GPU VRAM ke memori yang terhubung CXL.

Masalahnya: Inferensi LLM dengan konteks panjang menghasilkan KV cache yang masif. Model 70B parameter dengan konteks 128K dan batch size 32 dapat memerlukan 150+ GB hanya untuk KV cache.[^13] Ini melebihi VRAM H100, memaksa pengurangan batch size yang mahal atau multiple GPU.

Solusi CXL: Simpan KV cache di pooled CXL memory sambil menyimpan hot layers di GPU VRAM. XConn dan MemVerge mendemonstrasikan ini di SC25 dan OCP 2025:[^14]

  • Dua GPU H100 (masing-masing 80GB) menjalankan OPT-6.7B
  • KV cache di-offload ke shared CXL memory pool
  • 3,8x speedup vs 200G RDMA
  • 6,5x speedup vs 100G RDMA
  • >5x improvement vs SSD-based KV cache

Penelitian dari akademisi mengkonfirmasi peluang ini. PNM-KV (Processing-Near-Memory untuk KV cache) mencapai hingga 21,9x throughput improvement dengan melakukan offload token page selection ke accelerator dalam CXL memory.[^15]

Memory Expansion untuk Training

Workload training mendapat manfaat dari kapasitas memori yang diperluas untuk:

  • Batch size lebih besar: Lebih banyak sampel per iterasi tanpa gradient accumulation
  • Pengurangan activation checkpointing: Simpan lebih banyak aktivasi di memori vs rekomputasi
  • Optimizer state: Adam optimizer memerlukan 2x parameter untuk momentum/variance

CXL memory expansion memungkinkan konfigurasi training yang sebelumnya memerlukan distribusi multi-node untuk berjalan di single node, mengurangi overhead komunikasi.

Workload Scientific dan HPC

Proyek Crete dari PNNL menggunakan CXL pools untuk high-throughput memory sharing di seluruh compute nodes dalam simulasi ilmiah.[^16] Use case meliputi:

  • Molecular dynamics dengan large neighbor lists
  • Graph analytics pada dataset trillion-edge
  • In-memory databases yang melebihi kapasitas single-server

Lanskap Interconnect

Memahami posisi CXL memerlukan pengakuan bahwa teknologi-teknologi ini melayani tujuan berbeda:

Standar Tujuan Utama Terbaik Untuk
CXL Memory coherency + pooling CPU-memory expansion, shared memory pools
NVLink GPU-to-GPU scaling Komunikasi GPU dalam node
UALink Accelerator interconnect Alternatif open standard untuk NVLink
Ultra Ethernet Scale-out networking Multi-rack, 10.000+ endpoint

CXL berjalan pada PCIe SerDes: error rate lebih rendah, latensi lebih rendah, tetapi bandwidth lebih rendah dari Ethernet-style SerDes NVLink/UALink.[^17] NVLink 5 memberikan 1,8 TB/s per GPU—jauh melebihi 512 GB/s CXL 4.0 per x16 port.[^18]

Teknologi-teknologi ini saling melengkapi, bukan bersaing:

  • Dalam GPU node: NVLink menghubungkan GPU
  • Antar node: UALink atau InfiniBand/Ethernet
  • Memory expansion: CXL menambah kapasitas ke CPU dan accelerator
  • Fabric-wide memory pools: CXL switch memungkinkan sharing di seluruh host

Panmnesia mengusulkan arsitektur "CXL-over-XLink" yang mengintegrasikan ketiganya, melaporkan 5,3x training AI lebih cepat dan 6x pengurangan latensi inferensi vs baseline PCIe/RDMA.[^19]

Kerangka Keputusan: Kapan Menggunakan Apa

Skenario Interconnect yang Direkomendasikan Alasan
Multi-GPU training dalam server NVLink Bandwidth tertinggi, latensi terendah
Multi-GPU inference pod (non-NVIDIA) UALink Open standard, bandwidth tinggi
Expand memory di luar VRAM CXL Cache coherency, latensi seperti DRAM
Multi-rack GPU cluster InfiniBand atau Ultra Ethernet Dirancang untuk scale-out
Shared memory pool di seluruh server CXL switch Memory pooling dengan coherency
China/pasar terbatas Pertimbangkan UB-Mesh Menghindari ketergantungan IP Barat

Ekosistem CXL: Vendor dan Produk

Memory Expander

Tiga produsen DRAM utama semuanya memproduksi CXL memory expander:

Vendor Produk Kapasitas Interface Status
Samsung CMM-D 256 GB CXL 2.0 Produksi massal 2025[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 Produksi massal akhir 2024[^21]
Micron CZ120 256 GB CXL 2.0 Sampling[^22]
SK Hynix CMS 512 GB CXL (compute-enabled) Diumumkan[^23]

CMS (Computational Memory Solution) dari SK Hynix menambahkan kapabilitas komputasi langsung dalam modul memori—implementasi awal processing-near-memory untuk CXL.

Vendor Switch

CXL switch memungkinkan memory pooling di seluruh multiple host:

Vendor Produk Generasi Status Fitur Utama
XConn XC50256 CXL 2.0 Tersedia 256-lane switch, pertama ke pasar[^24]
XConn Apollo CXL 2.0 Tersedia Demonstrasi memory pooling di SC25[^25]
Panmnesia Fabric Switch CXL 3.2 Sampling Nov 2025 Implementasi PBR pertama[^26]
Astera Labs Leo CXL 2.0 Tersedia Smart memory controller[^27]
Microchip SMC 2000 CXL 2.0 Tersedia Memory expansion controller[^28]

CXL 3.2 Fabric Switch dari Panmnesia merepresentasikan lompatan generasi: silicon pertama yang mengimplementasikan port-based routing untuk arsitektur fabric sejati dengan hingga 4.096 node.[^29]

Vendor Controller

CXL memory controller menerjemahkan antara protokol CXL dan DRAM:

Vendor Peran Produk Utama
Marvell Controller Structera CXL controllers[^30]
Montage Controller CXL memory buffer chips
Astera Labs Controller Leo smart memory controller
Microchip Controller SMC 2000 series

Structera dari Marvell menyelesaikan pengujian interoperabilitas dengan ketiga pemasok memori utama (Samsung, Micron, SK Hynix) di platform Intel dan AMD.[^31]


Panduan Perencanaan Deployment

Timeline

Periode Generasi CXL Kapabilitas yang Diharapkan Rekomendasi
Sekarang-Q2 2026 CXL 2.0 Memory expansion, basic pooling Evaluasi produksi
Q3 2026-Q4 2026 CXL 3.0/3.1 Fabric, peer-to-peer, 4K node Adopsi awal untuk AI
2027+ CXL 4.0 Multi-rack pooling, 1,5 TB/s Perencanaan dimulai sekarang

ABI Research memperkirakan solusi CXL 3.0/3.1 dengan dukungan software yang memadai untuk adopsi komersial pada 2027.[^32]

Yang Perlu Dievaluasi Sekarang

Segera (2025): 1. Uji CXL 2.0 memory expander pada server Intel Sapphire Rapids atau AMD EPYC Genoa yang ada 2. Evaluasi switch XConn atau Astera Labs untuk memory p

[Konten terpotong untuk terjemahan]

Minta Penawaran_

Ceritakan tentang proyek Anda dan kami akan merespons dalam 72 jam.

> TRANSMISSION_COMPLETE

Permintaan Diterima_

Terima kasih atas pertanyaan Anda. Tim kami akan meninjau permintaan Anda dan merespons dalam 72 jam.

QUEUED FOR PROCESSING