CXL 4.0 인프라 계획 가이드: AI 스케일을 위한 메모리 풀링

번들 포트, 멀티 랙 메모리 풀링, KV 캐시 오프로딩, 벤더 생태계, 2026-2027 계획 타임라인을 다루는 완벽한 CXL 4.0 배포 가이드입니다.

CXL 4.0 인프라 계획 가이드: AI 스케일을 위한 메모리 풀링

CXL 4.0 인프라 계획 가이드: AI 스케일을 위한 메모리 풀링

2025년 12월 13일

2025년 12월 업데이트: CXL 컨소시엄은 2025년 11월 18일 CXL 4.0을 발표했으며, PCIe 7.0을 통해 대역폭을 128 GT/s로 두 배 증가시키고 1.5 TB/s 연결을 위한 번들 포트를 도입했습니다. 이 가이드는 AI 인프라에 CXL 기반 메모리 풀링 구현을 준비하는 조직을 위한 배포 계획을 다룹니다.


요약

CXL 4.0은 전례 없는 규모의 메모리 풀링을 가능하게 하여, AI 추론 워크로드가 여러 랙에 걸쳐 캐시 일관성을 유지하면서 100+ 테라바이트의 공유 메모리에 접근할 수 있게 합니다. 이 사양의 번들 포트는 여러 물리적 연결을 1.5 TB/s 대역폭을 제공하는 단일 논리적 연결로 통합합니다. 인프라 계획자에게 핵심 결정 사항은 CXL 도입 시기(프로덕션용 2026-2027), 현재 평가할 제품(CXL 2.0/3.0 스위치 출하 중), 그리고 CXL이 NVLink 및 UALink를 대체하기보다 보완하는 방식을 이해하는 것입니다. 이 가이드는 CXL 배포 계획에 필요한 기술적 깊이와 의사결정 프레임워크를 제공합니다.


메모리 장벽 문제

대규모 언어 모델은 근본적인 제약에 직면합니다: GPU 메모리 용량입니다. 현대 AI 추론 워크로드는 일상적으로 GPU당 80-120 GB를 초과하며, KV(key-value) 캐시는 컨텍스트 길이에 따라 증가합니다.[^1] 128K 컨텍스트 윈도우를 가진 단일 추론 요청은 KV 캐시 저장만으로 수십 기가바이트를 소비할 수 있습니다.

이 문제는 규모가 커질수록 심화됩니다. 프론티어 LLM의 모델 가중치는 수백 기가바이트를 소비합니다. KV 캐시 요구사항은 배치 크기와 시퀀스 길이 모두에 따라 선형적으로 증가합니다. GPU VRAM은 80GB(H100) 또는 192GB(B200)로 고정되어 있습니다.[^2]

기존 솔루션들은 부족합니다:

접근 방식 한계
GPU 추가 선형적 비용 증가, 메모리는 여전히 GPU당 격리됨
NVMe 오프로딩 ~100 μs 지연시간, DRAM보다 100배 느림
RDMA 기반 공유 여전히 10-20 μs 지연시간, 복잡한 네트워킹
더 큰 GPU 메모리 공급 제한, 고가

CXL은 데이터센터 전반에 걸쳐 DRAM 수준의 지연시간(200-500 ns)으로 메모리 풀링을 가능하게 하여 이 방정식을 변화시킵니다.[^3]


CXL 4.0 기술 심층 분석

CXL 1.0에서 4.0으로의 진화

CXL은 2019년 도입 이후 빠르게 성숙했습니다. 각 세대는 기능을 확장했습니다:

세대 출시 PCIe 기반 속도 주요 발전
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s 기본 일관성 메모리 연결
CXL 2.0 2022 PCIe 5.0 32 GT/s 스위칭, 메모리 풀링, 다중 디바이스
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s 패브릭 지원, 피어투피어, 4,096 노드
CXL 4.0 2025년 11월 PCIe 7.0 128 GT/s 번들 포트, 멀티 랙, 향상된 RAS

CXL 2.0은 메모리 풀링의 기초 개념을 도입했습니다. 여러 Type 3 메모리 디바이스가 스위치에 연결되어 공유 풀을 형성하고, 스위치가 다른 호스트에 리소스를 동적으로 할당합니다.[^4] 이를 통해 클러스터 전반의 메모리 활용률을 일반적인 50-60%에서 85% 이상으로 개선할 수 있습니다.

CXL 3.0은 포트 기반 라우팅(PBR)을 통해 다중 레벨 스위칭과 최대 4,096 노드를 지원하는 패브릭 기능을 추가했습니다.[^5] 256바이트 FLIT로의 전환과 PCIe 6.0의 64 GT/s는 사용 가능한 대역폭을 두 배로 늘렸습니다.

CXL 4.0은 대역폭을 다시 두 배로 늘리면서 멀티 랙 AI 배포에 중요한 기능을 도입합니다.

번들 포트 아키텍처

CXL 4.0의 고성능 컴퓨팅을 위한 가장 중요한 기능: 번들 포트는 여러 물리적 CXL 디바이스 포트를 단일 논리적 엔티티로 통합합니다.[^6]

번들 포트 작동 방식:

  1. 호스트와 Type 1/2 디바이스가 여러 물리적 포트를 결합
  2. 시스템 소프트웨어는 여러 물리적 연결에도 불구하고 단일 디바이스로 인식
  3. 대역폭이 모든 번들 포트에 걸쳐 집계됨
  4. 256바이트 FLIT 모드에 최적화되어 레거시 오버헤드 제거

대역폭 계산:

구성 방향 대역폭
단일 x16 포트 @ 128 GT/s 단방향 256 GB/s
단일 x16 포트 @ 128 GT/s 양방향 512 GB/s
3개 번들 x16 포트 @ 128 GT/s 단방향 768 GB/s
3개 번들 x16 포트 @ 128 GT/s 양방향 1,536 GB/s

참고로, H200의 HBM3e 메모리는 4.8 TB/s 대역폭을 제공합니다.[^7] 1.5 TB/s의 번들 CXL 4.0 연결은 해당 대역폭의 약 30%를 나타내며, 이는 피크 대역폭보다 용량이 더 중요한 많은 메모리 확장 사용 사례에 충분합니다.

PCIe 7.0 기반

CXL 4.0은 PCIe 7.0의 물리 계층 개선을 기반으로 합니다:[^8]

  • 128 GT/s 전송 속도: PCIe 6.0의 64 GT/s의 두 배
  • PAM4 시그널링: PCIe 6.0과 동일한 인코딩 방식
  • 향상된 FEC: 신호 무결성을 위한 순방향 오류 수정
  • 광학 지원: 더 긴 도달 거리 연결 가능

이 사양은 CXL 3.x의 256바이트 FLIT 형식을 유지하면서 시간에 민감한 작업을 위한 지연시간 최적화 변형을 추가합니다.[^9]

멀티 랙 패브릭 기능

CXL 4.0은 두 가지 메커니즘을 통해 도달 범위를 확장합니다:

4개의 리타이머 지원: 이전 세대는 2개의 리타이머를 허용했습니다. 4개의 리타이머는 신호 저하 없이 여러 랙에 걸친 더 긴 물리적 연결을 가능하게 합니다.[^10]

네이티브 x2 폭: 이전에는 저하된 대체 모드였던 x2 링크가 이제 전체 성능으로 작동합니다. 이를 통해 더 낮은 대역폭의 연결이 더 많은 엔드포인트에 서비스하는 더 높은 팬아웃 구성이 가능합니다.[^11]

이러한 기능들이 결합되어 "멀티 랙 메모리 풀링"을 가능하게 합니다—CXL 컨소시엄이 2026년 말-2027년 프로덕션 배포를 명시적으로 목표로 하는 기능입니다.[^12]


AI 인프라를 위한 CXL 사용 사례

LLM 추론을 위한 KV 캐시 오프로딩

가장 영향력 있는 단기 사용 사례: GPU VRAM에서 CXL 연결 메모리로 KV 캐시 오프로딩.

문제: 긴 컨텍스트를 가진 LLM 추론은 대규모 KV 캐시를 생성합니다. 128K 컨텍스트와 배치 크기 32를 가진 70B 파라미터 모델은 KV 캐시만으로 150+ GB를 필요로 할 수 있습니다.[^13] 이는 H100 VRAM을 초과하여 비용이 많이 드는 배치 크기 감소나 다중 GPU를 강제합니다.

CXL 솔루션: 핫 레이어는 GPU VRAM에 유지하면서 KV 캐시를 풀링된 CXL 메모리에 저장합니다. XConn과 MemVerge는 SC25와 OCP 2025에서 이를 시연했습니다:[^14]

  • OPT-6.7B를 실행하는 두 개의 H100 GPU(각 80GB)
  • 공유 CXL 메모리 풀로 KV 캐시 오프로딩
  • 200G RDMA 대비 3.8배 속도 향상
  • 100G RDMA 대비 6.5배 속도 향상
  • SSD 기반 KV 캐시 대비 >5배 개선

학계의 연구도 이 기회를 확인합니다. PNM-KV(KV 캐시를 위한 Processing-Near-Memory)는 토큰 페이지 선택을 CXL 메모리 내 가속기로 오프로딩하여 최대 21.9배의 처리량 향상을 달성합니다.[^15]

학습을 위한 메모리 확장

학습 워크로드는 다음을 위한 확장된 메모리 용량의 혜택을 받습니다:

  • 더 큰 배치 크기: 그래디언트 누적 없이 반복당 더 많은 샘플
  • 활성화 체크포인팅 감소: 재계산 대신 더 많은 활성화를 메모리에 저장
  • 옵티마이저 상태: Adam 옵티마이저는 모멘텀/분산을 위해 파라미터의 2배 필요

CXL 메모리 확장은 이전에 다중 노드 분산이 필요했던 학습 구성을 단일 노드에서 실행할 수 있게 하여 통신 오버헤드를 줄입니다.

과학 및 HPC 워크로드

PNNL의 Crete 프로젝트는 과학 시뮬레이션에서 컴퓨트 노드 간 고처리량 메모리 공유를 위해 CXL 풀을 사용합니다.[^16] 사용 사례는 다음과 같습니다:

  • 대규모 이웃 목록을 가진 분자 동역학
  • 조 단위 엣지 데이터셋에 대한 그래프 분석
  • 단일 서버 용량을 초과하는 인메모리 데이터베이스

인터커넥트 환경

CXL이 어디에 적합한지 이해하려면 이러한 기술들이 서로 다른 목적에 기여한다는 것을 인식해야 합니다:

표준 주요 목적 최적 용도
CXL 메모리 일관성 + 풀링 CPU-메모리 확장, 공유 메모리 풀
NVLink GPU 간 스케일링 노드 내 GPU 통신
UALink 가속기 인터커넥트 NVLink의 오픈 표준 대안
Ultra Ethernet 스케일아웃 네트워킹 멀티 랙, 10,000+ 엔드포인트

CXL은 PCIe SerDes에서 실행됩니다: NVLink/UALink의 이더넷 스타일 SerDes보다 낮은 오류율, 낮은 지연시간이지만 낮은 대역폭입니다.[^17] NVLink 5는 GPU당 1.8 TB/s를 제공하며, 이는 CXL 4.0의 x16 포트당 512 GB/s를 크게 초과합니다.[^18]

이 기술들은 경쟁하기보다 보완합니다:

  • GPU 노드 내: NVLink가 GPU를 연결
  • 노드 간: UALink 또는 InfiniBand/Ethernet
  • 메모리 확장: CXL이 CPU와 가속기에 용량 추가
  • 패브릭 전체 메모리 풀: CXL 스위치가 호스트 간 공유 가능

Panmnesia는 세 가지 모두를 통합하는 "CXL-over-XLink" 아키텍처를 제안하며, PCIe/RDMA 기준선 대비 5.3배 빠른 AI 학습과 6배 추론 지연시간 감소를 보고합니다.[^19]

의사결정 프레임워크: 언제 무엇을 사용할 것인가

시나리오 권장 인터커넥트 근거
서버 내 다중 GPU 학습 NVLink 최고 대역폭, 최저 지연시간
다중 GPU 추론 포드(비NVIDIA) UALink 오픈 표준, 높은 대역폭
VRAM 이상으로 메모리 확장 CXL 캐시 일관성, DRAM 수준 지연시간
멀티 랙 GPU 클러스터 InfiniBand 또는 Ultra Ethernet 스케일아웃용 설계
서버 간 공유 메모리 풀 CXL 스위치 일관성 있는 메모리 풀링
중국/제한 시장 UB-Mesh 고려 서방 IP 의존성 회피

CXL 생태계: 벤더 및 제품

메모리 익스팬더

세 대형 DRAM 제조업체 모두 CXL 메모리 익스팬더를 출하합니다:

벤더 제품 용량 인터페이스 상태
Samsung CMM-D 256 GB CXL 2.0 2025년 양산[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 2024년 말 양산[^21]
Micron CZ120 256 GB CXL 2.0 샘플링[^22]
SK Hynix CMS 512 GB CXL(컴퓨트 지원) 발표[^23]

SK Hynix의 CMS(Computational Memory Solution)는 메모리 모듈에 직접 컴퓨트 기능을 추가합니다—CXL을 위한 processing-near-memory의 초기 구현입니다.

스위치 벤더

CXL 스위치는 여러 호스트 간 메모리 풀링을 가능하게 합니다:

벤더 제품 세대 상태 주요 기능
XConn XC50256 CXL 2.0 출하 중 256레인 스위치, 최초 출시[^24]
XConn Apollo CXL 2.0 출하 중 SC25에서 메모리 풀링 시연[^25]
Panmnesia Fabric Switch CXL 3.2 2025년 11월 샘플링 최초 PBR 구현[^26]
Astera Labs Leo CXL 2.0 출하 중 스마트 메모리 컨트롤러[^27]
Microchip SMC 2000 CXL 2.0 출하 중 메모리 확장 컨트롤러[^28]

Panmnesia의 CXL 3.2 Fabric Switch는 세대적 도약을 나타냅니다: 최대 4,096 노드의 진정한 패브릭 아키텍처를 위한 포트 기반 라우팅을 구현한 최초의 실리콘입니다.[^29]

컨트롤러 벤더

CXL 메모리 컨트롤러는 CXL 프로토콜과 DRAM 간을 변환합니다:

벤더 역할 주요 제품
Marvell 컨트롤러 Structera CXL 컨트롤러[^30]
Montage 컨트롤러 CXL 메모리 버퍼 칩
Astera Labs 컨트롤러 Leo 스마트 메모리 컨트롤러
Microchip 컨트롤러 SMC 2000 시리즈

Marvell의 Structera는 Intel과 AMD 플랫폼 모두에서 세 대형 메모리 공급업체(Samsung, Micron, SK Hynix) 모두와 상호운용성 테스트를 완료했습니다.[^31]


배포 계획 가이드

타임라인

기간 CXL 세대 예상 기능 권장 사항
현재-2026년 2분기 CXL 2.0 메모리 확장, 기본 풀링 프로덕션 평가
2026년 3분기-2026년 4분기 CXL 3.0/3.1 패브릭, 피어투피어, 4K 노드 AI를 위한 조기 도입
2027년+ CXL 4.0 멀티 랙 풀링, 1.5 TB/s 지금부터 계획 시작

ABI Research는 2027년까지 상업적 도입에 충분한 소프트웨어 지원을 갖춘 CXL 3.0/3.1 솔루션을 예상합니다.[^32]

지금 평가할 것

즉시 (2025): 1. 기존 Intel Sapphire Rapids 또는 AMD EPYC Genoa 서버에서 CXL 2.0 메모리 익스팬더 테스트 2. 메모리 풀링을 위한 XConn 또는 Astera Labs 스위치 평가

[번역을 위해 내용이 잘렸습니다]


견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중