CXL 4.0 인프라 계획 가이드: 대규모 AI를 위한 메모리 풀링

번들 포트, 멀티랙 메모리 풀링, KV 캐시 오프로딩, 벤더 생태계, 2026-2027 계획 타임라인을 다루는 완전한 CXL 4.0 배포 가이드입니다.

CXL 4.0 인프라 계획 가이드: 대규모 AI를 위한 메모리 풀링

CXL 4.0 인프라 계획 가이드: 대규모 AI를 위한 메모리 풀링

2025년 12월 13일

2025년 12월 업데이트: CXL 컨소시엄이 2025년 11월 18일 CXL 4.0을 출시하여 PCIe 7.0을 통해 대역폭을 128 GT/s로 배가하고 1.5 TB/s 연결을 위한 번들 포트를 도입했습니다. 이 가이드는 AI 인프라에 CXL 기반 메모리 풀링 구현을 준비하는 조직을 위한 배포 계획을 다룹니다.


요약

CXL 4.0는 전례 없는 규모의 메모리 풀링을 가능하게 하여, AI 추론 워크로드가 여러 랙에 걸쳐 캐시 일관성을 유지하며 100테라바이트 이상의 공유 메모리에 액세스할 수 있게 합니다. 사양의 번들 포트는 여러 물리적 연결을 1.5 TB/s 대역폭을 제공하는 단일 논리적 연결로 집계합니다. 인프라 기획자에게 주요 결정사항은 CXL 도입 시기(프로덕션용 2026-2027년), 현재 평가할 제품(CXL 2.0/3.0 스위치 출시 중), CXL이 NVLink 및 UALink를 대체하기보다는 보완하는 방법을 이해하는 것입니다. 이 가이드는 CXL 배포 계획에 필요한 기술적 깊이와 의사결정 프레임워크를 제공합니다.


메모리 벽 문제

대규모 언어 모델은 근본적인 제약에 직면합니다: GPU 메모리 용량입니다. 현대 AI 추론 워크로드는 일상적으로 GPU당 80-120 GB를 초과하며, 키-값(KV) 캐시는 컨텍스트 길이에 따라 증가합니다.[^1] 128K 컨텍스트 윈도우를 가진 단일 추론 요청은 KV 캐시 저장소만으로도 수십 기가바이트를 소비할 수 있습니다.

문제는 규모에서 더욱 심화됩니다. 최전선 LLM의 모델 가중치는 수백 기가바이트를 소비합니다. KV 캐시 요구사항은 배치 크기와 시퀀스 길이 모두에 선형적으로 증가합니다. GPU VRAM은 80GB(H100) 또는 192GB(B200)로 고정되어 있습니다.[^2]

기존 솔루션은 부족합니다:

접근법 제한사항
GPU 추가 선형 비용 증가, 메모리는 여전히 GPU별로 격리
NVMe 오프로딩 ~100 μs 지연, DRAM보다 100배 느림
RDMA 기반 공유 여전히 10-20 μs 지연, 복잡한 네트워킹
더 큰 GPU 메모리 공급 제약, 비용

CXL은 데이터센터 전체에서 DRAM과 유사한 지연시간(200-500 ns)으로 메모리 풀링을 가능하게 하여 이 방정식을 바꿉니다.[^3]


CXL 4.0 기술 심층 분석

CXL 1.0에서 4.0까지의 진화

CXL은 2019년 도입 이후 빠르게 성숙했습니다. 각 세대는 기능을 확장했습니다:

세대 출시 PCIe 기반 속도 주요 발전
CXL 1.0/1.1 2019/2020 PCIe 5.0 32 GT/s 기본 일관성 메모리 연결
CXL 2.0 2022 PCIe 5.0 32 GT/s 스위칭, 메모리 풀링, 멀티 디바이스
CXL 3.0/3.1 2023/2024 PCIe 6.0 64 GT/s 패브릭 지원, 피어투피어, 4,096 노드
CXL 4.0 2025년 11월 PCIe 7.0 128 GT/s 번들 포트, 멀티랙, 향상된 RAS

CXL 2.0은 메모리 풀링의 기본 개념을 도입했습니다. 여러 Type 3 메모리 디바이스가 스위치에 연결되어 공유 풀을 형성하고, 스위치가 다양한 호스트에 리소스를 동적으로 할당합니다.[^4] 이는 클러스터 전체에서 일반적인 50-60%의 메모리 활용률을 85% 이상으로 개선할 수 있게 합니다.

CXL 3.0은 멀티레벨 스위칭과 포트 기반 라우팅(PBR)으로 최대 4,096 노드를 지원하는 패브릭 기능을 추가했습니다.[^5] 256바이트 FLIT로의 전환과 PCIe 6.0의 64 GT/s는 사용 가능한 대역폭을 배가했습니다.

CXL 4.0은 멀티랙 AI 배포에 중요한 기능을 도입하면서 대역폭을 다시 배가합니다.

번들 포트 아키텍처

CXL 4.0의 고성능 컴퓨팅을 위한 가장 중요한 기능: 번들 포트는 여러 물리적 CXL 디바이스 포트를 단일 논리적 엔티티로 집계합니다.[^6]

번들 포트 작동 방식:

  1. 호스트와 Type 1/2 디바이스가 여러 물리적 포트를 결합
  2. 시스템 소프트웨어는 여러 물리적 연결에도 불구하고 단일 디바이스로 인식
  3. 대역폭이 모든 번들 포트에 걸쳐 집계됨
  4. 256바이트 FLIT 모드에 최적화되어 레거시 오버헤드 제거

대역폭 계산:

구성 방향 대역폭
x16 포트 1개 @ 128 GT/s 단방향 256 GB/s
x16 포트 1개 @ 128 GT/s 양방향 512 GB/s
번들 x16 포트 3개 @ 128 GT/s 단방향 768 GB/s
번들 x16 포트 3개 @ 128 GT/s 양방향 1,536 GB/s

참고로, H200의 HBM3e 메모리는 4.8 TB/s 대역폭을 제공합니다.[^7] 1.5 TB/s의 번들 CXL 4.0 연결은 약 30%에 해당합니다—최대 대역폭보다 용량이 더 중요한 많은 메모리 확장 사용 사례에 충분합니다.

PCIe 7.0 기반

CXL 4.0은 PCIe 7.0의 물리적 계층 개선사항을 기반으로 합니다:[^8]

  • 128 GT/s 전송 속도: PCIe 6.0의 64 GT/s의 두 배
  • PAM4 시그널링: PCIe 6.0과 동일한 인코딩 방식
  • 개선된 FEC: 신호 무결성을 위한 순방향 오류 정정
  • 광학 지원: 더 긴 도달 거리 연결 가능

사양은 CXL 3.x의 256바이트 FLIT 형식을 유지하면서 시간에 민감한 작업을 위한 지연시간 최적화 변형을 추가합니다.[^9]

멀티랙 패브릭 기능

CXL 4.0은 두 가지 메커니즘을 통해 도달 거리를 확장합니다:

4개 리타이머 지원: 이전 세대는 2개 리타이머를 허용했습니다. 4개 리타이머는 신호 열화 없이 여러 랙에 걸친 더 긴 물리적 연결을 가능하게 합니다.[^10]

네이티브 x2 폭: 이전에는 성능 저하 폴백 모드였던 x2 링크가 이제 전체 성능으로 작동합니다. 이는 많은 낮은 대역폭 연결이 더 많은 엔드포인트를 서비스하는 높은 팬아웃 구성을 가능하게 합니다.[^11]

이러한 기능들이 결합되어 "멀티랙 메모리 풀링"을 가능하게 합니다—CXL 컨소시엄이 2026년 말-2027년 프로덕션 배포를 명시적으로 목표로 하는 기능입니다.[^12]


AI 인프라를 위한 CXL 사용 사례

LLM 추론을 위한 KV 캐시 오프로딩

가장 높은 영향력의 단기 사용 사례: GPU VRAM에서 CXL 연결 메모리로 KV 캐시 오프로딩.

문제: 긴 컨텍스트를 가진 LLM 추론은 대규모 KV 캐시를 생성합니다. 128K 컨텍스트와 배치 크기 32를 가진 70B 파라미터 모델은 KV 캐시만으로 150GB 이상을 요구할 수 있습니다.[^13] 이는 H100 VRAM을 초과하여 비싼 배치 크기 감소나 여러 GPU를 강요합니다.

CXL 솔루션: 핫 레이어를 GPU VRAM에 유지하면서 KV 캐시를 풀링된 CXL 메모리에 저장. XConn과 MemVerge가 SC25와 OCP 2025에서 시연:[^14]

  • OPT-6.7B를 실행하는 2개의 H100 GPU (각각 80GB)
  • 공유 CXL 메모리 풀로 오프로딩된 KV 캐시
  • 200G RDMA 대비 3.8배 속도 향상
  • 100G RDMA 대비 6.5배 속도 향상
  • SSD 기반 KV 캐시 대비 5배 이상 개선

학계 연구가 기회를 확인합니다. PNM-KV(KV 캐시를 위한 Processing-Near-Memory)는 토큰 페이지 선택을 CXL 메모리 내 가속기로 오프로딩하여 최대 21.9배 처리량 개선을 달성합니다.[^15]

훈련을 위한 메모리 확장

훈련 워크로드는 다음을 위한 확장된 메모리 용량의 이익을 얻습니다:

  • 더 큰 배치 크기: 그라디언트 누적 없이 반복당 더 많은 샘플
  • 활성화 체크포인팅 감소: 재계산 대신 메모리에 더 많은 활성화 저장
  • 옵티마이저 상태: Adam 옵티마이저는 모멘텀/분산을 위해 파라미터의 2배 필요

CXL 메모리 확장은 이전에 멀티노드 분산이 필요했던 훈련 구성을 단일 노드에서 실행할 수 있게 하여 통신 오버헤드를 줄입니다.

과학 및 HPC 워크로드

PNNL의 Crete 프로젝트는 과학 시뮬레이션에서 컴퓨트 노드 간 고처리량 메모리 공유를 위해 CXL 풀을 사용합니다.[^16] 사용 사례는 다음을 포함합니다:

  • 대규모 이웃 목록을 가진 분자 동역학
  • 조 단위 엣지 데이터셋에서의 그래프 분석
  • 단일 서버 용량을 초과하는 인메모리 데이터베이스

인터커넥트 환경

CXL이 어디에 맞는지 이해하려면 이러한 기술들이 다른 목적을 서비스한다는 것을 인식해야 합니다:

표준 주요 목적 최적 용도
CXL 메모리 일관성 + 풀링 CPU-메모리 확장, 공유 메모리 풀
NVLink GPU-to-GPU 스케일링 노드 내 GPU 통신
UALink 가속기 인터커넥트 NVLink의 개방형 표준 대안
Ultra Ethernet 스케일아웃 네트워킹 멀티랙, 10,000+ 엔드포인트

CXL은 PCIe SerDes에서 실행됩니다: 더 낮은 오류율, 더 낮은 지연시간이지만 NVLink/UALink의 Ethernet 스타일 SerDes보다 낮은 대역폭.[^17] NVLink 5는 GPU당 1.8 TB/s를 제공하여 CXL 4.0의 x16 포트당 512 GB/s를 훨씬 초과합니다.[^18]

기술들은 경쟁보다는 보완합니다:

  • GPU 노드 내에서: NVLink가 GPU를 연결
  • 노드 간: UALink 또는 InfiniBand/Ethernet
  • 메모리 확장: CXL이 CPU와 가속기에 용량 추가
  • 패브릭 전체 메모리 풀: CXL 스위치가 호스트 간 공유 활성화

Panmnesia는 3가지 모두를 통합하는 "CXL-over-XLink" 아키텍처를 제안하여 PCIe/RDMA 기준선 대비 AI 훈련 5.3배 향상, 추론 지연시간 6배 감소를 보고합니다.[^19]

의사결정 프레임워크: 언제 무엇을 사용할지

시나리오 권장 인터커넥트 근거
서버 내 멀티 GPU 훈련 NVLink 최고 대역폭, 최저 지연시간
멀티 GPU 추론 포드(비 NVIDIA) UALink 개방형 표준, 고대역폭
VRAM을 넘어선 메모리 확장 CXL 캐시 일관성, DRAM과 유사한 지연시간
멀티랙 GPU 클러스터 InfiniBand 또는 Ultra Ethernet 스케일아웃 설계
서버 간 공유 메모리 풀 CXL 스위치 일관성을 가진 메모리 풀링
중국/제한 시장 UB-Mesh 고려 서구 IP 의존성 회피

CXL 생태계: 벤더와 제품

메모리 확장기

3대 DRAM 제조업체 모두 CXL 메모리 확장기를 출시합니다:

벤더 제품 용량 인터페이스 상태
Samsung CMM-D 256 GB CXL 2.0 2025년 대량 생산[^20]
SK Hynix CMM-DDR5 128 GB CXL 2.0 2024년 말 대량 생산[^21]
Micron CZ120 256 GB CXL 2.0 샘플링[^22]
SK Hynix CMS 512 GB CXL (컴퓨트 지원) 발표됨[^23]

SK Hynix의 CMS(Computational Memory Solution)는 메모리 모듈에 직접 컴퓨트 기능을 추가합니다—CXL을 위한 processing-near-memory의 초기 구현입니다.

스위치 벤더

CXL 스위치는 여러 호스트에 걸친 메모리 풀링을 가능하게 합니다:

벤더 제품 세대 상태 주요 기능
XConn XC50256 CXL 2.0 출시 중 256레인 스위치, 시장 선점[^24]
XConn Apollo CXL 2.0 출시 중 SC25에서 메모리 풀링 시연[^25]
Panmnesia Fabric Switch CXL 3.2 2025년 11월 샘플링 첫 PBR 구현[^26]
Astera Labs Leo CXL 2.0 출시 중 스마트 메모리 컨트롤러[^27]
Microchip SMC 2000 CXL 2.0 출시 중 메모리 확장 컨트롤러[^28]

Panmnesia의 CXL 3.2 Fabric Switch는 세대 도약을 나타냅니다: 최대 4,096 노드의 진정한 패브릭 아키텍처를 위한 포트 기반 라우팅을 구현하는 첫 실리콘입니다.[^29]

컨트롤러 벤더

CXL 메모리 컨트롤러는 CXL 프로토콜과 DRAM 간을 변환합니다:

벤더 역할 주요 제품
Marvell 컨트롤러 Structera CXL 컨트롤러[^30]
Montage 컨트롤러 CXL 메모리 버퍼 칩
Astera Labs 컨트롤러 Leo 스마트 메모리 컨트롤러
Microchip 컨트롤러 SMC 2000 시리즈

Marvell의 Structera는 Intel과 AMD 플랫폼 모두에서 3대 메모리 공급업체(Samsung, Micron, SK Hynix) 모두와 상호 운용성 테스트를 완료했습니다.[^31]


배포 계획 가이드

타임라인

기간 CXL 세대 예상 기능 권장사항
현재-2026년 2분기 CXL 2.0 메모리 확장, 기본 풀링 프로덕션 평가
2026년 3분기-4분기 CXL 3.0/3.1 패브릭, 피어투피어, 4K 노드 AI를 위한 조기 도입
2027년+ CXL 4.0 멀티랙 풀링, 1.5 TB/s 지금 계획 시작

ABI Research는 상용 도입을 위한 충분한 소프트웨어 지원을 갖춘 CXL 3.0/3.1 솔루션을 2027년까지 예상합니다.[^32]

지금 평가할 것

즉시(2025년): 1. 기존 Intel Sapphire Rapids 또는 AMD EPYC Genoa 서버에서 CXL 2.0 메모리 확장기 테스트 2. 메모리 풀링을 위한 XConn 또는 Astera Labs 스위치 평가

견적 요청_

프로젝트에 대해 알려주시면 72시간 내에 답변드리겠습니다.

> 전송_완료

요청이 접수되었습니다_

문의해 주셔서 감사합니다. 저희 팀이 요청사항을 검토한 후 72시간 내에 답변드리겠습니다.

처리_대기_중