CXL 메모리 확장: AI 데이터센터의 메모리 장벽 돌파
2025년 12월 11일 업데이트
2025년 12월 업데이트: Microsoft가 2025년 11월 최초의 CXL 탑재 클라우드 인스턴스를 출시합니다. CXL 4.0 사양은 대역폭을 128GT/s로 두 배 증가시킵니다. CXL 시장은 2028년까지 150억 달러에 달할 것으로 전망되며, 그중 120억 달러 이상이 CXL 기반 DRAM입니다. CXL 지원 KV 캐시는 21.9배의 처리량 향상과 토큰당 60배 낮은 에너지 소비를 달성합니다. 2025년 상용 CXL 풀이 100TiB에 도달합니다.
메모리 병목 현상은 AI 성능을 저해합니다. 대규모 언어 모델은 KV 캐시만으로도 GPU당 80~120GB를 초과하는 경우가 많아, 가장 고가의 HBM 탑재 가속기조차 감당하기 어렵습니다.¹ Compute Express Link(CXL) 메모리 확장 기술은 서버가 CPU 연결 DRAM 한계를 넘어 메모리 풀에 접근할 수 있게 함으로써 메모리 용량 위기를 직접 해결합니다. Microsoft가 2025년 11월 업계 최초의 CXL 탑재 클라우드 인스턴스를 출시하고 CXL 4.0 사양이 대역폭을 128GT/s로 두 배 늘리면서, 분리형 메모리 아키텍처는 연구 개념에서 실제 프로덕션 환경으로 전환됩니다.²
시장은 이러한 긴박성을 반영합니다. CXL 시장 매출 전망은 2028년까지 150억 달러에 달하며, CXL 기반 DRAM이 그 총액의 120억 달러 이상을 차지할 것으로 예상됩니다.³ 대규모 AI 인프라를 배포하는 조직에게 CXL 메모리 확장 역량을 이해하는 것은 지속적인 하드웨어 업그레이드 없이 차세대 워크로드를 처리할 수 있는지를 결정짓습니다.
CXL 메모리 확장의 실제 작동 원리
CXL은 표준 PCIe 물리 계층에서 실행되는 캐시 일관성 인터커넥트 프로토콜로 작동합니다. 이 기술은 CPU 캐시와 외부 메모리 장치 간의 완전한 일관성을 유지하여, 애플리케이션이 로컬 DRAM과 동일한 프로그래밍 모델로 CXL 연결 메모리에 접근할 수 있게 합니다.⁴ 세 가지 프로토콜 하위 유형이 서로 다른 장치 상호작용을 처리합니다: CXL.io는 PCIe 스타일 트랜잭션을 관리하고, CXL.cache는 장치가 호스트 메모리를 캐시할 수 있게 하며, CXL.mem은 호스트가 장치 연결 메모리에 접근할 수 있게 합니다.⁵
CXL Type-3으로 지정된 메모리 확장 장치는 PCIe 슬롯이나 EDSFF 폼 팩터를 통해 DDR5 모듈을 서버에 연결합니다. 최신 CXL 컨트롤러는 직접 연결 DRAM에 비해 약 70나노초의 지연 시간을 추가합니다.⁶ 상당한 수치이지만, CXL 메모리 지연 시간은 NVMe 스토리지보다 20~50배 빠르며, 빠른 호스트 메모리와 느린 디스크 접근 사이의 중요한 성능 계층을 채웁니다.⁷
사양 발전은 빠르게 가속화되었습니다. CXL 2.0은 메모리 풀링을 도입하여 여러 호스트가 별도의 할당으로 공통 메모리 장치에 접근할 수 있게 했습니다.⁸ CXL 3.0은 진정한 공유 메모리를 가능하게 하여, 여러 호스트가 일관된 데이터 뷰로 동일한 메모리 세그먼트에 동시에 접근할 수 있습니다.⁹ 2025년 11월 출시된 CXL 4.0은 256바이트 FLIT 형식을 유지하면서 대역폭을 64GT/s에서 128GT/s로 두 배 늘렸으며, 새로운 번들 포트 기능을 통해 x16 링크에서 최대 1.536TB/s의 총 양방향 대역폭을 제공합니다.¹⁰
메모리 풀링이 서버 경제학을 혁신하다
전통적인 서버 아키텍처는 운영자에게 어려운 트레이드오프를 강요합니다. 메모리 요구 사항은 워크로드에 따라 극적으로 달라지지만, 서버는 고정된 DRAM 구성으로 출하됩니다. 메모리는 2022년 서버 가치의 약 30%를 차지했으며, 2025년까지 40%를 넘을 것으로 전망됩니다.¹¹ 조직들은 피크 부하를 처리하기 위해 일상적으로 메모리를 과잉 프로비저닝하여, 평균 사용 기간 동안 고가의 DRAM이 방치됩니다.
CXL 메모리 풀링은 이 방정식을 근본적으로 바꿉니다. 여러 서버가 중앙 집중식 메모리 풀에 대한 접근을 공유하며, 실시간 워크로드 요구에 따라 용량을 동적으로 할당합니다. Microsoft는 CXL 기반 메모리 풀링을 채택하면 총 필요 메모리를 약 10% 줄일 수 있어 전체 서버 비용을 5% 절감할 수 있다고 밝혔습니다.¹² SMART Modular Technologies는 저렴한 DIMM과 CXL 애드인 카드를 결합하면 더 많은 RAM을 지원하는 CPU로 업그레이드하는 것에 비해 1TB 메모리 구성에서 최대 40%의 비용 절감이 가능하다고 추정합니다.¹³
하이브리드 DRAM-CXL 시스템은 압축과 효율적인 풀링을 통해 메모리 비용을 50% 절감하면서도 순수 DRAM 구성의 95~100% 처리량을 달성합니다.¹⁴ HBM 수요가 DRAM 생산 용량을 소비함에 따라 메모리 가격이 높은 수준을 유지하면서 경제적 타당성은 더욱 강화됩니다. DRAM 비용 상승은 기업들이 고가의 메모리 업그레이드 대안으로 메모리 효율성 소프트웨어와 CXL 기반 확장 솔루션을 선택하도록 유도합니다.¹⁵
AI 추론 워크로드가 CXL 도입을 주도하다
대규모 언어 모델 추론은 확장된 메모리 용량에 대한 가장 긴박한 수요를 창출합니다. KV 캐시 저장 요구 사항은 컨텍스트 길이에 비례하여 선형적으로 확장되며, 수백만 토큰 컨텍스트를 지원하는 최신 모델은 GPU 메모리를 완전히 초과하는 캐시 크기를 생성합니다. 연구에 따르면 CXL 지원 KV 캐시 관리는 기준 구현 대비 최대 21.9배의 처리량 향상, 토큰당 60배 낮은 에너지 소비, 7.3배 더 나은 총 비용 효율성을 제공합니다.¹⁶
XConn Technologies와 MemVerge는 Supercomputing 2025에서 AI 추론 워크로드가 대규모 KV 캐시 리소스를 GPU와 CPU 간에 동적으로 오프로드하고 공유할 수 있는 방법을 시연했습니다. 이 시연은 SSD 기반 캐싱이나 RDMA 기반 KV 캐시 오프로딩에 비해 5배 이상의 성능 향상을 달성했습니다.¹⁷ 네트워크 기반 대안과 비교했을 때, CXL 메모리 풀은 추론 워크로드에서 200G RDMA 대비 3.8배, 100G RDMA 대비 6.5배의 속도 향상을 달성했습니다.¹⁸
100TiB에 도달하는 상용 CXL 메모리 풀이 2025년에 출시되었으며, 2026년에는 더 큰 규모의 배포가 계획되어 있습니다.¹⁹ Astera Labs는 OCP Global Summit 2025에서 Leo CXL Smart Memory Controllers가 AI 인프라 병목 현상을 제거하여 CXL로 3배의 동시 LLM 인스턴스를 더 높은 처리량과 3배 낮은 지연 시간으로 달성하는 방법을 시연했습니다.²⁰ SK Hynix는 전통적인 네트워킹 없이 여러 서버와 GPU를 연결하는 메모리 중심 AI 머신을 선보이며, CXL 풀드 메모리 기술을 통한 분산 추론 작업을 지원했습니다.²¹
추론 외에도 CXL 메모리 확장은 추천 시스템, 인메모리 데이터베이스, 그래프 분석에 이점을 제공합니다. Micron의 H3 Falcon CXL 기반 분리형 메모리 시스템은 그래프 데이터베이스에서 최대 20배의 성능 향상을 제공합니다.²² AMD EPYC 5세대 프로세서와 결합된 Leo CXL 컨트롤러는 딥러닝 추천 모델에서 70%의 성능 향상을 제공합니다.²³
CXL 컨트롤러 시장 현황
세 벤더가 CXL 메모리 컨트롤러 생산을 주도합니다: Astera Labs, Montage Technology, Microchip. 이들의 컨트롤러는 모든 주요 DRAM 제조업체의 메모리 모듈에 탑재됩니다.
Astera Labs는 컨트롤러당 최대 2TB 메모리 용량을 지원하는 CXL 2.0 호환 Leo CXL Smart Memory Controllers로 시장을 선도합니다.²⁴ Leo는 CXL.mem, CXL.cache, CXL.io 프로토콜을 구현하고, 운영 체제에 집계된 메모리를 제공하기 위한 하드웨어 인터리빙을 수행하며, COSMOS 관리 제품군을 통해 RAS 기능을 제공합니다.²⁵ A-Series 애드인 카드는 플러그 앤 플레이 배포를 가능하게 하며, E-Series와 P-Series 구현은 맞춤형 통합을 지원합니다. Microsoft Azure의 2025년 11월 CXL 메모리 프리뷰는 Leo 컨트롤러를 사용하며, 업계 최초의 퍼블릭 클라우드 CXL 연결 메모리 배포입니다.²⁶
Montage Technology는 세계 최초의 CXL Memory eXpander Controller(MXC)를 출하했으며, 현재 Samsung, SK Hynix 및 기타 주요 메모리 제조업체에 컨트롤러를 공급합니다.²⁷ 2025년 9월 출시된 CXL 3.1 컨트롤러(M88MX6852)는 x8 구성에서 최대 64GT/s의 데이터 전송 속도를 달성하고, 8000MT/s 속도의 듀얼 채널 DDR5를 통합하며, 단 70ns의 지연 시간만 추가합니다.²⁸ 25mm x 25mm 패키지는 EDSFF E3.S와 PCIe 애드인 카드 폼 팩터를 모두 지원합니다.²⁹ Samsung과 SK Hynix 모두 Montage MXC 칩을 사용하여 CXL 2.0 준수 테스트를 통과했습니다.³⁰
Microchip은 메모리 확장 및 풀링 애플리케이션을 지원하는 SMC 1000 8x25G 컨트롤러로 CXL 시장에 진입했습니다. 이 회사는 메모리 버퍼 칩 및 SPD 허브 컨트롤러와 함께 광범위한 메모리 연결 포트폴리오에 CXL 기능을 통합합니다.
주요 벤더의 메모리 모듈 제품
Samsung의 CMM-D(CXL Memory Module - DDR5) 시리즈는 회사의 프로덕션 CXL 라인업을 대표합니다. CMM-D 2.0은 최대 36GB/s 대역폭, CXL 2.0 준수, PCIe Gen 5 지원과 함께 128GB 및 256GB 용량을 제공합니다.³¹ Samsung은 CMM-D를 기존 로컬 DIMM을 보완하는 것으로 포지셔닝하며, 총 소유 비용을 낮추면서 메모리 용량을 최대 50%, 대역폭을 최대 100% 증가시킬 수 있다고 주장합니다.³² 고객 샘플은 2025년에 출하되었으며, CXL 3.1 변형은 연말을 목표로 합니다.³³
SK Hynix는 Supercomputing 2025에서 여러 CXL 메모리 제품을 시연했습니다. CMM-DDR5는 Montage 컨트롤러와 협력하여 메모리 용량을 확장하고, CMM-Ax(CXL Memory Module Accelerator)는 컴퓨팅 기능을 메모리에 직접 통합합니다.³⁴ SK Telecom의 Petasus AI Cloud는 CMM-Ax를 배포하여 실용적인 AI 인프라 응용을 시연했습니다.³⁵ SK Hynix는 CXL 3.0 및 3.1용 독자 CXL 컨트롤러 생산을 준비하여 타사 실리콘에 대한 의존도를 줄이고 있습니다.³⁶
Micron은 96GB DDR5 용량을 사용한 CXL 2.0 기반 메모리 확장 모듈을 출시했습니다.³⁷ 회사는 CXL 메모리를 고마진 서버 메모리 부문에서 Samsung 및 SK Hynix와의 격차를 좁히기 위한 핵심 기술로 포지셔닝합니다. Micron의 H3 Falcon 시스템은 그래프 데이터베이스 가속을 위해 CXL 기반 분리형 메모리와 Linux 지원 FAMFS 파일 시스템을 결합합니다.³⁸
Intel과 AMD의 서버 플랫폼 지원
AMD EPYC Genoa 프로세서는 2022년에 네이티브 CXL Type-3 장치 지원과 함께 출시되어 AMD가 Intel보다 수년간 앞서 나갈 수 있게 했습니다.³⁹ 현재 EPYC 9005 Turin 프로세서는 전체 라인업에서 CXL 호환성을 유지합니다. 성능 벤치마크는 상당한 성과를 보여줍니다: 5세대 AMD EPYC가 탑재된 Leo CXL 컨트롤러는 추천 모델에서 70%의 성능 향상을 제공하고, 네이티브 DRAM 성능의 95~100%에 달하는 하이브리드 메모리 아키텍처를 가능하게 합니다.⁴⁰
Intel의 CXL 여정은 더 험난했습니다. 4세대 Xeon Scalable "Sapphire Rapids"는 기본 CXL 프로토콜을 구현했음에도 불구하고 CXL Type-3 장치 지원 없이 출시되었습니다.⁴¹ 공식 Type-3 지원은 약 1년 전 5세대 "Emerald Rapids"와 함께 도착했습니다. Intel Xeon 6 프로세서는 성능 저하 없이 컴퓨팅 대 메모리 비율 유연성을 향상시키는 고유한 기능인 CXL Flat Memory Mode를 포함합니다.⁴² Microsoft는 Azure의 CXL 프리뷰를 발표할 때 Flat Memory Mode 기능을 특별히 강조했습니다.⁴³
Intel Xeon 6 프로세서가 탑재된 Lenovo ThinkSystem V4 서버는 E3.S 2T 폼 팩터의 CXL 2.0 메모리를 지원합니다.⁴⁴ Dell Technologies, HPE, ASUS, Inventec을 포함한 업계 리더들은 CXL 3.0에 맞춰 플랫폼을 구축하여 더 광범위한 생태계 채택을 준비하고 있습니다.⁴⁵ CXL 기반 DRAM 전망은 2029년까지 서버 DRAM의 약 10%에 도달할 것으로 예상됩니다.⁴⁶
CXL 4.0이 그리는 멀티 랙 미래
2025년 11월 CXL 4.0 사양 출시는 진정으로 분리된 데이터센터 아키텍처의 기반을 확립합니다. PCIe 7.0 물리 계층을 통해 대역폭을 128GT/s로 두 배 늘리는 것은 초기 도입을 제한했던 성능 우려를 해소합니다.⁴⁷ 번들 포트는 여러 물리적 연결을 단일 논리적 연결로 집계하여, 간단한 소프트웨어 모델을 유지하면서 x16 구성에서 양방향 각각 768GB/s(총 1.536TB/s)의 대역폭을 가능하게 합니다.⁴⁸
네이티브 x2 링크 너비 지원은 메모리 풀링 토폴로지에 대한 팬아웃 기능을 증가시킵니다. 이전 CXL 버전은 레인 장애에 대한 폴백 모드로만 x2를 지원했습니다; CXL 4.0은 x4~x16 너비처럼 성능을 위해 x2를 완전히 최적화합니다.⁴⁹ 최대 4개의 리타이머를 통한 확장 도달 지원은 신호 저하 없이 멀티 랙 구성을 가능하게 합니다.⁵⁰
CXL 4.0 멀티 랙 시스템은 2026년 말에서 2027년에 배포될 수 있습니다.⁵¹ 이 사양은 모든 이전 CXL 버전과의 하위 호환성을 유지하여 기존 CXL 2.0 및 3.x 장비에 대한 투자를 보호합니다.⁵² 2025년까지 CXL 3.0 생태계 성숙이 예상되면서, 데이터센터는 2026년부터 메모리와 컴퓨팅이 분리되고, 풀링되며, 동적으로 재할당되는 아키텍처를 채택하기 시작할 것입니다.⁵³
CXL 인프라 스택 구축
CXL 메모리 확장 배포는 하드웨어를 넘어선 생태계 조정이 필요합니다