CXL内存扩展:突破AI数据中心的内存墙

微软将于2025年11月推出首批配备CXL的云实例。CXL 4.0规范将带宽翻倍至128GT/s。预计到2028年CXL市场规模将达150亿美元(其中CXL后端DRAM超过120亿美元)。支持CXL的KV缓存实现21.9倍吞吐量提升,每token能耗降低60倍。商用CXL内存池将于2025年达到100TiB规模。

CXL内存扩展:突破AI数据中心的内存墙

CXL内存扩展:突破AI数据中心的内存墙

更新于2025年12月11日

2025年12月更新: 微软将于2025年11月推出业界首批配备CXL的云实例。CXL 4.0规范将带宽翻倍至128GT/s。预计到2028年CXL市场规模将达150亿美元(其中CXL后端DRAM超过120亿美元)。支持CXL的KV缓存实现21.9倍吞吐量提升,每token能耗降低60倍。商用CXL内存池将于2025年达到100TiB规模。

内存瓶颈正在扼杀AI性能。大型语言模型仅KV缓存就需要80至120GB以上的GPU内存,这让即使是最昂贵的配备HBM的加速器也不堪重负。¹ Compute Express Link(CXL)内存扩展技术通过使服务器能够访问超出CPU直连DRAM限制的内存池,直接解决了内存容量危机。随着微软于2025年11月推出业界首批配备CXL的云实例,以及CXL 4.0规范将带宽翻倍至128GT/s,解聚内存架构正从研究概念转向生产实践。²

市场数据反映了这一紧迫性。CXL市场收入预计到2028年将达150亿美元,其中CXL后端DRAM预计将占120亿美元以上。³ 对于大规模部署AI基础设施的组织而言,理解CXL内存扩展能力决定了系统能否应对下一代工作负载,而无需频繁进行硬件升级。

CXL内存扩展的工作原理

CXL是一种运行在标准PCIe物理层之上的缓存一致性互连协议。该技术在CPU缓存和外部内存设备之间保持完全一致性,使应用程序能够以与本地DRAM相同的编程模型访问CXL连接的内存。⁴ 三种协议子类型处理不同的设备交互:CXL.io管理PCIe风格的事务,CXL.cache允许设备缓存主机内存,CXL.mem允许主机访问设备连接的内存。⁵

内存扩展设备被指定为CXL Type-3,通过PCIe插槽或EDSFF形态因子将DDR5模块连接到服务器。现代CXL控制器相比直连DRAM增加约70纳秒的延迟。⁶ 虽然这一延迟较为明显,但CXL内存延迟比NVMe存储快20到50倍,填补了快速主机内存和慢速磁盘访问之间的关键性能层级。⁷

规范演进速度很快。CXL 2.0引入了内存池化,允许多个主机通过不同的分配访问共同的内存设备。⁸ CXL 3.0实现了真正的共享内存,多个主机可以同时访问相同的内存段并获得一致的数据视图。⁹ 2025年11月发布的CXL 4.0将带宽从64GT/s翻倍至128GT/s,同时保持256字节FLIT格式,通过新的捆绑端口功能在x16链路上实现高达1.536TB/s的总双向带宽。¹⁰

内存池化改变服务器经济模型

传统服务器架构迫使运营商做出艰难的权衡。工作负载之间的内存需求差异巨大,但服务器出厂时配置的DRAM是固定的。2022年内存平均约占服务器价值的30%,预计到2025年这一比例将超过40%。¹¹ 组织通常需要过度配置内存以应对峰值负载,导致昂贵的DRAM在平均利用率期间闲置浪费。

CXL内存池化从根本上改变了这一局面。多台服务器共享对集中内存池的访问,根据实时工作负载需求动态分配容量。微软发现,采用基于CXL的内存池化可以将所需总内存减少约10%,从而使整体服务器成本降低5%。¹² SMART Modular Technologies估计,将更便宜的DIMM与CXL扩展卡配合使用,相比升级到支持更多内存的CPU,1TB内存配置可节省高达40%的成本。¹³

混合DRAM-CXL系统通过压缩和高效池化,可实现纯DRAM配置95-100%的吞吐量,同时将内存成本降低50%。¹⁴ 随着HBM需求消耗DRAM产能导致内存价格居高不下,这一经济优势愈发明显。不断上涨的DRAM成本促使企业转向内存效率软件和基于CXL的扩展解决方案,作为昂贵内存升级的替代方案。¹⁵

AI推理工作负载推动CXL采用

大型语言模型推理对扩展内存容量的需求最为迫切。KV缓存存储需求随上下文长度线性增长,支持数百万token上下文的现代模型生成的缓存大小完全超出了GPU内存容量。研究表明,支持CXL的KV缓存管理相比基线实现可实现高达21.9倍的吞吐量提升、60倍的每token能耗降低和7.3倍的总成本效率提升。¹⁶

XConn Technologies和MemVerge在Supercomputing 2025上展示了AI推理工作负载如何在GPU和CPU之间动态卸载和共享大规模KV缓存资源。该演示相比基于SSD的缓存或基于RDMA的KV缓存卸载,实现了超过5倍的性能提升。¹⁷ 与基于网络的替代方案相比,CXL内存池在推理工作负载上相比200G RDMA实现了3.8倍加速,相比100G RDMA实现了6.5倍加速。¹⁸

商用CXL内存池于2025年达到100TiB规模,更大规模的部署计划于2026年推出。¹⁹ Astera Labs在OCP Global Summit 2025上展示了Leo CXL智能内存控制器如何消除AI基础设施瓶颈,通过CXL实现3倍并发LLM实例数量、更高吞吐量和3倍更低延迟。²⁰ SK海力士展示了一台内存中心AI机器,通过CXL池化内存技术连接多台服务器和GPU,无需传统网络,支持分布式推理任务。²¹

除推理外,CXL内存扩展还有利于推荐系统、内存数据库和图分析。美光的H3 Falcon基于CXL的解聚内存系统为图数据库提供高达20倍的性能提升。²² Leo CXL控制器与AMD EPYC第五代处理器配合,为深度学习推荐模型提供70%的性能提升。²³

CXL控制器市场格局

三家厂商主导CXL内存控制器生产:Astera Labs、澜起科技和Microchip。他们的控制器为各大DRAM制造商的内存模块提供支持。

Astera Labs凭借支持CXL 2.0、每控制器最高2TB内存容量的Leo CXL智能内存控制器引领市场。²⁴ Leo实现了CXL.mem、CXL.cache和CXL.io协议,执行硬件交织以向操作系统呈现聚合内存,并通过COSMOS管理套件提供RAS功能。²⁵ A系列扩展卡支持即插即用部署,E系列和P系列则支持定制集成。微软Azure 2025年11月的CXL内存预览版使用Leo控制器,这标志着业界首次在公有云中部署CXL连接内存。²⁶

澜起科技推出了全球首款CXL内存扩展控制器(MXC),目前为三星、SK海力士和其他主要内存制造商供货。²⁷ 该公司2025年9月发布的CXL 3.1控制器(M88MX6852)在x8配置上实现高达64GT/s的数据传输速率,集成8000MT/s速度的双通道DDR5,仅增加70ns延迟。²⁸ 25mm x 25mm封装支持EDSFF E3.S和PCIe扩展卡两种形态因子。²⁹ 三星和SK海力士均使用澜起MXC芯片通过了CXL 2.0合规测试。³⁰

Microchip以SMC 1000 8x25G控制器进入CXL市场,支持内存扩展和池化应用。该公司将CXL能力整合到其更广泛的内存连接产品组合中,包括内存缓冲芯片和SPD Hub控制器。

主要厂商的内存模块产品

三星的CMM-D(CXL Memory Module - DDR5)系列代表了该公司的量产CXL产品线。CMM-D 2.0提供128GB和256GB容量,带宽高达36GB/s,符合CXL 2.0规范,支持PCIe Gen 5。³¹ 三星将CMM-D定位为现有本地DIMM的补充,声称可将内存容量扩展50%,带宽提升100%,同时降低总拥有成本。³² 客户样品已于2025年出货,CXL 3.1版本计划年底推出。³³

SK海力士在Supercomputing 2025上展示了多款CXL内存产品。CMM-DDR5与澜起控制器配合扩展内存容量,而CMM-Ax(CXL Memory Module Accelerator)则将计算能力直接集成到内存中。³⁴ SK电讯的Petasus AI Cloud部署了CMM-Ax,展示了实际的AI基础设施应用。³⁵ SK海力士正准备为CXL 3.0和3.1生产专有CXL控制器,以减少对第三方芯片的依赖。³⁶

美光推出了采用96GB DDR5容量的CXL 2.0内存扩展模块。³⁷ 该公司将CXL内存定位为缩小与三星和SK海力士在高利润服务器内存市场差距的关键技术。美光的H3 Falcon系统将基于CXL的解聚内存与Linux支持的FAMFS文件系统相结合,用于图数据库加速。³⁸

Intel和AMD的服务器平台支持

AMD EPYC Genoa处理器于2022年推出时即原生支持CXL Type-3设备,使AMD比Intel领先数年。³⁹ 当前的EPYC 9005 Turin处理器在整个产品线中保持CXL兼容性。性能基准测试显示了显著提升:Leo CXL控制器与第五代AMD EPYC配合,为推荐模型提供70%的性能提升,并支持达到原生DRAM性能95-100%的混合内存架构。⁴⁰

Intel的CXL之路更为曲折。第四代至强可扩展处理器"Sapphire Rapids"在实现基础CXL协议的情况下,发布时却不支持CXL Type-3设备。⁴¹ 官方Type-3支持随约一年前发布的第五代"Emerald Rapids"到来。Intel至强6处理器包含CXL平坦内存模式,这是一项独特功能,可在不牺牲性能的情况下增强计算与内存比率的灵活性。⁴² 微软在宣布Azure CXL预览版时特别强调了平坦内存模式功能。⁴³

联想搭载Intel至强6处理器的ThinkSystem V4服务器支持E3.S 2T形态因子的CXL 2.0内存。⁴⁴ 戴尔科技、HPE、华硕和英业达等行业领导者构建的平台符合CXL 3.0标准,为更广泛的生态系统采用做准备。⁴⁵ 预计到2029年,CXL后端DRAM将达到服务器DRAM的约10%。⁴⁶

CXL 4.0开启多机架未来

2025年11月发布的CXL 4.0规范为真正的解聚数据中心架构奠定了基础。通过PCIe 7.0物理层将带宽翻倍至128GT/s,解决了限制早期采用的性能问题。⁴⁷ 捆绑端口将多个物理连接聚合为单个逻辑连接,在x16配置上实现每个方向768GB/s带宽(总计1.536TB/s),同时保持简单的软件模型。⁴⁸

原生x2链路宽度支持增加了内存池化拓扑的扇出能力。以前的CXL版本仅支持x2作为通道故障时的回退模式;CXL 4.0像x4到x16宽度一样完全优化了x2的性能。⁴⁹ 通过最多四个重定时器的扩展距离支持,可实现多机架配置而不会出现信号衰减。⁵⁰

CXL 4.0多机架系统可能在2026年底至2027年部署。⁵¹ 该规范与所有先前CXL版本保持向后兼容,保护对现有CXL 2.0和3.x设备的投资。⁵² 随着CXL 3.0生态系统预计在2025年成熟,数据中心将在2026年开始采用内存和计算解聚、池化并动态重新分配的架构。⁵³

构建CXL基础设施栈

部署CXL内存扩展需要超越单一组件的生态系统协调

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中