CXL内存扩展：突破AI数据中心的内存墙

微软将于2025年11月推出首批配备CXL的云实例。CXL 4.0规范将带宽翻倍至128GT/s。预计到2028年CXL市场规模将达150亿美元（其中CXL后端DRAM超过120亿美元）。支持CXL的KV缓存实现21.9倍吞吐量提升，每token能耗降低60倍。商用CXL内存池将于2025年达到100TiB规模。

Blake Crosley

Feb 01, 2026 1 min read Disclaimer

CXL内存扩展：突破AI数据中心的内存墙

更新于2025年12月11日

2025年12月更新： 微软将于2025年11月推出业界首批配备CXL的云实例。CXL 4.0规范将带宽翻倍至128GT/s。预计到2028年CXL市场规模将达150亿美元（其中CXL后端DRAM超过120亿美元）。支持CXL的KV缓存实现21.9倍吞吐量提升，每token能耗降低60倍。商用CXL内存池将于2025年达到100TiB规模。

内存瓶颈正在扼杀AI性能。大型语言模型仅KV缓存就需要80至120GB以上的GPU内存，这让即使是最昂贵的配备HBM的加速器也不堪重负。¹ Compute Express Link（CXL）内存扩展技术通过使服务器能够访问超出CPU直连DRAM限制的内存池，直接解决了内存容量危机。随着微软于2025年11月推出业界首批配备CXL的云实例，以及CXL 4.0规范将带宽翻倍至128GT/s，解聚内存架构正从研究概念转向生产实践。²

市场数据反映了这一紧迫性。CXL市场收入预计到2028年将达150亿美元，其中CXL后端DRAM预计将占120亿美元以上。³ 对于大规模部署AI基础设施的组织而言，理解CXL内存扩展能力决定了系统能否应对下一代工作负载，而无需频繁进行硬件升级。

CXL内存扩展的工作原理

CXL是一种运行在标准PCIe物理层之上的缓存一致性互连协议。该技术在CPU缓存和外部内存设备之间保持完全一致性，使应用程序能够以与本地DRAM相同的编程模型访问CXL连接的内存。⁴ 三种协议子类型处理不同的设备交互：CXL.io管理PCIe风格的事务，CXL.cache允许设备缓存主机内存，CXL.mem允许主机访问设备连接的内存。⁵

内存扩展设备被指定为CXL Type-3，通过PCIe插槽或EDSFF形态因子将DDR5模块连接到服务器。现代CXL控制器相比直连DRAM增加约70纳秒的延迟。⁶ 虽然这一延迟较为明显，但CXL内存延迟比NVMe存储快20到50倍，填补了快速主机内存和慢速磁盘访问之间的关键性能层级。⁷

规范演进速度很快。CXL 2.0引入了内存池化，允许多个主机通过不同的分配访问共同的内存设备。⁸ CXL 3.0实现了真正的共享内存，多个主机可以同时访问相同的内存段并获得一致的数据视图。⁹ 2025年11月发布的CXL 4.0将带宽从64GT/s翻倍至128GT/s，同时保持256字节FLIT格式，通过新的捆绑端口功能在x16链路上实现高达1.536TB/s的总双向带宽。¹⁰

内存池化改变服务器经济模型

传统服务器架构迫使运营商做出艰难的权衡。工作负载之间的内存需求差异巨大，但服务器出厂时配置的DRAM是固定的。2022年内存平均约占服务器价值的30%，预计到2025年这一比例将超过40%。¹¹ 组织通常需要过度配置内存以应对峰值负载，导致昂贵的DRAM在平均利用率期间闲置浪费。

CXL内存池化从根本上改变了这一局面。多台服务器共享对集中内存池的访问，根据实时工作负载需求动态分配容量。微软发现，采用基于CXL的内存池化可以将所需总内存减少约10%，从而使整体服务器成本降低5%。¹² SMART Modular Technologies估计，将更便宜的DIMM与CXL扩展卡配合使用，相比升级到支持更多内存的CPU，1TB内存配置可节省高达40%的成本。¹³

混合DRAM-CXL系统通过压缩和高效池化，可实现纯DRAM配置95-100%的吞吐量，同时将内存成本降低50%。¹⁴ 随着HBM需求消耗DRAM产能导致内存价格居高不下，这一经济优势愈发明显。不断上涨的DRAM成本促使企业转向内存效率软件和基于CXL的扩展解决方案，作为昂贵内存升级的替代方案。¹⁵

AI推理工作负载推动CXL采用

大型语言模型推理对扩展内存容量的需求最为迫切。KV缓存存储需求随上下文长度线性增长，支持数百万token上下文的现代模型生成的缓存大小完全超出了GPU内存容量。研究表明，支持CXL的KV缓存管理相比基线实现可实现高达21.9倍的吞吐量提升、60倍的每token能耗降低和7.3倍的总成本效率提升。¹⁶

XConn Technologies和MemVerge在Supercomputing 2025上展示了AI推理工作负载如何在GPU和CPU之间动态卸载和共享大规模KV缓存资源。该演示相比基于SSD的缓存或基于RDMA的KV缓存卸载，实现了超过5倍的性能提升。¹⁷ 与基于网络的替代方案相比，CXL内存池在推理工作负载上相比200G RDMA实现了3.8倍加速，相比100G RDMA实现了6.5倍加速。¹⁸

商用CXL内存池于2025年达到100TiB规模，更大规模的部署计划于2026年推出。¹⁹ Astera Labs在OCP Global Summit 2025上展示了Leo CXL智能内存控制器如何消除AI基础设施瓶颈，通过CXL实现3倍并发LLM实例数量、更高吞吐量和3倍更低延迟。²⁰ SK海力士展示了一台内存中心AI机器，通过CXL池化内存技术连接多台服务器和GPU，无需传统网络，支持分布式推理任务。²¹

除推理外，CXL内存扩展还有利于推荐系统、内存数据库和图分析。美光的H3 Falcon基于CXL的解聚内存系统为图数据库提供高达20倍的性能提升。²² Leo CXL控制器与AMD EPYC第五代处理器配合，为深度学习推荐模型提供70%的性能提升。²³

CXL控制器市场格局

三家厂商主导CXL内存控制器生产：Astera Labs、澜起科技和Microchip。他们的控制器为各大DRAM制造商的内存模块提供支持。

Astera Labs凭借支持CXL 2.0、每控制器最高2TB内存容量的Leo CXL智能内存控制器引领市场。²⁴ Leo实现了CXL.mem、CXL.cache和CXL.io协议，执行硬件交织以向操作系统呈现聚合内存，并通过COSMOS管理套件提供RAS功能。²⁵ A系列扩展卡支持即插即用部署，E系列和P系列则支持定制集成。微软Azure 2025年11月的CXL内存预览版使用Leo控制器，这标志着业界首次在公有云中部署CXL连接内存。²⁶

澜起科技推出了全球首款CXL内存扩展控制器（MXC），目前为三星、SK海力士和其他主要内存制造商供货。²⁷ 该公司2025年9月发布的CXL 3.1控制器（M88MX6852）在x8配置上实现高达64GT/s的数据传输速率，集成8000MT/s速度的双通道DDR5，仅增加70ns延迟。²⁸ 25mm x 25mm封装支持EDSFF E3.S和PCIe扩展卡两种形态因子。²⁹ 三星和SK海力士均使用澜起MXC芯片通过了CXL 2.0合规测试。³⁰

Microchip以SMC 1000 8x25G控制器进入CXL市场，支持内存扩展和池化应用。该公司将CXL能力整合到其更广泛的内存连接产品组合中，包括内存缓冲芯片和SPD Hub控制器。

主要厂商的内存模块产品

三星的CMM-D（CXL Memory Module - DDR5）系列代表了该公司的量产CXL产品线。CMM-D 2.0提供128GB和256GB容量，带宽高达36GB/s，符合CXL 2.0规范，支持PCIe Gen 5。³¹ 三星将CMM-D定位为现有本地DIMM的补充，声称可将内存容量扩展50%，带宽提升100%，同时降低总拥有成本。³² 客户样品已于2025年出货，CXL 3.1版本计划年底推出。³³

SK海力士在Supercomputing 2025上展示了多款CXL内存产品。CMM-DDR5与澜起控制器配合扩展内存容量，而CMM-Ax（CXL Memory Module Accelerator）则将计算能力直接集成到内存中。³⁴ SK电讯的Petasus AI Cloud部署了CMM-Ax，展示了实际的AI基础设施应用。³⁵ SK海力士正准备为CXL 3.0和3.1生产专有CXL控制器，以减少对第三方芯片的依赖。³⁶

美光推出了采用96GB DDR5容量的CXL 2.0内存扩展模块。³⁷ 该公司将CXL内存定位为缩小与三星和SK海力士在高利润服务器内存市场差距的关键技术。美光的H3 Falcon系统将基于CXL的解聚内存与Linux支持的FAMFS文件系统相结合，用于图数据库加速。³⁸

Intel和AMD的服务器平台支持

AMD EPYC Genoa处理器于2022年推出时即原生支持CXL Type-3设备，使AMD比Intel领先数年。³⁹ 当前的EPYC 9005 Turin处理器在整个产品线中保持CXL兼容性。性能基准测试显示了显著提升：Leo CXL控制器与第五代AMD EPYC配合，为推荐模型提供70%的性能提升，并支持达到原生DRAM性能95-100%的混合内存架构。⁴⁰

Intel的CXL之路更为曲折。第四代至强可扩展处理器"Sapphire Rapids"在实现基础CXL协议的情况下，发布时却不支持CXL Type-3设备。⁴¹ 官方Type-3支持随约一年前发布的第五代"Emerald Rapids"到来。Intel至强6处理器包含CXL平坦内存模式，这是一项独特功能，可在不牺牲性能的情况下增强计算与内存比率的灵活性。⁴² 微软在宣布Azure CXL预览版时特别强调了平坦内存模式功能。⁴³

联想搭载Intel至强6处理器的ThinkSystem V4服务器支持E3.S 2T形态因子的CXL 2.0内存。⁴⁴ 戴尔科技、HPE、华硕和英业达等行业领导者构建的平台符合CXL 3.0标准，为更广泛的生态系统采用做准备。⁴⁵ 预计到2029年，CXL后端DRAM将达到服务器DRAM的约10%。⁴⁶

CXL 4.0开启多机架未来

2025年11月发布的CXL 4.0规范为真正的解聚数据中心架构奠定了基础。通过PCIe 7.0物理层将带宽翻倍至128GT/s，解决了限制早期采用的性能问题。⁴⁷ 捆绑端口将多个物理连接聚合为单个逻辑连接，在x16配置上实现每个方向768GB/s带宽（总计1.536TB/s），同时保持简单的软件模型。⁴⁸

原生x2链路宽度支持增加了内存池化拓扑的扇出能力。以前的CXL版本仅支持x2作为通道故障时的回退模式；CXL 4.0像x4到x16宽度一样完全优化了x2的性能。⁴⁹ 通过最多四个重定时器的扩展距离支持，可实现多机架配置而不会出现信号衰减。⁵⁰

CXL 4.0多机架系统可能在2026年底至2027年部署。⁵¹ 该规范与所有先前CXL版本保持向后兼容，保护对现有CXL 2.0和3.x设备的投资。⁵² 随着CXL 3.0生态系统预计在2025年成熟，数据中心将在2026年开始采用内存和计算解聚、池化并动态重新分配的架构。⁵³

构建CXL基础设施栈

部署CXL内存扩展需要超越单一组件的生态系统协调

CXL内存扩展：突破AI数据中心的内存墙

CXL内存扩展的工作原理

内存池化改变服务器经济模型

AI推理工作负载推动CXL采用

CXL控制器市场格局

主要厂商的内存模块产品

Intel和AMD的服务器平台支持

CXL 4.0开启多机架未来

构建CXL基础设施栈

You Might Also Like

马来西亚与泰国：东南亚新兴人工智能数据中心枢纽

新加坡270亿美元AI基础设施热潮：数据中心部署的机遇

AI备份与恢复：保护PB级训练数据

申请报价_

请求已收到_