面向AI的分解式计算:可组合基础设施架构
更新于2025年12月11日
2025年12月更新: CXL内存池化在大语言模型推理中相比200G RDMA实现3.8倍加速,相比100G RDMA实现6.5倍加速。黄仁勋表示:"当你能够将加速器放置在数据中心的任何位置,并为特定工作负载进行组合和重新配置时——这就是一场革命。"可组合基础设施正在打破固定的服务器配比,动态匹配精确的AI工作负载需求。
CXL内存池化在跨GPU服务器共享内存运行大语言模型推理时,相比200G RDMA实现3.8倍加速,相比100G RDMA实现6.5倍加速。[^1]该演示使用两台配备NVIDIA H100 GPU的服务器运行OPT-6.7B模型,展示了共享CXL内存如何以超越传统网络能力的方式加速AI工作负载。正如NVIDIA的黄仁勋所指出的:"当你能够分解融合服务器,当你能够将加速器放置在数据中心的任何位置,然后为特定工作负载组合和重新配置该数据中心时——这就是一场革命。"[^2]
可组合基础设施代表了一种架构方法,其中计算、存储和网络资源作为抽象池存在,通过软件定义的控制平面独立管理。[^3]与将CPU、内存、存储和网络耦合到特定服务器的传统架构不同,可组合基础设施将硬件资源视为可跨工作负载动态分配的灵活池。这种方法有望显著改善AI基础设施的资源利用率和部署灵活性。
打破服务器边界
传统服务器将CPU、内存、GPU和存储打包成固定比例。AI工作负载很少匹配这些固定比例。训练任务需要最大的GPU密度,而CPU需求相对适中。推理工作负载可能需要比标准配置提供的更多内存每GPU。预处理管道需要CPU和存储容量,但不需要GPU。
可组合基础设施打破了服务器边界,允许组织组装与精确工作负载需求相匹配的虚拟系统。[^4]训练工作负载获得由8个GPU、最小CPU和高带宽存储组成的组合。推理工作负载获得2个GPU和扩展内存。相同的物理资源在不同时间服务于两种工作负载,无需硬件重新配置。
分解模型
分解架构将物理节点分离为专用资源类型:计算节点、内存节点、GPU节点和存储节点。[^5]高速互联结构连接这些节点,使软件能够从分布式物理资源组成逻辑系统。组合在软件中进行,无需物理重新布线。
资源不再闲置等待特定工作负载。GPU节点在高峰时段服务训练任务,夜间服务推理任务。内存节点为内存密集型工作负载扩展容量,无需为每台服务器过度配置。这种灵活性提高了利用率,同时减少了总硬件需求。
CXL实现内存池化
Compute Express Link (CXL)提供了缓存一致性互连,使实用的内存分解成为可能。[^6]CXL提供内存语义访问,延迟在200-500纳秒范围内,而NVMe约为100微秒,基于存储的内存共享超过10毫秒。[^7]延迟改进使跨计算节点真正动态、细粒度的内存共享成为可能。
CXL内存池化的工作原理
CXL内存池创建了一个新的高速、分解内存层,正在重塑组织构建AI基础设施的方式。[^8]CPU节点访问池化内存如同本地连接一样,CXL互联结构透明地处理一致性和数据移动。应用程序无需修改即可看到扩展的内存容量。
CXL Memory Box使多个GPU服务器之间的内存池化成为可能,允许访问比单个服务器提供的更大的内存池。[^9]处理超出本地内存容量数据集的AI工作负载受益于池化内存,而不会受到传统远程内存访问的性能惩罚。这种方法可以实现更大的批量大小和更长的上下文窗口,而无需升级单个服务器。
超越内存:完整资源池化
CXL不仅仅实现内存池化。该标准支持CPU、内存缓冲区和加速器之间的可组合连接。[^10]GPU、FPGA、DPU和其他加速器通过CXL互联结构连接,实现跨工作负载的动态分配。
愿景扩展到完全的资源分解,其中没有资源永久绑定到任何其他资源。组织构建的资源池大小基于总体需求而非每个工作负载的峰值需求。软件编排实时为每个工作负载组合适当的资源。
行业解决方案
多家供应商提供可组合基础设施解决方案,以满足AI工作负载需求。
Liqid可组合平台
Liqid发布了支持CXL 2.0内存池化的可组合GPU服务器,支持高达100 TB的分解可组合内存。[^11]该平台包括EX-5410P 10槽GPU盒,支持600W GPU,包括NVIDIA H200、RTX Pro 6000和Intel Gaudi 3加速器。Matrix软件在整个硬件平台上协调资源组合。
Liqid的方法将可组合性打包成集成解决方案,而不是要求客户从组件架构分解系统。组织无需在互联结构设计和编排软件开发方面积累专业知识,即可获得可组合性优势。
IBM Research可组合系统
IBM Research探索通过高速、低延迟互联结构构建完全可组合系统的CXL标准。[^12]在他们的架构中,资源作为通过网络互联结构连接的大型池的一部分存在,而不是静态分组在服务器中。可组合资源组合在一起,重新创建匹配特定工作负载需求的服务器抽象。
研究计划解决的挑战包括互联结构拓扑设计、延迟优化以及可组合AI基础设施的软件编排。这项工作推进了对生产级可组合系统应如何运作的理解。
GigaIO与Microchip合作
GigaIO和Microchip开发了云级可组合分解基础设施,结合PCIe和CXL技术。[^13]该方法针对需要可组合资源灵活性同时具备直接连接硬件性能特征的数据中心。
架构考量
实施可组合基础设施需要涵盖互联结构设计、编排软件和工作负载管理的架构决策。
互联结构拓扑
互连互联结构决定了分解资源之间可实现的延迟和带宽。CXL互联结构必须提供足够的带宽用于内存速度访问模式,同时将延迟保持在可接受的范围内。互联结构拓扑影响性能和成本。
基于交换机的拓扑提供灵活性,但与直接连接相比增加了延迟。拓扑复杂性和延迟预算之间的权衡取决于特定的工作负载需求。内存密集型工作负载比存储密集型工作负载需要更低的延迟。
编排需求
软件编排管理资源组合,处理分配请求、跟踪资源状态并维护组合之间的隔离。编排层必须响应足够快,以支持动态工作负载变化而不成为瓶颈。
Kubernetes集成使可组合资源能够使用熟悉的编排原语为容器化AI工作负载提供服务。GPU Operator和类似扩展管理加速器资源,可组合性扩展实现动态GPU池分配。
故障域考量
分解改变了故障域特征。故障的内存节点影响使用该内存的所有组合,而不是单个服务器。与融合服务器架构相比,组件故障的影响范围扩大了。
冗余策略必须考虑分解的故障模式。内存池需要跨物理节点的冗余。组合策略应避免将关键工作负载集中在共享资源上。监控必须跟踪整个互联结构的健康状况,而不仅仅是单个服务器。
基础设施部署专业知识
可组合基础设施的复杂性超过传统服务器部署。互联结构安装、性能验证和编排配置需要大多数组织内部缺乏的专业知识。
Introl的550名现场工程师支持组织实施先进的基础设施架构,包括可组合和分解系统。[^14]该公司在2025年Inc. 5000榜单中排名第14位,三年增长率为9,594%,反映了对专业基础设施服务的需求。[^15]可组合部署受益于高速互联结构安装和验证的经验。
跨257个全球位置部署基础设施需要一致的实践,无论地理位置如何。[^16]Introl管理的部署涵盖100,000个GPU和超过40,000英里的光纤网络基础设施,为构建可组合AI基础设施的组织提供运营规模。[^17]
可组合的未来
分解式、资源共享架构将为处理AI、机器学习和其他数据密集型技术所需的PB级数据提供基础设施。[^18]随着标准成熟和供应商解决方案的普及,CXL采用将加速。
规划AI基础设施投资的组织应评估可组合架构,用于工作负载变化使固定比例服务器效率低下的部署。灵活性优势随规模而复合:更大的部署从资源池化中获得更好的利用率改进。
从融合到可组合基础设施的过渡代表了数据中心架构的根本转变。掌握可组合部署的组织获得灵活性优势,转化为成本效率和部署敏捷性。黄仁勋描述的革命始于理解分解如何改变基础设施经济学。
关键要点
面向基础设施架构师: - CXL内存池化在LLM推理工作负载中相比200G RDMA实现3.8倍加速,相比100G RDMA实现6.5倍加速 - CXL延迟:200-500ns内存语义访问 vs ~100μs NVMe vs >10ms基于存储的共享 - 分解实现:从相同硬件池进行8 GPU训练组合、2 GPU + 扩展内存推理组合
面向采购团队: - Liqid EX-5410P:10槽GPU盒,支持600W GPU(H200、RTX Pro 6000、Gaudi 3),100TB CXL内存池化 - 传统固定比例服务器浪费资源:训练需要最大GPU和适度CPU;推理需要每GPU更多内存 - 可组合通过跨工作负载池化资源减少总硬件;GPU节点白天服务训练,夜间服务推理
面向平台工程师: - IBM Research探索通过高速、低延迟互联结构实现完全可组合系统的CXL - GigaIO/Microchip合作:结合PCIe和CXL技术的云级可组合方案 - 通过GPU Operator扩展的Kubernetes集成使可组合资源具备熟悉的编排能力
面向运维团队: - 故障域变化:故障的内存节点影响使用它的所有组合,而融合架构中仅影响单个服务器 - 冗余策略必须考虑分解的故障模式;避免将工作负载集中在共享资源上 - 互联结构健康监控取代单个服务器监控;组合策略预防
[内容因翻译而截断]