AI 托管服务商选择:DGX-Ready 认证设施与 120kW 机架要求
更新于 2025 年 12 月 8 日
2025 年 12 月更新: 120kW 机架现已成为基准标准,而非愿景目标。NVIDIA GB200 NVL72 运行功率为 120kW,Vera Rubin NVL144 预计到 2026 年每机架功率将达到 600kW。液冷采用率达到数据中心的 22%(市场规模:55.2 亿美元→2030 年 157.5 亿美元)。直接到芯片冷却占据 47% 的市场份额。Colovore 获得 9.25 亿美元融资用于建设 200kW/机架设施。DGX-Ready 要求正在针对 Blackwell 系统进行调整,服务商正在紧急支持 150-200kW 密度,作为向 600kW Vera Rubin 基础设施迈进的重要步骤。
为 AI 基础设施选择错误的托管服务商会导致热关机、电源故障和价值 800 万美元的 GPU 投资损失,正如一家财富 500 强公司所发现的那样,其服务商的"AI 就绪"设施实际无法冷却 80kW 机架。¹ NVIDIA 的 DGX-Ready 项目全球仅认证了 47 个符合现代 GPU 部署极端要求的设施,形成了卖方市场,合格的服务商要价高出 3 倍,维持着 18 个月的等待名单。² 营销宣传与实际能力之间的差距迫使组织评估数十个技术参数,从功率因数校正到抗震支撑规格,同时竞争真正支持 120kW 机架密度的设施中稀缺的容量。
托管服务市场分为三个层次:传统服务商在 10kW 机架上苦苦挣扎,过渡性设施勉强管理 40kW,以及通过液冷和大规模电源基础设施实现 120kW+ 的精英运营商。³ 每个 NVIDIA DGX H100 SuperPOD 最低需要每机架 35kW,配备完整网络和存储的最优配置可达 120kW。⁴ 组织发现,无论营销宣传如何,90% 的托管设施根本无法支持现代 AI 基础设施,迫使其迁移到专用设施或进行昂贵的改造,这将推迟部署 12-18 个月。
电源基础设施决定了根本约束
现代 AI 托管需要传统设施无法物理提供的电源密度。单个 120kW 机架需要 208V 三相电源 600 安培,每个机架需要多条 225A 电路。⁵ 电气基础设施不仅要处理稳态负载,还要应对 GPU 工作负载的功率因数变化,因计算强度变化在 0.95 和 0.85 之间摆动。为稳态 IT 负载设计的设施在 GPU 循环通过不同运行模式时会出现谐波失真。
高密度下的电源冗余变得极其复杂。传统的 2N 冗余使基础设施成本翻倍,而 N+1 配置在维护期间存在级联故障风险。DGX-Ready 设施实施 2N+1 架构,采用隔离电源链防止单点故障。⁶ 每条电源路径包括在线双转换 UPS 系统,维持电压变化在 2% 以内、总谐波失真在 3% 以内的电源质量。电池备份必须维持满负载运行至少 15 分钟,10MW AI 部署需要 2,400 kWh 的电池容量。
公用事业电力可用性比任何其他因素更能约束选址。北弗吉尼亚和硅谷等主要托管市场面临电力限制,新容量要到 2027 年才能提供。⁷ 提供即时电力接入的二级市场尽管连接性较差,但要价更高。凤凰城有可用电力的设施每月每 kW 收费 500 美元,而电力受限的弗吉尼亚州为 180 美元。⁸ 组织必须在电力可用性与延迟要求和运营考虑之间取得平衡。
冷却能力决定实际与宣传的密度
"高密度支持"的营销宣传在面对实际热负载时会崩溃。120kW 机架每小时产生 409,000 BTU 的热量,相当于 34 个住宅加热炉连续运行。⁹ 即使采用热通道封闭和优化气流,风冷在每机架约 30kW 时就达到物理极限。实现 120kW 密度需要液冷,要么是后门热交换器,要么是直接到芯片解决方案。
托管服务商以不同的复杂程度处理液冷。基本实施方案为客户提供的冷却设备提供冷冻水,将复杂性转移给租户。先进设施提供冷却即服务,集成 CDU、歧管和监控。NVIDIA DGX-Ready 认证要求 25°C 供水温度,每机架最低 500 kW 冷却容量。¹⁰ 服务商必须证明 N+1 冷却冗余,自动故障转移在 30 秒内完成。
免费冷却小时数显著影响运营成本。北方气候的设施每年实现 6,000+ 免费冷却小时,与机械冷却相比,每 MW 可降低成本 120,000 美元。¹¹ 然而,寒冷气候带来建设挑战,可能缺乏熟练劳动力。最优平衡取决于具体工作负载模式和业务要求。24/7 推理工作负载比可转移到较冷时段的批处理训练作业更受益于免费冷却。
网络连接支持分布式 AI 工作负载
AI 托管需要前所未有的网络容量和多样性。训练工作负载在分布式节点之间产生 400Gbps 的持续流量,而推理服务需要对终端用户的亚毫秒级延迟。¹² DGX-Ready 设施提供每机架最低 4x400GbE 连接,设施内延迟低于微秒级。交叉连接选项必须同时支持 InfiniBand 和以太网结构。
承载商多样性防止网络分区片段化分布式训练作业。精英设施维持与 20+ 承载商的连接,采用多样化光纤路径。¹³ 到 AWS Direct Connect、Azure ExpressRoute 和 Google Cloud Interconnect 的云接入支持混合部署。地理分布设施间的专用波长支持灾难恢复和工作负载迁移。10 机架部署的综合连接月成本达到 50,000 美元。
Internet 对等安排对推理服务成本产生巨大影响。拥有强大对等的设施比纯传输安排节省 60-80% 的带宽成本。¹⁴ Equinix IX 等主要对等交换提供直接访问数千个网络。内容分发网络在边缘位置缓存经常访问的模型。智能路由基于延迟和成本参数优化路径选择。
安全和合规影响服务商选择
AI 基础设施包含需要全面安全保护的宝贵知识产权。DGX-Ready 设施实施多层安全架构的纵深防御。¹⁵ 周边安全包括防撞屏障、夹陷入口和 24/7 武装警卫。生物识别访问控制限制数据大厅进入。单独机笼提供物理隔离,顶盖防止翻墙访问。摄像系统维护 90 天录像,配备 AI 驱动的异常检测。
合规认证验证安全实施。SOC 2 Type II 认证确认控制措施长期有效性。ISO 27001 认证证明系统性安全管理。HIPAA 合规支持医疗保健 AI 工作负载。金融服务根据工作负载类型需要特定认证,如 PCI DSS 或 FISMA。每个认证都增加运营开销,但扩大了可寻址市场。
随着 GPU 价值增加,供应链安全变得重要。设施必须验证硬件真实性并维护监管链。安全销毁服务防止退役设备的数据泄漏。一些服务商提供带硬件安全模块的可信执行环境。额外的安全措施增加基本托管成本的 10-15%,但防止灾难性泄露。
Introl 在我们的全球覆盖区域内评估托管服务商,已在全球 100 多个设施中部署 GPU 基础设施。¹⁶ 我们的评估框架评估 127 个技术参数,识别真正能够支持高密度 AI 工作负载的服务商,区别于仅声称有能力的服务商。
地理分布影响延迟和成本
托管地理位置通过多个向量影响 AI 部署。训练工作负载容忍较高延迟,可放置在低成本位置。推理服务需要接近用户,要求地理分布。数据主权法规要求某些数据集的国内处理。自然灾害风险影响保险成本和业务连续性规划。
主要市场(北弗吉尼亚、硅谷、达拉斯)提供优质连接但面临容量限制。托管成本达到每月每 kW 600 美元,需要 24 个月承诺。¹⁷ 二级市场(凤凰城、亚特兰大、芝加哥)以每 kW 300-400 美元提供可用容量。三级市场(盐湖城、奥马哈、哥伦布)提供每 kW 200 美元定价,但生态系统支持有限。
国际考虑使服务商选择复杂化。欧洲设施符合 GDPR 但比美国同类设施贵 40%。亚洲设施接近制造但面临监管不确定性。跨国部署必须应对不同的电力标准、冷却方法和运营实践。货币波动为国际合同增加 5-10% 的不确定性。
合同结构和商业条款
AI 基础设施的托管合同与传统安排有很大不同:
电力承诺:合同规定承诺电力消耗,设有照付不议条款。超额使用产生每 kW 500-1,000 美元的罚款。¹⁸ 服务商要求 6 个月内 80% 的电力利用率。未使用的电力一旦分配就无法收回。增长预留以当前定价确保未来容量。
冷却 SLA:温度和湿度保证防止热节流。供水温度必须保持在规格 1°C 以内。流量保证每机架最低 GPM。冷却故障响应时间不能超过 15 分钟。SLA 违约罚款达到每小时 10,000 美元。
灵活性条款:AI 工作负载需要前所未有的灵活性。扩展权利使增长无需重新安置。收缩权利允许市场低迷期间缩减规模。技术更新条款允许基础设施升级。退出条款提供定义罚款的终止选项。
定价模式:全包定价简化预算但降低灵活性。计量定价使成本与使用对齐但产生不确定性。基于电力的定价偏爱高效运营。基于空间的定价惩罚高密度部署。混合模式平衡可预测性与优化激励。
系统性选择的评估框架
系统性评估确保最优服务商选择:
技术评分(40% 权重): - 电力密度能力(每机架最大 kW) - 冷却技术和容量 - 网络连接选项 - 液冷就绪性 - 基础设施冗余级别
商业评分(25% 权重): - 包括所有费用的每 kW 总成本 - 合同灵活性条款 - SLA 罚款和保证 - 增长容纳选项 - 财务稳定性指标
运营评分(20% 权重): - 远程协助能力 - 交叉连接配置速度 - 维护窗口和程序 - 事件响应时间 - 客户门户能力
战略评分(15% 权重): - 地理覆盖对齐 - 生态系统合作伙伴质量 - 创新路线图对齐 - 可持续性倡议 - 文化契合度评估