Anthropic 500亿美元数据中心计划:AI实验室转型基础设施建设者

Anthropic 加入 OpenAI 的行列,开始建设自有基础设施,重塑 AI 实验室与超大规模云服务商之间的关系格局。

Anthropic 500亿美元数据中心计划:AI实验室转型基础设施建设者

Anthropic 500亿美元数据中心计划:AI实验室转型基础设施建设者

2025年12月10日 作者:Blake Crosley

2025年11月12日,Anthropic 与英国新兴云服务商 Fluidstack 签署了一项价值500亿美元的数据中心合作协议,计划在德克萨斯州和纽约州建设数据中心,预计将于2026年陆续投入运营。[^1] 该项目将创造约800个长期工作岗位和2400个建筑工程岗位,标志着 Anthropic 首次大规模投资建设定制化基础设施,而非依赖云服务提供商。[^2]

这一宣布是 Anthropic 前所未有的多云基础设施战略中的重要一环。与此同时,Anthropic 还保持着对 AWS Project Rainier(50万颗 Trainium2 芯片,可扩展至100万颗)、Google Cloud TPU(最多100万颗芯片),以及与 Microsoft Azure 新达成的300亿美元合作协议的访问权限——后者还包括来自 NVIDIA 和微软共计150亿美元的投资。[^3][^4][^5]

Anthropic 的基础设施组合:

合作伙伴 承诺金额 容量 状态
Fluidstack 500亿美元 德克萨斯州 + 纽约州数据中心 2026年上线
Microsoft Azure 300亿美元 + 150亿美元投资 Grace Blackwell、Vera Rubin 进行中
AWS Project Rainier 基础设施访问权 50万→100万颗 Trainium2 芯片 进行中
Google Cloud 多年期协议 最多100万颗 TPU 芯片,1+ GW 进行中
总计 950亿美元以上承诺 数吉瓦级 2025-2026

这种多云策略与 OpenAI 的 Stargate 项目形成鲜明对比——后者是与软银、甲骨文和 MGX 合作的单一5000亿美元合资项目,目标是到2029年达到10吉瓦容量。[^6] Anthropic 的分布式策略在不同架构(NVIDIA、Trainium、TPU)和提供商之间进行了算力访问的风险对冲。

战略考量

随着模型向通用人工智能(AGI)方向发展,Anthropic 的基础设施投资旨在解决前沿 AI 实验室面临的关键瓶颈。

多架构对冲

训练前沿模型现在需要数万颗加速器协同工作的集群。[^7] Anthropic 没有押注单一架构,而是确保了对三个竞争平台的访问权限:

加速器对比:

架构 提供商 优势 Anthropic 获取情况
NVIDIA Grace Blackwell Microsoft Azure 顶级训练性能、完善生态 300亿美元承诺
AWS Trainium2 Amazon 成本效益、定制芯片 50万→100万颗芯片
Google TPU v5 Google Cloud 推理效率、性价比 最多100万颗芯片

这种多元化确保没有任何单一供应商能够限制 Anthropic 的训练能力。如果 NVIDIA 分配紧张,Anthropic 可以将工作负载转移到 Trainium 或 TPU。如果 AWS 优先服务其他客户,Azure 可以提供备用容量。

Claude 的规模需求

2025年11月发布的 Claude Opus 4.5 是 Anthropic 迄今最强大的模型。[^8] 训练下一代模型需要更大的算力配置。Project Rainier 展示了这一规模:该集群横跨三个州(宾夕法尼亚州、印第安纳州、密西西比州),大部分芯片用于推理,而训练任务在推理需求下降的晚间时段执行。[^9]

仅通过 Google Cloud,Anthropic 在2026年将获得超过1吉瓦的容量。[^10] 加上 Fluidstack 设施和 AWS 基础设施,总容量接近数吉瓦级——这种算力规模此前只有最大的超大规模云服务商才能拥有。

经济套利

云端 GPU 租赁价格已从2024年初的8美元/小时(H100)下降到2025年末的2.85-3.50美元/小时,但持续训练仍会累积数百万美元的成本。[^11] 自有基础设施将可变运营支出转化为具有不同经济特性的资本投资。

大规模训练经济学:

指标 云租赁 自有基础设施
10,000 GPU月 2000-2500万美元 1500-1800万美元(摊销后)
容量灵活性 即时 12-24个月前置期
架构选择 取决于提供商 自主决定
资产闲置风险 显著

Fluidstack 合作提供了中间路线:为 Anthropic 的工作负载定制设施,同时避免完全所有权风险。

合作结构

Fluidstack 合作代表了一个经过深思熟虑的选择:选择新兴云服务商的敏捷性,而非超大规模云服务商的规模。

为什么选择 Fluidstack

Fluidstack 成立于2017年,在2025年早些时候证明了其能力——被选为法国政府支持的1吉瓦 AI 项目的主要合作伙伴,该项目支出超过110亿美元。[^12] Anthropic CEO Dario Amodei 选择 Fluidstack 是因为其"出色的敏捷行动能力,能够快速交付数吉瓦级电力。"[^13]

Fluidstack 的新兴云模式不同于超大规模云服务商的方式: - 速度:数月而非数年完成设施交付 - 定制化:针对 Anthropic 特定工作负载模式优化的基础设施 - 经济性:无超大规模云服务商利润加成,直接成本透传 - 灵活性:针对 AI 实验室需求定制的合同条款

地理布局策略

德克萨斯州和纽约州的选址服务于不同的战略目的:

德克萨斯州设施: - 较低的电力成本(0.04-0.06美元/千瓦时,相比其他地区0.12美元以上) - 有利于数据中心发展的监管环境 - 靠近阿比林现有的 Stargate 基础设施 - 主要功能:大规模训练任务

纽约州设施: - 与金融行业客户的优质连接 - 与东北部人口中心的低延迟访问 - 靠近 Claude API 服务的企业客户 - 主要功能:推理服务、企业部署

领导层投入

2025年10月,Anthropic 聘请 Rahul Patil 担任 CTO,专门负责计算、基础设施、推理和工程运营。[^14] Patil 曾担任 Stripe CTO 的背景表明,Anthropic 致力于将基础设施作为核心竞争力,而非外包职能。

Stargate 对比:AI 基础设施的两种模式

Anthropic 的分布式策略与 OpenAI 集中式 Stargate 方案之间的对比,揭示了根本性的理念差异。

基础设施战略对比:

维度 Anthropic OpenAI Stargate
总承诺 950亿美元以上(分布式) 5000亿美元(集中式)
时间线 2025-2026 至2029年
架构 多供应商(NVIDIA、Trainium、TPU) 以 NVIDIA 为主
所有权 合作模式 合资企业(软银、OpenAI 各占40%)
地理分布 多个设施,3个以上云区域 6个以上站点,10 GW 目标
风险特征 较低(分散化) 较高(集中化)

OpenAI 的 Stargate 已在六个站点确保了近7吉瓦的规划容量,已承诺投资超过4000亿美元——按此进度,有望提前实现10吉瓦、5000亿美元的完整目标。[^15] 然而,有报道指出该项目在执行过程中面临延误和挑战。[^16]

Anthropic 的方案以规模换取韧性。如果 Stargate 遇到建设延误、融资挑战或技术变革,OpenAI 将面临集中化风险。Anthropic 的分布式承诺在多个提供商之间提供了备用容量。

行业影响

Anthropic 的多提供商策略在 AI 基础设施生态系统中产生了连锁反应。

竞争格局转变

前沿 AI 实验室格局现在呈现两种截然不同的基础设施理念: - 集中式:OpenAI(Stargate)、Meta(6000亿美元内部建设) - 分布式:Anthropic(多云 + 自有)

规模较小的实验室面临压力,必须做出选择:与资金更充裕的竞争对手争夺超大规模云服务商容量,还是接受基础设施劣势。具有竞争力的基础设施所需的资本要求已超出独立融资能力。

云服务商定位

超大规模云服务商在竞争 AI 实验室锚定客户的同时,建设的容量可能会超过需求——如果实验室转而建设自有基础设施。这种动态给容量规划带来不确定性:

  • AWS:通过 Project Rainier 维持与 Anthropic 的关系,但失去独家地位
  • Google Cloud:获得多年期 TPU 承诺,验证了定制芯片战略
  • Microsoft Azure:通过300亿美元以上的承诺赢得 Anthropic,实现了 OpenAI 之外的多元化
  • Oracle:被 Anthropic 排除在外,加倍投入 Stargate 合作

新兴云服务商的验证

Fluidstack 被选中而非老牌超大规模云服务商,验证了新兴云模式在前沿 AI 基础设施领域的可行性。其他新兴云服务商(CoreWeave、Lambda、Together)因类似合作而获得可信度。新兴云服务商行业正从替代容量来源转型为战略基础设施合作伙伴。

执行挑战

将950亿美元的承诺转化为可运营的基础设施,涉及多个维度的重大执行风险。

资本筹集

Anthropic 披露的融资额(截至2024年约80亿美元)与950亿美元以上的承诺相去甚远。弥补资金缺口需要: - 持续的风险投资(据报道 Google 额外投入了10亿美元) - Claude API 和企业产品的收入增长 - 战略合作伙伴的贡献(NVIDIA 的100亿美元、微软的50亿美元) - 设施投入运营后可能的债务融资

这些承诺代表了需要持续获得资本的多年期愿景。影响科技投资的经济状况可能制约资金可得性。

多提供商协调

同时在 AWS、Google Cloud、Azure 和 Fluidstack 上运营会带来协调复杂性: - 不同的 API、工具和运营实践 - 跨提供商的工作负载放置优化 - 多环境下的安全和合规 - 跨合同的成本归属和优化

多云策略的优势(韧性、议价能力)伴随着集中式方案所避免的运营开销。

专业支持需求

Introl 的550名现场工程师支持跨多个提供商和架构实施大规模 AI 基础设施的组织。[^17] 该公司以三年9594%的增长率在2025年 Inc. 5000 榜单中排名第14位,反映了市场对多云部署专业知识的需求。[^18]

全球257个地点的部署需要无论底层提供商如何都保持一致的运营实践。[^19] Introl 管理着涉及10万颗 GPU 的部署,拥有超过4万英里的光纤网络基础设施。[^20]

基础设施规划者的决策框架

Anthropic 的策略为评估 AI 基础设施方案的组织提供了借鉴。

基础设施策略选择:

您的情况 推荐方案 理由
年 GPU 支出 <1000万美元 超大规模云服务商租赁 规模不足以支撑专用基础设施
年支出 1000万-1亿美元 多云 + 承诺容量 平衡灵活性与定价
年支出 >1亿美元 自有 + 租赁混合 规模化经济优化
前沿 AI 开发 多提供商组合 容量保障、架构可选性

需要监控的信号

关注以下指标,以判断 Anthropic 的分布式模式是否优于 Stargate 的集中式方案(或反之): - Claude 与 GPT 发布版本的相对训练效率指标 - 设施部署时间线是否达标或延误 - API 定价中的每 token 成本趋势 - 架构性能对比(NVIDIA vs. Trainium vs. TPU)

核心要点

对于 AI 基础设施运营者: - 多提供商策略降低依赖风险,但增加运营复杂性 - 新兴云合作提供相对于超大规模云服务商的速度和定制化优势 - 基础设施已成为

[内容因翻译需要而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中