轨道数据中心:天基人工智能基础设施完全指南
2025年12月10日,一颗搭载Nvidia H100 GPU的60公斤卫星在太空中成功训练了首个大语言模型,标志着计算史上的关键时刻。Starcloud的成就表明,地球上功耗最高的芯片可以在太空真空环境中运行,有望为目前令地面电网不堪重负的AI工作负载释放无限的太阳能。
要点速览
Starcloud成为首家在轨道上训练大语言模型的公司,在其Starcloud-1卫星上使用Nvidia H100 GPU运行NanoGPT。Google计划通过Project Suncatcher项目在2027年初发射配备TPU的卫星,而中国的"三体计算星座"计划到2030年部署2,800颗AI卫星。其经济可行性取决于发射成本降至每公斤200美元以下,以及太阳能电池板在轨道上产生高达地面8倍电力的前景。对于面临2030年电力需求将增长三倍预测的数据中心运营商而言,轨道基础设施代表着摆脱地面电网限制的潜在出路。
推动太空雄心的地面电力危机
根据美国能源部的数据,2023年数据中心消耗了美国总电力的4.4%,到2028年可能达到6.7%至12%。全球数据中心的电力消耗将到2030年翻倍至945 TWh,AI优化服务器在数据中心电力使用中的占比将从2025年的21%增长到2030年的44%。
电力需求预测
| 地区 | 2024年 | 2030年 | 增长幅度 |
|---|---|---|---|
| 美国数据中心 | ~45 GW | 134.4 GW | ~3倍 |
| 全球数据中心 | 460 TWh | 945-980 TWh | ~2倍 |
| AI服务器(全球) | 93 TWh | 432 TWh | ~5倍 |
地方官员已开始拒绝新的数据中心提案,因为这些项目给电网带来压力并消耗冷却用水。仅美国一国,到2030年在PJM互联电网中,预计数据中心负荷与预期新增发电容量之间就可能面临2.3 GW的缺口。
太空提供了一个令人信服的替代方案。太阳发出的能量超过人类总发电量的100万亿倍。在合适的轨道上,太阳能电池板几乎可以连续运行,产生的电力比地球上同等系统高5-8倍,且没有大气干扰。
Starcloud:首个在太空训练的大语言模型
历史性成就
Nvidia支持的初创公司Starcloud于2025年11月2日搭乘SpaceX火箭发射了Starcloud-1卫星。这颗60公斤的卫星大约相当于一台小冰箱的大小,搭载了首个进入轨道的Nvidia H100 GPU。
"H100的性能大约是此前在轨道上运行的任何GPU计算机的100倍,"Starcloud首席执行官兼联合创始人Philip Johnston告诉IEEE Spectrum。
该公司使用莎士比亚全集训练了NanoGPT(由OpenAI创始成员Andrej Karpathy创建的大语言模型),生成了一个能说莎士比亚式英语的模型。Starcloud-1还在轨道上运行和查询Google的Gemma大语言模型。
Starcloud-1技术规格
| 规格 | 详情 |
|---|---|
| 卫星质量 | 60公斤 |
| 主GPU | Nvidia H100(700W TDP) |
| 计算性能 | 此前太空GPU的100倍 |
| 发射载具 | SpaceX Falcon 9 |
| 发射日期 | 2025年11月2日 |
| 轨道 | 晨昏线(昼夜交界) |
解决热管理挑战
将一颗700瓦的GPU送入轨道带来了巨大的热管理挑战。在地球上,H100芯片需要复杂的水冷和风冷系统。在太空中,没有空气可以通过对流带走热量。
Starcloud首席技术官Adi Oltean和他的工程团队设计了一套完全依赖辐射冷却的系统,使用大型专用面板将GPU产生的强烈热量直接辐射到深空的极寒真空中(平均温度:2.7开尔文或-270.45°C)。
Oltean表示,这个解决方案凝聚了"大量的创新和艰苦工作"。
Starcloud发展路线图
| 阶段 | 时间线 | 规格 |
|---|---|---|
| Starcloud-1 | 2025年11月 | 单个H100,60公斤卫星 |
| Starcloud-2 | 2026年10月 | 多个H100 + Blackwell平台 |
| 商业卫星 | 2026年 | 1 MW太阳能阵列 |
| 超级集群 | Starship投入使用后 | 5 GW,4公里×4公里太阳能阵列 |
该公司通过Y Combinator的支持和加入Nvidia Inception计划筹集了超过1000万美元。Nvidia的Blackwell平台集成将比当前的Hopper架构实现高达10倍的改进。
Google Project Suncatcher:轨道上的TPU
愿景
Google于2025年11月宣布了Project Suncatcher项目,这是一个探索配备TPU和自由空间光通信链路的太阳能卫星星座的登月计划,旨在扩展太空中的机器学习计算能力。
该公司将与Planet Labs合作,在2027年初发射两颗原型卫星进入距地球约400英里的低地球轨道。
技术架构
| 组件 | 规格 |
|---|---|
| 轨道 | 晨昏太阳同步轨道,650公里高度 |
| 集群设计 | 81颗卫星,1公里半径 |
| 卫星间距 | 最近邻卫星之间100-200米 |
| 星间链路 | 通过DWDM实现双向各800 Gbps(共1.6 Tbps) |
| 目标带宽 | 数十太比特每秒 |
| TPU型号 | Trillium v6e Cloud TPU |
辐射测试结果
Google在67 MeV质子束中测试了其Trillium TPU,以模拟低地球轨道的辐射水平:
| 测试结果 | 详情 |
|---|---|
| 最敏感组件 | 高带宽内存(HBM)子系统 |
| 异常阈值 | 2 krad(Si)累积剂量 |
| 预计5年任务剂量 | ~0.7 krad(Si)(有屏蔽) |
| 安全裕度 | ~3倍预期暴露量 |
| 最大测试剂量 | 15 krad(Si),无永久性故障 |
经济预测
Google估计,如果发射成本降至每公斤200美元以下(目前通过SpaceX约为1,400美元/公斤),天基AI集群可能在2035年实现经济可行性。
全球轨道数据中心竞赛
主要参与者和时间表
| 公司/项目 | 状态 | 目标规模 | 时间表 |
|---|---|---|---|
| Starcloud | 首个LLM已训练 | 5 GW轨道设施 | 2030年代 |
| Google Suncatcher | 规划中 | 81卫星集群 | 2027年演示 |
| 中国三体 | 12颗卫星已发射 | 2,800颗卫星 | 2030年 |
| SpaceX Starlink V3 | 开发中 | 配备AI计算的Starlink | 2026年 |
| Blue Origin | 研发中 | 吉瓦级规模 | 10-20年 |
| Axiom Space | 开发中 | 自由飞行ODC节点 | 2025年底 |
中国的三体计算星座
中国于2025年5月14日发射了12颗卫星,标志着"三体计算星座"的首发。该星座以科幻小说和引力物理问题命名,代表着[浙江实验室、阿里巴巴集团和其他合作伙伴](https://spaceeyen