AI工作负载的碳核算:GPU排放的测量与报告
更新于2025年12月11日
2025年12月更新: NVIDIA公布H100 PCF为每8卡底板1,312千克二氧化碳当量(每卡164千克)。康奈尔大学研究预测到2030年AI年度碳排放将达2400-4400万公吨。亚马逊2024年排放量升至6825万公吨,为2021年以来首次增长。预计到2028年AI服务器将消耗美国数据中心70-80%的电力(240-380太瓦时)。
NVIDIA发布了搭载八块H100 SXM卡的底板产品碳足迹报告,估算隐含排放量为1,312千克二氧化碳当量——约每卡164千克二氧化碳当量。[^1] 内存贡献了42%的隐含碳足迹,集成电路贡献25%,散热组件贡献18%。这一披露是首个基于供应商的评估,为GPU环境影响提供了透明度,为追踪AI基础设施排放的组织建立了基准。
AI碳核算的重要性随着每次部署而增加。康奈尔大学的一项研究发现,按照当前AI增长速度,到2030年每年将排放2400至4400万公吨二氧化碳——相当于在美国道路上增加500至1000万辆汽车。[^2] 亚马逊报告其排放量从2023年的6438万公吨增至2024年的6825万公吨,这是该公司自2021年以来的首次增长,主要由数据中心和配送业务驱动。[^3] 谷歌2023年的温室气体排放量同比增长13%,正值AI竞赛白热化阶段。[^4] 部署AI基础设施的组织需要能够测量影响并识别减排机会的碳核算实践。
理解AI碳足迹的组成部分
AI的碳足迹由两个主要部分组成:制造IT设备和建设数据中心产生的隐含排放,以及AI相关计算过程中电力消耗产生的运营排放。[^5] 全面的碳核算必须涵盖这两个类别。
隐含排放
隐含排放在AI系统处理第一个token之前就已产生。GPU制造需要高能耗的半导体制造工艺、稀土开采和全球供应链运输。NVIDIA的H100 PCF分解显示了隐含碳在内存、处理和散热组件之间的分布特性。[^6]
数据中心建设增加了来自混凝土、钢材和机械系统的隐含排放。一座超大规模数据中心在投入运营之前就已包含数百万吨二氧化碳当量的隐含排放。建设排放在设施生命周期内分摊,但高密度AI部署可能比传统计算需要更频繁的基础设施更新。
运营排放
运营排放取决于计算强度和电力碳强度。根据2024年美国数据中心能源使用报告,AI服务器在2024年消耗了美国数据中心总电力的23%,预计到2028年将消耗70-80%(年均240-380太瓦时)。[^7]
该电力的碳强度因地点和时间而异。在燃煤电网中消耗700W功率的GPU产生的排放量远高于使用可再生能源供电设施中的相同硬件。约56%的美国数据中心用电来自化石燃料发电厂,其中16%来自煤电。[^8] AI工作负载的地理和时间优化提供了巨大的减排机会。
指标和标准
AI碳核算需要标准化指标,以便在不同组织之间进行比较并验证减排声明。
已建立的数据中心指标
电能使用效率(PUE)通过比较设施总功率与IT设备功率来衡量数据中心基础设施效率。[^9] PUE为1.5意味着50%的电力用于冷却和其他开销。现代数据中心的目标是PUE低于1.2。
数据中心基础设施效率(DCIE)是PUE的倒数,将IT功率表示为总功率的百分比。这两个指标有助于优化基础设施,但不能直接测量碳排放。
碳使用效率(CUE)将能源使用与碳排放联系起来(千克二氧化碳/千瓦时),考虑电力来源。[^10] CUE捕捉了PUE所遗漏的碳强度维度。
能源再利用因子(ERF)量化废热再利用,为向外部用户供热的设施提供信用。[^11] 数据中心废热为建筑供暖的区域供热安排可减少净排放。
AI特定的测量挑战
从2021年到2025年,GPU TDP以年均41.5%的复合增长率增长。[^12] 功率增长超过了效率提升,这意味着下一代GPU即使每瓦处理更多token,也会消耗更多能源。
训练与推理排放需要分别核算。消耗数千个加速器数月GPU时间的训练运行会产生大量一次性排放。推理排放随着用户在模型运营生命周期内查询训练好的模型而累积。组织必须追踪这两个阶段。
追踪和报告工具
多种工具和框架支持AI碳核算。
eco2AI
eco2AI开源软件包帮助数据科学家追踪机器学习模型的能耗和等效二氧化碳排放。[^13] 该工具专注于准确的能源追踪和区域二氧化碳排放核算,根据电网碳强度将计算时间转换为碳影响。
研究人员将eco2AI集成到训练流程中,以累积实验中的排放估算。这种方法将碳成本与准确性指标一起呈现,支持碳感知的模型开发决策。
监管框架
2024年初,立法者提出了《人工智能环境影响法案》,指示EPA研究AI的环境足迹,并通过NIST制定测量标准。[^14] 拟议的自愿报告系统将标准化组织披露AI排放的方式。
欧盟AI法案建立了影响AI可持续性报告的数据治理要求。部署高风险AI系统的组织可能面临包括环境影响在内的披露要求。监管趋势表明,强制性报告将在自愿框架之后跟进。
减排策略
康奈尔大学研究人员得出结论:"没有万能解决方案"来减少AI排放。[^15] 选址、电网脱碳和高效运营共同作用,可实现约73%的碳减排和86%的水资源减排。有效的策略结合多种方法。
地理优化
数据中心位置决定了基准碳强度。位于可再生能源占比高的电网地区的设施比依赖化石燃料地区的相同设施产生更少的排放。弗吉尼亚州拥有的美国数据中心数量(301个)超过任何其他州,其次是加利福尼亚州(248个)和德克萨斯州(221个)。[^16] 每个州提供不同的电网碳配置。
具有工作负载灵活性的组织可以将作业路由到碳排放更低的地点。能够容忍延迟的训练运行可以转移到可再生能源发电高峰的时间和地点。这种优化需要碳感知调度能力。
运营效率
高效运营可以在任何电网碳强度下减少能源消耗。施耐德电气与NVIDIA合作设计的参考架构将冷却能耗降低了近20%。[^17] 在配电、冷却和计算利用率方面的类似效率改进会产生复合效应,带来显著的减排效果。
AI工作负载优化可以在同等输出下减少计算需求。模型蒸馏、量化和高效推理框架(如NVIDIA NIM)可减少每次推理的能耗。工作负载层面的效率改进在数百万次推理请求中成倍放大。
可再生能源采购
通过购电协议直接采购可再生能源可确保AI运营使用清洁电力。组织可以采购24/7全天候无碳能源,按小时而非按年匹配消耗,消除可再生能源低谷期的残余化石燃料消耗。
利用太阳能和电池储能进行现场发电可提供无输电损耗的可再生电力。位于高日照地区的数据中心园区可以在本地生产其大部分用电。
实施碳核算
实施AI碳核算的组织应建立基准测量,将追踪整合到运营中,并制定减排路线图。
基准建立
盘点现有AI基础设施,包括GPU数量、功率等级和利用模式。记录数据中心位置和电力来源。使用测量的功耗和区域碳强度因子计算当前运营排放。
使用供应商披露(如NVIDIA的H100 PCF)和未列出组件的行业平均值估算隐含排放。将隐含排放按预期设备生命周期(加速器通常为3-5年)分摊。
运营整合
将排放追踪整合到基础设施监控中。GPU监控工具(如NVIDIA DCGM)提供功耗数据。将功率遥测与提供实时电网碳信息的碳强度API相结合。
Introl的550名现场工程师网络支持组织实施以可持续性为重点的GPU基础设施监控。[^18] 该公司在2025年Inc. 5000榜单中排名第14位,三年增长率达9,594%,反映了对专业基础设施服务的需求。[^19]
在257个全球地点部署监控需要一致的实践,以便在不同设施之间进行可比较的碳核算。[^20] Introl管理的部署规模达到100,000个GPU,拥有超过40,000英里的光纤网络基础设施,为全面排放追踪提供运营规模。[^21]
减排路线图
设定与科学目标和组织承诺相一致的减排目标。识别效率、可再生能源采购和地理优化方面的减排机会。按排放影响和实施可行性确定行动优先级。
对照基准和目标追踪进展。按照新兴标准和监管要求报告排放。随着AI碳核算的成熟,为日益增加的披露要求做好准备。
问责势在必行
高盛研究估计,数据中心电力需求增长的60%将来自化石燃料燃烧,使全球碳排放增加约2.2亿吨。[^22] 排放轨迹使碳核算成为AI组织的必要选择,而非可选项。
现在建立健全碳核算的组织既为监管要求做好准备,又能识别同时减少排放和成本的效率机会。测量基础使原本缺乏针对性的减排策略成为可能。碳感知的AI基础设施既代表环境责任,也代表卓越运营。
关键要点
对于可持续发展团队: - NVIDIA H100隐含排放:每底板(8卡)1,312千克二氧化碳当量;内存贡献42%,集成电路25%,散热18% - 到2030年AI年排放可能达2400-4400万公吨二氧化碳——相当于美国道路上增加500-1000万辆汽车(康奈尔大学) - GPU TDP年复合增长率41.5%(2021-2025);功率增长超过效率提升
对于基础设施架构师: - AI服务器:2024年占美国数据中心电力的23%,预计到2028年达70-80%(240-380太瓦时) - 56%的美国数据中心电力来自化石燃料,16%来自煤电;地理优化至关重要 - PUE衡量基础设施效率;CUE将能源使用与碳强度(千克二氧化碳/千瓦时)联系起来
对于运营团队: - eco2AI开源