数据中心AIOps:使用大语言模型管理AI基础设施

数据中心AIOps:使用大语言模型管理AI基础设施

数据中心AIOps:使用大语言模型管理AI基础设施

更新于2025年12月11日

2025年12月更新: 67%的IT团队现已使用自动化进行监控;没有受访者表示完全没有采用现代自动化技术。Google DeepMind的冷却AI实现了40%的能耗降低(PUE改善15%)。ServiceNow AI Agents能够自主分类告警、评估影响、调查根本原因并推动修复。基于大语言模型的自然语言界面正在取代专门的查询语言来进行基础设施管理。

Google DeepMind的自主冷却AI将数据中心冷却能耗降低了40%,整体电源使用效率(PUE)下降了15%。[^1] 该系统每五分钟从数千个传感器获取快照数据,输入深度神经网络,并在满足安全约束的前提下识别最小化能耗的操作方案。[^2] 当DeepMind于2018年部署该系统时,它成为首个在如此规模运行的自主工业控制系统。[^3] 七年后的今天,AIOps平台已将AI驱动的自动化扩展到数据中心运营的各个方面,大语言模型实现了自然语言界面和对基础设施状态的复杂推理能力。

Futurum的调查显示,67%的IT团队使用自动化进行监控,54%采用AI驱动的检测来提高可靠性。[^4] 没有任何受访者表示其环境中完全没有现代自动化技术。[^5] 数据中心运营商面临的问题已从是否采用AIOps转变为如何积极地在运营工作流中部署AI。运行AI工作负载的基础设施越来越依赖AI来管理自身。

AIOps变革

AIOps(IT运营人工智能)将实时监控与预测分析相结合,使平台能够在问题影响性能之前识别瓶颈、预测故障并优化资源分配。[^6] Gartner于2016年创造了这一术语,认识到IT正在从集中式向分布式运营转变,跨越全球的云端和本地基础设施。[^7]

传统监控会产生告警风暴,让运营团队不堪重负。单个基础设施事件可能触发数千个相关告警,每个都需要关注,同时却掩盖了根本原因。ServiceNow的事件管理通过处理事件、标签和指标来呈现可操作的洞察而非原始告警,将噪音降低了99%。[^8]

从被动响应到预测性运营

ServiceNow AIOps使用机器学习算法按拓扑、标签和文本相似性对相关告警进行聚类,减少告警风暴和运营噪音。[^9] 先进的无监督模型能在问题影响最终用户前数小时识别新出现的问题或异常模式,实现早期干预而非事后响应。

主动事件管理从根本上改变了运营工作流。团队不再响应中断,而是在用户察觉之前解决性能下降问题。从被动响应到预防性运营的转变缩短了平均修复时间(MTTR),同时完全避免了许多事件的发生。[^10]

Metric Intelligence持续分析指标数据,实现快速异常检测和动态阈值设定。[^11] 当正常运行范围随时间、工作负载模式或季节性因素变化时,静态阈值会产生误报。动态阈值适应实际行为,仅在真正异常时发出告警。

用于IT运营的大语言模型

大语言模型正在改变运营团队与监控和自动化系统的交互方式。一项详细调查分析了2020年1月至2024年12月间发表的183篇关于大语言模型在AIOps应用的研究文章。[^12] 研究表明,语言模型在运营挑战方面的应用日益成熟。

自然语言界面

现代AIOps平台支持聊天机器人或大语言模型驱动的界面,加速人机协作。[^13] 运维人员使用自然语言而非专门的查询语言来查询基础设施状态。大语言模型将问题转化为适当的监控查询,并将结果综合成易于理解的摘要。

研究人员提出了有效的大语言模型驱动的IT运营管理AI助手,能够应对AIOps挑战。[^14] 不同的语言模型在训练数据、架构和参数数量上各有差异,影响其在IT运营任务中的能力。像Mistral Small 7B这样的小型模型尽管规模较小,但在推理和工具选择方面表现出显著的效率。[^15]

用于自主运营的AI Agent

ServiceNow的AIOps AI Agents能够自主分类告警、评估业务和技术影响、调查根本原因,并通过协调的智能体工作流推动修复。[^16] 可观测性AI Agents通过与第三方APM和可观测性工具协作来分析服务影响并确定调查优先级,进一步扩展了功能。

从监控到告警再到自主修复的演进代表了根本性的能力扩展。早期的AIOps系统检测问题并通知人类。当前的系统越来越多地在无需人工干预的情况下处理常规事件,仅在遇到超出其配置范围需要判断或授权的情况时才进行上报。

AI驱动的冷却优化

数据中心冷却是AIOps最成功的应用之一,可测量的节能效果验证了这一方法的有效性。

DeepMind的自主冷却系统

DeepMind开发了一个神经网络框架,使用Google数据中心2年的监控数据,实现了40%的冷却能耗降低。[^17] 该网络架构采用5个隐藏层,每层50个节点,处理19个归一化输入变量来预测最优控制动作。[^18]

该系统自主运行,将推荐动作发送到数据中心控制系统进行验证和实施。[^19] 安全约束确保推荐保持在可接受的运行范围内。控制系统在执行前验证推荐,在实现AI驱动优化的同时保持人工监督。

这一成功表明,AI可以优化超越人类直觉的复杂物理系统。运维人员无法每五分钟手动调整数百个变量以实现最佳效率。AI处理持续优化,而人类处理异常情况和系统监督。

Schneider Electric与NVIDIA的合作

2025年,Schneider Electric与NVIDIA合作设计了支持高达132 kW机架密度的AI优化参考架构。[^20] 该联合解决方案将冷却能耗降低了近20%。这一合作展示了供应商协作将AI优化应用于下一代高密度基础设施。

AI驱动的智能负载均衡确保工作负载以最节能的方式分布在服务器和冷却系统之间。[^21] 该优化同时考虑计算效率和热管理,找到手动规划无法发现的配置。

大规模基础设施自动化

AIOps不仅限于监控,还延伸到主动基础设施管理,自动化配置、部署和修复任务。

配置管理

58%的企业使用基础设施即代码或Ansible和Terraform等配置自动化工具来管理设备配置。[^22] 工程师编写脚本并使用版本控制的playbook,而非手动登录交换机。自动化确保一致性,同时为合规性创建审计跟踪。

AIOps平台与配置管理集成,检测实际状态与预期状态之间的偏差。当监控识别到配置异常时,自动修复会在无需人工干预的情况下恢复预期配置。从检测到修复的闭环加速了响应速度,同时减少了人为错误。

预测性维护

Health Log Analytics提供日志的实时分析和监控,确保快速识别异常。[^23] 大规模日志分析需要AI辅助:人类无法阅读数百万条日志条目来识别指示即将发生故障的模式。

预测性维护不仅限于软件,还延伸到物理基础设施。温度趋势、功耗模式和性能下降指标可在硬件故障发生前发出信号。在计划窗口内安排维护可避免中断运营的意外停机。

数字孪生与仿真

数字孪生、AIOps和预测分析有助于模拟和优化实时性能,确保更高的可靠性和能效。[^24] 数字孪生创建物理基础设施的虚拟表示,使运维人员能够在生产部署前测试变更。

容量规划

数字孪生在各种场景下对基础设施容量进行建模,帮助运维人员规划扩展并识别约束。AI分析历史模式来预测未来需求,在需求超过供应之前推荐容量增加。

这种建模能力对于GPU部署驱动容量快速增长的AI基础设施尤为重要。数字孪生在投入资金之前模拟拟议GPU集群扩展的冷却需求、配电和网络容量。

变更验证

在数字孪生环境中测试基础设施变更可降低生产事故风险。AI根据建模的基础设施行为验证拟议变更,在变更到达生产环境之前识别潜在问题。这种验证可捕获否则会导致中断的配置错误和资源冲突。

为AI基础设施实施AIOps

部署AIOps进行数据中心管理的组织应考虑集成需求、数据质量和运营准备度。

集成需求

ServiceNow的Integration Launchpad为AIOps与第三方监控工具的集成提供引导式设置。[^25] 组织可以配置开箱即用的连接器,或为不支持的监控工具创建自定义连接器。集成层将来自不同来源的数据聚合到统一的运营视图中。

AI基础设施通常包括针对GPU、高速网络和存储系统的专门监控,超出标准服务器监控范围。AIOps实施必须整合这些专门的数据源,以提供完整的基础设施可见性。

数据质量基础

AIOps的有效性取决于监控数据质量。不完整的数据、不一致的标签和覆盖范围的空白会限制AI模型的准确性。组织应在部署高级分析之前审计监控覆盖范围和数据质量。

历史数据能够基于组织特定模式训练预测模型。DeepMind使用了2年的监控数据来训练冷却优化模型。[^26] 缺乏足够历史数据深度的组织可能需要先收集数据,然后高级预测才能变得可靠。

运营准备度

自主运营需要明确定义AI权限边界的策略。组织必须决定哪些操作AI系统可以独立执行,哪些需要人工批准。从推荐和手动执行开始,在启用自主操作之前建立信心。

Introl的550名现场工程师支持组织在GPU基础设施部署中实施AIOps。[^27] 该公司以9,594%的三年增长率在2025年Inc. 5000榜单中排名第14位,反映了对专业基础设施服务的需求。[^28] 专业部署确保监控覆盖范围、集成质量和运营程序支持

[内容因翻译需要被截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中