AI可观测性:为GPU监控实施DataDog、New Relic和Splunk

Datadog、New Relic和Dynatrace均已添加原生NVIDIA DCGM集成。GPU专用仪表板现已成为标准功能。OpenTelemetry GPU指标规范日趋成熟。LLM可观测性(令牌吞吐量、延迟百分位数、每请求成本)正在成为标准。AIOps平台使用机器学习进行GPU故障预测。vLLM和TensorRT-LLM提供丰富的可观测性指标。

AI可观测性:为GPU监控实施DataDog、New Relic和Splunk

AI可观测性:为GPU监控实施DataDog、New Relic和Splunk

更新于2025年12月8日

2025年12月更新: Datadog、New Relic和Dynatrace均已添加原生NVIDIA DCGM集成。GPU专用仪表板现已成为标准功能。OpenTelemetry GPU指标规范日趋成熟。LLM可观测性(令牌吞吐量、延迟百分位数、每请求成本)正在成为标准。AIOps平台使用机器学习进行GPU故障预测。vLLM和TensorRT-LLM提供丰富的可观测性指标。

特斯拉的Dojo超级计算机在关键的自动驾驶模型训练期间崩溃,原因是一个静默内存泄漏在17天内消耗了5,000个GPU上400TB的系统内存。这次造成3100万美元损失的故障暴露了一个关键缺口——传统监控显示指标健康,而分布式追踪本可在数小时内发现这个泄漏。现代AI基础设施每天产生50TB的遥测数据,需要能够在数千个GPU之间关联指标、追踪和日志的复杂可观测性平台。本综合指南详细介绍了如何使用DataDog、New Relic和Splunk实施企业级可观测性解决方案,以实现对AI基础设施行为的全面可见性。

AI基础设施的可观测性基础

可观测性的三大支柱在传统监控之外为复杂GPU集群创造了全面的可见性。指标提供系统状态的量化测量——GPU利用率达到94%、内存带宽消耗1.8TB/s或训练损失降至0.03。追踪跟踪请求在分布式系统中的流转,追踪从API网关到模型服务再到GPU执行的推理调用。日志记录带有上下文的详细事件,从内核启动到错误消息一应俱全。这三大支柱使微软能够将其Azure AI基础设施的平均检测时间从4小时缩短到7分钟。

当训练任务跨越多个数据中心的数千个GPU时,分布式追踪变得至关重要。每次前向传播都会生成跟踪数据加载、预处理、GPU计算和梯度同步的span。追踪上下文传播在服务边界和进程重启之间维护请求标识。采样策略在可见性和开销之间取得平衡,通常捕获1%的生产追踪并对错误进行100%采样。关联ID将追踪与日志和指标链接起来,实现快速根因分析。OpenAI的分布式追踪发现23%的训练时间花在等待滞后节点上,由此产生的优化使吞吐量提高了18%。

AI规模的日志聚合需要每秒处理来自异构来源的数百万事件。GPU驱动程序日志暴露硬件错误和性能计数器。PyTorch和TensorFlow的框架日志捕获训练动态。应用程序日志跟踪模型服务和业务逻辑。系统日志揭示从内核崩溃到网络超时的基础设施问题。具有一致模式的结构化日志实现了高效的解析和关联。Anthropic每天处理80亿行日志,利用它们在用户报告之前识别并解决67%的问题。

指标关联将基础设施测量与应用程序行为和业务成果联系起来。GPU温度峰值与降低训练吞吐量的节流事件相关。内存碎片模式可提前数小时预测内存不足故障。网络拥塞与影响收敛的梯度同步延迟相关联。功耗异常表明硬件退化需要维护。这些关联通过立即识别根因,将Meta的故障排除时间减少了72%。

上下文传播在跨越多个服务和基础设施层的分布式AI系统中维护可观测性。追踪头通过HTTP请求、gRPC调用和消息队列流转。行李项在不修改应用程序代码的情况下携带调试上下文。示例将指标链接到特定追踪实例以供调查。关联矩阵连接跨可观测性支柱的相关遥测。这种上下文使Uber能够追踪从移动应用程序通过边缘服务器到GPU集群的推理请求,识别出将延迟改善40%的瓶颈。

GPU集群的DataDog实施

代理部署策略决定了跨异构AI基础设施的覆盖范围和开销。基于主机的代理在每个GPU节点上运行,收集系统指标和日志。容器代理作为sidecar部署,监控Kubernetes pod。集群代理聚合指标以减少API负载。通过云API的无代理收集提供备份可见性。Lambda扩展捕获无服务器训练任务。Airbnb的DataDog代理通过优化的收集间隔,以不到2%的CPU开销监控10,000个GPU。

GPU集成配置暴露了超越基本利用率的详细硬件指标。NVIDIA集成通过DCGM收集200多个指标,包括SM活动、内存控制器负载和NVLink吞吐量。自定义指标跟踪特定于框架的测量,如批处理时间和检查点持续时间。与SLURM和Kubernetes的集成提供工作负载归因。自动发现在基础设施扩展时识别新GPU。这种全面的集成帮助Coinbase识别了限制训练速度的内存带宽瓶颈。

自定义指标和APM集成在基础设施监控与应用程序性能之间架起桥梁。训练循环直接向DataDog报告损失、准确率和梯度统计。模型服务端点跟踪推理延迟百分位数和请求排队。分布式训练span捕获GPU之间的通信开销。每次推理成本等业务指标提供经济可见性。这些自定义指标使Instacart能够优化其推荐模型,将基础设施成本降低34%。

机器学习监控功能跟踪生产中的模型性能和数据质量。漂移检测识别生产数据何时偏离训练分布。性能退化在模型准确率下降时发出警报。特征重要性跟踪揭示哪些输入驱动预测。A/B测试指标比较模型版本。数据质量检查验证输入,防止垃圾进垃圾出的情况。Stripe的ML监控通过在客户受影响之前检测模型退化,防止了12起生产事故。

实时调试功能支持无需重现问题的实时调查。连续分析器从生产GPU工作负载捕获CPU和内存配置文件。动态检测无需更改代码或重启即可添加日志行。错误跟踪通过自动分组和去重聚合异常。真实用户监控将基础设施问题与用户体验影响相关联。这些功能将Square复杂分布式训练故障的调试时间减少了65%。

New Relic平台配置

全栈可观测性将GPU基础设施与应用程序行为和用户体验连接起来。基础设施代理监控GPU节点、网络和存储系统。APM代理检测训练框架和模型服务应用程序。浏览器监控从Web应用程序跟踪模型推理。移动监控捕获设备上的边缘AI性能。综合监控验证端到端AI管道。这种全面的可见性使沃尔玛能够优化从训练到推理的整个AI堆栈。

AI监控功能为机器学习工作负载提供专门的可见性。模型性能跟踪监控准确率、延迟和吞吐量指标。训练任务洞察捕获损失曲线、学习率和收敛模式。推理监控跟踪预测分布和置信度分数。管道监控跟踪数据通过预处理、训练和部署阶段。自动异常检测识别需要调查的异常模式。New Relic的AI监控通过瓶颈识别帮助Chegg将模型训练时间减少40%。

Kubernetes集成为容器化GPU工作负载提供深度可见性。集群浏览器可视化跨GPU节点的pod放置。资源分配跟踪确保高效的GPU利用率。服务图揭示训练任务与支持服务之间的依赖关系。事件关联将Kubernetes事件与性能影响联系起来。自动检测简化了无需代码更改的监控。这种集成使Robinhood通过更好的放置策略将GPU利用率从55%提高到78%。

应用智能功能通过AIOps加速事件检测和解决。异常检测学习正常模式并在偏差时发出警报。事件智能关联警报,将噪音减少85%。根因分析根据历史模式建议可能的原因。主动检测在问题影响用户之前识别问题。自动修复触发常见问题的运行手册。这些功能将DoorDash GPU集群事件的平均解决时间减少了50%。

工作负载优化建议识别跨AI基础设施的效率改进。合理规模建议在保持性能的同时防止过度配置。调度优化通过更好的任务放置减少空闲时间。成本分配按团队、项目和模型跟踪支出。容量预测预测未来的基础设施需求。性能基准测试比较不同GPU类型的效率。优化洞察通过改善资源利用率每年为Lyft节省230万美元。

Splunk企业部署

数据摄取架构处理来自GPU集群的海量数据,需要专门设计。重型转发器预处理日志,将网络流量减少60%。通用转发器提供来自GPU节点的轻量级收集。HTTP事件收集器支持从应用程序直接提交指标。Syslog摄取捕获网络设备和存储系统日志。文件监控观察训练日志和模型输出。苹果的Splunk部署每天从支持机器学习研究的AI基础设施摄取5PB数据。

索引策略优化在搜索性能、存储成本和保留要求之间取得平衡。热/温/冷分层将最新数据放在SSD上以实现快速搜索。索引时字段提取加速常见查询。自定义索引为访问控制分离工作负载类型。保留策略与合规性和调试需求保持一致。索引复制为关键数据提供高可用性。eBay的战略索引将搜索时间减少70%,同时将存储成本降低40%。

SPL查询开发从非结构化GPU遥测数据中提取洞察。正则表达式解析来自各种框架的自定义日志格式。统计函数识别指标模式中的异常。机器学习命令自动聚类相似错误。关联搜索跨时间和系统链接事件。子搜索支持复杂的多步分析。PayPal的高级SPL查询识别出影响0.1%训练任务的间歇性GPU故障,这些故障此前未被检测到。

机器学习工具包应用程序为AI基础设施提供高级分析。预测分析提前72小时预测GPU故障。聚类算法为根因分析分组相似的错误模式。异常检测识别异常的资源消耗模式。容量规划模型预测基础设施需求。性能预测估计新模型的训练时间。ML驱动的分析通过预测性维护将Target的计划外停机时间减少43%。

ITSI实施为复杂AI基础设施创建以服务为中心的视图。服务定义映射GPU、存储、

[内容因翻译而截断]

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中