AIのためのオブザーバビリティ:GPUモニタリングにおけるDataDog、New Relic、Splunkの実装
Datadog、New Relic、DynatraceがネイティブNVIDIA DCGM統合を追加。GPU専用ダッシュボードが標準機能に。OpenTelemetry GPUメトリクス仕様が成熟。LLMオブザーバビリティ(トークンスループット、レイテンシパーセンタイル、リクエストあたりのコスト)が標準化。AIOpsプラットフォームがGPU障害予測にMLを活用。vLLMとTensorRT-LLMが豊富なオブザーバビリティメトリクスを公開。
None