AI向けパフォーマンス監視スタック:Prometheus、Grafana、カスタムGPUメトリクス
NVIDIA DCGM-exporterがPrometheus GPUメトリクスの標準に。GrafanaはAI専用ダッシュボードテンプレートを追加中。OpenTelemetry GPUメトリクス仕様が成熟。VictoriaMetricsとMimirは大規模GPUクラスターでのスケーリングが向上。液冷メトリクス(冷却液温度、流量、圧力)が必須に。H100/H200はGPUあたり150以上のメトリクス...