AI를 위한 성능 모니터링 스택: Prometheus, Grafana, 그리고 커스텀 GPU 메트릭
NVIDIA DCGM-exporter가 Prometheus GPU 메트릭의 표준으로 자리잡았습니다. Grafana는 AI 전용 대시보드 템플릿을 추가하고 있습니다. OpenTelemetry GPU 메트릭 사양이 성숙해지고 있습니다. VictoriaMetrics와 Mimir가 대규모 GPU 클러스터에서 더 나은 확장성을 보여주고 있습니다. 수냉 메트릭(냉각수...