Stack de Monitoramento de Performance para IA: Prometheus, Grafana e Métricas Personalizadas de GPU
NVIDIA DCGM-exporter agora é padrão para métricas de GPU no Prometheus. Grafana adicionando templates de dashboard específicos para IA. Especificação de métricas de GPU do OpenTelemetry amadurecendo. ...