Observabilité pour l'IA : Implémenter DataDog, New Relic et Splunk pour la Surveillance des GPU
Datadog, New Relic et Dynatrace ajoutent tous une intégration native NVIDIA DCGM. Les tableaux de bord spécifiques aux GPU sont désormais des offres standard. La spécification des métriques GPU OpenTelemetry arrive à maturité. L'observabilité des LLM (débit de tokens, percentiles de latence, coût par requête) devient la norme. Les plateformes AIOps utilisent le ML pour la prédiction des pannes GPU. vLLM et TensorRT-LLM exposent des métriques d'observabilité riches.
None