Спостережуваність для ШІ: впровадження DataDog, New Relic та Splunk для моніторингу GPU
Datadog, New Relic та Dynatrace додають нативну інтеграцію з NVIDIA DCGM. Спеціалізовані дашборди для GPU тепер є стандартними пропозиціями. Специфікація метрик GPU для OpenTelemetry розвивається. Спостережуваність LLM (пропускна здатність токенів, перцентилі затримки, вартість запиту) стає стандартом. Платформи AIOps використовують ML для прогнозування збоїв GPU. vLLM та TensorRT-LLM надають багаті метрики спостережуваності.
None