المراقبة للذكاء الاصطناعي: تطبيق DataDog وNew Relic وSplunk لمراقبة وحدات GPU
أضافت Datadog وNew Relic وDynatrace جميعها تكاملاً أصلياً مع NVIDIA DCGM. أصبحت لوحات المعلومات الخاصة بـ GPU عروضاً قياسية الآن. مواصفات مقاييس GPU في OpenTelemetry تنضج باستمرار. مراقبة نماذج اللغة الكبيرة (معدل الرموز، نسب التأخير، التكلفة لكل طلب) أصبحت معياراً. منصات AIOps تستخدم التعلم الآلي للتنبؤ بأعطال GPU. كل من vLLM وTensorRT-LLM يكشفان مقاييس مراقبة غنية.
None