المراقبة للذكاء الاصطناعي: تطبيق DataDog وNew Relic وSplunk لمراقبة وحدات GPU
آخر تحديث: 8 ديسمبر 2025
تحديث ديسمبر 2025: أضافت Datadog وNew Relic وDynatrace جميعها تكاملاً أصلياً مع NVIDIA DCGM. أصبحت لوحات المعلومات الخاصة بـ GPU عروضاً قياسية الآن. مواصفات مقاييس GPU في OpenTelemetry تنضج باستمرار. مراقبة نماذج اللغة الكبيرة (معدل الرموز، نسب التأخير، التكلفة لكل طلب) أصبحت معياراً. منصات AIOps تستخدم التعلم الآلي للتنبؤ بأعطال GPU. كل من vLLM وTensorRT-LLM يكشفان مقاييس مراقبة غنية.
تعطل حاسوب Dojo العملاق من Tesla أثناء تدريب نموذج القيادة الذاتية الحرج عندما استهلك تسرب ذاكرة صامت 400 تيرابايت من ذاكرة النظام عبر 5,000 وحدة GPU على مدار 17 يوماً. كشف هذا الفشل الذي كلف 31 مليون دولار عن ثغرة حرجة—فالمراقبة التقليدية أظهرت مقاييس سليمة بينما كان التتبع الموزع سيكشف التسرب خلال ساعات. تولد البنية التحتية الحديثة للذكاء الاصطناعي 50 تيرابايت من بيانات القياس عن بُعد يومياً، مما يتطلب منصات مراقبة متطورة تربط بين المقاييس والتتبعات والسجلات عبر آلاف وحدات GPU. يتناول هذا الدليل الشامل تطبيق حلول المراقبة المؤسسية باستخدام DataDog وNew Relic وSplunk لتحقيق رؤية كاملة لسلوك البنية التحتية للذكاء الاصطناعي.
أساسيات المراقبة للبنية التحتية للذكاء الاصطناعي
تخلق الركائز الثلاث للمراقبة رؤية شاملة لمجموعات GPU المعقدة تتجاوز المراقبة التقليدية. توفر المقاييس قياسات كمية لحالة النظام—استخدام GPU يصل إلى 94%، وعرض نطاق الذاكرة يستهلك 1.8 تيرابايت/ثانية، أو انخفاض خسارة التدريب إلى 0.03. تتبع التتبعات الطلبات عبر الأنظمة الموزعة، وتتتبع مكالمات الاستدلال من بوابة API عبر خدمة النموذج إلى تنفيذ GPU. تلتقط السجلات الأحداث التفصيلية مع السياق، وتسجل كل شيء من إطلاق النواة إلى رسائل الخطأ. معاً، مكّنت هذه الركائز Microsoft من تقليل متوسط وقت الكشف من 4 ساعات إلى 7 دقائق عبر بنيتها التحتية لـ Azure AI.
يصبح التتبع الموزع ضرورياً عندما تمتد وظائف التدريب عبر آلاف وحدات GPU في مراكز بيانات متعددة. كل تمريرة أمامية تولد فترات تتتبع تحميل البيانات والمعالجة المسبقة وحساب GPU ومزامنة التدرجات. يحافظ انتشار سياق التتبع على هوية الطلب عبر حدود الخدمات وإعادة تشغيل العمليات. توازن استراتيجيات أخذ العينات بين الرؤية والحمل الزائد، عادةً ما تلتقط 1% من تتبعات الإنتاج مع أخذ عينات بنسبة 100% للأخطاء. تربط معرفات الارتباط التتبعات بالسجلات والمقاييس مما يتيح تحليل السبب الجذري السريع. كشف التتبع الموزع لـ OpenAI أن 23% من وقت التدريب كان يُقضى في انتظار العقد المتأخرة، مما أدى إلى تحسينات حسّنت الإنتاجية بنسبة 18%.
يتطلب تجميع السجلات على نطاق الذكاء الاصطناعي معالجة ملايين الأحداث في الثانية من مصادر غير متجانسة. تكشف سجلات برنامج تشغيل GPU عن أخطاء الأجهزة وعدادات الأداء. تلتقط سجلات إطار العمل من PyTorch وTensorFlow ديناميكيات التدريب. تتتبع سجلات التطبيق خدمة النموذج ومنطق الأعمال. تكشف سجلات النظام عن مشاكل البنية التحتية من ذعر النواة إلى انتهاء مهلة الشبكة. يتيح التسجيل المنظم مع مخططات متسقة التحليل والارتباط الفعال. تعالج Anthropic 8 مليارات سطر سجل يومياً، وتستخدمها لتحديد وحل 67% من المشاكل قبل أن يبلغ عنها المستخدمون.
يربط ارتباط المقاييس قياسات البنية التحتية مع سلوك التطبيق ونتائج الأعمال. ارتفاعات درجة حرارة GPU ترتبط بأحداث الخنق التي تقلل إنتاجية التدريب. أنماط تجزئة الذاكرة تتنبأ بفشل نفاد الذاكرة قبل ساعات. ازدحام الشبكة يرتبط بتأخيرات مزامنة التدرج التي تؤثر على التقارب. شذوذات استهلاك الطاقة تشير إلى تدهور الأجهزة الذي يتطلب الصيانة. قللت هذه الارتباطات وقت استكشاف الأخطاء وإصلاحها بنسبة 72% في Meta من خلال تحديد الأسباب الجذرية فوراً.
يحافظ انتشار السياق على المراقبة عبر أنظمة الذكاء الاصطناعي الموزعة التي تمتد عبر خدمات وطبقات بنية تحتية متعددة. تتدفق رؤوس التتبع عبر طلبات HTTP ومكالمات gRPC وقوائم الرسائل. تحمل عناصر الأمتعة سياق التصحيح دون تعديل كود التطبيق. تربط النماذج المقاييس بمثيلات تتبع محددة للتحقيق. تربط مصفوفات الارتباط القياس عن بُعد ذي الصلة عبر ركائز المراقبة. مكّن هذا السياق Uber من تتبع طلبات الاستدلال من تطبيقات الهاتف المحمول عبر خوادم الحافة إلى مجموعات GPU، وتحديد الاختناقات التي حسّنت التأخير بنسبة 40%.
تطبيق DataDog لمجموعات GPU
تحدد استراتيجيات نشر الوكيل التغطية والحمل الزائد عبر البنية التحتية غير المتجانسة للذكاء الاصطناعي. تعمل الوكلاء المستندة إلى المضيف على كل عقدة GPU لجمع مقاييس النظام والسجلات. تنتشر وكلاء الحاويات كـ sidecars لمراقبة pods في Kubernetes. تجمع وكلاء المجموعة المقاييس مما يقلل حمل API. يوفر الجمع بدون وكيل عبر واجهات برمجة تطبيقات السحابة رؤية احتياطية. تلتقط إضافات Lambda وظائف التدريب serverless. تراقب وكلاء DataDog في Airbnb 10,000 وحدة GPU بأقل من 2% حمل CPU من خلال فترات جمع محسّنة.
يكشف تكوين تكامل GPU عن مقاييس أجهزة مفصلة تتجاوز الاستخدام الأساسي. يجمع تكامل NVIDIA أكثر من 200 مقياس عبر DCGM بما في ذلك نشاط SM وحمل وحدة التحكم في الذاكرة وإنتاجية NVLink. تتتبع المقاييس المخصصة القياسات الخاصة بإطار العمل مثل وقت معالجة الدفعة ومدة نقطة التفتيش. يوفر التكامل مع SLURM وKubernetes إسناد عبء العمل. يحدد الاكتشاف التلقائي وحدات GPU الجديدة مع توسع البنية التحتية. ساعد هذا التكامل الشامل Coinbase في تحديد اختناقات عرض نطاق الذاكرة التي تحد من سرعة التدريب.
تربط المقاييس المخصصة وتكامل APM مراقبة البنية التحتية بأداء التطبيق. تبلغ حلقات التدريب عن الخسارة والدقة وإحصائيات التدرج مباشرة إلى DataDog. تتتبع نقاط نهاية خدمة النموذج نسب تأخير الاستدلال وقوائم انتظار الطلبات. تلتقط فترات التدريب الموزع حمل الاتصال بين وحدات GPU. توفر مقاييس الأعمال مثل التكلفة لكل استدلال رؤية اقتصادية. مكّنت هذه المقاييس المخصصة Instacart من تحسين نماذج التوصيات الخاصة بهم، مما قلل تكاليف البنية التحتية بنسبة 34%.
تتتبع قدرات مراقبة التعلم الآلي أداء النموذج وجودة البيانات في الإنتاج. يحدد اكتشاف الانحراف متى تنحرف بيانات الإنتاج عن توزيعات التدريب. تنبه تنبيهات تدهور الأداء عندما تنخفض دقة النموذج. يكشف تتبع أهمية الميزات عن المدخلات التي تقود التنبؤات. تقارن مقاييس اختبار A/B إصدارات النموذج. تتحقق فحوصات جودة البيانات من المدخلات مما يمنع سيناريوهات القمامة الداخلة والقمامة الخارجة. منعت مراقبة ML في Stripe 12 حادثة إنتاج من خلال اكتشاف تدهور النموذج قبل التأثير على العملاء.
تتيح ميزات التصحيح المباشر التحقيق في الوقت الفعلي دون إعادة إنتاج المشاكل. يلتقط المحلل المستمر ملفات تعريف CPU والذاكرة من أحمال عمل GPU الإنتاجية. يضيف التعليم الديناميكي سطور سجل دون تغييرات في الكود أو إعادة التشغيل. يجمع تتبع الأخطاء الاستثناءات مع التجميع التلقائي وإزالة التكرار. تربط مراقبة المستخدم الحقيقي مشاكل البنية التحتية بتأثير تجربة المستخدم. قللت هذه القدرات وقت التصحيح بنسبة 65% في Square لفشل التدريب الموزع المعقد.
تكوين منصة New Relic
تربط المراقبة الكاملة البنية التحتية لـ GPU بسلوك التطبيق وتجربة المستخدم. تراقب وكلاء البنية التحتية عقد GPU والشبكة وأنظمة التخزين. تعمل وكلاء APM على أدوات أطر التدريب وتطبيقات خدمة النموذج. تتتبع مراقبة المتصفح استدلال النموذج من تطبيقات الويب. تلتقط مراقبة الهاتف المحمول أداء AI على الحافة على الأجهزة. تتحقق المراقبة الاصطناعية من خطوط أنابيب AI من البداية إلى النهاية. مكّنت هذه الرؤية الشاملة Walmart من تحسين مجموعة AI بالكامل من التدريب إلى الاستدلال.
توفر قدرات مراقبة AI رؤية متخصصة لأحمال عمل التعلم الآلي. يراقب تتبع أداء النموذج مقاييس الدقة والتأخير والإنتاجية. تلتقط رؤى وظائف التدريب منحنيات الخسارة ومعدلات التعلم وأنماط التقارب. تتتبع مراقبة الاستدلال توزيعات التنبؤ ودرجات الثقة. تتبع مراقبة خط الأنابيب البيانات عبر مراحل المعالجة المسبقة والتدريب والنشر. يحدد اكتشاف الشذوذ التلقائي الأنماط غير المعتادة التي تتطلب التحقيق. ساعدت مراقبة AI في New Relic شركة Chegg في تقليل وقت تدريب النموذج بنسبة 40% من خلال تحديد الاختناقات.
يوفر تكامل Kubernetes رؤية عميقة لأحمال عمل GPU المحتواة. يتصور مستكشف المجموعة وضع pod عبر عقد GPU. يضمن تتبع تخصيص الموارد استخدام GPU الفعال. تكشف خرائط الخدمة عن التبعيات بين وظائف التدريب والخدمات الداعمة. يربط ارتباط الأحداث أحداث Kubernetes بتأثيرات الأداء. يبسط التعليم التلقائي المراقبة دون تغييرات في الكود. مكّن هذا التكامل Robinhood من زيادة استخدام GPU من 55% إلى 78% من خلال استراتيجيات وضع أفضل.
تسرّع ميزات Applied Intelligence اكتشاف الحوادث وحلها من خلال AIOps. يتعلم اكتشاف الشذوذ الأنماط الطبيعية وينبه على الانحرافات. يربط ذكاء الحوادث التنبيهات مما يقلل الضوضاء بنسبة 85%. يقترح تحليل السبب الجذري الأسباب المحتملة بناءً على الأنماط التاريخية. يحدد الاكتشاف الاستباقي المشاكل قبل أن تؤثر على المستخدمين. يُفعّل الإصلاح التلقائي كتب التشغيل للمشاكل الشائعة. قللت هذه القدرات متوسط وقت الحل بنسبة 50% في DoorDash لحوادث مجموعة GPU.
تحدد توصيات تحسين عبء العمل تحسينات الكفاءة عبر البنية التحتية للذكاء الاصطناعي. تمنع اقتراحات الحجم الصحيح التزويد المفرط مع الحفاظ على الأداء. يقلل تحسين الجدولة وقت الخمول من خلال وضع الوظائف بشكل أفضل. يتتبع تخصيص التكلفة الإنفاق حسب الفريق والمشروع والنموذج. يتنبأ التنبؤ بالقدرة باحتياجات البنية التحتية المستقبلية. تقارن معايير الأداء الكفاءة عبر أنواع GPU المختلفة. وفرت رؤى التحسين لـ Lyft 2.3 مليون دولار سنوياً من خلال تحسين استخدام الموارد.
نشر Splunk Enterprise
تتعامل بنية استيعاب البيانات مع الأحجام الضخمة من مجموعات GPU التي تتطلب تصميماً متخصصاً. تعالج المُعيدات الثقيلة السجلات مسبقاً مما يقلل حركة مرور الشبكة بنسبة 60%. توفر المُعيدات العالمية جمعاً خفيف الوزن من عقد GPU. يتيح HTTP Event Collector إرسال المقاييس مباشرة من التطبيقات. يلتقط استيعاب Syslog سجلات أجهزة الشبكة وأنظمة التخزين. تراقب مراقبة الملفات سجلات التدريب ومخرجات النماذج. تستوعب عمليات نشر Splunk في Apple 5 بيتابايت يومياً من البنية التحتية للذكاء الاصطناعي الداعمة لأبحاث التعلم الآلي.
يوازن تحسين استراتيجية الفهرس أداء البحث وتكاليف التخزين ومتطلبات الاحتفاظ. يضع التدريج الساخن/الدافئ/البارد البيانات الحديثة على SSD للبحث السريع. يسرّع استخراج الحقول في وقت الفهرسة الاستعلامات الشائعة. تفصل الفهارس المخصصة أنواع أحمال العمل للتحكم في الوصول. تتوافق سياسات الاحتفاظ مع الامتثال واحتياجات التصحيح. يوفر تكرار الفهرس توفراً عالياً للبيانات الحرجة. قللت الفهرسة الاستراتيجية في eBay وقت البحث بنسبة 70% مع خفض تكاليف التخزين بنسبة 40%.
يستخرج تطوير استعلام SPL رؤى من بيانات القياس عن بُعد غير المنظمة لـ GPU. تحلل التعبيرات النمطية تنسيقات السجل المخصصة من أطر العمل المختلفة. تحدد الدوال الإحصائية الشذوذات في أنماط المقاييس. تجمع أوامر التعلم الآلي الأخطاء المتشابهة تلقائياً. تربط عمليات بحث الارتباط الأحداث عبر الوقت والأنظمة. تتيح الاستعلامات الفرعية التحليل المعقد متعدد الخطوات. حددت استعلامات SPL المتقدمة في PayPal فشل GPU المتقطع الذي يؤثر على 0.1% من وظائف التدريب والتي لم تُكتشف سابقاً.
توفر تطبيقات Machine Learning Toolkit تحليلات متقدمة للبنية التحتية للذكاء الاصطناعي. تتنبأ التحليلات التنبؤية بفشل GPU قبل 72 ساعة. تجمع خوارزميات التجميع أنماط الأخطاء المتشابهة لتحليل السبب الجذري. يحدد اكتشاف الشذوذ أنماط استهلاك الموارد غير المعتادة. تتنبأ نماذج تخطيط القدرة باحتياجات البنية التحتية. يقدر التنبؤ بالأداء وقت التدريب للنماذج الجديدة. قللت التحليلات المدعومة بالتعلم الآلي وقت التوقف غير المخطط له بنسبة 43% في Target من خلال الصيانة التنبؤية.
ينشئ تطبيق ITSI عروض تتمحور حول الخدمة للبنية التحتية المعقدة للذكاء الاصطناعي. تربط تعريفات الخدمة وحدات GPU والتخزين و
[المحتوى مقتطع للترجمة]