AIOps لمراكز البيانات: استخدام نماذج اللغة الكبيرة لإدارة البنية التحتية للذكاء الاصطناعي
آخر تحديث: 11 ديسمبر 2025
تحديث ديسمبر 2025: 67% من فرق تكنولوجيا المعلومات تستخدم الآن الأتمتة للمراقبة؛ لم يُبلغ أي مشارك عن غياب الأتمتة الحديثة. يحقق نظام التبريد الذكي من Google DeepMind انخفاضاً بنسبة 40% في استهلاك الطاقة (تحسن بنسبة 15% في معدل فعالية استخدام الطاقة PUE). وكلاء الذكاء الاصطناعي من ServiceNow يقومون بفرز التنبيهات تلقائياً وتقييم الأثر والتحقيق في الأسباب الجذرية وتنفيذ الإصلاحات. واجهات اللغة الطبيعية المدعومة بنماذج اللغة الكبيرة تحل محل لغات الاستعلام المتخصصة لإدارة البنية التحتية.
خفّض نظام التبريد الذاتي من Google DeepMind استهلاك طاقة تبريد مراكز البيانات بنسبة 40%، مما أدى إلى انخفاض بنسبة 15% في معدل فعالية استخدام الطاقة الإجمالي (PUE).[^1] كل خمس دقائق، يجمع النظام لقطات من آلاف المستشعرات، ويمررها عبر شبكات عصبية عميقة، ويحدد الإجراءات التي تقلل استهلاك الطاقة مع الالتزام بقيود السلامة.[^2] عندما نشرت DeepMind هذا النظام في عام 2018، أصبح أول نظام تحكم صناعي ذاتي يعمل على هذا النطاق.[^3] والآن، بعد سبع سنوات، تمتد منصات AIOps بالأتمتة المدفوعة بالذكاء الاصطناعي عبر كل جانب من جوانب عمليات مراكز البيانات، حيث تمكّن نماذج اللغة الكبيرة من واجهات اللغة الطبيعية والتحليل المتطور لحالة البنية التحتية.
يُظهر استطلاع Futurum أن 67% من فرق تكنولوجيا المعلومات تستخدم الأتمتة للمراقبة، بينما يتبنى 54% الكشف المدفوع بالذكاء الاصطناعي لتحسين الموثوقية.[^4] لم يُبلغ أي مشارك عن غياب الأتمتة الحديثة في بيئته.[^5] تحول السؤال الذي يواجه مشغلي مراكز البيانات من ما إذا كان ينبغي تبني AIOps إلى مدى جرأة نشر الذكاء الاصطناعي عبر سير العمل التشغيلي. البنية التحتية التي تشغّل أعباء عمل الذكاء الاصطناعي تعتمد بشكل متزايد على الذكاء الاصطناعي لإدارة نفسها.
تحول AIOps
يجمع AIOps (الذكاء الاصطناعي لعمليات تكنولوجيا المعلومات) بين المراقبة الفورية والتحليلات التنبؤية، مما يسمح للمنصات بتحديد الاختناقات والتنبؤ بالأعطال وتحسين تخصيص الموارد قبل أن تؤثر المشكلات على الأداء.[^6] صاغت Gartner هذا المصطلح في عام 2016، مدركةً التحول من تكنولوجيا المعلومات المركزية إلى العمليات الموزعة التي تمتد عبر البنية التحتية السحابية والمحلية حول العالم.[^7]
تولّد المراقبة التقليدية عواصف من التنبيهات تُرهق فرق العمليات. يمكن لحادثة بنية تحتية واحدة أن تُطلق آلاف التنبيهات المرتبطة، كل منها يتطلب اهتماماً بينما يُخفي السبب الجذري. تقلل إدارة الأحداث من ServiceNow الضوضاء بنسبة 99% من خلال معالجة الأحداث والعلامات والمقاييس لإظهار رؤى قابلة للتنفيذ بدلاً من التنبيهات الخام.[^8]
من العمليات التفاعلية إلى التنبؤية
يستخدم ServiceNow AIOps خوارزميات التعلم الآلي لتجميع التنبيهات المرتبطة حسب الطوبولوجيا والعلامات وتشابه النصوص، مما يقلل من عواصف التنبيهات والضوضاء التشغيلية.[^9] تحدد النماذج غير الخاضعة للإشراف المتقدمة المشكلات الناشئة أو الأنماط الشاذة قبل ساعات من تأثيرها على المستخدمين النهائيين، مما يتيح التدخل المبكر بدلاً من الاستجابة للحوادث.
تُغيّر إدارة الحوادث الاستباقية سير العمل التشغيلي جذرياً. بدلاً من الاستجابة للانقطاعات، تعالج الفرق التدهور قبل أن يلاحظه المستخدمون. يقلل التحول من العمليات التفاعلية إلى الوقائية من متوسط وقت الحل (MTTR) مع منع العديد من الحوادث بالكامل.[^10]
يحلل Metric Intelligence بيانات المقاييس باستمرار للكشف السريع عن الشذوذ وتحديد العتبات الديناميكية.[^11] تولّد العتبات الثابتة تنبيهات كاذبة عندما تتغير نطاقات التشغيل الطبيعية مع الوقت من اليوم أو أنماط عبء العمل أو العوامل الموسمية. تتكيف العتبات الديناميكية مع السلوك الفعلي، وتنبه فقط عند وجود شذوذ حقيقي.
نماذج اللغة الكبيرة لعمليات تكنولوجيا المعلومات
تُحوّل نماذج اللغة الكبيرة طريقة تفاعل فرق العمليات مع أنظمة المراقبة والأتمتة. حلّل استطلاع تفصيلي 183 مقالة بحثية نُشرت بين يناير 2020 وديسمبر 2024 حول تطبيقات نماذج اللغة الكبيرة في AIOps.[^12] يُظهر البحث تطوراً متزايداً في تطبيق نماذج اللغة على التحديات التشغيلية.
واجهات اللغة الطبيعية
تدعم منصات AIOps الحديثة واجهات روبوتات المحادثة أو الواجهات المدعومة بنماذج اللغة الكبيرة للتعاون الأسرع بين الإنسان والذكاء الاصطناعي.[^13] يستعلم المشغلون عن حالة البنية التحتية باستخدام اللغة الطبيعية بدلاً من لغات الاستعلام المتخصصة. يترجم نموذج اللغة الكبير الأسئلة إلى استعلامات مراقبة مناسبة ويجمع النتائج في ملخصات مفهومة.
يقترح الباحثون مساعدين ذكيين فعّالين مدعومين بنماذج اللغة الكبيرة لإدارة عمليات تكنولوجيا المعلومات قادرين على معالجة تحديات AIOps.[^14] تختلف نماذج اللغة المختلفة في بيانات التدريب والبنية وعدد المعاملات، مما يؤثر على قدراتها في مهام عمليات تكنولوجيا المعلومات. تُظهر النماذج الأصغر مثل Mistral Small 7B كفاءة ملحوظة في التفكير واختيار الأدوات على الرغم من صغر حجمها.[^15]
وكلاء الذكاء الاصطناعي للعمليات الذاتية
يقوم وكلاء الذكاء الاصطناعي من ServiceNow لـ AIOps بفرز التنبيهات تلقائياً وتقييم الأثر التجاري والتقني والتحقيق في الأسباب الجذرية وتنفيذ الإصلاحات من خلال سير عمل وكلاء منسق.[^16] يوسع وكلاء الذكاء الاصطناعي للمراقبة القدرات من خلال التعاون مع أدوات APM والمراقبة من جهات خارجية لتحليل تأثير الخدمة وتحديد أولويات التحقيقات.
يمثل التقدم من المراقبة إلى التنبيه إلى الإصلاح الذاتي توسعاً جوهرياً في القدرات. كانت أنظمة AIOps السابقة تكتشف المشكلات وتُخطر البشر. الأنظمة الحالية تتعامل بشكل متزايد مع الحوادث الروتينية دون تدخل بشري، وتصعّد فقط الحالات التي تتطلب حكماً أو تفويضاً يتجاوز حدودها المُعدّة.
تحسين التبريد المدفوع بالذكاء الاصطناعي
يمثل تبريد مراكز البيانات أحد أنجح تطبيقات AIOps، مع توفير طاقة قابل للقياس يؤكد صحة النهج.
التبريد الذاتي من DeepMind
طوّرت DeepMind إطار شبكة عصبية حقق انخفاضاً بنسبة 40% في طاقة التبريد، باستخدام بيانات مراقبة لمدة عامين من مراكز بيانات Google.[^17] استخدمت بنية الشبكة 5 طبقات مخفية بـ 50 عقدة لكل منها، تعالج 19 متغير إدخال موحد للتنبؤ بإجراءات التحكم المثلى.[^18]
يعمل النظام بشكل ذاتي، ويرسل الإجراءات الموصى بها إلى أنظمة التحكم في مركز البيانات للتحقق والتنفيذ.[^19] تضمن قيود السلامة بقاء التوصيات ضمن حدود التشغيل المقبولة. يتحقق نظام التحكم من التوصيات قبل التنفيذ، مع الحفاظ على الإشراف البشري مع تمكين التحسين المدفوع بالذكاء الاصطناعي.
يُظهر هذا النجاح أن الذكاء الاصطناعي يمكنه تحسين الأنظمة الفيزيائية المعقدة بما يتجاوز الحدس البشري. لا يستطيع المشغلون ضبط مئات المتغيرات يدوياً كل خمس دقائق لتحقيق الكفاءة المثلى. يتولى الذكاء الاصطناعي التحسين المستمر بينما يتعامل البشر مع الحالات الاستثنائية والإشراف على النظام.
شراكة Schneider Electric و NVIDIA
في عام 2025، تشاركت Schneider Electric مع NVIDIA لتصميم بنى مرجعية محسّنة للذكاء الاصطناعي تدعم كثافات رفوف تصل إلى 132 كيلوواط.[^20] خفّض الحل المشترك استخدام طاقة التبريد بنحو 20%. تُظهر الشراكة التعاون بين الموردين في تطبيق تحسين الذكاء الاصطناعي على البنية التحتية عالية الكثافة من الجيل التالي.
يضمن موازنة الحمل الذكية المدعومة بالذكاء الاصطناعي توزيع أعباء العمل عبر الخوادم وأنظمة التبريد بأكثر الطرق كفاءة في استخدام الطاقة.[^21] يأخذ التحسين في الاعتبار كفاءة الحوسبة وإدارة الحرارة في وقت واحد، ويجد تكوينات يصعب الوصول إليها بالتخطيط اليدوي.
أتمتة البنية التحتية على نطاق واسع
يمتد AIOps إلى ما وراء المراقبة ليشمل إدارة البنية التحتية النشطة، وأتمتة مهام التكوين والنشر والإصلاح.
إدارة التكوين
58% من المؤسسات تستخدم أدوات البنية التحتية كشفرة أو أتمتة التكوين مثل Ansible و Terraform لإدارة تكوينات الأجهزة.[^22] يكتب المهندسون نصوصاً برمجية ويستخدمون دفاتر التشغيل الخاضعة للتحكم في الإصدار بدلاً من تسجيل الدخول إلى المحولات يدوياً. تضمن الأتمتة الاتساق مع إنشاء سجلات تدقيق للامتثال.
تتكامل منصات AIOps مع إدارة التكوين للكشف عن الانحراف بين الحالة الفعلية والمقصودة. عندما تحدد المراقبة شذوذاً في التكوين، يستعيد الإصلاح الآلي التكوينات المقصودة دون تدخل يدوي. تُسرّع الحلقة المغلقة من الكشف حتى الإصلاح الاستجابة مع تقليل الخطأ البشري.
الصيانة التنبؤية
توفر Health Log Analytics تحليلاً ومراقبة فورية للسجلات، مما يضمن التعرف السريع على الشذوذ.[^23] يتطلب تحليل السجلات على نطاق واسع مساعدة الذكاء الاصطناعي: لا يستطيع البشر قراءة ملايين إدخالات السجل لتحديد الأنماط التي تشير إلى أعطال وشيكة.
تمتد الصيانة التنبؤية إلى ما وراء البرمجيات لتشمل البنية التحتية المادية. تُشير اتجاهات درجة الحرارة وأنماط استهلاك الطاقة ومؤشرات تدهور الأداء إلى أعطال الأجهزة قبل حدوثها. جدولة الصيانة خلال النوافذ المخططة تتجنب الانقطاعات غير المخطط لها التي تعطل العمليات.
التوائم الرقمية والمحاكاة
تساعد التوائم الرقمية وAIOps والتحليلات التنبؤية في محاكاة الأداء الفوري وتحسينه، مما يضمن موثوقية وكفاءة طاقة أكبر.[^24] تُنشئ التوائم الرقمية تمثيلات افتراضية للبنية التحتية المادية، مما يمكّن المشغلين من اختبار التغييرات قبل النشر في الإنتاج.
تخطيط السعة
تُصمم التوائم الرقمية سعة البنية التحتية تحت سيناريوهات مختلفة، مما يساعد المشغلين على التخطيط للتوسعات وتحديد القيود. يحلل الذكاء الاصطناعي الأنماط التاريخية للتنبؤ بالمتطلبات المستقبلية، ويوصي بإضافات السعة قبل أن يتجاوز الطلب العرض.
تثبت قدرة النمذجة قيمتها بشكل خاص لبنية الذكاء الاصطناعي التحتية حيث تدفع عمليات نشر GPU نمواً سريعاً في السعة. تحاكي التوائم الرقمية متطلبات التبريد وتوزيع الطاقة وسعة الشبكة لتوسعات مجموعات GPU المقترحة قبل الالتزام برأس المال.
التحقق من التغييرات
يقلل اختبار تغييرات البنية التحتية في بيئات التوائم الرقمية من مخاطر حوادث الإنتاج. يتحقق الذكاء الاصطناعي من التغييرات المقترحة مقابل سلوك البنية التحتية المُنمذج، ويحدد المشكلات المحتملة قبل وصول التغييرات إلى الإنتاج. يكتشف التحقق أخطاء التكوين وتعارضات الموارد التي قد تسبب انقطاعات.
تنفيذ AIOps لبنية الذكاء الاصطناعي التحتية
يجب على المؤسسات التي تنشر AIOps لإدارة مراكز البيانات مراعاة متطلبات التكامل وجودة البيانات والجاهزية التشغيلية.
متطلبات التكامل
توفر Integration Launchpad من ServiceNow إعداداً موجهاً لتكاملات AIOps مع أدوات المراقبة من جهات خارجية.[^25] يمكن للمؤسسات تكوين موصلات جاهزة أو إنشاء موصلات مخصصة لأدوات المراقبة غير المدعومة. تجمع طبقة التكامل البيانات من مصادر متنوعة في عروض تشغيلية موحدة.
غالباً ما تتضمن بنية الذكاء الاصطناعي التحتية مراقبة متخصصة لوحدات GPU والشبكات عالية السرعة وأنظمة التخزين بما يتجاوز مراقبة الخوادم القياسية. يجب أن تدمج تطبيقات AIOps مصادر البيانات المتخصصة هذه لتوفير رؤية كاملة للبنية التحتية.
أسس جودة البيانات
تعتمد فعالية AIOps على جودة بيانات المراقبة. تحد البيانات غير المكتملة والتسميات غير المتسقة والفجوات في التغطية من دقة نماذج الذكاء الاصطناعي. يجب على المؤسسات تدقيق تغطية المراقبة وجودة البيانات قبل نشر التحليلات المتقدمة.
تمكّن البيانات التاريخية من تدريب النماذج التنبؤية على أنماط خاصة بالمؤسسة. استخدمت DeepMind بيانات مراقبة لمدة عامين لتدريب نماذج تحسين التبريد.[^26] قد تحتاج المؤسسات التي تفتقر إلى عمق البيانات التاريخية إلى جمع البيانات قبل أن تصبح التنبؤات المتقدمة موثوقة.
الجاهزية التشغيلية
تتطلب العمليات الذاتية سياسات واضحة تحدد حدود صلاحيات الذكاء الاصطناعي. يجب على المؤسسات تحديد الإجراءات التي يمكن لأنظمة الذكاء الاصطناعي تنفيذها بشكل مستقل مقابل تلك التي تتطلب موافقة بشرية. البدء بالتوصيات والتنفيذ اليدوي يبني الثقة قبل تمكين العمل الذاتي.
يدعم 550 مهندساً ميدانياً من Introl المؤسسات في تنفيذ AIOps عبر عمليات نشر بنية GPU التحتية.[^27] احتلت الشركة المرتبة 14 في قائمة Inc. 5000 لعام 2025 بنمو 9,594% على مدى ثلاث سنوات، مما يعكس الطلب على خدمات البنية التحتية المهنية.[^28] يضمن النشر المهني تغطية المراقبة وجودة التكامل والإجراءات التشغيلية لدعم
[تم اقتطاع المحتوى للترجمة]