البنية التحتية لوكلاء الذكاء الاصطناعي: ما تتطلبه الأنظمة المستقلة
تم التحديث في 11 ديسمبر 2025
تحديث ديسمبر 2025: عمليات نشر الذكاء الاصطناعي الوكيل تضاعف استهلاك الرموز المميزة بمعدل 20-30 مرة مقارنة بالذكاء الاصطناعي التوليدي القياسي. تتوقع Gartner إلغاء 40% من مشاريع الوكلاء بحلول عام 2027 بسبب تجاوز تكاليف البنية التحتية. تظهر بنية الذاكرة كعنصر حاسم—حيث يتطلب الوكلاء الاحتفاظ بالبيانات لمدة 3-5 سنوات للسياق المستمر. أصبحت بوابات LLM وبروتوكول MCP (بروتوكول سياق النموذج) معياراً لتنسيق النماذج المتعددة عبر أنظمة المؤسسات.
ما يقرب من ستة من كل عشر مؤسسات تسعى بنشاط نحو الذكاء الاصطناعي الوكيل في عام 2025، حيث تنشر أنظمة مستقلة تنسق سير العمل، وتستدعي نماذج أخرى، وتتخذ قرارات في الوقت الفعلي.¹ تتوقع Gartner أن 33% من تطبيقات برامج المؤسسات ستدمج الذكاء الاصطناعي الوكيل بحلول عام 2028، ارتفاعاً من 0% في عام 2024.² مع الذكاء الاصطناعي الوكيل، يتضاعف استهلاك الرموز المميزة من 20 إلى 30 مرة مقارنة بالذكاء الاصطناعي التوليدي القياسي، مما يتطلب قوة حوسبة أكبر بشكل متناسب.³ البنية التحتية التي تدعم روبوتات الدردشة وتطبيقات الاستدلال الفردي لا يمكنها التوسع لدعم الوكلاء المستقلين الذين يعملون باستمرار عبر أنظمة المؤسسات.
التحول من تفاعلات الاستفسار والاستجابة إلى الإجراء المستقل يخلق متطلبات بنية تحتية مختلفة جذرياً. يحتاج الوكلاء إلى ذاكرة مستمرة عبر المحادثات، وحوسبة غير متجانسة للتنسيق والاستدلال، وشبكات منخفضة الكمون للتواصل بين الوكلاء. ستواجه المؤسسات التي تنشر وكلاء بدون بنية تحتية مصممة خصيصاً تكاليف متصاعدة، واختناقات في الأداء، وإخفاقات في الموثوقية مع توسع أعباء العمل.
متطلبات الحوسبة تتضاعف
يقدم وكلاء الذكاء الاصطناعي تعقيداً من خلال الحاجة إلى موارد حوسبة غير متجانسة.⁴ تتعامل وحدة المعالجة المركزية (CPU) مع التنسيق بينما تتعامل وحدة معالجة الرسومات (GPU) مع الاستدلال، غالباً بأنماط توسع ومنحنيات استخدام مختلفة.⁵ يختلف ملف عبء العمل المتغير عن الأنماط المتوقعة للتدريب الدفعي أو الاستدلال المتزامن.
يخلق مضاعفة الرموز المميزة طلباً كبيراً على الحوسبة. يعالج الذكاء الاصطناعي التوليدي القياسي رموز الإدخال ويعيد رموز الإخراج في تبادل واحد.⁶ ينفذ الذكاء الاصطناعي الوكيل استدلالاً متعدد الخطوات، واستدعاءات أدوات، وتنسيقاً مع وكلاء آخرين، مما يولد من 20 إلى 30 مرة من الرموز المميزة لكل تفاعل مستخدم.⁷ تتناسب تكلفة الحوسبة مع حجم الرموز المميزة.
يتطلب تشغيل وكلاء الذكاء الاصطناعي المتطورين موارد حوسبة كبيرة، خاصة لمهام الاستدلال المعقدة.⁸ تتصاعد تكلفة استدعاءات API لنماذج اللغة الكبيرة، وتخزين قواعد بيانات المتجهات، والبنية التحتية السحابية بسرعة للتطبيقات ذات الحجم الكبير.⁹ يجب على المؤسسات وضع ميزانية لتكاليف حوسبة أعلى بشكل كبير مما تتكبده حالياً عمليات نشر الذكاء الاصطناعي التوليدي.
نمت توقعات شحنات GPU من الموردين الرئيسيين أكثر من خمسة أضعاف لعامي 2025 و2026 مع تسابق البائعين لتلبية الطلب المتصاعد على الحوسبة.¹⁰ يساهم الذكاء الاصطناعي الوكيل في هذا الطلب من خلال استدعاءات استدلال مستمرة ومنسقة تختلف عن الأنماط المتقطعة لأعباء عمل التدريب.¹¹
الذاكرة تصبح أولوية معمارية
يتطلب الذكاء الاصطناعي الوكيل ذاكرة مستمرة طويلة المدى للاحتفاظ بالمحادثات السابقة، مع متطلبات تخزين ستكون ثقيلة جداً واحتفاظ بالبيانات يمتد من ثلاث إلى خمس سنوات.¹² يتجاوز الطلب على التخزين الذكاء الاصطناعي التوليدي بهوامش كبيرة.¹³
يعتمد وكلاء الذكاء الاصطناعي على كل من الذاكرة قصيرة المدى وطويلة المدى للعمل بفعالية.¹⁴ تعمل الذاكرة قصيرة المدى مثل ذاكرة الوصول العشوائي للكمبيوتر، حيث تحتفظ بالتفاصيل ذات الصلة للمهام أو المحادثات الجارية.¹⁵ توجد هذه الذاكرة العاملة لفترة وجيزة ضمن خيط محادثة ومحدودة بنوافذ سياق نماذج اللغة الكبيرة.¹⁶
تعمل الذاكرة طويلة المدى مثل القرص الصلب، حيث تخزن كميات هائلة من المعلومات للوصول إليها لاحقاً.¹⁷ تستمر هذه المعلومات عبر تشغيلات متعددة للمهام أو المحادثات، مما يسمح للوكلاء بالتعلم من التعليقات والتكيف مع تفضيلات المستخدم.¹⁸ يخلق متطلب الاستمرارية احتياجات بنية تحتية للتخزين لا تمتلكها تطبيقات الاستدلال الفردي.
تتطلب البنية التحتية للذاكرة للأنظمة الوكيلة بنية متدرجة: ذاكرة تخزين مؤقت سريعة الزوال للذاكرة العاملة قصيرة المدى، وتخزين ساخن للحلقات النشطة، وتخزين بارد للأرشيفات.¹⁹ يقلل وضع الحوسبة والبيانات في نفس الموقع من تكاليف الخروج والكمون.²⁰ يختلف النمط المعماري عن التصميم عديم الحالة لمعظم خدمات الاستدلال.
توفر Redis وقواعد البيانات المماثلة في الذاكرة الذاكرة قصيرة المدى التي يحتاجها الوكلاء للسياق ضمن الجلسات.²¹ تخزن قواعد بيانات المتجهات الذاكرة طويلة المدى للاسترجاع الدلالي. يخلق هذا المزيج مكدس ذاكرة يجب تصميمه خصيصاً لأعباء عمل الوكلاء.
ظهور البنية المفككة
يتضمن تطور معماري واعد فصل موارد الذاكرة والحوسبة خصيصاً لأعباء عمل الاستدلال.²² تقوم ذاكرة حالة كل وكيل بتوفير الموارد ديناميكياً لسياق كل وكيل، وخطوات الاستدلال، والتفاعلات.²³ يتيح التعامل مع أوزان النموذج وحالات الوكيل كفئات ذاكرة منفصلة توفيراً أكثر ذكاءً للبنية التحتية.²⁴
تستوعب نماذج تخصيص الموارد الحالية بشكل سيء احتياجات الذكاء الاصطناعي المتغيرة للذاكرة، ومتطلبات الحوسبة المتخصصة، وأنماط الاستخدام المتقطعة.²⁵ تكافح الأساليب المخصصة مع تخطيط السعة لأنماط الاستدلال غير المتوقعة.²⁶ تواجه البيئات المعبأة في حاويات تكوينات معقدة لوحدة معالجة الرسومات والذاكرة.²⁷ تخلق النماذج بدون خوادم اضطرابات معرفية من البدايات الباردة وحدود التنفيذ.²⁸
تمثل شبكة الذكاء الاصطناعي الوكيل نموذجاً معمارياً قابلاً للتركيب وموزعاً ومحايداً للبائعين.²⁹ يستدل وكلاء متعددون ويتعاونون ويتصرفون بشكل مستقل عبر الأنظمة من خلال طبقة البنية التحتية هذه.³⁰ تختلف البنية بشكل جذري عن البنية التحتية الثابتة المتمركزة حول نماذج اللغة الكبيرة المبنية لاستدلال نموذج واحد.
تستفيد البنية التحتية للذكاء الاصطناعي الهجينة ومتعددة السحابات من مرونة السحابة العامة مع حوسبة محسنة للذكاء الاصطناعي وتخزين وشبكات تتوسع ديناميكياً بناءً على الطلب.³¹ تعالج البنية التحتية للذكاء الاصطناعي الطرفي متطلبات الكمون والخصوصية للوكلاء الذين يعملون على أجهزة المستخدمين أو في بيئات خاضعة للرقابة.³²
تحديات التكامل المؤسسي
تعمل العديد من الشركات على بنية تحتية معقدة عمرها عقود لم تصمم لدعم وكلاء الذكاء الاصطناعي المستقلين.³³ يمكن أن يؤدي التكامل مع التكنولوجيا القديمة إلى بنية تحتية هشة ومكلفة وبطيئة.³⁴ يجب على الشركات استخدام الذكاء الاصطناعي كطبقة وسيطة ذكية تترجم بين واجهات الوكلاء الحديثة والأنظمة القديمة.³⁵
تعمل بوابة LLM كوسيط بين تطبيقات الذكاء الاصطناعي ومزودي نماذج الأساس، وتعمل كنقطة دخول موحدة.³⁶ تجرد البوابات المصممة جيداً التعقيد، وتوحد الوصول إلى نماذج متعددة وخوادم MCP، وتفرض الحوكمة، وتحسن الكفاءة التشغيلية.³⁷
يوفر بروتوكول سياق النموذج معايير التشغيل البيني التي تكسر العزلة مع انتشار الوكلاء عبر مكدس التكنولوجيا.³⁸ تمكن المعايير المتسقة من التكاملات السلسة التي تلتقط القيمة الكاملة للذكاء الاصطناعي الوكيل.³⁹ ستكافح المؤسسات التي لا تمتلك معايير التشغيل البيني لتوسيع نطاق الوكلاء إلى ما هو أبعد من حالات الاستخدام المعزولة.
تمكن البنية التحتية الموزعة للذكاء الاصطناعي مع شبكات استدلال قوية الوكلاء من العمل حيث توجد البيانات.⁴⁰ يجب أن يكون تخزين البيانات ونقاط تفاعل المستخدم ومواقع الإجراءات جميعها موزعة ومترابطة للمشاركة السلسة في الوقت الفعلي.⁴¹ تتجاوز متطلبات التوزيع متطلبات خدمات الاستدلال المركزية.
متطلبات الحوكمة والأمان
يجب على المؤسسات تحديد وتضمين قابلية الملاحظة والأمان والحوكمة والضوابط التي توفر التتبع والمساءلة واكتشاف الشذوذ وانضباط التكلفة.⁴² لكي يتوسع الذكاء الاصطناعي الوكيل بأمان، يجب بناء هذه الحواجز منذ البداية بدلاً من إضافتها لاحقاً.⁴³
تتطلب مفاهيم وكيل الذكاء الاصطناعي الآمن بالتصميم ملكية صريحة، ووصولاً بأقل الامتيازات، وعتبات استقلالية واضحة، وحدوداً أخلاقية صارمة.⁴⁴ يتطلب ترجمة أهداف العمل إلى هذه القيود عملاً معمارياً متعمداً لم تقم به العديد من المؤسسات بعد.
تتطلب أعباء عمل الذكاء الاصطناعي قابلية توسع ومرونة أكبر للتعامل مع الطبيعة الاحتمالية للأنظمة الوكيلة.⁴⁵ يجب أن تدعم البنية التحتية التوفير السريع، والأجهزة المتخصصة، وحركة مرور الشبكة منخفضة الكمون وعالية الإنتاجية للتواصل بين الوكلاء.⁴⁶
يتقدم نهج البنية ثلاثية الطبقات عبر طبقات الأساس وسير العمل والمستقلة حيث تسبق الثقة والحوكمة والشفافية الاستقلالية.⁴⁷ ستكافح المؤسسات التي تتخطى العمل الأساسي مع متطلبات الموثوقية والأمان للوكلاء المستقلين.
توقعات النطاق والتخطيط
تتوقع التنبؤات أن وكلاء الذكاء الاصطناعي سيتوسعون من 50 إلى 100 مليار في عام 2026 إلى ما يحتمل أن يكون من 2 إلى 5 تريليون بحلول عام 2036.⁴⁸ يتوافق التوقع مع 50 إلى 100 مرة من عدد الأجهزة المتصلة حالياً.⁴⁹ يخلق النطاق متطلبات بنية تحتية تتجاوز أي شيء تدعمه البنى الحالية.
يرتفع الطلب على الطاقة بشكل حاد مع انتشار الوكلاء. تضاعف استخدام طاقة GPU تقريباً من حوالي 400 واط في عام 2018 إلى ما يقرب من 750 واط اليوم ويمكن أن يتجاوز 1200 واط بحلول عام 2035.⁵⁰ يضاعف مسار الطاقة تحديات البنية التحتية إلى ما هو أبعد من الحوسبة والذاكرة.
تتوقع Gartner إلغاء 40% من عمليات نشر الذكاء الاصطناعي الوكيل بحلول عام 2027 بسبب ارتفاع التكاليف، أو القيمة غير الواضحة، أو ضوابط المخاطر الضعيفة.⁵¹ يشير معدل الإلغاء إلى أن إخفاقات تخطيط البنية التحتية ستنهي مبادرات واعدة بخلاف ذلك. تحسن المؤسسات التي تبني بنية تحتية مناسبة منذ البداية فرصها في الوصول إلى الإنتاج بنجاح.
يمكن لوكلاء الذكاء الاصطناعي الفعالين تسريع العمليات التجارية بنسبة 30% إلى 50%.⁵² تقلل التطورات الأخيرة في قوة الحوسبة والرقائق المحسنة للذكاء الاصطناعي من الخطأ البشري وتخفض وقت العمل منخفض القيمة للموظفين بنسبة 25% إلى 40%.⁵³ تبرر مكاسب الإنتاجية الاستثمار في البنية التحتية للمؤسسات التي تنفذ بفعالية.
توصيات تخطيط البنية التحتية
يجب على المؤسسات التي تخطط لنشر الوكلاء تقييم متطلبات البنية التحتية قبل اختيار حالات الاستخدام. قد لا تتوسع البنية التحتية القادرة على دعم التجارب إلى أعباء عمل الإنتاج. البناء للتوسع منذ البداية يتجنب عمليات الترحيل المكلفة.
تتطلب بنية الذاكرة اهتماماً خاصاً. الوكلاء الذين لا يستطيعون الاحتفاظ بالحالة عبر الجلسات يفقدون الكثير من قيمتهم. يؤثر التخطيط للاحتفاظ بالبيانات لسنوات متعددة على شراء التخزين وحوكمة البيانات.
يجب أن تتوقع ميزانيات الحوسبة من 20 إلى 30 مرة من استهلاك الرموز المميزة لأعباء عمل روبوتات الدردشة المكافئة. قد يبدو المضاعف عدوانياً لكنه يعكس الاستدلال متعدد الخطوات الذي يميز الوكلاء عن الاستدلال أحادي الدور.
تحدد بنية التكامل ما إذا كان الوكلاء يمكنهم الوصول إلى بيانات المؤسسة واتخاذ إجراءات ذات معنى. يجب على المؤسسات رسم متطلبات التكامل قبل الالتزام بمنصات الوكلاء. غالباً ما يهيمن تكامل الأنظمة القديمة على الجداول الزمنية للتنفيذ.
لا يمكن تأجيل البنية التحتية للحوكمة. يتطلب الوكلاء الذين يعملون بشكل مستقل عبر أنظمة المؤسسات قابلية الملاحظة، وضوابط الوصول، ومسارات التدقيق التي يجب تصميمها في البنية بدلاً من إضافتها لاحقاً.
فاتورة البنية التحتية للذكاء الاصطناعي الوكيل قادمة.⁵⁴ ستنشر المؤسسات التي تخطط بشكل استباقي الوكلاء بنجاح. أولئك الذين يقللون من تقدير المتطلبات سينضمون إلى 40% المتوقع إلغاء عمليات نشرهم قبل تحقيق القيمة.
النقاط الرئيسية
لمهندسي البنية التحتية: - يضاعف الذكاء الاصطناعي الوكيل استهلاك الرموز المميزة بمعدل 20-30 مرة مقارنة بالذكاء الاصطناعي التوليدي القياسي؛ ضع ميزانية لتكاليف الحوسبة أعلى بشكل متناسب من عمليات نشر روبوتات الدردشة - تتطلب بنية الذاكرة ثلاث طبقات: ذاكرة تخزين مؤقت سريعة الزوال (قصيرة المدى)، تخزين ساخن (الحلقات النشطة)، تخزين بارد (احتفاظ 3-5 سنوات) - ظهور البنية المفككة: فصل أوزان النموذج عن ذاكرة حالة كل وكيل لتوفير موارد ذكي
لمهندسي المنصات: - توفر Redis وقواعد البيانات المماثلة في الذاكرة ذاكرة قصيرة المدى؛ تتعامل قواعد بيانات المتجهات مع الاسترجاع الدلالي طويل المدى - تعمل بوابة LLM كوسيط بين التطبيقات ونماذج الأساس: تجريد التعقيد، فرض الحوكمة، تحسين الكفاءة - بروتوكول سياق النموذج (MCP)
[تم اقتطاع المحتوى للترجمة]