بيانات السلاسل الزمنية وإنترنت الأشياء لتدريب الذكاء الاصطناعي: البنية التحتية لبيانات الاستشعار
تم التحديث في 11 ديسمبر 2025
تحديث ديسمبر 2025: يستفيد InfluxDB 3 من حزمة FDAP (Flight وDataFusion وArrow وParquet) لاستيعاب ملايين نقاط البيانات في الثانية. تغذي بيانات السلاسل الزمنية بشكل متزايد تدريب تعلم الآلة للصيانة التنبؤية واكتشاف الشذوذ. يدفع إنترنت الأشياء الصناعي الذكاء الاصطناعي المدمج على الحافة. أصبحت خطوط أنابيب بيانات الاستشعار في الوقت الفعلي بنية تحتية حيوية لتطبيقات الذكاء الاصطناعي الصناعية.
يمكن لـ InfluxDB استيعاب وتحليل ملايين نقاط بيانات السلاسل الزمنية في الثانية دون حدود أو قيود، مع توفر البيانات فوراً للاستعلام واستجابات SQL فائقة السرعة.[^1] يستفيد InfluxDB 3 من حزمة FDAP—Flight وDataFusion وArrow وParquet—المبنية بلغة Rust مع تقنيات مدعومة من Apache لاستيعاب وتخزين وتحليل بيانات السلاسل الزمنية بأي حجم بكفاءة.[^2] تعالج البنية حالات الاستخدام بما في ذلك المستشعرات الافتراضية والمادية، وقياسات الشبكة عن بعد، والفضاء والصواريخ، والطاقة، وضوابط العمليات، وإنترنت الأشياء الصناعي حيث تغذي بيانات الاستشعار عالية التردد تدريب نماذج الذكاء الاصطناعي.[^3]
تستخدم عمليات النشر الصناعية عادةً السلاسل الزمنية للتطبيقات التشغيلية مثل اكتشاف الشذوذ. في السنوات الأخيرة، استخدمت الشركات بيانات السلاسل الزمنية من الأجهزة الصناعية للمساعدة في تدريب نماذج تعلم الآلة للصيانة التنبؤية.[^4] مع تزايد تعقيد الأنظمة الصناعية، يدفع التحول نحو الذكاء في الوقت الفعلي والمحلي الذكاء الاصطناعي المدمج على الحافة. تحدد البنية التحتية التي تربط المستشعرات بأنظمة تدريب الذكاء الاصطناعي ما إذا كانت المؤسسات قادرة على استخلاص القيمة من بيانات الاستشعار التي يولدها إنترنت الأشياء الصناعي.
خصائص بيانات السلاسل الزمنية
تظهر بيانات السلاسل الزمنية من مستشعرات إنترنت الأشياء خصائص تتطلب بنية تحتية متخصصة بدلاً من قواعد البيانات للأغراض العامة.
حجم البيانات وسرعتها
تولد المستشعرات الصناعية البيانات باستمرار بترددات تتراوح من الميلي ثانية إلى الثواني. تنتج منشأة تصنيع تضم آلاف المستشعرات مليارات نقاط البيانات يومياً. يتجاوز الحجم ما تتعامل معه قواعد البيانات التقليدية بكفاءة.
يتعامل InfluxDB مع عدد كبير من مدخلات البيانات كل ثانية، مما يجعله مثالياً للتطبيقات التي تولد البيانات بشكل متكرر، مثل المستشعرات الصناعية وأجهزة إنترنت الأشياء.[^5] تحسّن قواعد بيانات السلاسل الزمنية المصممة خصيصاً لأحمال العمل ذات الكتابة الكثيفة مع أنماط الوصول المتوقعة.
تصل البيانات باستمرار دون حدود تجميع طبيعية. يجب أن تستوعب البنية التحتية البيانات بالسرعة التي تنتجها المستشعرات دون ضغط عكسي يؤثر على عمليات الاستشعار. يتسبب فيضان المخزن المؤقت أو الاستيعاب البطيء في فقدان البيانات مما يقلل من جودة تدريب النموذج.
الترتيب الزمني والارتباط
يعتمد تحليل السلاسل الزمنية على ترتيب زمني دقيق. قد تتطلب الأحداث المتباعدة بالميلي ثانية معالجة مختلفة عن الأحداث المتباعدة بالثواني. تمكّن دقة الطابع الزمني والتزامن عبر المستشعرات من تحليل ارتباط ذي معنى.
يحدد الارتباط عبر المستشعرات أنماطاً تمتد عبر تدفقات بيانات متعددة. يتيح مستشعر الاهتزاز مع قراءات درجة الحرارة والضغط تحليلاً أغنى من أي مستشعر منفرد. يجب أن تمكّن البنية التحتية استعلامات الارتباط الفعالة عبر تدفقات البيانات.
تعقد البيانات المتأخرة الترتيب الزمني. تتسبب تأخيرات الشبكة، والتخزين المؤقت على الحافة، وانحراف ساعة المستشعر في وصول البيانات بترتيب خاطئ. يجب أن تتعامل أنظمة الاستيعاب مع الوصول المتأخر دون إفساد السلامة الزمنية.
الاحتفاظ والضغط
توفر البيانات التاريخية أمثلة تدريبية لنماذج تعلم الآلة مع استهلاك تخزين كبير. توازن سياسات الاحتفاظ بين توفر بيانات التدريب وتكاليف التخزين. ينقل التخزين المتدرج البيانات الأقدم إلى وسائط أرخص مع الحفاظ على إمكانية الوصول.
يستغل ضغط السلاسل الزمنية الأنماط الزمنية لتحقيق وفورات كبيرة في المساحة. يقلل الترميز الفرقي وترميز طول التشغيل والضغط العمودي متطلبات التخزين بمقدار 10 أضعاف أو أكثر مقارنة بالتخزين البسيط. تؤثر كفاءة الضغط على كل من التكلفة وأداء الاستعلام.
ينشئ التقليل من العينات ملخصات منخفضة الدقة للبيانات التاريخية. تحل المتوسطات الدقيقة محل بيانات دقة الثانية للفترات الأقدم. يمكن للنماذج التدرب على البيانات المقللة عندما لا تكون الدقة الكاملة ضرورية.
بنية الاستيعاب
يمتد استيعاب بيانات الاستشعار عبر التجميع على الحافة والنقل والتخزين المركزي مع فرص تحسين مختلفة في كل طبقة.
التجميع على الحافة
تجمع بوابات الحافة البيانات من مستشعرات متعددة قبل الإرسال إلى الأنظمة المركزية. يقلل التجميع من عرض النطاق الترددي للشبكة ويمكّن المعالجة المسبقة المحلية. تحدد قدرة حوسبة البوابة تعقيد المعالجة المسبقة الممكنة.
تتضمن ميزات إنترنت الأشياء وإنترنت الأشياء الصناعي الجديدة معالجة أسهل للبيانات من التكنولوجيا التشغيلية عبر بروتوكول MQTT، ونشر أسهل لوكلاء بيانات السلاسل الزمنية ذات البصمة الأصغر على أجهزة الحافة.[^6] يبسط دعم البروتوكول التكامل مع المعدات الصناعية الحالية.
يخزن التخزين المؤقت على الحافة البيانات محلياً عندما يكون الاتصال بالشبكة غير متاح. يمنع التخزين المؤقت فقدان البيانات أثناء انقطاعات الشبكة الشائعة في البيئات الصناعية. تحدد سعة المخزن المؤقت أقصى مدة انقطاع دون فقدان البيانات.
بروتوكولات النقل
يوفر MQTT رسائل نشر-اشتراك خفيفة الوزن مناسبة لأجهزة إنترنت الأشياء المحدودة. يقلل البروتوكول من عرض النطاق الترددي وموارد الجهاز مع توفير تسليم موثوق. أصبح تكامل MQTT مع قواعد بيانات السلاسل الزمنية قياسياً بشكل متزايد.
يوفر gRPC وApache Arrow Flight نقلاً عالي الإنتاجية لنقل البيانات بالجملة. تناسب البروتوكولات الاتصالات ذات النطاق الترددي العالي بين بوابات الحافة والأنظمة المركزية. يمكّن النقل العمودي لـ Flight الاستيعاب الدفعي الفعال.
تؤثر موثوقية الشبكة على اختيار البروتوكول. تتعامل البروتوكولات ذات إعادة المحاولة والإقرار المدمجين مع الشبكات غير الموثوقة بشكل أفضل من الأساليب الأبسط. قد تتطلب الشبكات الصناعية ميزات بروتوكول غير شائعة في تقنية المعلومات المؤسسية.
الاستيعاب المركزي
تستقبل أنظمة الاستيعاب المركزية البيانات من آلاف مصادر الحافة المحتملة في وقت واحد. يجب أن تتعامل طبقة الاستيعاب مع عرض النطاق الترددي الإجمالي مع الحفاظ على الترتيب لكل مصدر. يستوعب التوسع الأفقي عمليات نشر المستشعرات المتنامية.
تعاونت InfluxData وAWS على حل احتياجات تطبيقات الاستيعاب العالي، بما في ذلك ميزة Read Replica التي تزيد إنتاجية القراءة دون مضاعفة تكاليف البنية التحتية.[^3] يعالج الابتكار السيناريوهات التي يتجاوز فيها حمل قراءة تدريب الذكاء الاصطناعي سعة المثيل الواحد.
تتبع مراقبة الاستيعاب الإنتاجية وزمن الاستجابة ومعدلات الخطأ عبر المصادر. تمكّن الرؤية في صحة الاستيعاب من حل المشكلات بشكل استباقي. تخلق الفجوات في المراقبة نقاطاً عمياء حيث يمر فقدان البيانات دون اكتشاف.
تحسين التخزين والاستعلام
تؤثر بنية التخزين على كل من أداء الوصول إلى بيانات التدريب والتكلفة التشغيلية.
اختيار قاعدة بيانات السلاسل الزمنية
يوفر InfluxDB وTimescaleDB وTDengine تخزين سلاسل زمنية مصمماً خصيصاً. تقارن تقييمات الأداء باستخدام Time Series Benchmark Suite (TSBS) لحالة استخدام إنترنت الأشياء الخيارات لمساعدة المؤسسات على تحديد قاعدة البيانات الأكثر ملاءمة لسيناريوهاتها.[^7]
صُمم InfluxDB للتوسع بسهولة، مستوعباً متطلبات البيانات المتزايدة للعمليات الصناعية الحديثة دون المساس بالأداء.[^8] تتفوق قواعد بيانات السلاسل الزمنية المصممة خصيصاً على قواعد البيانات للأغراض العامة لأحمال عمل إنترنت الأشياء.
تشمل معايير الاختيار إنتاجية الاستيعاب وزمن استجابة الاستعلام وكفاءة الضغط وتكامل النظام البيئي. يجب على المؤسسات تقييم قواعد البيانات مقابل خصائص أحمال العمل الفعلية بدلاً من المعايير الاصطناعية وحدها.
أنماط الاستعلام لتدريب الذكاء الاصطناعي
تختلف استعلامات استخراج بيانات التدريب عن الاستعلامات التشغيلية. تقرأ استعلامات التدريب نطاقات كبيرة من البيانات التاريخية بدلاً من عمليات البحث عن النقاط الحديثة. يستفيد نمط الوصول من تحسين القراءة المتسلسلة.
تحسب استعلامات استخراج الميزات قيماً مشتقة لإدخال النموذج. تنتج التجميعات ودوال النافذة والعمليات عبر السلاسل ميزات التدريب من بيانات الاستشعار الخام. تبسط لغات الاستعلام التي تدعم هذه العمليات هندسة الميزات.
يقرأ التدريب التزايدي البيانات الجديدة فقط منذ آخر تشغيل للتدريب. يمكّن اكتشاف التغيير الفعال الاستخراج التزايدي دون مسح تاريخي كامل. يقلل التحسين من وقت إعداد بيانات التدريب لأنظمة التعلم المستمر.
تدرج التخزين
يوفر التخزين الساخن أسرع وصول للبيانات الحديثة والاستعلامات المتكررة. يوفر تخزين SSD أو NVMe عمليات الإدخال/الإخراج في الثانية التي تتطلبها العمليات في الوقت الفعلي. يوازن حجم الطبقة الساخنة بين الأداء والتكلفة.
يحتفظ التخزين الدافئ بالبيانات الأقدم التي يتم الوصول إليها بشكل أقل تكراراً. يقبل التخزين الأقل تكلفة زمن وصول أعلى قليلاً. يمكن لاستعلامات التدريب التي تقرأ النطاقات التاريخية تحمل زمن استجابة الطبقة الدافئة.
يؤرشف التخزين البارد البيانات التاريخية للامتثال أو الوصول النادر. يوفر تخزين الكائنات أدنى تكلفة للاحتفاظ الهائل. يخطط تدريب النموذج الذي يتطلب بيانات تاريخية من التخزين البارد لزمن الاسترجاع.
تكامل تدريب الذكاء الاصطناعي
تغذي بيانات السلاسل الزمنية تدريب الذكاء الاصطناعي من خلال استخراج الميزات وتحميل البيانات وخطوط أنابيب التعلم المستمر.
هندسة الميزات
نادراً ما تعمل قراءات الاستشعار الخام مباشرة كمدخلات للنموذج. تحول هندسة الميزات البيانات الخام إلى تمثيلات تلتقط أنماطاً ذات معنى. تعزز الميزات الزمنية مثل المتوسطات المتحركة والاتجاهات ومؤشرات الموسمية النماذج التنبؤية.
توفر ميزات التأخير سياقاً تاريخياً لكل نقطة تنبؤ. يحتاج النموذج الذي يتنبأ بفشل المعدات إلى أنماط تاريخية تؤدي إلى حالات فشل سابقة. ترمز هندسة الميزات هذه العلاقات الزمنية.
تجمع الميزات عبر المستشعرات البيانات من المستشعرات ذات الصلة. تلتقط النسبة بين درجات حرارة الإدخال والإخراج، وفروق الضغط عبر المراحل، أو ارتباطات الاهتزاز والطاقة علاقات النظام. توجه الخبرة في المجال اختيار الميزات.
بنية خط أنابيب البيانات
تستخرج خطوط أنابيب بيانات التدريب البيانات وتحولها وتحملها من قواعد بيانات السلاسل الزمنية إلى بنية التدريب التحتية. تجدول أدوات تنسيق خطوط الأنابيب مثل Apache Airflow عمليات الاستخراج المنتظمة. تنتج خطوط الأنابيب مجموعات بيانات تدريب ذات إصدارات تمكّن قابلية التكرار.
تمكّن خطوط الأنابيب المتدفقة حساب الميزات في الوقت الفعلي للتعلم عبر الإنترنت. تعالج Kafka وFlink والأدوات المماثلة تدفقات بيانات الاستشعار، وتحسب الميزات باستمرار. تدعم بنية التدفق النماذج التي تتكيف مع الظروف الحالية.
يلتقط التحقق من البيانات مشكلات الجودة قبل أن تؤثر على تدريب النموذج. يحدد التحقق من المخطط وفحوصات النطاق واكتشاف الشذوذ البيانات الإشكالية. يمنع التحقق سيناريوهات القمامة الداخلة-القمامة الخارجة التي تهدر موارد التدريب.
بنية تدريب النموذج التحتية
تستهلك مجموعات GPU بيانات التدريب بمعدلات يجب أن تطابقها خطوط أنابيب البيانات. يهدر تحميل البيانات الذي لا يستطيع مواكبة استهلاك GPU الحوسبة باهظة الثمن. يعظم التخزين عالي النطاق الترددي وكود التحميل الفعال استخدام GPU.
يقرأ التدريب الموزع البيانات عبر عمال متعددين في وقت واحد. تضمن استراتيجيات تقسيم البيانات أن يتلقى العمال بيانات غير متداخلة دون نفقات تنسيق. يوازن التقسيم الحمل مع الحفاظ على العلاقات الزمنية.
يلتقط تتبع التجارب العلاقة بين إصدارات بيانات التدريب وإصدارات النموذج. تتطلب قابلية التكرار معرفة بالضبط أي بيانات درّبت أي نموذج. يمكّن التتبع من تصحيح الأخطاء والتراجع عندما تتدهور النماذج.
أنماط النشر الصناعي
تظهر عمليات نشر إنترنت الأشياء الصناعية أنماطاً يجب أن يستوعبها تصميم البنية التحتية.
عمليات نشر حافة المصنع
تنشر مرافق التصنيع حوسبة الحافة التي تعالج بيانات الاستشعار محلياً. تقلل معالجة الحافة من زمن الاستجابة للتحكم في الوقت الفعلي مع تصفية البيانات المرسلة إلى الأنظمة المركزية. توازن بنية الحافة-السحابة بين الاستجابة المحلية والتدريب المركزي.
تدعم شبكة Introl المكونة من 550 مهندساً ميدانياً المؤسسات التي تنفذ بنية تحتية لبيانات الاستشعار تمتد عبر عمليات نشر الحافة والسحابة.[^9] احتلت الشركة المرتبة الرابعة عشرة في قائمة Inc. لعام 2025.
[تم اقتطاع المحتوى للترجمة]