AIOps สำหรับศูนย์ข้อมูล: การใช้ LLM ในการจัดการโครงสร้างพื้นฐาน AI
อัปเดต 11 ธันวาคม 2025
อัปเดตธันวาคม 2025: 67% ของทีม IT ใช้ระบบอัตโนมัติในการตรวจสอบ ไม่มีผู้ตอบแบบสอบถามรายใดที่ไม่ใช้ระบบอัตโนมัติสมัยใหม่ AI ระบายความร้อนของ Google DeepMind ลดการใช้พลังงานได้ 40% (ปรับปรุง PUE 15%) ServiceNow AI Agents คัดกรองการแจ้งเตือน ประเมินผลกระทบ ตรวจสอบสาเหตุ และดำเนินการแก้ไขโดยอัตโนมัติ อินเทอร์เฟซภาษาธรรมชาติที่ขับเคลื่อนด้วย LLM เข้ามาแทนที่ภาษาคิวรีเฉพาะทางสำหรับการจัดการโครงสร้างพื้นฐาน
AI ระบายความร้อนอัตโนมัติของ Google DeepMind ลดการใช้พลังงานระบายความร้อนในศูนย์ข้อมูลลง 40% ส่งผลให้ค่าประสิทธิภาพการใช้พลังงาน (Power Usage Effectiveness หรือ PUE) โดยรวมลดลง 15%[^1] ทุก 5 นาที ระบบจะดึงข้อมูลจากเซ็นเซอร์หลายพันตัว ป้อนเข้าสู่โครงข่ายประสาทเทียมเชิงลึก และระบุการดำเนินการที่ลดการใช้พลังงานให้น้อยที่สุดโดยยังคงรักษาข้อจำกัดด้านความปลอดภัย[^2] เมื่อ DeepMind นำระบบไปใช้งานในปี 2018 มันกลายเป็นระบบควบคุมอุตสาหกรรมอัตโนมัติระบบแรกที่ทำงานในขนาดใหญ่ขนาดนี้[^3] ปัจจุบัน หลังจากผ่านไป 7 ปี แพลตฟอร์ม AIOps ได้ขยายระบบอัตโนมัติที่ขับเคลื่อนด้วย AI ไปยังทุกด้านของการดำเนินงานศูนย์ข้อมูล โดย Large Language Model ช่วยให้สามารถใช้อินเทอร์เฟซภาษาธรรมชาติและการใช้เหตุผลที่ซับซ้อนเกี่ยวกับสถานะโครงสร้างพื้นฐาน
ผลสำรวจของ Futurum แสดงให้เห็นว่า 67% ของทีม IT ใช้ระบบอัตโนมัติในการตรวจสอบ ขณะที่ 54% นำการตรวจจับที่ขับเคลื่อนด้วย AI มาใช้เพื่อปรับปรุงความน่าเชื่อถือ[^4] ไม่มีผู้ตอบแบบสอบถามรายใดที่รายงานว่าไม่มีระบบอัตโนมัติสมัยใหม่ในสภาพแวดล้อมของตน[^5] คำถามที่ผู้ดำเนินการศูนย์ข้อมูลต้องเผชิญได้เปลี่ยนจากว่าจะนำ AIOps มาใช้หรือไม่ เป็นว่าจะนำ AI ไปใช้ในกระบวนการปฏิบัติงานอย่างจริงจังแค่ไหน โครงสร้างพื้นฐานที่รัน AI workload พึ่งพา AI ในการจัดการตัวเองมากขึ้นเรื่อยๆ
การเปลี่ยนแปลงด้วย AIOps
AIOps (Artificial Intelligence for IT Operations) ผสมผสานการตรวจสอบแบบเรียลไทม์กับการวิเคราะห์เชิงทำนาย ช่วยให้แพลตฟอร์มระบุปัญหาคอขวด คาดการณ์ความล้มเหลว และเพิ่มประสิทธิภาพการจัดสรรทรัพยากรก่อนที่ปัญหาจะส่งผลกระทบต่อประสิทธิภาพ[^6] Gartner บัญญัติคำนี้ขึ้นในปี 2016 โดยตระหนักถึงการเปลี่ยนแปลงจาก IT แบบรวมศูนย์ไปสู่การดำเนินงานแบบกระจายที่ครอบคลุมโครงสร้างพื้นฐานคลาวด์และ on-premises ทั่วโลก[^7]
การตรวจสอบแบบดั้งเดิมสร้างพายุการแจ้งเตือนที่ท่วมทีมปฏิบัติการ เหตุการณ์โครงสร้างพื้นฐานเพียงครั้งเดียวอาจกระตุ้นการแจ้งเตือนที่เกี่ยวข้องหลายพันรายการ แต่ละรายการต้องการความสนใจในขณะที่ปิดบังสาเหตุที่แท้จริง การจัดการเหตุการณ์ของ ServiceNow ลดเสียงรบกวนได้ 99% โดยประมวลผลเหตุการณ์ แท็ก และเมตริกเพื่อนำเสนอข้อมูลเชิงลึกที่ดำเนินการได้แทนการแจ้งเตือนแบบดิบ[^8]
จากการตอบสนองสู่การดำเนินงานเชิงทำนาย
ServiceNow AIOps ใช้อัลกอริทึมการเรียนรู้ของเครื่องเพื่อจัดกลุ่มการแจ้งเตือนที่เกี่ยวข้องตามโทโพโลยี แท็ก และความคล้ายคลึงของข้อความ ลดพายุการแจ้งเตือนและเสียงรบกวนในการปฏิบัติงาน[^9] โมเดล unsupervised ขั้นสูงระบุปัญหาที่เกิดขึ้นใหม่หรือรูปแบบผิดปกติล่วงหน้าหลายชั่วโมงก่อนที่จะส่งผลกระทบต่อผู้ใช้ปลายทาง ช่วยให้สามารถแทรกแซงได้เร็วแทนที่จะต้องตอบสนองต่อเหตุการณ์
การจัดการเหตุการณ์เชิงรุกเปลี่ยนแปลงกระบวนการปฏิบัติงานอย่างพื้นฐาน แทนที่จะตอบสนองต่อการหยุดทำงาน ทีมสามารถแก้ไขปัญหาความเสื่อมก่อนที่ผู้ใช้จะสังเกตเห็น การเปลี่ยนจากการดำเนินงานแบบตอบสนองไปสู่การป้องกันลดเวลาเฉลี่ยในการแก้ไข (MTTR) ขณะเดียวกันก็ป้องกันเหตุการณ์หลายอย่างได้ทั้งหมด[^10]
Metric Intelligence วิเคราะห์ข้อมูลเมตริกอย่างต่อเนื่องเพื่อตรวจจับความผิดปกติอย่างรวดเร็วและกำหนดเกณฑ์แบบไดนามิก[^11] เกณฑ์คงที่สร้างการแจ้งเตือนเท็จเมื่อช่วงการทำงานปกติแตกต่างกันตามเวลาของวัน รูปแบบ workload หรือปัจจัยตามฤดูกาล เกณฑ์แบบไดนามิกปรับตัวตามพฤติกรรมจริง แจ้งเตือนเฉพาะความผิดปกติที่แท้จริงเท่านั้น
LLM สำหรับการดำเนินงาน IT
Large Language Model เปลี่ยนแปลงวิธีที่ทีมปฏิบัติการโต้ตอบกับระบบตรวจสอบและระบบอัตโนมัติ การสำรวจอย่างละเอียดวิเคราะห์บทความวิจัย 183 บทความที่ตีพิมพ์ระหว่างมกราคม 2020 ถึงธันวาคม 2024 เกี่ยวกับการประยุกต์ใช้ LLM ใน AIOps[^12] งานวิจัยแสดงให้เห็นความซับซ้อนที่เพิ่มขึ้นในการประยุกต์ใช้ Language Model กับความท้าทายในการปฏิบัติงาน
อินเทอร์เฟซภาษาธรรมชาติ
แพลตฟอร์ม AIOps สมัยใหม่รองรับอินเทอร์เฟซแบบ chatbot หรือขับเคลื่อนด้วย LLM เพื่อการทำงานร่วมกันระหว่างมนุษย์และ AI ที่เร็วขึ้น[^13] ผู้ปฏิบัติงานสามารถสอบถามสถานะโครงสร้างพื้นฐานโดยใช้ภาษาธรรมชาติแทนภาษาคิวรีเฉพาะทาง LLM แปลคำถามเป็นคิวรีการตรวจสอบที่เหมาะสมและสังเคราะห์ผลลัพธ์เป็นบทสรุปที่เข้าใจได้
นักวิจัยเสนอผู้ช่วย AI ที่ขับเคลื่อนด้วย LLM ที่มีประสิทธิภาพสำหรับการจัดการการดำเนินงาน IT ที่สามารถจัดการกับความท้าทายของ AIOps ได้[^14] Language Model ที่แตกต่างกันมีความแตกต่างในข้อมูลฝึกอบรม สถาปัตยกรรม และจำนวนพารามิเตอร์ ส่งผลต่อความสามารถในงานดำเนินงาน IT โมเดลขนาดเล็กอย่าง Mistral Small 7B แสดงประสิทธิภาพที่โดดเด่นในการใช้เหตุผลและการเลือกเครื่องมือแม้จะมีขนาดที่ลดลง[^15]
AI Agent สำหรับการดำเนินงานอัตโนมัติ
AI Agents for AIOps ของ ServiceNow คัดกรองการแจ้งเตือน ประเมินผลกระทบทางธุรกิจและทางเทคนิค ตรวจสอบสาเหตุ และขับเคลื่อนการแก้ไขผ่าน agentic workflow ที่ประสานงานกันโดยอัตโนมัติ[^16] AI Agents for Observability ขยายความสามารถโดยร่วมมือกับเครื่องมือ APM และ observability ของบุคคลที่สามเพื่อวิเคราะห์ผลกระทบต่อบริการและจัดลำดับความสำคัญของการตรวจสอบ
การพัฒนาจากการตรวจสอบไปสู่การแจ้งเตือนไปสู่การแก้ไขอัตโนมัติแสดงถึงการขยายความสามารถพื้นฐาน ระบบ AIOps ก่อนหน้านี้ตรวจจับปัญหาและแจ้งมนุษย์ ระบบปัจจุบันจัดการเหตุการณ์ประจำโดยไม่ต้องมีการแทรกแซงของมนุษย์มากขึ้นเรื่อยๆ โดยยกระดับเฉพาะสถานการณ์ที่ต้องการการตัดสินใจหรือการอนุมัติที่เกินขอบเขตที่กำหนดไว้
การเพิ่มประสิทธิภาพระบบระบายความร้อนด้วย AI
การระบายความร้อนศูนย์ข้อมูลเป็นหนึ่งในการประยุกต์ใช้ AIOps ที่ประสบความสำเร็จมากที่สุด โดยมีการประหยัดพลังงานที่วัดได้เพื่อยืนยันแนวทาง
ระบบระบายความร้อนอัตโนมัติของ DeepMind
DeepMind พัฒนาเฟรมเวิร์คโครงข่ายประสาทเทียมที่ลดพลังงานระบายความร้อนได้ 40% โดยใช้ข้อมูลการตรวจสอบ 2 ปีจากศูนย์ข้อมูลของ Google[^17] สถาปัตยกรรมเครือข่ายใช้ 5 hidden layer ที่มี 50 โหนดแต่ละชั้น ประมวลผล 19 ตัวแปรอินพุตที่ทำให้เป็นมาตรฐานเพื่อทำนายการควบคุมที่เหมาะสมที่สุด[^18]
ระบบทำงานโดยอัตโนมัติ ส่งการดำเนินการที่แนะนำไปยังระบบควบคุมศูนย์ข้อมูลเพื่อตรวจสอบและนำไปใช้[^19] ข้อจำกัดด้านความปลอดภัยทำให้มั่นใจว่าคำแนะนำอยู่ในขอบเขตการทำงานที่ยอมรับได้ ระบบควบคุมตรวจสอบคำแนะนำก่อนดำเนินการ รักษาการกำกับดูแลของมนุษย์ขณะเปิดใช้งานการเพิ่มประสิทธิภาพที่ขับเคลื่อนด้วย AI
ความสำเร็จนี้แสดงให้เห็นว่า AI สามารถเพิ่มประสิทธิภาพระบบทางกายภาพที่ซับซ้อนเกินสัญชาตญาณของมนุษย์ ผู้ปฏิบัติงานไม่สามารถปรับตัวแปรหลายร้อยตัวด้วยตนเองทุก 5 นาทีเพื่อให้ได้ประสิทธิภาพที่เหมาะสมที่สุด AI จัดการการเพิ่มประสิทธิภาพอย่างต่อเนื่องในขณะที่มนุษย์จัดการสถานการณ์พิเศษและการกำกับดูแลระบบ
ความร่วมมือระหว่าง Schneider Electric และ NVIDIA
ในปี 2025 Schneider Electric ร่วมมือกับ NVIDIA ออกแบบสถาปัตยกรรมอ้างอิงที่ปรับให้เหมาะกับ AI รองรับความหนาแน่นของ rack สูงสุด 132 kW[^20] โซลูชันร่วมลดการใช้พลังงานระบายความร้อนเกือบ 20% ความร่วมมือนี้แสดงให้เห็นการทำงานร่วมกันของผู้ขายที่นำการเพิ่มประสิทธิภาพ AI ไปใช้กับโครงสร้างพื้นฐานความหนาแน่นสูงรุ่นต่อไป
การกระจายโหลดอัจฉริยะที่ขับเคลื่อนด้วย AI ทำให้มั่นใจว่า workload กระจายไปยังเซิร์ฟเวอร์และระบบระบายความร้อนในลักษณะที่ประหยัดพลังงานที่สุด[^21] การเพิ่มประสิทธิภาพพิจารณาทั้งประสิทธิภาพการประมวลผลและการจัดการความร้อนพร้อมกัน ค้นหาการกำหนดค่าที่การวางแผนด้วยตนเองจะพลาด
ระบบอัตโนมัติโครงสร้างพื้นฐานในระดับใหญ่
AIOps ขยายไปไกลกว่าการตรวจสอบไปสู่การจัดการโครงสร้างพื้นฐานเชิงรุก ทำให้งานการกำหนดค่า การติดตั้ง และการแก้ไขเป็นไปโดยอัตโนมัติ
การจัดการการกำหนดค่า
58% ขององค์กรใช้ infrastructure-as-code หรือเครื่องมือระบบอัตโนมัติการกำหนดค่าเช่น Ansible และ Terraform เพื่อจัดการการกำหนดค่าอุปกรณ์[^22] วิศวกรเขียนสคริปต์และใช้ playbook ที่ควบคุมเวอร์ชันแทนการเข้าสู่ระบบ switch ด้วยตนเอง ระบบอัตโนมัติทำให้มั่นใจในความสอดคล้องขณะสร้างเส้นทางการตรวจสอบสำหรับการปฏิบัติตามข้อกำหนด
แพลตฟอร์ม AIOps รวมเข้ากับการจัดการการกำหนดค่าเพื่อตรวจจับความเบี่ยงเบนระหว่างสถานะจริงและสถานะที่ตั้งใจไว้ เมื่อการตรวจสอบระบุความผิดปกติของการกำหนดค่า การแก้ไขอัตโนมัติจะกู้คืนการกำหนดค่าที่ตั้งใจไว้โดยไม่ต้องมีการแทรกแซงด้วยตนเอง วงจรปิดจากการตรวจจับผ่านการแก้ไขเร่งการตอบสนองขณะลดข้อผิดพลาดของมนุษย์
การบำรุงรักษาเชิงทำนาย
Health Log Analytics ให้การวิเคราะห์และตรวจสอบ log แบบเรียลไทม์ ทำให้มั่นใจในการระบุความผิดปกติอย่างรวดเร็ว[^23] การวิเคราะห์ log ในระดับใหญ่ต้องการความช่วยเหลือจาก AI: มนุษย์ไม่สามารถอ่านรายการ log หลายล้านรายการเพื่อระบุรูปแบบที่บ่งบอกถึงความล้มเหลวที่กำลังจะเกิดขึ้น
การบำรุงรักษาเชิงทำนายขยายไปไกลกว่าซอฟต์แวร์ไปสู่โครงสร้างพื้นฐานทางกายภาพ แนวโน้มอุณหภูมิ รูปแบบการใช้พลังงาน และตัวบ่งชี้ความเสื่อมของประสิทธิภาพส่งสัญญาณความล้มเหลวของฮาร์ดแวร์ก่อนที่จะเกิดขึ้น การกำหนดการบำรุงรักษาในช่วงเวลาที่วางแผนไว้หลีกเลี่ยงการหยุดทำงานที่ไม่ได้วางแผนซึ่งรบกวนการดำเนินงาน
Digital Twin และการจำลอง
Digital twin, AIOps และการวิเคราะห์เชิงทำนายช่วยจำลองและเพิ่มประสิทธิภาพการทำงานแบบเรียลไทม์ ทำให้มั่นใจในความน่าเชื่อถือและประสิทธิภาพพลังงานที่มากขึ้น[^24] Digital twin สร้างตัวแทนเสมือนของโครงสร้างพื้นฐานทางกายภาพ ช่วยให้ผู้ปฏิบัติงานทดสอบการเปลี่ยนแปลงก่อนการติดตั้งใช้งานจริง
การวางแผนความจุ
Digital twin จำลองความจุโครงสร้างพื้นฐานภายใต้สถานการณ์ต่างๆ ช่วยผู้ปฏิบัติงานวางแผนการขยายและระบุข้อจำกัด AI วิเคราะห์รูปแบบในอดีตเพื่อทำนายความต้องการในอนาคต แนะนำการเพิ่มความจุก่อนที่ความต้องการจะเกินอุปทาน
ความสามารถในการสร้างแบบจำลองพิสูจน์ว่ามีคุณค่าอย่างยิ่งสำหรับโครงสร้างพื้นฐาน AI ที่การติดตั้ง GPU ขับเคลื่อนการเติบโตของความจุอย่างรวดเร็ว Digital twin จำลองความต้องการระบายความร้อน การกระจายพลังงาน และความจุเครือข่ายสำหรับการขยาย GPU cluster ที่เสนอก่อนการลงทุน
การตรวจสอบการเปลี่ยนแปลง
การทดสอบการเปลี่ยนแปลงโครงสร้างพื้นฐานในสภาพแวดล้อม digital twin ลดความเสี่ยงของเหตุการณ์ในการผลิต AI ตรวจสอบการเปลี่ยนแปลงที่เสนอกับพฤติกรรมโครงสร้างพื้นฐานที่จำลองไว้ ระบุปัญหาที่อาจเกิดขึ้นก่อนที่การเปลี่ยนแปลงจะไปถึงการผลิต การตรวจสอบจับข้อผิดพลาดการกำหนดค่าและความขัดแย้งของทรัพยากรที่จะทำให้เกิดการหยุดทำงาน
การนำ AIOps ไปใช้สำหรับโครงสร้างพื้นฐาน AI
องค์กรที่ติดตั้ง AIOps สำหรับการจัดการศูนย์ข้อมูลควรพิจารณาข้อกำหนดการรวมระบบ คุณภาพข้อมูล และความพร้อมในการดำเนินงาน
ข้อกำหนดการรวมระบบ
Integration Launchpad ของ ServiceNow ให้การตั้งค่าแบบมีคำแนะนำสำหรับการรวม AIOps กับเครื่องมือตรวจสอบของบุคคลที่สาม[^25] องค์กรสามารถกำหนดค่า connector สำเร็จรูปหรือสร้าง connector แบบกำหนดเองสำหรับเครื่องมือตรวจสอบที่ไม่รองรับ ชั้นการรวมรวบรวมข้อมูลจากแหล่งที่หลากหลายเป็นมุมมองการดำเนินงานแบบรวม
โครงสร้างพื้นฐาน AI มักรวมการตรวจสอบเฉพาะทางสำหรับ GPU, เครือข่ายความเร็วสูง และระบบจัดเก็บข้อมูลนอกเหนือจากการตรวจสอบเซิร์ฟเวอร์มาตรฐาน การนำ AIOps ไปใช้ต้องรวมแหล่งข้อมูลเฉพาะทางเหล่านี้เพื่อให้มองเห็นโครงสร้างพื้นฐานได้อย่างสมบูรณ์
รากฐานคุณภาพข้อมูล
ประสิทธิภาพของ AIOps ขึ้นอยู่กับคุณภาพข้อมูลการตรวจสอบ ข้อมูลที่ไม่สมบูรณ์ การติดฉลากที่ไม่สอดคล้องกัน และช่องว่างในการครอบคลุมจำกัดความแม่นยำของโมเดล AI องค์กรควรตรวจสอบการครอบคลุมการตรวจสอบและคุณภาพข้อมูลก่อนติดตั้งการวิเคราะห์ขั้นสูง
ข้อมูลในอดีตช่วยให้สามารถฝึกโมเดลเชิงทำนายบนรูปแบบเฉพาะขององค์กร DeepMind ใช้ข้อมูลการตรวจสอบ 2 ปีเพื่อฝึกโมเดลเพิ่มประสิทธิภาพการระบายความร้อน[^26] องค์กรที่ขาดความลึกของข้อมูลในอดีตอาจต้องรวบรวมข้อมูลก่อนที่การทำนายขั้นสูงจะเชื่อถือได้
ความพร้อมในการดำเนินงาน
การดำเนินงานอัตโนมัติต้องการนโยบายที่ชัดเจนที่กำหนดขอบเขตอำนาจของ AI องค์กรต้องตัดสินใจว่าการดำเนินการใดที่ระบบ AI สามารถดำเนินการได้อย่างอิสระเทียบกับการดำเนินการที่ต้องได้รับการอนุมัติจากมนุษย์ การเริ่มต้นด้วยคำแนะนำและการดำเนินการด้วยตนเองสร้างความมั่นใจก่อนเปิดใช้งานการดำเนินการอัตโนมัติ
วิศวกรภาคสนาม 550 คนของ Introl สนับสนุนองค์กรที่นำ AIOps ไปใช้ทั่วการติดตั้งโครงสร้างพื้นฐาน GPU[^27] บริษัทอยู่ในอันดับที่ 14 บน Inc. 5000 ปี 2025 ด้วยการเติบโต 9,594% ใน 3 ปี สะท้อนความต้องการบริการโครงสร้างพื้นฐานระดับมืออาชีพ[^28] การติดตั้งโดยมืออาชีพทำให้มั่นใจในการครอบคลุมการตรวจสอบ คุณภาพการรวมระบบ และขั้นตอนการดำเนินงานที่สนับสนุน
[เนื้อหาถูกตัดทอนสำหรับการแปล]