
La capacidad de predecir fallas de hardware con cierto grado de precisión ofrece el potencial de ahorros tremendos para proveedores de servicios con grandes inversiones de capital en tecnología de la información (TI). Para clientes empresariales que operan plataformas costosas de computación de alto rendimiento (HPC) e inteligencia artificial (AI) a escala, la disponibilidad de su oferta de servicios lo es todo: Un sistema caído bloquea a los clientes y atrapa recursos, volviéndolos inútiles a gran costo. Una interrupción de este tipo puede causar una pérdida de ingresos, impactar la productividad general de los empleados y dañar la marca de una empresa. Dependiendo de la industria, estudios han demostrado que el costo promedio de una hora de tiempo de inactividad no planificado puede variar desde $100,000 por hora hasta más de $500,000 por hora.[1] [2]
Introducción al Análisis Predictivo de Fallas (PFA)
Al evaluar grandes cantidades de datos históricos, el análisis predictivo de fallas (PFA) puede ofrecer información valiosa sobre la probabilidad de una interrupción. Los chipsets, placas de circuito, discos duros y conexiones soldadas tienen una vida útil finita. Las tendencias en los datos históricos de fallas pueden apuntar a un horizonte temporal para fallas futuras.
Para grandes fabricantes de equipos o automóviles (y sus clientes), el PFA puede potencialmente ofrecer mejoras en la expectativa de vida de los activos, llevando a una reducción del gasto futuro de hasta 5%. El PFA también puede usarse para programar mantenimiento cuando los operadores y técnicos están más disponibles y son más económicos, creando eficiencias y ahorros de hasta 20%.[3]
Numerosos factores pueden impactar el rendimiento del PFA. Dependiendo de la carga de trabajo promedio del sistema en cuestión, el alcance de los datos históricos utilizados, y los algoritmos de machine learning (ML) o deep learning (DL) involucrados, la precisión del PFA puede ser cuestionada.
Las regresiones lineales y polinomiales se usan frecuentemente para determinar la vida útil restante (RUI), mientras que los algoritmos Long Short-Term Memory (LSTM) y random forest pueden usarse para refinar las predicciones de fallas con grados variables de éxito. [4] [5] [6]
Aunque es claro que hay beneficios tangibles con el PFA, no es infalible. Para proporcionar el mismo nivel de disponibilidad de servicio y proteger el valor de las inversiones de capital, es sabio considerar complementar cualquier programa de soporte que use PFA con un contrato de manos remotas.
Manos Remotas como Póliza de Seguro
Usar manos remotas en conjunto con PFA ofrece beneficios tanto para interrupciones planificadas como no planificadas.
Una interrupción planificada puede programarse con mucha anticipación, permitiendo así que los recursos se asignen cuando están disponibles libremente y son más asequibles. Los proveedores de manos remotas también disfrutan de economías de escala: Con recursos abundantes para desplegar, se pueden obtener ahorros significativos sobre contratar, entrenar y gestionar sus propios técnicos. (Un ingeniero con todos los costos incluidos puede fácilmente costar seis cifras o más anualmente dependiendo de las habilidades requeridas).
Con cualquier interrupción no planificada, la restauración del servicio es la preocupación principal. Una interrupción no planificada sin un contrato de manos remotas tomará más tiempo en resolverse. Los recursos desplegados para solucionar problemas y resolver el problema en sitio primero necesitarían ser verificados, asegurados e incorporados antes de ser desplegados. El proveedor de manos remotas, con recursos a escala, ya habrá examinado y asignado recursos resultando en un tiempo de respuesta más rápido.
Inversión Estratégica en Tecnología
Dependiendo de la naturaleza del servicio, una interrupción sostenida para un ambiente grande podría fácilmente costar millones de dólares. Un contrato de manos remotas por sí solo u operando como parte de un plan más amplio de recuperación de desastres que incluye PFA, puede tratarse como un gasto operativo, o potencialmente incluso capitalizarse como parte de una suscripción más grande de software o servicio.
Un ligero aumento en los costos operacionales muy bien podría protegerlo de los millones de dólares en pérdidas asociadas con una interrupción prolongada del servicio.
¿Qué enfoque debería usar para justificar una inversión en soporte de manos remotas? Las métricas de finanzas corporativas varían de empresa a empresa, pero se pueden hacer algunas ilustraciones.
Estudio de Caso
Está evaluando un contrato de manos remotas por $250,000 para cubrir tres ambientes en centros de datos en América del Norte por un año. Su costo estimado de tiempo de inactividad es de $100,000 por hora en total (incluyendo recursos varados o inactivos, ingresos perdidos, impacto en la marca, etc.). La última vez que experimentó una interrupción debido a fallas de hardware, su aplicación estuvo caída por seis horas. El impacto neto para la empresa fue de $600,000.
Las finanzas corporativas no aprobarán el gasto en TI a menos que una inversión supere una tasa mínima (a veces conocida como tasa mínima aceptable de retorno o MAAR) del 10%.
Un beneficio anticipado de un contrato de manos remotas es reducir el tiempo medio de recuperación (MTTR) para una interrupción no planificada. Las estimaciones sugieren que el MTTR puede reducirse significativamente. Una reducción en el MTTR del 50% para la interrupción anterior habría ahorrado $300,000 al restaurar el servicio tres horas más rápido.
¿Deberían las finanzas corporativas autorizar la compra de este contrato de manos remotas como una póliza de seguro para ayudar a reducir el tiempo de inactividad futuro no planificado?
Usaremos una fórmula simple para ROI:
ROI = (Ganancia Neta / Costo de Inversión) * 100
En este caso, la ganancia neta sería el ahorro de $300,000 menos el costo del contrato de $250,000, o $50,000.
ROI = ($300,000-$250,000)/$250,000 * 100
$50,000 dividido por $250,000 es 20%, o el doble del MARR requerido por finanzas.
(Tenga en cuenta, este retorno se mide contra solo una interrupción. Con múltiples interrupciones no planificadas en un solo año, los ahorros serían considerablemente mayores.)
Las finanzas corporativas deberían aprobar la inversión en el contrato de manos remotas.
Resumen
La inteligencia artificial ha hecho grandes avances en el campo del análisis predictivo de fallas, y la efectividad del PFA solo aumentará en los próximos meses y años.
Mientras tanto, la necesidad de protección de inversiones permanece. Una inversión estratégica en un contrato de manos remotas puede ayudar a mitigar el impacto financiero de las interrupciones no planificadas, mientras le ayuda a capitalizar en la flexibilidad de las ventanas de tiempo de inactividad planificadas.
Notas
[](#_ftnref1)1[] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7
[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.). Predicting machine failures using machine learning and deep learning algorithms. ScienceDirect. https://www.elsevier.com/locate/smse
[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry
[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd
[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime
[6] From "Predictive Maintenance: Deloitte's Approach" https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf
Temas: Manos remotas, machine learning (ML), inteligencia artificial (AI), deep learning (DL), productividad, centros de datos, nube, análisis predictivo de fallas (PFA), red neuronal recurrente (RNN), computación de alto rendimiento (HPC), finanzas corporativas, inversiones estratégicas, regresión lineal, Long Short-Term Memory (LSTM), random forests, teoría de portafolios.