
A capacidade de prever falhas de hardware com algum grau de precisão oferece o potencial para economias tremendas para provedores de serviços com grandes investimentos de capital em tecnologia da informação (TI). Para clientes corporativos que operam plataformas custosas de computação de alto desempenho (HPC) e inteligência artificial (AI) em escala, a disponibilidade de sua oferta de serviços é tudo: Um sistema inoperante bloqueia clientes e prende recursos, tornando-os inúteis a um grande custo. Uma interrupção deste tipo pode causar perda de receita, impactar a produtividade geral dos funcionários e prejudicar a marca de uma empresa. Dependendo da indústria, estudos mostraram que o custo médio de uma hora de tempo de inatividade não planejado pode variar de $100.000 por hora até bem mais de $500.000 por hora.[1] [2]
Apresentamos a Análise Preditiva de Falhas (PFA)
Ao avaliar grandes quantidades de dados históricos, a análise preditiva de falhas (PFA) pode oferecer insights valiosos sobre a probabilidade de uma interrupção. Chipsets, placas de circuito, discos rígidos e conexões soldadas têm uma vida útil finita. Tendências em dados históricos de falhas podem apontar para um horizonte temporal para falhas futuras.
Para grandes fabricantes de equipamentos ou automóveis (e seus clientes), a PFA pode potencialmente oferecer melhorias na expectativa de vida dos ativos, levando a uma redução de gastos futuros de até 5%. A PFA também pode ser usada para agendar manutenção quando operadores e técnicos estão mais disponíveis e mais baratos, criando eficiências e economias de até 20%.[3]
Numerosos fatores podem impactar o desempenho da PFA. Dependendo da carga de trabalho média do sistema em questão, do escopo dos dados históricos usados e dos algoritmos de machine learning (ML) ou deep learning (DL) envolvidos, a precisão da PFA pode ser questionada.
Regressões lineares e polinomiais são frequentemente usadas para determinar a vida útil restante (RUI), enquanto algoritmos Long Short-Term Memory (LSTM) e random forest podem ser usados para refinar previsões de falhas com graus variados de sucesso.[4] [5] [6]
Embora seja claro que existem benefícios tangíveis com a PFA, ela não é infalível. Para fornecer o mesmo nível de disponibilidade de serviço e para proteger o valor dos investimentos de capital, é sábio considerar complementar qualquer programa de suporte usando PFA com um contrato de remote hands.
Remote Hands como uma Apólice de Seguro
Usar remote hands em conjunto com PFA oferece benefícios tanto para interrupções planejadas quanto não planejadas.
Uma interrupção planejada pode ser agendada com bastante antecedência, permitindo assim que recursos sejam alocados quando estão disponíveis e mais acessíveis. Provedores de remote hands também desfrutam de economias de escala: Com recursos abundantes para implementar, uma economia significativa pode ser obtida em comparação a contratar, treinar e gerenciar seus próprios técnicos. (Um engenheiro com todos os custos incluídos pode facilmente custar seis dígitos ou mais anualmente, dependendo das habilidades necessárias).
Com qualquer interrupção não planejada, a restauração do serviço é a preocupação principal. Uma interrupção não planejada sem um contrato de remote hands levará mais tempo para ser resolvida. Os recursos implementados para solucionar problemas no local primeiro precisariam ser verificados, segurados e integrados antes de serem implementados. O provedor de remote hands, com recursos em escala, já terá avaliado e alocado recursos, resultando em um tempo de resposta mais rápido.
Investimento Estratégico em Tecnologia
Dependendo da natureza do serviço, uma interrupção sustentada para um ambiente grande poderia facilmente custar milhões de dólares. Um contrato de remote hands por si só ou operando como parte de um plano mais amplo de recuperação de desastres que inclui PFA, pode ser tratado como um item de despesa, ou potencialmente até capitalizado como parte de uma assinatura maior de software ou serviço.
Um ligeiro aumento nos custos operacionais poderia muito bem protegê-lo dos milhões de dólares em perdas associadas a uma interrupção de serviço prolongada.
Qual abordagem você deveria usar para justificar um investimento em suporte de remote hands? As métricas de finanças corporativas variam de empresa para empresa, mas algumas ilustrações podem ser feitas.
Estudo de Caso
Você está avaliando um contrato de remote hands por $250.000 para cobrir três ambientes em data centers na América do Norte por um ano. Seu custo estimado de tempo de inatividade é de $100.000 por hora tudo incluído (incluindo recursos ociosos, receita perdida, impacto na marca, etc.). A última vez que você experimentou uma interrupção devido a hardware com falha, sua aplicação ficou inoperante por seis horas. O impacto líquido para a empresa foi de $600.000.
As finanças corporativas não aprovarão gastos de TI a menos que um investimento supere uma taxa mínima (às vezes conhecida como taxa mínima aceitável de retorno ou MAAR) de 10%.
Um benefício antecipado de um contrato de remote hands é reduzir o tempo médio de recuperação (MTTR) para uma interrupção não planejada. Estimativas sugerem que o MTTR pode ser reduzido significativamente. Uma redução no MTTR de 50% para a interrupção anterior teria economizado $300.000 ao restaurar o serviço três horas mais rápido.
As finanças corporativas deveriam autorizar a compra deste contrato de remote hands como uma apólice de seguro para ajudar a reduzir o tempo de inatividade não planejado futuro?
Usaremos uma fórmula simples para ROI:
ROI = (Lucro Líquido / Custo do Investimento) * 100
Neste caso, o lucro líquido seria a economia de $300.000 menos o custo do contrato de $250.000, ou $50.000.
ROI = ($300.000-$250.000)/$250.000 * 100
$50.000 dividido por $250.000 é 20%, ou o dobro da MARR exigida pelas finanças.
(Tenha em mente que este retorno é medido contra apenas uma interrupção. Com múltiplas interrupções não planejadas em um único ano, as economias seriam consideravelmente maiores.)
As finanças corporativas deveriam aprovar o investimento no contrato de remote hands.
Resumo
A inteligência artificial fez grandes avanços no campo da análise preditiva de falhas, e a eficácia da PFA só aumentará nos próximos meses e anos.
Enquanto isso, a necessidade de proteção de investimento permanece. Um investimento estratégico em um contrato de remote hands pode ajudar a mitigar o impacto financeiro de interrupções não planejadas, enquanto ajuda você a capitalizar sobre a flexibilidade de janelas de tempo de inatividade planejadas.
Notas
[](#_ftnref1)1[] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7
[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.). Predicting machine failures using machine learning and deep learning algorithms. ScienceDirect. https://www.elsevier.com/locate/smse
[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry
[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd
[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime
[6] De "Predictive Maintenance: Deloitte's Approach" https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf
Tópicos: Remote hands, machine learning (ML), inteligência artificial (AI), deep learning (DL), produtividade, data centers, cloud, análise preditiva de falhas (PFA), rede neural recorrente (RNN), computação de alto desempenho (HPC), finanças corporativas, investimentos estratégicos, regressão linear, Long Short-Term Memory (LSTM), random forests, teoria de portfólio.