
La capacité de prédire les pannes matérielles avec un certain degré de précision offre un potentiel d'économies considérables pour les fournisseurs de services ayant d'importants investissements en capital dans les technologies de l'information (IT). Pour les clients entreprises exploitant à grande échelle des plateformes coûteuses de calcul haute performance (HPC) et d'intelligence artificielle (AI), la disponibilité de leur offre de services est primordiale : un système en panne bloque l'accès aux clients et immobilise les ressources, les rendant inutilisables à un coût élevé. Une interruption de ce type peut entraîner une perte de revenus, impacter la productivité globale des employés et nuire à l'image de marque d'une entreprise. Selon le secteur d'activité, des études ont montré que le coût moyen d'une heure d'indisponibilité non planifiée peut varier de 100 000 $ à bien plus de 500 000 $ par heure.[1] [2]
L'analyse prédictive des pannes (PFA) entre en scène
En évaluant de grandes quantités de données historiques, l'analyse prédictive des pannes (PFA) peut fournir des informations précieuses sur la probabilité d'une interruption. Les chipsets, les cartes de circuits imprimés, les disques durs et les connexions soudées ont tous une durée de vie utile limitée. Les tendances dans les données historiques de pannes peuvent indiquer un horizon temporel pour les défaillances futures.
Pour les grands fabricants d'équipements ou d'automobiles (et leurs clients), la PFA peut potentiellement offrir des améliorations de l'espérance de vie des actifs conduisant à une réduction des dépenses futures pouvant atteindre 5 %. La PFA peut également être utilisée pour planifier la maintenance lorsque les opérateurs et techniciens sont plus disponibles et moins coûteux, créant des efficacités et des économies pouvant atteindre 20 %.[3]
De nombreux facteurs peuvent impacter la performance de la PFA. Selon la charge de travail moyenne du système en question, l'étendue des données historiques utilisées et les algorithmes de machine learning (ML) ou de deep learning (DL) impliqués, la précision de la PFA peut être remise en question.
Les régressions linéaires et polynomiales sont souvent utilisées pour déterminer la durée de vie utile restante (RUI), tandis que les algorithmes Long Short-Term Memory (LSTM) et random forest peuvent être utilisés pour affiner les prédictions de pannes avec des degrés de succès variables. [4] [5] [6]
S'il est clair que la PFA présente des avantages tangibles, elle n'est pas infaillible. Pour offrir le même niveau de disponibilité de service et protéger la valeur des investissements en capital, il est judicieux d'envisager de compléter tout programme de support utilisant la PFA par un contrat de support à distance (remote hands).
Le support à distance comme police d'assurance
L'utilisation du support à distance en conjonction avec la PFA offre des avantages tant pour les interruptions planifiées que non planifiées.
Une interruption planifiée peut être programmée bien à l'avance, permettant ainsi d'affecter des ressources lorsqu'elles sont disponibles et les plus abordables. Les fournisseurs de support à distance bénéficient également d'économies d'échelle : avec des ressources abondantes à déployer, des économies significatives peuvent être réalisées par rapport à l'embauche, la formation et la gestion de vos propres techniciens. (Un ingénieur avec charges sociales complètes peut facilement coûter six chiffres ou plus annuellement selon les compétences requises).
Lors de toute interruption non planifiée, la restauration du service est la préoccupation principale. Une interruption non planifiée sans contrat de support à distance prendra plus de temps à résoudre. Les ressources déployées pour diagnostiquer et résoudre le problème sur site devraient d'abord être vérifiées, assurées et intégrées avant d'être déployées. Le fournisseur de support à distance, avec des ressources à grande échelle, aura déjà vérifié et assigné des ressources, résultant en un temps de réponse plus rapide.
Investissement technologique stratégique
Selon la nature du service, une interruption prolongée pour un environnement de grande envergure pourrait facilement coûter des millions de dollars. Un contrat de support à distance seul ou fonctionnant dans le cadre d'un plan de reprise après sinistre plus large incluant la PFA, peut être traité comme un poste de dépenses, ou potentiellement même capitalisé dans le cadre d'un abonnement logiciel ou service plus important.
Une légère augmentation des coûts opérationnels pourrait très bien vous protéger des millions de dollars de pertes associées à une interruption de service prolongée.
Quelle approche devriez-vous utiliser pour justifier un investissement dans le support à distance ? Les métriques de finance d'entreprise varient d'une entreprise à l'autre, mais quelques illustrations peuvent être tirées.
Étude de cas
Vous évaluez un contrat de support à distance de 250 000 $ pour couvrir trois environnements dans des data centers en Amérique du Nord pendant un an. Votre coût estimé d'indisponibilité est de 100 000 $ par heure tout compris (incluant les ressources bloquées ou inutilisées, les revenus perdus, l'impact sur la marque, etc.). La dernière fois que vous avez subi une interruption due à une panne matérielle, votre application était indisponible pendant six heures. L'impact net pour l'entreprise était de 600 000 $.
La direction financière n'approuvera pas les dépenses IT à moins qu'un investissement ne franchisse un taux plancher (parfois appelé taux de rendement minimum acceptable ou MAAR) de 10 %.
Un avantage anticipé d'un contrat de support à distance est la réduction du temps moyen de rétablissement (MTTR) pour une interruption non planifiée. Les estimations suggèrent que le MTTR peut être réduit significativement. Une réduction du MTTR de 50 % pour l'interruption précédente aurait économisé 300 000 $ en rétablissant le service trois heures plus rapidement.
La direction financière devrait-elle autoriser l'achat de ce contrat de support à distance comme police d'assurance pour aider à réduire les futures indisponibilités non planifiées ?
Nous utiliserons une formule simple pour le ROI :
ROI = (Bénéfice net / Coût de l'investissement) * 100
Dans ce cas, le bénéfice net serait l'économie de 300 000 $ moins le coût du contrat de 250 000 $, soit 50 000 $.
ROI = (300 000 $ - 250 000 $) / 250 000 $ * 100
50 000 $ divisé par 250 000 $ donne 20 %, soit le double du MARR requis par la finance.
(Gardez à l'esprit que ce rendement est mesuré sur une seule interruption. Avec plusieurs interruptions non planifiées en une seule année, les économies seraient considérablement plus élevées.)
La direction financière devrait approuver l'investissement dans le contrat de support à distance.
Résumé
L'intelligence artificielle a fait de grands progrès dans le domaine de l'analyse prédictive des pannes, et l'efficacité de la PFA ne fera qu'augmenter dans les mois et années à venir.
En attendant, le besoin de protection des investissements demeure. Un investissement stratégique dans un contrat de support à distance peut aider à atténuer l'impact financier des interruptions non planifiées, tout en vous aidant à capitaliser sur la flexibilité des fenêtres de maintenance planifiées.
Notes
[](#_ftnref1)1[] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7
[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.). Predicting machine failures using machine learning and deep learning algorithms. ScienceDirect. https://www.elsevier.com/locate/smse
[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry
[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd
[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime
[6] From "Predictive Maintenance: Deloitte's Approach" https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf
Sujets : Remote hands, machine learning (ML), intelligence artificielle (AI), deep learning (DL), productivité, data centers, cloud, analyse prédictive des pannes (PFA), recurrent neural network (RNN), calcul haute performance (HPC), finance d'entreprise, investissements stratégiques, régression linéaire, Long Short-Term Memory (LSTM), random forests, théorie du portefeuille.