在人工智能时代降低停机成本

了解预测性故障分析和远程技术支持合同如何帮助企业每小时节省高达50万美元的宕机成本。通过详细案例研究发现保护AI和HPC投资的ROI策略,展示20%的回报率。

在人工智能时代降低停机成本

能够在某种程度上准确预测硬件故障,为在信息技术(IT)方面拥有大量资本投资的服务提供商提供了巨大的节约潜力。对于大规模运营昂贵的高性能计算(HPC)和人工智能(AI)平台的企业客户来说,服务的可用性就是一切:系统宕机会锁定客户并困住资源,使它们变得毫无用处,代价巨大。这种类型的中断可能导致收入损失,影响整体员工生产力,并损害公司品牌。根据行业不同,研究表明计划外停机每小时的平均成本可能从$100,000到远超$500,000不等。[1] [2]

预测性故障分析(PFA)登场

通过评估大量历史数据,预测性故障分析(PFA)能够为中断的可能性提供有价值的洞察。芯片组、电路板、硬盘驱动器和焊接连接都有有限的使用寿命。历史故障数据的趋势可能指向未来故障的时间范围。

对于大型设备或汽车制造商(及其客户),PFA可能提供资产预期寿命的改善,从而减少高达5%的未来支出。PFA还可以用于在操作员和技术人员更容易获得且成本更低时安排维护,创造高达20%的效率和节约。[3]

许多因素可能影响PFA的性能。根据所讨论系统的平均工作负载、使用的历史数据范围以及涉及的机器学习(ML)或深度学习(DL)算法,PFA的准确性可能受到质疑。

线性和多项式回归通常用于确定剩余使用寿命(RUI),而长短期记忆(LSTM)和随机森林算法可以用于以不同程度的成功率改进故障预测。[4] [5] [6]

虽然很明显PFA有切实的好处,但它并非万无一失。为了提供相同水平的服务可用性并保护资本投资的价值,明智的做法是考虑通过远程服务合同来增强任何使用PFA的支持计划。

远程服务作为保险政策

将远程服务与PFA结合使用,为计划内和计划外中断都提供了好处。

计划内中断可以提前很久安排,从而允许在资源充足可用且最经济实惠时分配资源。远程服务提供商还享有规模经济:拥有充足的资源可供部署,相比雇用、培训和管理自己的技术人员可以节省大量成本。(一名全负担工程师根据所需技能组合,每年很容易花费六位数或更多)。

对于任何计划外中断,服务恢复是主要关注点。没有远程服务合同的计划外中断需要更长时间解决。部署到现场排查和解决问题的资源首先需要验证、投保和入职后才能部署。拥有规模化资源的远程服务提供商已经审查并分配了资源,从而实现更快的响应时间。

战略技术投资

根据服务的性质,大型环境的持续中断很容易造成数百万美元的损失。远程服务合同本身或作为包括PFA在内的更广泛灾难恢复计划的一部分运营,可以被视为费用项目,甚至可能作为更大软件或服务订阅的一部分进行资本化。

运营成本的轻微增加很可能保护您免受与长期服务中断相关的数百万美元损失。

您应该使用什么方法来证明远程服务支持投资的合理性?企业财务指标因公司而异,但可以得出一些例证。

案例研究

您正在评估一份价值$250,000的远程服务合同,覆盖北美数据中心的三个环境,为期一年。您估计的停机成本是每小时$100,000(包括搁浅或闲置资源、收入损失、品牌影响等)。上次您因硬件故障经历中断时,您的应用程序宕机了六小时。对公司的净影响是$600,000。

企业财务部门不会批准IT支出,除非投资通过10%的最低回报率要求(有时称为最低可接受回报率或MAAR)。

远程服务合同的预期好处是减少计划外中断的平均恢复时间(MTTR)。估计表明MTTR可以显著减少。将之前中断的MTTR减少50%本可以通过提前三小时恢复服务节省$300,000。

企业财务部门是否应该批准购买这份远程服务合同作为帮助减少未来计划外停机的保险政策?

我们将使用一个简单的ROI公式:

ROI =(净利润/投资成本)* 100

在这种情况下,净利润将是$300,000节约减去$250,000合同成本,即$50,000。

ROI =($300,000-$250,000)/$250,000 * 100

$50,000除以$250,000是20%,或财务部门要求的MARR的两倍。

(请记住,这个回报只是针对一次中断衡量的。在一年中发生多次计划外中断时,节约将会大得多。)

企业财务部门应该批准远程服务合同的投资。

总结

人工智能在预测性故障分析领域取得了巨大进步,PFA的有效性在未来几个月和几年中只会增加。

与此同时,对投资保护的需求仍然存在。在远程服务合同方面的战略投资可以帮助减轻计划外中断的财务影响,同时帮助您利用计划停机窗口的灵活性。

注释

[](#_ftnref1)1[] https://medium.com/@brijesh_soni/why-random-forests-outperform-decision-trees-a-powerful-tool-for-complex-data-analysis-47f96d9062e7

[2] Yadav, D. K., Kaushik, A., & Yadav, N. (n.d.). Predicting machine failures using machine learning and deep learning algorithms. ScienceDirect. https://www.elsevier.com/locate/smse

[3] https://www.bakerhughes.com/bently-nevada/blog/unplanned-downtime-key-disruptor-industry

[4] https://medium.com/@jatin2707/machine-failure-prediction-a-comprehensive-guide-524726c3b1fd

[5] https://www.atlassian.com/incident-management/kpis/cost-of-downtime

[6] From "Predictive Maintenance: Deloitte's Approach" https://www2.deloitte.com/content/dam/Deloitte/us/Documents/process-and-operations/us-predictive-maintenance.pdf

主题:远程服务、机器学习(ML)、人工智能(AI)、深度学习(DL)、生产力、数据中心、云计算、预测性故障分析(PFA)、循环神经网络(RNN)、高性能计算(HPC)、企业财务、战略投资、线性回归、长短期记忆(LSTM)、随机森林、投资组合理论。

申请报价_

告诉我们您的项目需求,我们将在72小时内回复。

> 传输完成

请求已收到_

感谢您的咨询。我们的团队将审核您的请求并在72小时内回复。

排队处理中