DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

运维:大家好,介绍一下这是我搭档@人工智能

随着运维流程,技术和工具不断发生变化,IT运维终于成了一个让人提起就想抡锤的话题。运维给DevOps和IT运营团队带来的压力随处可见——随时on call,随时背锅,随时熬夜加班。在很多人眼里,运维人员应该是怀里揣着根魔法棒的“魔法师”,出现问题轻轻一点,一切就能恢复如常。但现实是,他们在后台处理问题时都恨不能生出三头六臂。

IT运营和DevOps团队面临的挑战

我们知道,无论是什么样的运维工种,最基本的职责就是全天待命以保障现业务系统环境的稳定运行。运维盆友们凑在一起谈天说地也绕不开系统的稳定性,可扩展性,灾难方案和监控报警处理,但这些往往都是被动式故障处理,即故障ing或者性能QoS出现下降之后才能启动解决方案“救火”。

比如在存储环境中,资深高级运维工程师都比较头疼的故障问题——磁盘故障。等接到报警报告之后,磁盘故障已经成了过去完成式,工程师的应对策略只能是更换磁盘,让系统环境尽可能快地完成重建恢复,如果是在系统业务负载高的时段更换,需要实时调用资源,进行跨节点计算,这样单盘容量越来越大,数据重构时间越来越长,很容易引发灾难性故障。

而为了提升存储系统的可靠性,多数企业采用的方案是多备份冗余,但这又影响了存储系统的性能,导致用户体验差评。以及采用检测磁盘故障参数的SMART技术来了解磁盘是否需要更换,可SMART也因为局限于磁盘的内部状态检测,所以准确率偏低。

这也是目前运维行业要求工程师的职业素质具备“经验老道,有前瞻性并可以对灾难性故障做预案”的原因之一。

那么有没有一种办法,让我们能提前预测芸芸众“盘”的寿命,避免磁盘故障这样的随机事件影响系统的正常运行?这对运维人员而言显得极为重要,但这似乎超出了人类的能力范围。

人工智能对运维的影响

近年来,人工智能成了全球“热搜体”,它正在普遍适用于不同的行业,并发挥不同的作用。在IT运维方面,人工智能可以充当优化分析和辅助决策的强大工具,它有效地填补了人类与大数据之间的差距,为运维人员提供关于操作情报,迅速解除实时故障排除和决策的警报。

先智数据就是将人工智能引入到了磁盘管理与故障检测当中,并推出了一款智能化的故障数据分析解决方案——DiskProphet,实现智能预测的主动式故障处理——帮助运维工程师在磁盘故障之前协调空间并实施修复操作,从而在应用负载高峰期业务不受影响,同时无形中将线上系统环境的整体在99.9999%的基础上多了一个9的可靠性。DiskProphet基于SMART信息和Metrics(CPU利用率、内存占用率、网络占用率、I/O 负载状态等反应业务负载模式的信息),利用收集的信息来训练神经网络,经过六千万个数据样本的训练,实现对磁盘的寿命预测,并且可以结合应用负载的变化情况给出具体的修复建议,现在DiskProphet对磁盘预测的准确率可以达到98%以上。

如果系统管理员足够放心,还可以让DiskProphet自动启动数据转移和修复操作,实现无人值守,甚至无感知的全自动故障应对。

简单来说,磁盘就好比你放在冰箱里的鸡蛋,被动式故障处理和主动式故障处理的区别在于:前者只会在鸡蛋坏了的时候通知你:这鸡蛋坏了。

而后者则会主动告诉你,鸡蛋会在7天后变质,而在这7天里你有5天被安排了加班,剩下两天刚好有闲,建议最好这两天把鸡蛋解决然后买新的。

未经允许不得转载:DOIT » 运维:大家好,介绍一下这是我搭档@人工智能