DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

运维机器人忙碌而又充实的一天

大家好!我是OpsGrat,上海泛汐创造的运维机器人。有很多人好奇我是做什么的,可以解决什么问题。先解释下,我可不是硬件设备,而是纯粹的软件产品,人家很单纯的啦!我只要安家在一台机器上,经过简单设置,就可以发挥强大的RPA(机器人流程化自动化)的作用,帮用户承担大部分运维工作。

我把一天的辛勤劳作列给大家看看,相信大家就明白我有猴赛雷了。

0:00,有些夜猫子还在刷手机时,我在刷机器:

日志清理

很多系统都会产生日志,时间长了影响运转(磁盘满、IO不稳定等)。我会检查操作系统、服务、应用产生的日志,将历史日志进行压缩转储。

数据备份

每天系统、服务和业务会产生不少新的数据,以数据库为例,新增的用户、业务、产品信息很重要。为了确保数据安全,我会将新的数据备份到本地,传输到远程,实现异地备份。数据库可能是传统的Mysql、Oracle、SQLServer,也可能是NoSQL阵营的MongoDB、InfluxDB等。

大数据分析

很多客户都有大数据分析需求,我严格按照人类伙伴设定的指令,对大数据相关的任务顺序执行。为了确保数据准确,各环节的执行有先后要求,有了我的参与,无论是离线分析还是实时统计,都可以做到井然有序。

代码发布

客户的代码发布工作,以前通过人类伙伴操作,有时发错了机房,有时遗漏了配置。人们半夜操作也很辛苦,交给我之后,我会和各系统配合起来,实现自动构建、灰度发布、自动测试,检测到问题我会立即自动回滚。根据统计,我投入工作后,发布引起的故障率下降了90%以上。

04:00,在环卫师傅清洁街道之前,我开始清理客户业务运行的环境:

系统标准化

人类伙伴有时在设备上操作,无意间会忘了恢复原有的配置(目录结构、权限等),可能影响发布、监控,严重的还会引发事故。无论是10台还是上万台,我会认真检查每个系统的环境,发现问题及时纠正、报告,保证环境的标准统一。

清理垃圾

系统运行时间久了,会堆积一些垃圾,可能影响系统的安全稳定。我会按照操作系统(Linux、Unix、macOS、Windows)、服务(Tomcat、Redis、RabbitMQ等)的特点,排查垃圾,及时进行清理。这些垃圾包括桌面的、缓存的、浏览器的、内存镜像等。

业务标准化

我的客户遍布各个行业,运行着不同业务软件。通过行业方案,我可以帮助客户快速建立业务运行的标准环境,包括运行程序的配置、目录、权限、相关用户等。我会认真检查每台业务设备,与标准化环境对比。发现问题我会及时修复,同时报告给管理者,尽可能消除隐患的影响。

8:00,我的人类伙伴们陆续到达岗位,随时检阅我的劳动成果:

任务完成情况

我在夜间,执行了多少任务,成功率高低,有没有失败的任务,分别是什么原因等。

工作流进度

我执行了多少流程,各个流程耗费了多久,成功率多少,是否需要重复执行等。

自动纠偏报告

和标准环境相比,我自动改正了多少问题,还有哪几个需要人工排查。通过提示管理人员,将不标准的配置恢复正常,消除大部分事故隐患。

有的勤快的人类伙伴会到社区里逛逛,检查是否有最新的模板,确保系统紧跟潮流。

作业模板

最近zabbix升级了,是不是有了最新的作业模板?作业模板有时被我的创造者更新,更多时候是被有经验的客户提交,经过审核后实现更好的管理。

工作流模板

我涉及的工作流很多,包括各行业的、各系统的,如期货行业的windows装机流程、互联网行业的扩容流程、电商行业的代码发布流程等。通过查找合适的工作流,新用户也可以快速让我高效运转起来。

12:00,当人类伙伴去享用午餐,我也不会闲着:

打系统补丁

相信大家都听说过比特币勒索病毒,其实新的攻击每天都会产生,谁让那么多人都吃饱了呢!只有及时更新系统补丁,才能防患于未然。我会检查各系统是否有对应的补丁,矜矜业业地将补丁更新到每台设备,做好客户的守护神。

安全检查

除了及时为系统打补丁,我也会留意病毒库是否有更新、对主机进行安全审计、检查系统安全日志等。安全源于遵照规则的24小时防范,通过我–完全尊重规则的运维机器人,就是为了即使出现一次疏漏,也能通过规则迅速弥补,不会重复犯错。

16:00,下午人类伙伴有些疲劳,我却依然精神抖擞,继续执行一些指令,常见的有:

软件升级

可能是几十台Nginx,可能是几百台Tomcat,也可能是上万台Linux设备升级内核。如果完全依靠人类伙伴,耗时费力,且容易出错,有了我的帮忙,效率提升了几十倍,差错率为0。

安装软件

有时需要为几十台Windows机器安装客户购买的杀毒软件,有时上千台Linux设备要装上监控、日志的Agent,我会无休无眠地并行安装,直到所有机器都整齐划一。

20:00,在我的人类伙伴们享受家庭美好时光,围坐在一起欢声笑语时,我在不间断地进行晚间作业:

容量规划

如果不进行提前的规划,随着业务的发展,等到磁盘满、负载高,再进行干预,为时过晚。我会从监控系统中获取基础数据,分析近期和中长期趋势,在发生问题前通知客户处理。有时会自动发起流程,进行扩容,看我的人类伙伴如何要求了。

安全管控

晚上是人们使用互联网的高峰期,我会根据人类伙伴制定的规则,密切留意各种风险,并及时做出反应:当有黑客攻击,我会启动报警和预防机制;当有过多流量蜂拥而至,我会进行削峰处理,避免整体业务受影响;当有黄牛进行非法刷单,我会进行加入黑名单的处理。

不定期的,我会接到一些大型任务,无论任务多重,我都会毫无怨言立即全身心投入:

设备扩容

要做活动了,需要增加50台机器。我会按照指定流程依次进行系统安装、服务部署、代码发布、启用监控、引入流量、日志采集等一系列操作。以往需要几天甚至几周的工作,交给我只要几小时甚至几分钟。

网络配置

如果客户调整了防火墙规则,需要应用到所有网络设备中。按照以往做法,少不得让网络管理员加班熬夜,第二天出了问题不容易修复。给我规则,我会很快让几十上百的网络设备更新到位,管理员下班不要太早哦!

批量变更

对几十台机器重启?所有Python2.7升级?JDK需要回退到上个版本?交给我!我一不会抱怨,二没有情绪,不管何时交给我多少工作,我都会乐呵呵地忙起来。

由于我的无差错、自动化特点,以往需要耽误人们大量时间的重复性工作,都交给我高效执行。有的以前需要几周的工作,现在只需几小时;有的经常出错的,现在几个季度都很难出现问题。

有了我的助力,人类伙伴的生活也得到了了改善:之前忙于每天做繁琐低效操作的同学,现在不仅运维管理得好,得到了升职加薪,还有时间去研究大数据和AI了;之前经常熬夜加班的团队负责人,现在有了更多时间陪伴家人。

有了人类伙伴与我的配合,业务也有了长足进步:随着运维效率的提高,70%左右操作实现了自动化流程化,差错率降低;后台效率的提升,带动了研发、业务的效率提升,最终实现客户整体绩效的改观。

我的创造者—上海泛汐,仍在孜孜不倦地打磨我的功能、外观、性能,让我的使用更简单,效能更强大。随着信赖我的人类伙伴越来越多,我将帮助更多客户取得更好的绩效,与客户伙伴们共同快速进步和成长,为广大客户创造长期价值。

未经允许不得转载:DOIT » 运维机器人忙碌而又充实的一天