DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

阿里云故障之后最应该反思什么?

7月6号上午,蓝鲸TMT曝出消息称阿里云北京机房内网发生故障,导致大量互联网公司业务受到影响。

经专业人士了解确认,这次故障是阿里云方面的问题,阿里云工作人员表示,10点20分阿里云北京区开始出现故障,接近11点20分恢复正常。

阿里云的故障已有多次

想必对阿里云熟悉的人对阿里云故障问题并不陌生,过去几年内,我们不断看到阿里云曝出问题。可查的消息显示阿里云的故障非常多:

印象比较深的是,2015年9月1日,阿里云客户发出的所有基本命令都不能运行。最后阿里解释是:一个产品升级触发bug导致了用户ECS里的部分正常文件被误隔离。

2015年6月21日,阿里云在中国香港的节点发生超过12小时停止服务的事件。阿里云的解释是:阿里云香港服务瘫痪12小时主要是因为机房建设方和运营商名气通电力故障,阿里云直到电力故障发生近12个小时后才得以进入机房抢修。

另外博客园官方博客指出还有几次不为大多数人发现的故障:

2013年7月23日10:00~11:00,1小时RDS故障

2013年7月23日19:14~19:19,5分钟RDS故障

2013年7月24日18:20~18:50,30分钟SLB故障

2013年7月26日11:37~11:40,3分钟RDS故障

我们看到,阿里云每次出现问题的原因都不尽相同,抑或是操作故障,抑或是施工水电故障,这显示出云计算的脆弱的一面。

去年9月,时任阿里CTO的王坚谈到故障问题时是这么说的,安全问题是普遍存在的,阿里云是中国公共云服务领域的先锋,因而不得不为后来者付出全部代价,最大的教训是代价非常高昂。

当故障出现以后

每当问题出现的时候,用户群会出现两种声音,一种是,还好有多台服务器,业务没有全部受到影响,但另外一部分人就没这么幸运了,很多用户业务也是全套部署在阿里云,并没有异地备份。

也有的用户表示,因为比较信任阿里云,所以把全部业务都部署在阿里上,但是因为每天服务器都做异地备份,数据库每小时备份一次,虽然数据量有点大,异地传输存在延迟时间,但是至少损失会降低。

阿里有看似很诱人的补偿方式——百倍赔偿。但也有人质疑,有用户表示,按12小时计算,十台服务器不过万八块钱。还有网友表示,如果用户买了365天的服务时间,故障了1周7天,按照百倍赔偿算是700天,但阿里也只要赔偿365天。

还有一种声音在质疑阿里推行的补偿策略,到底应不应该赔偿,业内似乎也没有统一的说法。

但我们清楚的是,如果故障影响了某一时刻的业务进行,造成的损失很可能是这些赔偿完全不能弥补的。

不能完全否定云计算,但能做些什么呢?

越来越多的人选择了云计算服务,包括许许多多大型的公司,既能节省开支,也能加快业务发展进度,云计算是大势所趋。云计算时代的IT服务非常集中,大型互联网服务供应商一旦出现问题带来的影响将非常大,时常成为新闻焦点。

去年五月末,携程的技术故障导致12小时宕机,为我们敲起了安全信息防护的警钟。

即使是大名鼎鼎的AWS也有出故障的时候,2015年,9月20日,美国东海岸亚马逊网络服务(AWS)出了故障,5小时后才恢复。

还有网络搜索引擎巨头谷歌于2013年16日下午故障约5分钟,包括搜索、邮件等网络服务短暂停止运作,这段期间全球网络流量锐减约40%,谷歌损失估计近55万美元。

不能回避云计算自身的问题,也不应该过渡追捧云计算,不能因为一次故障就全盘否认,但是可以考虑从技术手段做出建议。

比如当一个用户在把所有业务部署到上面的时候,云服务商能给出提示,或者别的替代的解决方案,把这作为备用策略推行,这是一条解决问题的可选办法。

如果有这种智能化的推荐和建议系统的话也是提升服务品质的一条路径。

在之前的一次采访中,一家创业公司的CEO向笔者表示,许多时候我们的技术需求阿里云并不能满足,或者说在遇到问题的时候不能及时获得专家的技术支持,对于阿里这种规模的云计算服务商来讲,很多时候不能很好地照顾中小客户的需求。

提升服务品质是阿里云这样的大型服务商需要注意的一个问题。

未经允许不得转载:DOIT » 阿里云故障之后最应该反思什么?