年故障时间不到5分钟 构建高可用的广域网络

  随着网络的快速普及和应用的日益深入,各种核心及增值业务在网络广泛部署,网络与业务的结合越来越深入。因此,短时间的网络中断将可能影响核心业务处理,给企业带来巨大损失。在这种背景下,从运营商到各种类型的企业客户,在构建生产网络(production network)时,5个9的网络可用性(一年中不能提供服务的时间在5分钟左右),已经成为通常建网的追求。但在实际的网络建设中,由于影响+网络系统可用性的因素众多,往往很难满足这一理论目标,其中尤其以广域网的高可用性最难控制。


  度量网络的可用性


  首先,高可用的网络肯定不能频繁出现故障。IP承载网即使只出现很短时间的中断,都会影响业务运营,特别是时性强、对丢包和时延敏感的业务,如语音、视频和在线游戏等。


  其次,高可用性的网络即使出现故障,也应该能很快恢复。如果一个网络一年仅出一次故障,但这次故障需要几个小时,甚至几天才能恢复,那么这个网络也算不上一个高可用的网络。


  故障次数少、恢复时间短两个特征基本概括了高可用网络的特点,再加入统计学的概念,就可以用“可靠性(Availability)”这一参数来度量网络的可用性:,



  MTBF:平均无故障时间(Mean Time Between Failures)


  MTTR:平均修复时间(Mean Time To Repair)


  可见,如果要提高网络可用性,提高MTBF或者降低MTTR都是有效的方法。MTBF取决于网络设备硬件和软件本身的质量,而这一手段的作用是有极限的,无法一味的通过提高MTBF数值来获得高可用性,因此通过减小MTTR来实现网络高可靠性成为必然的选择。


  从MTTR的构成来看,要想减小其数值需要从两方面入手,一是以最快的速度发现故障,二是快速从故障状态中恢复出来。因此构建高可靠性网络的基础就是要实现快速故障检测和快速故障恢复。


  在实际的网络运行环境下,依靠以上的理论公式很难精确计算,因此网络采用更具实际意义的工程经验公式来表示网络系统的可用性,举例来说:


  某企业共n个分支节点,为5000用户提供7*24接入,分支3在3月份网络中断10分钟,分支9在同月网络中断5分钟,现计算三月份的网络可用性: