解决方案产生的行业背景
近年全世界发生不少灾难事件,包括了自然灾难、恐怖袭击、传染疾病等等,美国911、美加大停电、SARS传播、印度洋海啸等事件都造成了巨大破坏。大量公司也在灾难事件中接连倒闭。
很多人觉得业务连续的需求不迫切,他们认为:现有的业务运行正常,而且没有任何明显的危机或灾难出现,那为什么还需要考虑业务连续?但事实上,灾难往往在不经意间发生,我们需要居安思危。根据Gartner Group的资料,2/5的公司在经历大灾难后在也不能恢复运作,另外1/3在2年内也接着倒闭。
业务连续计划在发达国家电得到了较早实施,现已较为普遍。例如美国,因一九八五年纽约银行计算机故障,联邦管理部门更加强了在这方面的监管力度。现美国计算机业务系统一般出于以下三方面来考虑灾难备份计划:
重要数据保护与业务连续运行的需要:在美国各行业间竞争激烈,在计算机管理上较为完善;一旦因灾难而造成数据丢失或业务中断,会造成重大乃至致命打击。
审计的要求:美国较大型的企业一般会由第三方独立审计公司来提供其资信业务、管理等方面咨询服务,而世界著名的五大审计公司在对企业的评估项目中均包含业务连续计划/灾难备份计划一项;评估企业数据在灾难等威胁破坏下数据的完整性与安全性,及业务可恢复性等,有些还会参于验证这种计划的具体操作过程。缺少灾难备份计划及其危害性会在报告中被显示出来。
法律的要求:美国政府及州政府通过多项法律强制性要求金融、电信等大型企业备有计算机安全及业务连续/灾难备份计划。对于没有遵守要求的企业,会遭受曝光及罚款等处理,同时亦可能对相关责任人进行罚款甚至监禁等处罚。已知的灾难例子有:日本神户大地震、美国佛罗里达州飓风(数百家企业实施了灾难备份计划)、台湾大地震、911事件、美加大停电等。
解决方案提供的对策
在开发业务连续计划过程中,客户也经常会遇到各种问题,例如:如何定义业务连续性实施步骤和内容?如何实现业务连续计划的模块化以方便维护?如何测试和演习?如何实现业务连续计划的日常运营和变更管理等?另外在技术方面:如何选择合适的业务连续方案,满足企业业务运行中断时间和投资的要求?在流程方面:如何把握流程的详细程度?如何确保流程的可用性?在人员方面:如何设计业务连续的组织结构和方式?如何养成人员的灾难风险意识?这些问题都是企业在实施业务连续方案经常遇到的。通过惠普成熟的业务连续建设方法论和丰富的咨询经验,可以帮助客户顺利实施业务连续性建设。
HP为众多客户实施了业务连续性方案,客户的反应是相当积极的:”HP的业务连续性方案不是为我们才生更多的利润,但它保证我们利润的稳定地生成。”
业务连续性解决方案是惠普动成长企业策略中十大解决方案之一。从上图可以看到,业务连续是构建动成长企业的坚实基础。提高企业的业务灵活性和IT适应性首先需要考虑提供稳定、可扩展的基础。而业务连续解决方案正是帮助企业提高抵御突发事件或灾难的能力,为业务灵活性和IT适应性提供了一个稳定基础。
HP的” 动成长企业体系结构” 包括如下内容:
“业务目标和策略”, 利润的最大化和风险规避是每个企业的业务目标之一。
“业务流程服务”, HP帮助用户分析现有的流程;从业务连续性建设的专业角度,重新评估和设计流程,已应对可能的风险,并将风险降到最低。 “业务应用服务”,HP富有经验的咨询顾问将分析客户的应用服务,为用户定制具备连续稳定运行的应用解决方案。
“IT基础架构服务”, 指为上述应用系统提供IT基础架构支持的服务,包括软件硬件平台。HP有包括从MC Service Guid 到 CA等容灾解决方案。
“服务交付”, 是广义上的信息技术服务,内容涵盖业务流程、应用系统运行和IT基础架构的运行等;是一个包含业务流程的广义的信息技术支撑服务。HP的ITSM(IT 服务管理)详细阐述规范的IT服务是如何帮助用户规避风险; 用标准的流程来应对意外事件。
“服务交付管理”,是对应于”IT服务”的业务流程控制、应用系统的管理和IT基础架构的管理;HP OpenView管理平台提供了从业务流程管理到IT基础设施管理的整体管理方案。
“适应性管理”,这是从一个新的视角来分析信息技术部门扮演的角色和应承担的责任;它是对上述业务流程服务、应用服务和IT基础架构服务的管理和控制,它的目标是保证一个高效、稳定的IT支持服务系统,使企业连续稳定。
业务连续性管理包含在适应性管理中, 是其中一部分。业务连续包括灾难恢复、危机管理、风险管理,它的建立包括重新审视企业的组织结构和操作流程,发现其中不能适应意外风险和灾难的弱点,通过改进和提高这些结构和流程来避免企业业务运行的中断和丢失。
解决方案构成模块与特性
业务连续性规划是一套复杂的,处于进行中的流程。它确保在遇到任何可能导致业务中断的事件时都能保持业务操作的持续运行。该服务对最终用户和客户来说是透明和及时的。灾难恢复是指在服务中断时,通过实现灾难恢复计划恢复企业关键业务功能的能力。
业务连续运行和恢复流程
从灾难中恢复业务的运行需要一系列相关的阶段,这些阶段是:灾难发生。应急处理流程马上启动,如果必要的话,保护人员的生命安全,降低损失。
同时,通知并集结业务连续运行管理组的人员到预先定义好的地点。
业务连续运行管理组负责评估损失及其造成的影响。并在分析了众多恢复的预案后发布恢复指示。
恢复组人员开始着手利用备份流程和设备为关键应用建立过渡时期的处理流程。同时,应用组开始根据事先制订的替换处理流程启动关键应用,直到计算机系统恢复正常过渡时期的处理流程一旦建立起来,恢复组会采取一切必要的措施的恢复正常的生产。
实施阶段详介如下:
阶段1:范围,恢复目标,风险和灾难规避
范围和恢复目标
定义业务连续运行计划和恢复目标。在这个子流程中,定义了计划要考虑的灾难类型和灾难场景,同时也定义了计划不会考虑的灾难类型和灾难场景。高层领导要定义恢复目标并且核准计划所能达到的效果。定义范围同时也要定义恢复流程的程度。换言之,恢复流程对系统,局域网,硬件,业务部门,应用,数据中心,网络起作用,还是对所有的都起作用。
减灾避险
如果只设计一个详尽的业务连续运行计划而不考虑如何防止和减轻灾难带来的损害是没有意义的。在制订旨在保护现有环境和从潜在的事故中恢复的计划前,企业应该考虑如何避免灾害的发生。对当前环境的重新评估可以帮助企业确认是否有阻止或者避免灾难发生的阶段和可以参考的实践。
风险评估和管理
除了主动减灾避险外,还应当考虑如果灾难真的发生,会对企业带来哪些潜在风险。这需要做风险评估或风险分析来完成。基于这些风险,需要制订和实施预防性的措施以减轻对企业的影响。
阶段2:功能需求
业务影响分析(BIA)
分析灾难发生对企业造成的影响称为业务影响分析。分析中定义了在事先设定的时间范围内,对每个业务部门在财务和运行方面的影响。基于预先定义的场景,对业务部门进行评估,并且按照企业规定的类型和优先级进行分类。对每个业务部门都有进行分析,以判断如果其停止工作对整个企业造成的影响。应用和业务功能按照关键,要害,重要,可暂缓等进行分类。
定义恢复需求
定义用来支持由BIA中定义的关键功能和应用的需求。包括需求支持企业关键业务流程的人员,流程和其他需求。
替代方案和灾备中心
根据恢复的需求和恢复窗口的不同,需要制订适合不同情况的替代方案。针对不同类型的灾难,实施特定的恢复策略和替代方案。不同的恢复策略对应不同的替代方案或者使用不同的灾备中心。
阶段3:计划的设计、培训和开发
业务连续运行计划设计和方法
定义设计和开发业务连续运行计划的方法。同时也要对项目组的组织结构和时间限制提出要求。确保所选择的方法论适合恢复需求和恢复目标的要求。业务连续运行计划的设计需要遵从所选的方法论和业务上对业务连续运行的要求。
业务连续运行计划研讨会和培训
项目组的每个成员必须透彻理解业务连续运行计划的术语和实现途径。对相似的术语可能由多种定义,但一定要确保所有人员使用相同的术语和方法论。开研讨会是正式宣布项目启动和对项目成员进行教育的好方法。在研讨会上要强调业务连续运行计划的重要性和为了成功实施业务连续运行计划每个项目成员需要担当的角色。
业务连续运行计划的开发
按照方法论,开发一个业务连续运行计划支持关键业务功能。计划中包括事件通告,问题上报和计划执行。项目计划要支持依赖关系和潜在的瓶颈。对绝大多数可能出现的灾难要写出清晰的恢复阶段。项目领导和业务连续运行经理要定期测试和重审业务连续运行计划。
阶段4:演习,计划的维护和重审
业务连续运行计划演练
计划的好坏是由最后一次测试的结果决定的。演习由定期举行,关键人员和他们的临时替代人员都要参加。每次演习都要定义衡量指标和关键成功因素,另外还要准备相关的支持文档。每次演习都要设定不同的假想环境,但是不能事前不能宣布。在演习前有大量的预先计划工作,演习后有回顾总结会议。总结会要讨论有哪些教训可以吸取,什么地方还可以做改进等。
业务连续运行计划的维护
业务连续运行计划需要定期更新和监控。更新要有计划并且更新要有衡量标准。前一此演习的结果将被视为计划更新的输入条件。当现有的技术有明显变更时,计划也需要随之更改。
业务连续运行计划重审
业务连续运行计划的重审一般由独立的第三方负责定期进行。重审帮助识别归档的计划中薄弱环节和漏洞。一份带有改进建议的评估报告会提交给业务连续运行管理小组。这个流程有助于企业通过针对业务连续运行计划的IT审计。