DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

Novell——论IT业务服务管理与实践过程

当前,随着越来越多的企业对IT为业务提供持续高效支撑的要求越来越迫切,业务服务管理(Business Service Management,BSM)已逐渐成为IT管理领域的一个新的热点。业务服务管理弥补了传统IT管理理念缺乏对业务和IT关联关系问题的思考,明确提出了保持业务目标和IT目标相统一,构建业务和IT的沟通平台,通过业务视角传递IT价值的观点。

1业务服务管理的着眼点

业务服务管理致力于为企业解决以下五个方面的问题。

第一,管理信息共享

目前,出于对IT资源专业化、精细化管理的要求,企业部署了诸多的监控管理工具,用于监控企业内部IT环境的各个方面,如网络监控工具,系统监控工具等。一般来说,这些监控工具往往来自于不同的厂商,彼此之间缺乏信息共享的手段。而管理信息无法共享,直接带来以下问题。首先,IT管理人员在发现和解决IT故障的时候,不得不同时使用多个管理操作台(Console);其次,加大了IT故障的分析难度,降低了解决问题的效率。业务服务管理可以有效整合企业已经构建的众多IT监控系统,将分散的IT管理信息集中到一个单点的管理平台中,从而信息得以充分共享。

第二,根源问题的定位

随着企业规模扩张和应用系统持续增加,IT环境越来越复杂,IT组件越来越多,同时各组件之间的关联关系也更加纷乱和复杂。当一个IT组件出现问题时,往往会影响到很多关联的组件,因此我们会收到大量的衍生或者重复的告警信息。如何在在最短的时间内,从大量的告警信息中,准确定位出故障的根本原因,成为IT管理的关键。缺乏有效的根源问题定位能力,不仅会降低企业对IT部门的服务满意度,也是IT部门内部各子系统(如网络、主机、数据库)相互推委责任的根源。业务服务管理能够提供有效的根源问题定位能力,它着眼于企业的核心业务系统,通过集中与业务相关的IT信息,根据业务逻辑和IT组件之间的关联关系进行建模,企业可以在业务模型中的任何一点进行快速的根源问题分析和定位,大大提高了解决问题的速度和准确度。

第三,故障影响范围评估

当我们发现IT故障时,我们不仅应该关注故障本身,更应该考虑该故障对业务系统的影响。比如我们同时收到了两条Critical的告警信息,一条描述某个邮件服务器Down,另一条描述某个交换机的CPU利用率过高,此时我们应该首先处理那个故障?从技术角度来讲都是非常严重的问题,但从对业务的影响范围和程度看,显然我们要优先处理服务器Down的告警,因为这条告警对业务的影响范围更大;但是如果该Down掉的邮件服务器只是某个服务器集群中的一个呢?显然我们应该优先处理CPU利用率高的交换机。业务服务管理通过帮助我们构建业务场景,将具体的IT故障放入相关的业务场景中进行评估,让我们了解到IT故障的影响范围和程度。

第四,业务服务水平评量

当前,对于IT组件的服务水平管理已经非常普遍,比如对于网络链路,我们可以通过建立链路通断、流量超限的服务水平协议来评量网络服务是否达标、是否优质。业务服务管理将服务水平评量从IT层面提升到业务层面,基于构建的业务模型,可以按照关键业务指标(KPI)建立一套全面的业务服务评价体系,该体系更为准确和全面的反映IT的运行效果。

第五,基于角色的信息呈现

当前,IT信息已经成为企业内部一项重要的信息内容。企业的管理者、业务部门也逐渐开始关注IT信息以及IT运维的结果。因此如何展现IT信息和IT运维的结果,使之能够被这些非IT专业人士正确解读,建立IT和业务部门的沟通平台,成为IT部门的一项挑战;此外,IT运维团队也是由多个层次、多个专业领域、多种角色的人员构成的,因此需要能够基于角色来更为直观地、简练地展现信息。业务服务管理提供的可定制化的极具特色的业务服务视图,可以帮助实现上述目的。

2业务服务管理的实践过程

当前,业务服务管理已经不再只是局限在理论探讨,很多具有前瞻性战略眼光的企业开始在企业内部的IT管理中实践业务服务管理,中国石油就是其中的典型代表。本文以中国石油邮件运维平台为例,介绍业务服务管理的实践过程。

中国石油信息管理部网管项目组在建设中国石油邮件系统运维平台的过程中,基于对企业现状的分析以及对未来发展的思考,采用了Novell业务服务管理解决方案。业务服务管理的应用,对保障邮件系统持续稳定高效运行,提升企业管理层和业务部门对IT部门的服务满意度,起到了非常关键的作用。

中国石油邮件系统现已成为中国石油应用最普遍、覆盖面最广、最为重要的应用系统,同时也是世界上最大的企业级的电子邮件平台之一。除基本邮件收发功能外,它还肩负着为各应用系统提供统一身份认证的重任。目前,邮件系统的PC主机共有200个,注册用户50万个,年收发邮件三千多万封。
为了保证邮件系统的持续稳定高效,中国石油部署了邮件监控系统,实现了对邮件服务器、邮件应用进程等的监控;部署了专业的网管系统,实现了对企业网络的监控;部署了应用协议监控系统,实现了对关键应用协议,如SMTP、POP3、HTTP等的监控。众多IT监控系统的部署,实现了对邮件系统的专业化、精细化管理,但是本文开始提出的五个问题,中国石油依然不得不面对,为了解决上述问题,中国石油按照以下的过程进行了基于业务服务管理的邮件系统运维平台的建设。

1)信息整合

第一步,对邮件系统相关的IT信息进行整合。采用Novell提供的强大的数据集成技术,从已经部署的众多IT监控工具中捕获IT信息,并集中到Novell的业务服务管理平台。被集成的系统包括:上市和未上市的两套邮件监控系统、网管系统、协议监控系统。被集中的数据包括:邮件服务器、应用进程的实时状态信息和实时告警信息;网络设备的实时状态和实时告警信息;关键协议的实时状态;网络链路、邮件服务器、应用进程的性能数据。

2)业务建模

第二步,在数据集中的技术上,进行业务建模。

首先,从邮件系统入手,理清了邮件系统本身各个组件的结构、作用,以及各组件间的关联关系,这些组件包括BE、DC、FE、Cluster、Mail;从网络入手,理清了邮件服务器与网络设备之间的连接情况,关键网络设备的作用;从管理入手,理清了邮件系统的组织结构和管理区域及权限。

其次根据掌握的信息进行建模。建模包括两个方面,一是形成组件间的关联;二是在关键组件上部署逻辑算法。逻辑算法也是根据业务逻辑和IT管理规则制定的。逻辑算法的应用,极大的提高了根源问题定位的效率和准确性。以西南区域邮件系统为例,影响西南邮件的因素有三类:服务器,邮件应用协议,关键链路。通常,当连接某台服务器的关键链路中断时,相应的服务器及其上的协议也会显示异常状态。我们会看到大量告警节点和信息,无法判断故障的根本原因(如图1所示)。通过在关键点上设置逻辑算法,当发生上述异常时,只让发生故障的关键链路节点变红,而让受之影响的服务器和协议节点出于静默状态(灰色显示),从而使IT管理人员能够直观快速的判断出故障的根源所在(如图2)。

 

 

图1:设置逻辑算法之前的业务模型

 

 

图2:设置逻辑算法之后的业务模型

3)定制基于角色的业务视图

第三步,在模型的基础上,根据用户的角色,定义直观清晰的业务视图(如图3所示)。

 

图3:邮件系统业务视图

基于业务服务管理的邮件系统运维平台的成功构建,带来了如下的好处:首先,将原来分散在四套IT监控管理系统中信息集中在一起,提高了信息分析能力,降低了IT人员的工作负荷。其次,在邮件业务模型中的任何节点,均可进行根源问题分析和定位,提高了故障解决速度,也避免各系统之间的推委。第三,将具体的IT问题放到业务场景中进行评量,使IT人员能够更为准确地在第一时间解决对企业业务最重要、最紧迫的IT问题。第四,通过建立多种业务监控视图,使监控更为清晰和直观,同时企业内的非IT人员也能够了解IT信息。

3业务服务管理的关键点

通过上述的业务服务管理实践,我们可以发现,数据整合和业务建模是实践业务服务管理的两个关键点,同时也是两个难点。

信息整合具有如此重要的地位,是因为信息的完整性和实时性,以及信息集成的效率会影响到最终构建的业务模型是否有效,进而决定IT运维的效率和效果。

业务建模是从业务出发,将集中到一起的业务数据和IT数据,根据他们之间的相互关系,以及业务逻辑、IT运维规则等进行组织,最终得到一个全面的、智能的业务模型。业务模型意义重大,通过业务模型,可以准确评估任何一个IT 组件的故障影响范围以及对相关业务的影响程度;可以快速准确定位故障根源;还可以以板块为视角、以项目为视角、以应用为视角、以基础设施为视角、以不同层次的管理者为视角快速建立多维度、多层次的监控视图。业务模型的完善也是一个循序渐进的过程,不要指望模型能够一次性完美建立。模型应该伴随业务及IT的变化而同步调整和完善。在建模过程中让业务部门充分参与进来也是建模能否成功的关键。

未经允许不得转载:DOIT » Novell——论IT业务服务管理与实践过程