实现全生命周期管理 DCIM延寿数据中心

在数据中心建设初期,人们很难想到,IT业务和数据量会发生翻天覆地的变化。

随着业务量的与日俱增,运营商不停地向数据中心填充一堆堆“铁盒”,导致其内部散热难、数据中心宕机等问题频发。与此同时,数据中心用电管理出现盲点、资产追踪和设备关系管理困难、无法了解机柜内的环境状况、当设备变更时无法找到可用的资源等。

同时又适逢大数据时代来临,数据量成指数级增长,数据中心向大型化转型,如何成为高效管理成为运营商面临的首要挑战。

助力PUE值下降

其实我国数据中心面临的挑战远还不止这些。根据Gartner的报告显示,数据中心的能源消耗占总运营成本高达25%。2011年,美国数据中心的耗电量约占全国总耗电量的2%,占全世界总耗电量的1.3%。

但是在我国,2011年数据中心共消耗了700亿度电,占全国总耗电量的5%,数据中心能耗情况更加严重。今年2月,工业和信息化部发布《工业节能“十二五”规划》,针对数据中心的能耗问题提出明确要求:到2015年,国内数据中心PUE值需下降8%。

而这8%看似是一个很小的数字,但是PUE降低1%就需要对IT设备能源消耗、UPS转化能源消耗、制冷系统能源消耗等数据中心不同层面、不同设备进行更好的节能措施。

所以是时候对数据中心进行全方位的管理了。目前,业内普遍认为,DCIM代表了数据中心管理的发展方向。因为它能够从资产、容量、变更、电源、环境、能源等多方面对数据中心进行全面管理。

DCIM能否够对数据中心的整个生命周期进行管理,或者对数据中心的设备进行合理的规划和实时的监控来解决数据中心后期运维成本大幅度提高的“方法论”呢,答案是肯定的。

DCIM的“四步走”

Gartner的报告称,DCIM已经被证明能够降低20%的运营成本。其他研究机构数据也表明,DCIM解决方案可将部署新服务器的时间最高缩短50%,延长数据中心的寿命至少五年。

DCIM的出现可以说极大地缓解了数据中心整个生命周期的运维成本,所以DCIM成为当下数据中心建设不可缺少的一个重要组成部分,越来越受到人们的重视,那么DCIM到底是如何保证数据中心运行在正确的轨迹上的。

首先在设计阶段,DCIM提供了基础设施设计重要的信息。帮助在数据中心确定服务器的最佳位置。没有这些信息,数据中心管理人员必须依靠猜测作出如下关键决定:多少设备可以放置在一个机架。设备太少,则浪费了数据中心宝贵的资源(空间资源、电力资源和冷却资源)。设备太多,则会由于超过可用的资源增大了关机的危险。

其次在运营阶段,DCIM可以帮助数据中心强制执行的标准流程。这些一致的,可重复的流程,可以减少操作错误,而操作错误所造成的系统停机多达80%。

在最重要的监测阶段,DCIM提供业务数据,包括环境数据(温度、湿度、),电力数据(设备装置、机架、区域和数据中心水平)和冷却数据。此外,DCIM也可以提供IT数据,如服务器资源(如处理器、内存、硬盘、网络)。这些数据可以用来在超过阈值时,提醒管理,从而减少了维修时间,提高可用性。

最后在预测分析阶段,DCIM分析监测阶段投入到规划阶段的关键性能指标。容量规划在这一阶段进行决策。随着时间的推移,跟踪关键资源的使用情况。例如,在决定何时购买新的电力或冷却设备可以提供宝贵的借鉴。

可以说DCIM相关的解决方案可以直观地显示数据中心所有物理资产和逻辑资产的完整清单,表明机柜和数据中心的场地位置和机柜热负载。数据中心的管理人员利用DCIM,就能在实施任何可能严重影响数据中心性能变化的措施之前,建立复杂的假设场景,利用模型来模拟任何移动、添加或变化。

然而DCIM并不是某一个厂商单独的概念,它是一个共同的共识,它是协助完成数据中心运行过程中的重要决策而形成的。企业只有精准地了解所拥有的资产,才能快速的制定出明智的决策,而DCIM刚好能实现这个目标。

解决易宕机难题

数据中心工作人员最担心的事情莫过于服务器宕机了。7月26日,国外数家巨头企业的数据中心发生宕机事故,包括微软Window Azure、GoogleTalk及Twitter相继传出灾情大小不一的断线情况。

好在微软不超过两个小时就解决了问题,并且只对局部用户产生了影响。但是Google Talk近四个小时的中断,严重影响了Google的用户形象。

而Twitter的数据中心更让人啼笑皆非,近两个月以来发生了两次宕机,Twitter副总裁Mazen Rawashdeh的解释是,Twitter架设了两套备援服务器,但这次却是罕见地两台服务器同时出现问题。

那么除了这些天灾人祸不可避免的造成了宕机事故,数据中心能否提前发现问题,以便于数据中心工作人员做好防范准备,保证用户的利益,又或者以最快的速度找出问题所在,减少用户查找问题设备所在。

Gartner调查发现,数据中心处理宕机所花80%的时间是用于找出错的服务器,在拥有超过500台服务器的数据中心中,如果发生宕机事故,42%的数据中心负责人表示至少需要一天的时间来找到宕机的服务器。其次,在庞大而臃肿的数据中心,服务器的平均利用率仅为10%-20%。

所以服务器作为数据中心最直接的组成部分,数据中心工作人员必须了解所拥有的服务器的数量,以及服务器的位置所在。然而,道理总是说起来容易做起来难,将其付诸实践并按照企业需求运作与管理远比想象的复杂。实施数据中心每个资产的管理成为了数据中心规划者和管理者挠头的难题。

这时候 DCIM就被寄予了厚望。理想情况下,DCIM可以保证数据中心里的所有设备的生命周期运行状态都进入中央管理数据库,而且这些信息使用DCIM相关软件可以自动发现,并应该定期搜索以发现变化,数据中心内设备的每一个变化都应该第一时间让设备管理者知晓,并且相关工具应自动向设备管理人员发出空间、电力、温控需求改变或是警告。

DCIM能否全面保证数据中心的运维安全仍需要跟数据中心进行全面的磨合,绝不可能一劳永逸,妄想DCIM在短期内保证数据中心安全是不可能的,只有经过一段时间的试用期,数据中心才能完全的在DCIM的保护之下安全运作。