集中监控:数据中心高可用性的眼睛
发布于:2018-08-09

随着全球信息化步伐的不断推进,IT服务业的分工越来越精细和明确。作为一切IT服务的基础,数据中心及相关基础设施直接关系到IT服务系统能否正常、持续、稳定运行。任何一部分的效率降低或者故障,都将导致IT服务的可用性降低,轻则造成信息访问不畅,重则带来各种不可预估的重大损失。      


监控管理对可用性管理的意义   
  根据ITIL的定义,所谓的“可用性”指的是:“一个配置项或IT服务根据需要履行协定职能的能力。可用性取决于可靠性、可维护性、可服务用性、性能和安全。可用性通常以百分比计算。这种计算通常基于协定服务时间和宕机时间”。高可用性IT管理是指:是指通过对IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理等高可用性关键要素的改进与优化,提升IT系统的可用性,从而更好地保障业务持续运营和创新的过程。  
  在衡量可用性方面,具体又分为MTTR/MTBF/MTBSI等三个不同的指标(如下图)。从下图可见,无论是MTBSI还是MTTR,均有一个重要的组成部分——“Detecttime(侦测时间)”。可见“能否通过有效的监控管理,及时、有效地发现数据中心中各管理对象的故障”,已构成数据中心高可用性一个充分条件。 
  所以说,集中监控管理就像是高可用性管理的一双眼睛,有了它整个数据中心的组件情况才能一目了然,高可用性的目标才具备实现的管理基础。   


监控管理对数据中心运营的作用   
  数据中心的管理对象主要包括基础设施与IT基础架构两大部分。其中基础设施包括供配电、UPS、空调、消防、安保、环境监测等机房系统;基础架构包括网络设备、主机设备、存储设备等IT设备。 
  集中监控的目标就是要能够通过管理与技术的应用,对基础设施与IT基础架构的运行情况进行监视,实现故障与异常的实时发现与通知;此外还可以通过对监控数据搜集与整理,为容量管理、事件管理、问题管理、符合性管理提供分析的基础,最终实现数据中心高可用性的目标。


事件管理与可用性管理   
  随着技术的发展,有许多第三方监控工具开始出现,这些工具可以实现跨设备、跨平台、跨系统的集中数据采集,同时也能针对不同的监控对象设置相应的阀值,最终还可以实现统一的展现与告警。这些工具的出现,使得IT管理人员可以以一种更快速、更准确的方式发现被管理的组件所出现的故障。从而为故障的修复,以及服务的恢复争取了宝贵的时间,提升了整个基础架构的可用性。   


容量管理   
  监控管理还会利用监控工具的性能采集功能,对一些关键应用的关键性能点进行监控,取得这些关键点的性能数据,用来评估IT系统的容量。当发现IT组件目前的性能与原来的容量计划存在偏差后,可以及时对这些组织的性能进行扩容,减少因性能不足而导致业务中断的可能性。  


安全管理与符合性管理  
  监控管理可以利用目前的一些安全监控工具,去检查组件的安全情况与运行中对合规要求的符合情况。如GDS目前的一些合作伙伴,其利用一些安全软件,对防火墙、防病毒与入侵检查设备进行实时日志采集与安全分析,同时比对公司的安全策略或一些安全标准,帮助数据中心管理人员对目前数据中心运营中安全问题进行快速定位与问题分析。


监控管理面临的挑战 
1  采集层的集中化
  从目前市场上的工具来看,还没有哪个监控工具可以支持业界全线的IT产品,尤其是存储与光传输设备这一块。另外,不同客户对监控的深度也要求迥异,有些客户可能仅需要监控到网络、设备与系统层面,有些则需要对其数据库、中间件甚至是应用进行监控,这也为监控采集层的集中带来不少的难度。最后,不同客户对成本与安全要求的不同,进一步提升了监控工具在采集层集中的难度。
2  处理层的集中化
  目前许多设备的监控往往只能反映出某一台设备的可用性,却不能完整的展现出整体的应用结构以及互相之间的影响关系,一旦一台核心的交换机发生故障后,管理员会发现,突然之间,满世界都是各种各样的告警,头昏眼花,疲于奔命,却不知道到底该如何解决。因此,如何能进行事件关联,协助管理员能从各个孤立的事件中迅速定位,这是对监控管理的另一项挑战。
3  展现层的集中化
  随着监控内容的增加,目前数据中心运营人员面临的另外一个问题是如何能让监控室的人员可以在众多监控终端中迅速地发现系统报警,毕竟无法要求负责监控的人员7X24小时地盯着监控屏幕。所以监控终端的报警方式集中化,甚至是监控工具展现层的集中化就成为了监控管理目前所面临的一项挑战。
4  监控工具与管理的集中
  监控管理的目的并不是监控工具本身,而是通过人工或技术的手段可以及时发现基础设施与基础架构上的问题,并按照既定的要求,将发现的问题按照既定管理流程与工具,调动相应的技术、管理人员介入,最终有效地解决数据中心中可能出现的事件、容量与可用性等问题。因此,如何让数据中心工作人员清楚在监控工具中报出问题后,应如何执行后续管理流程,避免错报、漏报,成为监控管理的一项重要挑战。