一、医院背景

广东省妇幼保健院创建于1944年,隶属广东省政府的专业公共妇幼卫生机构,历经70年的发展,已经成为了一所集保健、医疗、教学、科研、培训及技术指导于一体的大型三级甲等医院。

二、面临挑战

业务状态难监管,业务保障压力大; 

事件告警难判别,告警处理时效高; 

各院区网络统一监管,减少人员工作量;

三、解决方案

掌握业务系统健康状况—监控的全院近20个业务系统运行情况良好,整体业务连续性达到90%以上;未发生业务中断事件,业务系统承载能力处于较高水平,业务健康度均大约80%的业务有后勤运维系统。针对监控的近20个业务系统,通过对14年12月中旬到15年1月中旬1个月的健康度数据分析,进一步形成了对各业务系统的IT承载能力的评估结果,评估结果显示所有的业务系统运行正常。

告警事件分析—在对近20个业务系统实时监控的过程中分析发现,所监控的19个业务系统健康度均处于较高水平,但不排除系统性能指标或出现偶然宕机事件,针对被监控资源产生的告警事件做具体分析。

网络拓扑分析—建立网络拓扑4张,俩张全局网络拓扑,一张越秀分院网络拓扑及一张海珠网络拓扑,网络拓扑可以直观反映设备之间的连接状况及链路状况,通过对网络拓扑14年12月到15年1月的分析,广东省妇幼保健院网络设备之间链路阈值超标及链路断开次数均为0,链路运行良好。网络拓扑详情。运维人员日常通过全院网络拓扑图分析当前网络运行状态,快速定位网络故障。

四、项目价值

通过RIIL系统及时发现性能超过阈值事件,并第一时间分析导致性能事件的具体进程或服务。运维人员在收到RIIL系统的事件提醒后,要结合事件发生事件及详细描述信息,准确定位故障资源,及时了解占用资源较高的事务,进一步分析应用瓶颈或漏洞,从而达到防患于未然的目的。

五、建设成果

通过分析本月度服务器性能数据,发生CPU超限的服务器较少,所监控服务器中均未缠身服务器CPU利用率超标的问题。因此可以分析出整体IT资源在CPU利用率方面非常低,处于平稳状态。