综合告警管理系统(MetarView NetAlarm-iMS

作为关键业务及服务的承载平台,电信运营商的各专业网络正面临着保证服务可靠性和高效性的巨大压力,对各专业网络的综合监控已成为网络运维的实际需求。这就要求有一种更先进的网络管理模式来积极主动地对各专业网内和网间的故障信息进行综合分析,防止网络意外,快速修复网络中的常见故障,更加高效可靠地向客户提供业务服务。通过综合告警管理系统的部署,可以实现快速故障定位和业务恢复,提高对市场业务的支撑力度以及对客户的服务水平和服务质量。

北京市天元网络技术股份有限公司自主研发的综合告警管理系统(MetarView NetAlarm-iMS)提供了一套统一的网络管理平台,实现对跨专业、跨厂商、跨子网的通信网络的集中监控,并能够结合具体需求与资源管理、流程管理、客户保障等相关系统实现互联。

一、综述

    天元网络综合告警管理系统是一套跨专业的综合告警集中管理平台,产品重点实现跨专业的故障关联分析和面向业务客户的故障分析呈现功能,并能够通过多种接口技术实现与资源管理系统、故障单系统、客户网管系统等相关外部系统的数据共享。系统管理范围包括传输网、交换网、数据网、接入网、动力环境等各专业网络,并能够纳入对包括 3G 等新技术网络的管理。
    
如图1所示,综合告警管理系统从各专业综合网管或设备厂家网管等系统获取实时的告警信息,从资源管理系统获取相关的资源信息,经过集中的数据分析和处理,得到相应的跨专业故障关联分析和对客户的影响分析结果,并与电子运维、故障单、客户保障等系统实现单向或双向的数据交互。


    图 1 综合告警系统与外部系统关系


二、系统结构

综合告警管理系统采用模块化分层设计,自下而上分为采集层、应用层和表示层。本系统只有与其它相关系统交互信息才能更好地体现出系统的价值,因此对外接口模块可以视具体需求在应用层中部署。

    
                                                                  图 2 系统结构

1           采集层

采集层主要完成针对不同专业网络所需原始告警信息的采集和适配,本层又分为协议转换层和语义转换层,分别对通信协议和管理信息语义两个方面进行适配。

集中的专业综合网管、设备厂家网管,甚至网元都可以作为原始告警信息的来源。所以在采集层内本系统提供了一系列支持各类网管接口技术的开发构件,例如CORBAQ3TCPXMLWebServiceSNMPRS232等,从而保证对任何新接口的适应性开发。

2           应用层

应用层各功能模块实现本系统所有管理功能的业务逻辑,各功能模块独立部署,通过中间件实现实时交互。根据多专业网络综合告警管理和分析的特点,应用层内部分为告警关联分析、客户影响分析、告警管理知识库、业务报表管理、告警采集、告警处理、告警查询、嘎经统计等功能。

系统在应用层构建专用的对外接口模块同比如资源管理系统、客户相关系统、故障单系统等其它相关应用系统互联,支持包括WebServiceXMLCORBATCPDB等多种接口协议。

3           表示层

系统在该层提供B/S结构和C/S结构两种用户访问界面,该层模块也可以根据用户的操作习惯进行客户化定制。

三、系统功能

综合告警管理系统相对于传统的专业综合网管系统而言,在系统目标、设计思想以及系统功能上具有一定的先进性。综合告警管理系统强调业务层面的管理功能,在大客户、专线信息维护和管理的基础上,并与网络配置和状态信息相结合,实现大客户和业务的保障功能。

1         告警基本管理功能

u       告警采集预处理

告警采集预处理功能主要包括:告警格式专业内统一、告警级别的重定义、告警的底层过滤(抑制、归并、过滤)、告警类型定义、告警状态定义等功能,实现对不同专业,不同厂家的告警的采集处理。

u       告警呈现

系统提供多种的告警呈现方式主要包有:告警拓扑图呈现、告警事件列表呈现、告警可闻性提示。系统还提供对各种呈现方式的灵活设置功能。

u     告警处理

告警处理功能主要包括:告警过滤、告警确认、告警清除、告警通知、告警同步、告警重定义、告警经验处理等项。

 


图 3 告警显示

u     告警查询统计

         告警查询:系统提供友好的告警信息查询界面,支持多重条件的组合查询,使操作维护和管理人员能够对所关注的告警信息进行方便的筛选和过滤。

         告警统计:系统通过报表实现统计功能,统计的内容有告警级别、告警类型、告警对象、时间分布等,统计结果提供表格、图形等多种显示方式,并且可以打印输出。


4 告警统计

2          告警综合分析

综合故障管理除了实时地接收各专业网管系统上报的告警信息并加以呈现外,更为重要的功能是对接收到的告警信息进行相关性分析,对网络中发生的故障进行定位诊断,辅助用户查找网络中出现的故障,尽快地排除网络故障,降低网络故障对全网运行质量的影响。

u       告警相关性分析

综合告警系统通过专业内逻辑关联关系和跨专业逻辑关联关系、发生时间、告警资源承载、告警类型、告警关联关系等多种关联因素对告警信息进行关联性分析,最终确认根告警,屏蔽由根告警衍生出来的其它告警。

5 告警相关性分析

u     故障根原因分析

当网络中出现某种故障时,会上报大量告警,这些告警一般分为两类。一类是直接描述故障的根原因告警,它们往往数量很少,但对故障的定位和分析起着至关重要的作用;另一类则是伴随告警,它们数量巨大,由根告警触发产生。

根原因分析引擎则是天元网络公司针对上述情况所开发的一套应用软件,它根据告警流的原理,并参照网络的拓扑结构,实时接收网络中的告警信息并及时加以分析,当网络中出现故障时,根据根原因规则及时发现根告警,区分伴随告警,并将故障实时通报出来。

 

                               6 故障规则定义

u      业务及客户影响分析

设备的故障往往最终会影响到业务和客户,综合告警系统能够分析出告警信息对客户和业务的影响.

 


                              图 7 告警客户影响分析

四、 系统特点

u       能够对包括传输网、交换网、数据网、接入网、动力环境等各种不同专业的网络进行集中的告警监控;

u       采用先进的接口采集技术,保证对各专业网原始告警信息采集的及时性与完备性;

u       利用先进的故障根原因诊断功能,实现对专业网内和专业网间故障信息的综合分析,快速定位网络故障;

u       根据网络资源与客户/业务资源的关联关系,能够对故障对客户和业务的影响情况进行分析;

u       采用模块化分层设计思想,开放性好,能够保证与比如资源管理系统、故障单系统、客户保障等外部相关系统的互联;

五、成功案例

u       北京网通2008奥运网管系统

我公司于200612月成功中标北京网通奥运网管项目。该系统是为了满足2008年北京奥运会通信保障的需求,实现对各类与奥运相关网元设备的告警和性能等事件的集中监控,从全网综合的角度进行故障定位和故障排除。本项目管理的范围包括传输、交换、基础数据、IP、宽带接入、动力、光缆等多个专业,为奥运服务的通信产品范围包括语音、数字专线、互联网专线、视频服务等。该项目的顺利实施,为北京网通的多专业综合告警管理做出了有益的尝试,并取得的很大的成效。