应用平台 APPSTAGE-ALARM类型插件说明:alarmmonitor

时间:2024-04-17 17:21:25

alarmmonitor

周期性执行脚本,将指定文件中的业务告警数据,上报给HCW监控系统。

业务文件中写入的告警数据的站点site需要为cn_product_cbu,否则上报到监控服务后告警列表不会显示该告警。

参数配置

为插件配置业务文件采集路径:

collect_file_path:${ALARM_HOME}/*.dat,/opt/huawei/alarm/hispace/*.dat

该配置为绝对路径,可以配置变量,并且能够把识别到的环境变量展开,可以配置通配符(*.),并将识别到的路径展开,可以配置多个路径,按逗号分隔。

如果使用了环境变量,要求在~/.bashrc中添加export命令进行配置。如export ALARM_HOME=/opt/huawei/alarm,在配置生效后,可通过source ~/.bashrc或重启机器,再启动agent进行数据采集。

消息样例及含义说明

插件按行上报业务文件中的监控告警数据,告警上报的数据会根据产品ID、服务ID、level等信息生成一个唯一标识,该标识为告警的指纹信息,监控服务会依据指纹信息进行告警的判重,不同的上报源指纹信息不同,具体如下:

  • CES上报:产品id、服务id、'alarm_id'_'metric_name'、'dimension'、告警级别,其中单引号内字段均为CES上报告警体中的原始字段,alarm_id为CES告警id,metric_name为指标名称,dimension一般为资源id。
  • AOM上报:产品id、服务id、'id'、'cluster_name'、告警级别,其中单引号内字段均为AOM上报告警体中的原始字段,id为AOM告警id,cluster_name一般为资源id。
  • 监控服务上报:产品id、服务id、'id'、'source_tag'、告警级别,其中单引号内字段均为监控服务上报告警体中的原始字段。
  • aiops上报:租户id、产品id、服务id、'id',其中单引号内字段为aiops上报告警体中的原始字段。

监控告警数据样例如下:

#上报告警
{
    "id":"q20934uii2uss8i7",                    #单位:  | 类型:string  | 说明:告警ID
    "name":"The IF getxxx is abnormal",         #单位:  | 类型:string  | 说明:告警名称
    "level":"major",                            #单位:  | 类型:string  | 说明:告警级别
    "site": "cn_product_cbu",                   #单位:  | 类型:string  | 说明:站点
    "tenant_id": "T006",                        #单位:  | 类型:string  | 说明:租户ID
    "application_id": "com.huawei.wiseeye",     #单位:  | 类型:string  | 说明:产品ID
    "service_id": "com.huawei.wiseeyewatchservice",  #单位:  | 类型:string  | 说明:服务ID
    "env_id": "6132b864b7c6437691fa55c1f44dec4e",  #单位:  | 类型:string  | 说明:可选, 环境ID
    
    "source_tag":"host-10-22-0-36",              #单位:  | 类型:string  | 说明:告警产生来源
    "op_type":"firing",                          #单位:  | 类型:string  | 说明:告警操作类型(firing 产生告警、resolved 清除告警)
    "details":"DownloadSuccess is less than 90% for 5m",    #单位:| 类型:string  | 说明:告警详情
    "clear_type":"ADAC",                         #单位:  | 类型:string  | 说明:清除类型,固定写为ADAC,无具体逻辑含义
    "start_timestamp":1514942958000,             #单位:  | 类型:long  | 说明:告警开始时间戳
    "end_timestamp":0                            #单位:  | 类型:long  | 说明:告警结束时间戳
    "receive":"xx8000000",                       #单位:  | 类型:string  | 说明:可选, 告警接收人名单
}
#清除告警
{
    "id":"qjxswr8ge2no5mat",                     #单位:  | 类型:string  | 说明:告警ID
    "name":"The IF getxxx is abnormal",          #单位:  | 类型:string  | 说明:告警名称
    "level":"critical",                          #单位:  | 类型:string  | 说明:告警级别
    "site": "cn_dev_default",                    #单位:  | 类型:string  | 说明:站点
    "tenant_id": "T006",                         #单位:  | 类型:string  | 说明:租户ID
    "application_id": "com.huawei.wiseeye",      #单位:  | 类型:string  | 说明:产品ID
    "service_id": "com.huawei.wiseeyewatchservice",  #单位:  | 类型:string  | 说明:服务ID
    "env_id": "6132b864b7c6437691fa55c1f44dec4e",  #单位:  | 类型:string  | 说明:可选, 环境ID
      
    "source_tag":"host-10-22-0-36",              #单位:  | 类型:string  | 说明:告警产生来源
    "op_type":"resolved ",                       #单位:  | 类型:string  | 说明:告警操作类型(firing 产生告警、resolved 清除告警)
    "start_timestamp":0,                          #单位:  | 类型:long  | 说明:告警开始时间戳
    "end_timestamp":1515242958000                 #单位:  | 类型:long  | 说明:告警结束时间戳
    "receive":"xx8000000",                        #单位:  | 类型:string  | 说明:可选, 告警接收人名单
}
support.huaweicloud.com/usermanual-wiseeye/appstage_04_1253.html