应用平台 APPSTAGE-基本概念:监控服务

时间:2024-05-17 16:35:47

监控服务

表2 监控服务基本概念

基本概念

说明

监控

是采集、汇总和分析IT基础设施、服务组件以及程序应用的运行指标,以了解其当前状态和运行状况,判断是否安全可靠的过程,是保证业务持续稳定运行的重要手段。

告警

告警是监控系统的响应组件,它根据指标值的变化按照既定的策略执行响应操作,其主要目的是引起人们对系统当前状态的关注。告警定义包含基于指标的条件或阈值以及当指标值达到或超出定义条件时要执行的操作。

告警通知

告警的通知在所有的告警处理的链路结束以后才会发生。告警处理模块会根据上报告警的上下文获取告警的值班配置,值班配置由业务预置。

告警屏蔽

为您提供短时间的屏蔽功能,可以通过设置告警屏蔽的规则,告警将在屏蔽的时间内不再触发任何通知,规则结束后,将会被再次唤醒,屏蔽期间告警被清除后,将不再触发任何通知,减少您的处理频度。

告警过滤

告警过滤是直接在接入的阶段就将告警屏蔽,告警仍然会进入Bypass的数据库但不会再向下发送给告警处理模块。

告警收敛

多个维度的告警,通过特定的条件将它们变为一条告警,只需要配置自定义的收敛规则,就可以将重复告警收敛到一起,还有默认的规则帮助你维护告警。

告警标记

告警标记的作用是为一段时间内的告警打上标签,例如现网变更或者现网演练时,由于要模拟大量异常请求和其他操作会造成大量无用告警上报,标记的作用就是为这一段时间的告警打上标签与正常告警进行区分。

告警定义

对于繁琐复杂的告警上报字段感到困惑,使用统一定义,将会自动下发到业务对应的agent,更加人性化的界面设计,使告警上报更加统一、准确。

告警修复

设置特定的命中条件,告警在发送通知之前会执行预置的修复脚本,进行修复操作,自动帮你修复简单的告警。

语音值班配置

当告警生成时,配置对应的责任人,通过短信、电话等多种形式,快速将异常情况通知到责任人。

日志

日志是指设备、系统或服务程序在运作时都会产生的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。一般系统会有各种各样的日志文件,如应用程序日志,安全日志、系统日志、Scheduler服务日志、FTP日志、WWW日志、DNS服务器日志等。

日志项目

日志项目是一个包含多个日志服务配置的整体,可以看作是一个微服务实例。

  • 同一个微服务实例下的日志服务配置应当包含在一个日志项目中。
  • 不同微服务实例使用完全相同的日志服务配置时,也可以共用同一个日志项目。

日志空间

日志空间是日志服务为微服务的日志分配的使用空间。

业务须在日志接入页面填写日志相关信息并提交申请日志空间,日志空间支持定义空间内日志的结构化格式信息,此时要求所有使用此空间的日志都满足该日志格式。

日志采集配置

日志采集配置是日志服务采集端在采集微服务实例中日志时所需的配置,一种日志对应一项采集配置。

日志采集配置须归属于一个日志项目,并使用一个已分配好的日志空间。

日志采集配置之间可以共用日志空间,此时需要关注日志空间的日志格式要求,未定义日志格式的空间可不用关注。

巡检

巡检是指定期对IT系统进行全面的检查和评估,以确保系统的稳定性和可用性。通过系统巡检,SRE可以及时发现潜在的问题和故障,提前采取措施进行解决和预防,从而减少系统故障的发生和缩短故障恢复时间。同时,系统巡检还可以帮助SRE团队了解系统的运行状况和性能表现,为优化系统的配置和改进运维流程提供依据。

事件

事件是指IT基础设施、服务组件以及程序应用等运行过程中发生的问题。事件可通过监控系统自动生成、客户报障生成或SRE主动巡检生成等。监控系统生成事件首先要采集和分析运行数据,然后根据预定规则判断是否需要生成事件。

HCW

HW Cloud Watch,监控系统,可以提供监控、告警功能。

HCW Agent

监控系统的采集框架,需要在每台主机上部署,部署路径为/opt/huawei/HCW_Agent。

EAP

事件自动化平台(Event & Action Platform,EAP),通过集成各系统动作,解决复杂运维场景的操作编排功能。

流程

可以通过EAP平台所提供的各种动作组合来编排解决具体运维场景的流程。

动作

各服务的操作(例如部署任务、执行作业、确认告警等)封装。

标签

对某一类特定群体或对象的某项特征进行的抽象分类和概括,其值(标签值)具备可分类性。

标签树

标签树负责标签的管理,包括标签的创建,删除,修改。系统标签由系统管理员统一进行管理,业务自定义标签由业务人员进行管理。

逻辑主体

逻辑主体是业务实体的抽象。

在AIOPS的实时场景,逻辑主体基于物理表(Druid、ClickHouse、influxDB)创建。逻辑主体和物理表之间存在映射关系,逻辑主体的字段名称和物理表可以不一样,这也是为了实现业务属性和物理表之间的解耦。

一个逻辑主体可以映射多种物理实体,当底层数据物理表变更(Druid表发生变更,或者需要从ClickHouse原始数据计算指标),上层的指标逻辑定义可以不用发生变化。

指标

指标是指在被观测系统中观察和收集的资源使用或行为的测量值,可能是原始采集的数据,也可能是后期经过各种计算和统计方法得到的数值。

令牌

令牌是使用数据源的鉴权方式,只有通过对应业务的token的鉴权,才能使用对应的数据源。

视图

指标本身包含了业务计算规则,只有结合数据源才能真正被查询。视图,就是指标 + 物理表的结合,也是监控大盘上直接可被查询的对象。视图可以包含一个或多个指标,例如折线图只需要单指标的视图,但是表格就需要多指标的视图。

  • 查询视图(Query View)。直接作用于物理表的查询视图,大多用在druid实时监控场景。
  • 长期存储视图(Long Term View)。基于查询视图,可以创建长期存储视图。如果觉得某个查询视图值得被长期持久化,就可以使用该能力。长期存储视图会自动创建三个聚合任务,分别是5分钟粒度、小时粒度、天粒度。
  • 持久化视图(Persistent View)。基于查询视图,可以创建持久化视图。部分视图需要出日报,就可以使用该能力。该视图会自动创建一个汇聚任务。
  • 异常检测视图(Anomaly Detect View)。基于查询视图,可以创建异常检测视图,用来为异常检测任务提供数据。

插件

可在机器上执行并采集各项参数的二进制文件或者脚本。

support.huaweicloud.com/usermanual-wiseeye/appstage_04_0088.html