GaussDB告警事件列表

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

进程状态告警

ProcessStatusAlarm

重要

GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。

组件状态告警

ComponentStatusAlarm

重要

GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。

集群状态告警

ClusterStatusAlarm

重要

集群状态异常,包括:集群只读、ETCD多数派故障、集群分布不均衡。

联系SRE。

集群只读: 业务只读。

ETCD多数派故障:集群不可用。

集群分布不均衡:集群性能/可靠性降低。

硬件资源告警

HardwareResourceAlarm

重要

集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。

联系SRE。

业务部分/全部受损。

状态转换告警

StateTransitionAlarm

重要

集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。

等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。

部分业务受损。

其他异常告警

OtherAbnormalAlarm

重要

磁盘使用阈值告警等。

关注业务变化,及时计划扩容。

超过使用阈值,将无法扩容。

实例运行状态异常

TaurusInstanceRunningStatusAbnormal

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

TaurusInstanceRunningStatusRecovered

重要

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

TaurusNodeRunningStatusAbnormal

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并提交工单。

可能导致数据库服务不可用。

进程状态告警

事件ID

ProcessStatusAlarm

事件级别

重要

事件说明

GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。

处理建议

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

事件影响

主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。

组件状态告警

事件ID

ComponentStatusAlarm

事件级别

重要

事件说明

GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。

处理建议

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

事件影响

主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。

集群状态告警

事件ID

ClusterStatusAlarm

事件级别

重要

事件说明

集群状态异常,包括:集群只读、ETCD多数派故障、集群分布不均衡。

处理建议

联系SRE。

事件影响

集群只读: 业务只读。

ETCD多数派故障:集群不可用。

集群分布不均衡:集群性能/可靠性降低。

硬件资源告警

事件ID

HardwareResourceAlarm

事件级别

重要

事件说明

集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。

处理建议

联系SRE。

事件影响

业务部分/全部受损。

状态转换告警

事件ID

StateTransitionAlarm

事件级别

重要

事件说明

集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。

处理建议

等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。

事件影响

部分业务受损。

其他异常告警

事件ID

OtherAbnormalAlarm

事件级别

重要

事件说明

磁盘使用阈值告警等。

处理建议

关注业务变化,及时计划扩容。

事件影响

超过使用阈值,将无法扩容。

实例运行状态异常

事件ID

TaurusInstanceRunningStatusAbnormal

事件级别

重要

事件说明

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

处理建议

提交工单。

事件影响

可能导致数据库服务不可用。

实例运行状态异常已恢复

事件ID

TaurusInstanceRunningStatusRecovered

事件级别

重要

事件说明

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

处理建议

不需要处理。

事件影响

节点运行状态异常

事件ID

TaurusNodeRunningStatusAbnormal

事件级别

重要

事件说明

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

处理建议

检查数据库服务是否可以正常使用,并提交工单。

事件影响

可能导致数据库服务不可用。

GaussDB告警规则创建

GaussDB告警规则创建

  • GaussDB告警规则创建操作场景

    通过设置数据库告警规则,用户可自定义监控目标与通知策略,及时了解数据库运行状况,从而起到预警作用。


    设置的告警规则包括设置告警规则名称、资源类型、维度、监控对象、监控指标、告警阈值、监控周期和是否发送通知等参数。

  • GaussDB告警规则创建操作步骤
    1. 登录管理控制台。
    2. 在“服务列表”中选择“管理与监管 > 云监控”,进入“云监控”服务信息页面。
    3. 在左侧导航栏选择“云服务监控 > 云数据库 GaussDB”。
    4. 选择需要添加告警规则的实例,单击操作列的“创建告警规则”。
    5. 在“创建告警规则”页面,填选相关信息。
    6. “选择类型”建议“从模板导入”,模板中,已经包含磁盘利用率告警指标。
    7. 输入告警“名称”和“描述”。
    8. 单击开启“发送通知”,生效时间默认为全天,若没有您想要选择的主题,可以单击下一行的“创建主题”进行添加,“触发条件”勾选“出现告警”和“恢复正常”。
    9. 说明:该告警规则仅在生效时间段内发送通知消息。

    10. 单击“立即创建”,告警规则创建完成。
    11. 关于告警参数的配置,请参见《云监控用户指南》。


GaussDB告警优质文章锦集