云数据库 GaussDB-支持的事件列表

时间:2023-11-01 16:19:21

支持的事件列表

表1 云数据库GaussDB

事件来源

事件名称

事件ID

事件级别

事件说明

处理建议

事件影响

GaussDB

进程状态告警

ProcessStatusAlarm

重要

GaussDB关键进程退出,包括:CMS/CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程故障,在主机上进行的业务将中断回滚。备机进程故障不影响业务。

组件状态告警

ComponentStatusAlarm

重要

GaussDB关键组件无响应,包括:CMA、ETCD、GTM、CN、DN。

等待进程自动恢复或者自动主备切换,观察业务是否恢复。如果业务未恢复,联系SRE。

主机进程无响应,在主机上进行的业务将无响应。备机进程故障不影响业务。

集群状态告警

ClusterStatusAlarm

重要

集群状态异常,包括:

集群只读、ETCD多数派故障、集群分布不均衡。

联系SRE。

集群只读: 业务只读。

ETCD多数派故障:集群不可用。

集群分布不均衡:集群性能/可靠性降低。

硬件资源告警

HardwareResourceAlarm

重要

集群中出现严重的硬件故障,包括:磁盘损坏、GTM网络通信故障。

联系SRE。

业务部分/全部受损。

状态转换告警

StateTransitionAlarm

重要

集群出现如下重要事件:DN build/build失败、DN强切、DN主备切换/failover、GTM主备切换/failover。

等待自动恢复,观察业务是否恢复。如果业务未恢复,联系SRE。

部分业务受损。

其他异常告警

OtherAbnormalAlarm

重要

磁盘使用阈值告警等。

关注业务变化,及时计划扩容。

超过使用阈值,将无法扩容。

实例运行状态异常

TaurusInstanceRunningStatusAbnormal

重要

由于灾难或者物理机故障导致实例故障时,会上报该事件,属于关键告警事件。

提交工单。

可能导致数据库服务不可用。

实例运行状态异常已恢复

TaurusInstanceRunningStatusRecovered

重要

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

节点运行状态异常

TaurusNodeRunningStatusAbnormal

重要

由于灾难或者物理机故障导致数据库节点故障时,会上报该事件,属于关键告警事件。

检查数据库服务是否可以正常使用,并提交工单。

可能导致数据库服务不可用。

节点运行状态异常已恢复

TaurusNodeRunningStatusRecovered

重要

针对灾难性的故障,GaussDB有高可用工具会自动进行恢复或者手动恢复,执行完成后会上报该事件。

不需要处理。

创建实例业务失败

GaussDBV5CreateInstanceFailed

重要

创建实例失败产生的事件,一般是配额大小不足,底层资源耗尽导致。

先释放不再使用的实例再尝试重新发放,或者提交工单调整配额上限。

无法创建数据库实例。

添加节点失败

GaussDBV5ExpandClusterFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源,删除添加失败的节点,重新尝试添加新节点。

存储扩容失败

GaussDBV5EnlargeVolumeFailed

重要

一般是由于底层资源不足等原因导致。

提交工单让运维在后台协调资源再重试扩容操作。

如果磁盘满,会导致业务中断。

重启失败

GaussDBV5RestartInstanceFailed

重要

一般是由于网络问题等原因导致

重试重启操作或提交工单让运维处理。

可能导致数据库服务不可用。

全量备份失败

GaussDBV5FullBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

差量备份失败

GaussDBV5DifferentialBackupFailed

重要

一般是备份文件导出失败或上传失败等原因导致。

提交工单让运维处理。

无法备份数据。

删除备份失败

GaussDBV5DeleteBackupFailed

重要

无需实现。

-

-

绑定EIP失败

GaussDBV5BindEIPFailed

重要

弹性公网IP已被占用或IP资源等原因导致。

提交工单让运维处理。

导致实例无法使用公网链接或访问

解绑EIP失败

GaussDBV5UnbindEIPFailed

重要

网络故障或公网EIP服务故障等原因导致。

重新解绑Ip或提交工单让运维处理。

可能导致IP资源残留

参数组应用失败

GaussDBV5ApplyParamFailed

重要

一般是由于修改参数组命令超时导致。

重新尝试修改参数组操作。

参数修改失败

GaussDBV5UpdateInstanceParamGroupFailed

重要

一般是由于修改参数组命令超时导致。

重新尝试修改参数组操作。

备份恢复失败

GaussDBV5RestoreFromBcakupFailed

重要

一般是由底层资源不足或备份文件下载失败等原因导致

提交工单。

可能导致在恢复失败期间数据库服务不可用

support.huaweicloud.com/usermanual-opengauss/opengauss_events.html