告警参考（适用于3.x版本）-华为云

MAPREDUCE服务 MRS-ALM-27005 数据库连接数使用率超过阈值:告警解释

告警解释系统每30秒周期性检查DBServer节点的数据库连接数使用率，并把实际数据库连接数使用率和阈值相比较，当数据库连接数的使用率连续5次（可配置，默认值为5）超过设定阈值时，系统将产生此告警，数据库连接数使用率的阈值设为90%（可配置，默认值为90%）。平滑次数可配置，当平滑次数为1，数据库连接数使用率小于或等于阈值时，该告警恢复；当平滑次数大于1，数据库连接数使用率小于或等于阈值的90%时，该告警恢复。

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

MAPREDUCE服务 MRS-ALM-50401 JobServer中等待执行的任务数超过阈值:对系统的影响

对系统的影响已检测到JobServer任务队列中存在过多任务数（详细的任务队列使用情况，请参考本告警的附加信息字段），将导致如下影响：当JobServer任务队列中的任务数达到队列最大值（默认为1000）时，新的任务将无法添加，将会影响用户的大数据任务提交。在JobServer任务队列中的任务数达到队列最大值之前，JobServer队列中任务的提交速度将会恶化，如：用户已添加任务提交到Yarn组件的时间会变长，可能达到小时级别；用户新添加任务提交到Yarn组件的时间变长，可能达到小时级别。

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

MAPREDUCE服务 MRS-ALM-12066 节点间互信失效:参考信息

参考信息节点互信异常处理方法如下：本此操作需使用omm用户执行。如果节点间网络不通，请先解决网络不通的问题，可以检查两个节点是否在同一个安全组，是否有设置hosts.deny、hosts.allow 等。在两端节点执行ssh-add -l 确认是否有identities信息。是，执行4。否，执行2。如果没有identities信息，执行ps -ef|grep ssh-agent找到ssh-agent进程，并停止该进程并等待该进程自动重启。执行ssh-add -l 查看是否已经添加identities信息，如果已经添加手动ssh确认是否互信正常。如果有identities信息，需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息，如果没有手动添加。检查“/home/omm/.ssh”目录下的文件权限是否被修改。排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。如果用户把omm的“/home”目录删除了，请联系MRS支撑人员修复。

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

MAPREDUCE服务 MRS-ALM-45647 RocksDB的Pending Compaction预估总大小持续超过阈值:告警解释

告警解释系统以用户配置的告警周期（metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration，默认180s）检查作业RocksDB监控数据，如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值，则发送告警。当作业RocksDB的Pending Compaction预估总大小小于或等于阈值，则告警恢复。 Pending Compaction预估总大小阈值：取如下两个参数的最小值。 state.backend.rocksdb.soft-pending-compaction-bytes-limit，默认值64GB state.backend.rocksdb.hard-pending-compaction-bytes-limit，默认值256GB

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

MAPREDUCE服务 MRS-ALM-45644 RocksDB的Level0层SST文件数持续超过阈值:告警解释

告警解释系统以用户配置的告警周期（metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration，默认180s）检查作业RocksDB监控数据，如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值（state.backend.rocksdb.level0_slowdown_writes_trigger，默认20），则发送告警。当作业RocksDB的Level0层SST文件数小于或等于阈值，则告警恢复。

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

MAPREDUCE服务 MRS-ALM-19012 HBase系统表目录或文件丢失:告警解释

告警解释系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在，当检测到文件或者目录不存在时，上报该告警。当文件或目录都恢复后，告警恢复。检查内容：命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。

MAPREDUCE服务 MRS 告警参考（适用于3.x版本）

云服务器内容精选

告警参考（适用于3.x版本）

7*24

备案

专业服务

退订

建议反馈

售前咨询热线