云服务器内容精选

  • 告警解释 系统每30秒周期性检查DBServer节点的数据库连接数使用率,并把实际数据库连接数使用率和阈值相比较,当数据库连接数的使用率连续5次(可配置,默认值为5)超过设定阈值时,系统将产生此告警,数据库连接数使用率的阈值设为90%(可配置,默认值为90%)。 平滑次数可配置,当平滑次数为1,数据库连接数使用率小于或等于阈值时,该告警恢复;当平滑次数大于1,数据库连接数使用率小于或等于阈值的90%时,该告警恢复。
  • 对系统的影响 已检测到JobServer任务队列中存在过多任务数(详细的任务队列使用情况,请参考本告警的附加信息字段),将导致如下影响: 当JobServer任务队列中的任务数达到队列最大值(默认为1000)时,新的任务将无法添加,将会影响用户的大数据任务提交。 在JobServer任务队列中的任务数达到队列最大值之前,JobServer队列中任务的提交速度将会恶化,如:用户已添加任务提交到Yarn组件的时间会变长,可能达到小时级别;用户新添加任务提交到Yarn组件的时间变长,可能达到小时级别。
  • 参考信息 节点互信异常处理方法如下: 本此操作需使用omm用户执行。 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。 在两端节点执行ssh-add -l 确认是否有identities信息。 是,执行4。 否,执行2。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。 检查“/home/omm/.ssh”目录下的文件权限是否被修改。 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending Compaction预估总大小小于或等于阈值,则告警恢复。 Pending Compaction预估总大小阈值:取如下两个参数的最小值。 state.backend.rocksdb.soft-pending-compaction-bytes-limit,默认值64GB state.backend.rocksdb.hard-pending-compaction-bytes-limit,默认值256GB
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值(state.backend.rocksdb.level0_slowdown_writes_trigger,默认20),则发送告警。当作业RocksDB的Level0层SST文件数小于或等于阈值,则告警恢复。
  • 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。