云服务器内容精选

  • 参考信息 节点互信异常处理方法如下: 本此操作需使用omm用户执行。 如果节点间网络不通,请先解决网络不通的问题,可以检查两个节点是否在同一个安全组,是否有设置hosts.deny、hosts.allow 等。 在两端节点执行ssh-add -l 确认是否有identities信息。 是,执行4。 否,执行2。 如果没有identities信息,执行ps -ef|grep ssh-agent找到ssh-agent进程,并停止该进程并等待该进程自动重启。 执行ssh-add -l 查看是否已经添加identities信息,如果已经添加手动ssh确认是否互信正常。 如果有identities信息,需要确认“/home/omm/.ssh/authorized_keys”中是否有对端节点“/home/omm/.ssh/id_rsa.pub”文件中的信息,如果没有手动添加。 检查“/home/omm/.ssh”目录下的文件权限是否被修改。 排查如下日志文件“/var/log/Bigdata/nodeagent/scriptlog/ssh-agent-monitor.log”。 如果用户把omm的“/home”目录删除了,请联系MRS支撑人员修复。
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Pending Compaction预估总大小持续达到用户配置的阈值,则发送告警。当作业RocksDB的Pending Compaction预估总大小小于或等于阈值,则告警恢复。 Pending Compaction预估总大小阈值:取如下两个参数的最小值。 state.backend.rocksdb.soft-pending-compaction-bytes-limit,默认值64GB state.backend.rocksdb.hard-pending-compaction-bytes-limit,默认值256GB
  • 告警解释 系统以用户配置的告警周期(metrics.reporter.alarm.job.alarm.rocksdb.metrics.duration,默认180s)检查作业RocksDB监控数据,如果作业RocksDB的Level0层SST文件数持续达到用户配置的阈值(state.backend.rocksdb.level0_slowdown_writes_trigger,默认20),则发送告警。当作业RocksDB的Level0层SST文件数小于或等于阈值,则告警恢复。
  • 告警解释 系统按120秒周期性检测HBase在HDFS上的如下目录和文件是否存在,当检测到文件或者目录不存在时,上报该告警。当文件或目录都恢复后,告警恢复。 检查内容: 命名空间hbase在HDFS上的目录。 hbase.version文件。 hbase:meta表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:namespace表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:hindex表在HDFS上的目录、.tableinfo和.regioninfo文件。 hbase:acl表在HDFS上的目录、.tableinfo和.regioninfo文件(该表在普通模式集群默认不存在)。