云容器引擎 CCE-诊断项及修复方案:节点维度

时间:2024-05-17 11:30:04

节点维度

集群诊断场景

诊断项

是否需要开通监控中心

修复方案

节点状态

节点状态是否就绪

节点为承载业务的核心资源,状态不就绪可能直接导致承载在节点上的业务受到影响,需立即修复。

节点状态不可调度

节点不可调度将导致节点资源不能被正常使用,请前往CCE节点管理,查看节点状态是否符合预期。

节点kubelet状态

kubelet为节点关键组件,不可用可能会导致节点异常,Pod状态不符合预期(与APIServer的Pod状态不一致)。可以到节点上通过如下命令查看kubelet日志,并分析异常原因。命令参考:journalctl -l -u kubelet

节点配置

节点当前时间内存的Requset水位是否超过80%

节点的Request水位将影响新应用能否被调度到该节点上。水位过高,剩余资源不满足应用要求时,该节点将不会被调度到。本诊断项已为您检测出了Request水位高出阈值的节点资源,可根据检测结果合理规划您的应用。

节点当前时间CPU的Request水位是否超过80%

节点资源水位诊断

节点24小时内CPU使用率最大值是否超过80%

节点的cpu过高将导致节点处理能力下降,影响节点上运行的服务。请前往监控中心,查询节点CPU使用状况,合理规划节点资源,或者对节点进行扩容。

节点24小时内内存使用率最大值是否超过80%

节点内存过高,存在节点OOM风险,影响节点上服务的可用性。请前往监控中心,查看节点内存使用状况,合理规划节点资源,或者对节点进行扩容。

节点磁盘使用率是否超过80%

节点磁盘使用率过高将影响系统Pod和业务Pod,请及时扩容。建议通过如下命令查看磁盘信息:

  • lsblk 列出所有可用块设备的信息
  • df -h 列出挂载的每个磁盘中的可用磁盘空间量
  • fdisk -l 列出所有的分区

节点PID使用量是否正常

节点PID出现压力,可能导致节点不稳定,需释放无用进程或者修改PID上限。可以通过如下命令查看PID信息。

  • 查看最大PID数:sysctl kernel.pid_max
  • 查看当前的最大PID:ps -eLf|awk '{print $2}' | sort -rn| head -n 1
  • 查看占用SPID最多的前5个进程:ps -elT | awk '{print $4}' | sort | uniq -c | sort -k1 -g | tail -5

节点24小时内是否发生OOM事件

节点出现OOM将使节点中的服务功能受损,可前往监控中心分析内存运行状况,合理规划资源,或者进行扩容。

support.huaweicloud.com/usermanual-cce/cce_10_0823.html