云服务器内容精选

华为云首页用户手册

容器智能分析

华为云UCS-健康诊断:支持的巡检项

支持的巡检项表1 CCE集群巡检项巡检维度集群巡检场景巡检项集群集群资源规划能力集群Master节点是否高可用集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群版本是否超期集群运维能力集群kube-prometheus-stack插件状态是否正常集群log-agent插件状态是否正常集群npd插件状态是否正常集群配置安全组配置是否正确核心插件 coredns插件状态 coredns近24小时cpu使用率最大值是否超过80% coredns近24小时内存使用率最大值是否超过80% coredns近24小时是否存在域名解析失败请求次数 coredns近24小时P99请求时延是否超过5s coredns插件状态 everest插件状态 everest插件状态 everest近24小时CPU使用率最大值是否超过80% everest近24小时内存使用率最大值是否超过80% kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM kube-prometheus-status在Server部署模式下，prometheus-server的PVC使用率是否超过80% log-agent插件状态 log-agent插件状态 LTS日志组、日志流是否创建成功 LTS日志组结构化是否创建成功 autoscaler插件状态集群在开启节点池弹性扩缩容条件下，autoscaler插件状态是否可用节点节点状态节点状态是否就绪节点状态不可调度节点kubelet状态节点配置节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常节点24小时内是否发生OOM事件负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针外部依赖租户节点资源配额租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90% 表2 本地集群巡检项巡检维度集群巡检场景巡检项集群集群资源规划能力集群Master节点是否高可用集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群运维能力集群kube-prometheus-stack插件状态是否正常集群log-agent插件状态是否正常核心插件 kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM log-agent插件状态 log-agent插件状态 LTS日志组、日志流是否创建成功 LTS日志组结构化是否创建成功节点节点状态节点状态是否就绪节点状态不可调度节点kubelet状态节点配置节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常节点24小时内是否发生OOM事件负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针外部依赖租户节点资源配额租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90% 表3 附着集群、多云集群、伙伴云集群巡检项巡检维度集群巡检场景巡检项集群集群资源规划能力集群Master节点是否高可用集群CPU的Request水位是否超过80% 集群CPU的Limit水位是否超过150% 集群内存的Request水位是否超过80% 集群内存的Limit水位是否超过150% 集群运维能力集群kube-prometheus-stack插件状态是否正常核心插件 kube-prometheus-stack插件状态 kube-prometheus-stack近24小时CPU使用率最大值是否超过80% kube-prometheus-stack近24小时内存使用率最大值是否超过80% kube-prometheus-status插件状态 kube-prometheus-status近24小时是否出现OOM 节点节点状态节点状态是否就绪节点状态不可调度节点kubelet状态节点配置节点内存的Requset是否超过80% 节点CPU的Request是否超过80% 节点内存的Limit检查是否超过150% 节点CPU的Limit检查是否超过150% 节点资源水位诊断节点24小时内CPU使用率最大值是否超过80% 节点24小时内内存使用率最大值是否超过80% 节点磁盘使用率是否超过80% 节点PID使用量是否正常节点24小时内是否发生OOM事件负载 Pod状态 Pod状态检查 Pod负载状态 Pod在24小时内是否发生OOM Pod的24小时内CPU使用率最大值是否超过80% Pod的24小时内内存使用率最大值是否超过80% Pod配置 Pod中的容器是否配置Request Pod中的容器是否配置Limit Pod探针配置 Pod中的容器是否配置存活探针 Pod中的容器是否配置就绪探针外部依赖租户节点资源配额租户云硬盘配额是否超过90% 租户ECS配额充足是否超过90%

华为云UCS 容器智能分析
华为云UCS-容器智能分析概述:产品功能

产品功能容器洞察：提供基于Kubernetes原生类型的容器监控能力，支持集群、节点、工作负载的资源全景，支持节点的资源占用、工作负载的资源消耗，以及近一小时的CPU/内存指标展示，全面监控集群的健康状态和负荷程度。健康诊断：对集群健康状态进行周期性检查，可以对集群、节点资源使用情况，工作负载、Pod资源状态进行快速诊断。仪表盘：仪表盘可将不同图表展示到同一个屏幕上，通过不同的仪表形式来展示资源数据，例如，曲线图、数字图等，进而全面、深入地掌握监控数据。

华为云UCS 容器智能分析
华为云UCS-容器智能分析概述:产品优势

产品优势容器智能分析深度整合云原生基金会（CNCF）的监控项目Prometheus，同时遵循OpenTracing/OpenTelemetry规范。对关键指标、事件等运维数据进行统一采集、存储和可视化展现，精心打造云原生应用的良好可观测性能力。将云原生基础设施监控和应用负载监控进行关联，提供全栈监控，使用户能够随时随地清晰地感知基础设施和应用负载状态。能够对Kubernetes集群、容器组（Pod）等进行详细监控，对业务提供端到端追踪和可视化，提供集群健康诊断能力，大大缩短问题分析定位时间。提供开箱即用的插件安装、数据采集、仪表盘监控能力，相比基于开源产品打造的监控产品，在可靠性、高可用、安装部署便捷性上更具有竞争力，能够更好的为您的云原生应用保驾护航。

华为云UCS 容器智能分析
华为云UCS-集群因插件资源残留而开启监控失败，如何处理？:处理手段

处理手段可执行如下操作进行资源残留清理，并在清理后重新开启监控。 kubectl delete ns monitoring kubectl delete ClusterRole cluster-problem-detector custom-metrics-resource-aggregated-reader event-exporter prometheus-operator prometheus-server ucsaddon-cie-collector-kube-state-metrics kubectl delete ClusterRoleBinding ucsaddon-cie-collector-kube-state-metrics cluster-problem-detector event-exporter prometheus-operator prometheus-server kubectl delete apiservice v1beta1.custom.metrics.k8s.io

华为云UCS 容器智能分析