容器智能分析-华为云

华为云UCS-容器智能分析概述:产品优势

产品优势容器智能分析深度整合云原生基金会（CNCF）的监控项目Prometheus，同时遵循OpenTracing/OpenTelemetry规范。对关键指标、事件等运维数据进行统一采集、存储和可视化展现，精心打造云原生应用的良好可观测性能力。将云原生基础设施监控和应用负载监控进行关联，提供全栈监控，使用户能够随时随地清晰地感知基础设施和应用负载状态。能够对Kubernetes集群、容器组（Pod）等进行详细监控，对业务提供端到端追踪和可视化，提供集群健康诊断能力，大大缩短问题分析定位时间。提供开箱即用的插件安装、数据采集、仪表盘监控能力，相比基于开源产品打造的监控产品，在可靠性、高可用、安装部署便捷性上更具有竞争力，能够更好的为您的云原生应用保驾护航。

华为云UCS 容器智能分析

华为云UCS-容器智能分析概述:产品功能

产品功能容器洞察：提供基于Kubernetes原生类型的容器监控能力，支持集群、节点、工作负载的资源全景，支持节点的资源占用、工作负载的资源消耗，以及近一小时的CPU/内存指标展示，全面监控集群的健康状态和负荷程度。健康诊断：对集群健康状态进行周期性检查，可以对集群、节点资源使用情况，工作负载、Pod资源状态进行快速诊断。仪表盘：仪表盘可将不同图表展示到同一个屏幕上，通过不同的仪表形式来展示资源数据，例如，曲线图、数字图等，进而全面、深入地掌握监控数据。

华为云UCS 容器智能分析

华为云UCS-仪表盘:查看/切换视图

查看/切换视图登录UCS控制台，在左侧导航栏中选择“容器智能分析”，选择一个容器舰队或者未加入舰队的集群。选择“仪表盘”页签，默认展示集群视图。设置查看视图的相关参数。各个视图可供设置的参数不同，请参见表1。设置视图的时间窗。在页面右上角处，选择时间段，或者自定义时间，并单击刷新界面。容器智能分析仪表盘提供了预置视图，您可单击视图名称边上的“切换视图”按钮，选择需要的视图查看监控数据。系统预置视图如表1所示。表1 预置视图视图名称视图参数视图中包含的监控指标集群视图（默认视图）集群节点数/磁盘不可用节点数/不可用节点数 CPU/内存使用率 CPU/内存Requests水位 CPU/内存Limits水位 Pod/容器数 CPU/内存使用量网络接收/发送速率网络平均接收/发送速率接收/发送数据包速率丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) APIServer视图集群实例存活数 QPS 请求成功率(读) 处理中请求数请求速率(读/写) 请求错误率(读/写) 请求时延(读/写)(99分位时延) 工作队列增加速率/深度工作队列时延(99分位时延) 内存/CPU使用量 Go routine数 Pod视图集群命名空间 pod 容器数/运行中容器数 Pod状态容器重启次数 CPU/内存使用量 CPU Throttling 网络接收/发送速率接收/发送数据包速率丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) 文件系统使用率/使用量主机视图集群节点 CPU/内存使用率平均负载内存使用量磁盘写入/读取速率磁盘空间使用磁盘IO Node视图集群节点 CPU/内存使用率 CPU/内存Requests水位 CPU/内存Limits水位内存使用量网络接收/发送速率接收/发送数据包速率(Pod) 接收/发送数据包速率丢包率(接收/发送) 磁盘IOPS(读+写) ThroughPut(读+写) CoreDNS视图集群实例请求速率(记录类型/区域/DO标志位) 请求数据包(UDP/TCP) 响应速率(响应状态码) 响应时延响应数据包(UDP/TCP) 缓存大小缓存命中率 PVC视图集群命名空间 PV PVC PV/PVC状态 PVC使用量/使用率 PVC inodes使用量/使用率 PVC每小时/每天/每周使用率一周后PVC使用量 Kubelet 集群实例运行中Kubelet/Pod/容器实际卷/期望卷/配置错误数量操作速率/错误率/时延 Pod启动速率/时延(99分位) 存储操作速率/错误率/时延(99分位) 控制组管理器操作速率/时延(99分位) PLEG relist速率/间隔/时延(99分位) RPC速率请求时延(99分位) 内存/CPU使用量 Go routine数 Prometheus 集群 job instance Target同步间隔 Target数平均拉取间隔拉取失败 Appended Samples Head中Series数/Chunks数查询速率/阶段时延 Prometheus Remote Write 集群实例 url Highest Timestamp In vs. Highest Timestamp Sent Rate5m Rate in vs. succeeded or dropped 5m 当前/最大/最小/期望分片数分片容量挂起样本数 TSDB/远程写入当前段样本丢弃率/失败率/重试率入队失败重试率工作负载集群命名空间类型工作负载 CPU/内存使用量网络接收/发送速率网络平均接收/发送速率接收/发送数据包速率丢包率(接收/发送) XGPU视图集群集群--XGPU设备显存使用率集群--XGPU设备算力使用率节点--XGPU设备显存使用率节点--XGPU设备算力使用率节点--XGPU设备数量节点--XGPU设备显存分配量 GPU卡--XGPU设备显存使用率 GPU卡--XGPU设备显存分配量 GPU卡--XGPU设备显存分配率 GPU卡--XGPU设备算力使用率 GPU卡--XGPU设备数量 GPU卡--调度策略 GPU卡--不健康的XGPU设备数量容器显存分配量容器算力使用率容器显存使用量容器显存使用率

华为云UCS 容器智能分析

华为云UCS-集群因插件资源残留而开启监控失败，如何处理？:处理手段

处理手段可执行如下操作进行资源残留清理，并在清理后重新开启监控。 kubectl delete ns monitoring kubectl delete ClusterRole cluster-problem-detector custom-metrics-resource-aggregated-reader event-exporter prometheus-operator prometheus-server ucsaddon-cie-collector-kube-state-metrics kubectl delete ClusterRoleBinding ucsaddon-cie-collector-kube-state-metrics cluster-problem-detector event-exporter prometheus-operator prometheus-server kubectl delete apiservice v1beta1.custom.metrics.k8s.io

华为云UCS 容器智能分析

云服务器内容精选

容器智能分析

7*24

备案

专业服务

退订

建议反馈

售前咨询热线