可观测性-华为云

云容器引擎 CCE-可观测性体系概述:监控与日志

监控与日志 AOM：应用运维管理（Application Operations Management，简称AOM）是云上应用的一站式立体化运维管理平台，实时监控您的应用及相关云资源，分析应用健康状态，提供灵活丰富的数据可视化功能，帮助您及时发现故障，全面掌握应用、资源及业务的实时运行状况。 LTS：云日志服务（Log Tank Service，简称LTS），用于收集来自主机和云服务的日志数据，通过海量日志数据的分析与处理，可以将云服务和应用程序的可用性和性能最大化，为您提供实时、高效、安全的日志处理能力，帮助您快速高效地进行实时决策分析、设备运维管理、用户业务趋势分析等。

云容器引擎 CCE 可观测性

云容器引擎 CCE-可观测性体系概述:云原生观测

云原生观测 CCE云原生观测相关的功能包括健康中心、监控中心、日志中心、告警中心等。以下分别介绍CCE云原生观测的主要功能。健康中心集群健康诊断基于容器运维专家经验对集群健康状况进行全面检查，能够及时发现集群故障与潜在风险并给出修复建议。监控中心监控中心提供不同维度的数据洞察、仪表盘等功能。监控中心提供容器视角的可视化视图，支持集群、节点、工作负载和Pod等多种维度的监控视图，支持多级下钻与关联分析。仪表盘功能内置常见的容器监控大盘，如Kubernetes APIServer组件监控、CoreDNS组件监控和PVC监控等。日志中心 CCE日志中心集成了云日志服务LTS。启用日志采集与管理，您可以快速采集CCE控制面组件日志（kube-apiserver、kube-controller-manager、kube-scheduler）、kubernetes审计日志、Kubernetes事件和容器日志（容器的标准输出、容器内的文本文件、节点日志）。告警中心告警中心集成应用运维管理服务AOM2.0的告警功能，提供容器告警一键开启能力，覆盖集群和容器常见故障场景。

云容器引擎 CCE 可观测性

云容器引擎 CCE-日志中心FAQ:索引

索引如何关闭日志中心？插件中除log-operator外组件均未就绪 log-operator标准输出报错节点容器引擎为docker时采集不到容器文件日志日志无法上报，otel组件标准输出报错：log's quota has full 采集容器内日志，且采集目录配置了通配符，日志无法采集 fluent-bit容器组一直重启节点OS为Ubuntu 18.04时出现日志无法采集采集Job日志时出现日志无法采集云原生日志采集插件运行正常，部分日志策略未生效 log-agent-otel-collector组件出现OOM 节点负载过多，采集日志时缺少部分Pod信息如何修改集群日志中心的日志存储时间？

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-日志中心FAQ:log-operator标准输出报错

log-operator标准输出报错问题现象： 2023/05/05 12:17:20.799 [E] call 3 times failed, resion: create group failed, projectID: xxx, groupName: k8s-log-xxx, err: create groups status code: 400, response: {"error_code":"LTS.0104","error_msg":"Failed to create log group, the number of log groups exceeds the quota"}, url: https://lts.cn-north-4.myhuaweicloud.com/v2/xxx/groups, process will retry after 45s 解决方案：LTS日志组有配额限制，如果出现该报错，请前往LTS下删除部分无用的日志组。限制详情见：日志组。

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-日志中心FAQ:采集容器内日志，且采集目录配置了通配符，日志无法采集

采集容器内日志，且采集目录配置了通配符，日志无法采集排查方法：请检查工作负载配置中Volume挂载情况，如果业务容器的数据目录是通过数据卷（Volume）挂载的，插件不支持采集它的父目录，需设置采集目录为完整的数据目录。例如/var/log/service目录是数据卷挂载的路径，则设置采集目录为/var/log或/var/log/*将采集不到该目录下的日志，需设置采集目录为/var/log/service。解决方案：若日志生成目录为/application/logs/{应用名}/*.log，建议工作负载挂载Volume时，直接挂载/application/logs，日志策略中配置采集路径为/application/logs/*/*.log

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-日志中心FAQ:节点容器引擎为docker时采集不到容器文件日志

节点容器引擎为docker时采集不到容器文件日志问题现象：配置了容器文件路径采集，采集的目录不是挂载到容器内的，且节点容器引擎为docker，采集不到日志。解决方案：请检查工作负载所在节点的容器存储模式是否为Device Mapper，Device Mapper不支持采集容器内日志（创建日志策略时已提示此限制）。检查方法如下：进入业务工作负载所在节点。执行docker info | grep "Storage Driver"。若返回的Storage Driver值为Device Mapper，则该日志无法采集。图4 创建日志策略

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-日志中心FAQ:插件中除log-operator外组件均未就绪

插件中除log-operator外组件均未就绪问题现象：插件中除log-operator外组件均未就绪，且出现异常事件“实例挂卷失败”。解决方案：请查看log-operator日志，安装插件时，其余组件所需的配置文件需要log-operator生成，log-operator生成配置出错，会导致所有组件无法正常启动。日志信息如下： MountVolume.SetUp failed for volume "otel-collector-config-vol":configmap "log-agent-otel-collector-config" not found

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-日志中心FAQ:log-agent-otel-collector组件出现OOM

log-agent-otel-collector组件出现OOM 排查方法：查看log-agent-otel-collector组件标准输出，查看近期是否有错误日志。 kubectl logs -n monitoring log-agent-otel-collector-xxx 若存在报错请优先处理报错，确认日志恢复正常采集。若日志近期没有报错，且仍然出现OOM，则参考以下步骤进行处理：进入“日志中心”，单击“展开日志条数统计图”查看日志统计图。若上报的日志组日志流不是默认日志组日志流，则单击“全局日志查询”页签，选择上报的日志组和日志流后进行查看。图10 查看日志统计根据统计图中的柱状图，计算每秒上报的日志量，检查是否超过当前规格的日志采集性能。若超过当前规格的日志采集性能，可尝试增加log-agent-otel-collector副本数或提高log-agent-otel-collector的内存上限。若CPU使用率超过90%，则需要提高log-agent-otel-collector的CPU上限。

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-使用Prometheus监控Master节点组件指标:通过监控中心查看Master节点组件指标

通过监控中心查看Master节点组件指标云原生监控中心已支持对Master节点的kube-apiserver组件进行监控，您在集群中开通云原生监控中心后（安装云原生监控插件版本为3.5.0及以上），可以查看仪表盘中的APIServer视图，监控API指标。如需对kube-controller、kube-scheduler、etcd-server组件进行监控，请参考以下步骤。此3个组件监控指标不在容器基础指标范围，监控中心将该类指标上报至AOM后会进行收费，因此监控中心会默认屏蔽采集该类指标。登录CCE控制台，单击集群名称进入集群详情页。在左侧导航栏中选择“配置与密钥”，并切换至“monitoring”命名空间，找到名为“persistent-user-config”的配置项。单击“更新”，对配置数据进行编辑，并在serviceMonitorDisable字段下删除以下配置。 serviceMonitorDisable: - monitoring/kube-controller - monitoring/kube-scheduler - monitoring/etcd-server - monitoring/log-operator 图1 删除配置单击“确定”。等待5分钟后，您可前往AOM控制台，在“指标浏览”中找到集群上报的AOM实例，查看上述组件的指标。图2 查看指标

云容器引擎 CCE 可观测性最佳实践

可观测性（监控中心、日志中心、告警中心）如何收费？免费场景监控中心自身免费使用，监控中心所使用的指标都上报并存储在AOM服务，其中在AOM范畴内的基础指标不收费，存储时长15天（暂不支持修改）。详情请参见基础指标。日志中心自身免费使用，集群内产生的日志都上报并存储在LTS服务，云日志服务的计费项由日志读写流量、日志索引流量、日志存储量的费用组成（有500MB/月的免费额度）。告警中心自身免费使用，集群内产生的告警由SMN消息通知服务进行推送，在短信数量小于100/条/月、邮件数量小于1000/封/月的，推送免费。其中短信条数计算规则请参见短信内容长度计算规则。收费场景监控中心：集群内配置的除基础指标以外的自定义指标（基础指标不收费）会根据AOM的收费规则进行收费。详情请参见计费项。日志中心：对超出每月免费限额（500MB/月）的日志读写、日志索引流量、日志存储量进行收费。详情请参见LTS服务的收费标准。告警中心：告警中心依赖SMN消息通知服务对告警进行推送，联系组当前只支持短信和邮件，超过SMN免费范围(短信数量小于100/条/月、邮件数量小于1000/封/月的，推送免费)的将会收费。详情请参见SMN计费说明。

云容器引擎 CCE 可观测性FAQ

云容器引擎 CCE-使用云原生监控插件监控自定义指标:方法一：配置Pod Annotations监控自定义指标

方法一：配置Pod Annotations监控自定义指标当Pod的Annotations配置符合Prometheus采集规范的规则后，Prometheus会自动采集这些Pod暴露的指标。如上所述的nginx:exporter提供的监控数据，其数据格式并不满足Prometheus的要求，需要将其转换成Prometheus需要的格式，可以使用nginx-prometheus-exporter来转换Nginx的指标，将nginx:exporter和nginx-prometheus-exporter部署到同一个Pod，并在部署时添加如下Annotations就可以自动被Prometheus采集监控指标。 kind: Deployment apiVersion: apps/v1 metadata: name: nginx-exporter namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-exporter template: metadata: labels: app: nginx-exporter annotations: prometheus.io/scrape: "true" prometheus.io/port: "9113" prometheus.io/path: "/metrics" prometheus.io/scheme: "http" spec: containers: - name: container-0 image: 'nginx:exporter' # 替换为您上传到SWR的镜像地址 resources: limits: cpu: 250m memory: 512Mi requests: cpu: 250m memory: 512Mi - name: container-1 image: 'nginx/nginx-prometheus-exporter:0.9.0' command: - nginx-prometheus-exporter args: - '-nginx.scrape-uri=http://127.0.0.1:8080/stub_status' imagePullSecrets: - name: default-secret 其中 prometheus.io/scrape：表示是否需要prometheus采集Pod的监控数据，取值为true。 prometheus.io/port：表示采集监控数据接口的端口，由需要采集的应用决定。本示例中采集端口为9113。 prometheus.io/path：表示采集监控数据接口的URL，如不配置则默认为“/metrics”。 prometheus.io/scheme：表示采集的协议，值可以填写http或https。应用部署成功后，访问云原生监控插件，查询自定义监控指标。图1 访问云原生监控插件可以查询到nginx相关的自定义监控指标，通过job名称可以判断出是根据Pod配置上报的。 nginx_connections_accepted{cluster="2048c170-8359-11ee-9527-0255ac1000cf", cluster_category="CCE", cluster_name="cce-test", container="container-0", instance="10.0.0.46:9113", job="monitoring/kubernetes-pods", kubernetes_namespace="default", kubernetes_pod="nginx-exporter-77bf4d4948-zsb59", namespace="default", pod="nginx-exporter-77bf4d4948-zsb59", prometheus="monitoring/server"} 图2 查看监控指标

云容器引擎 CCE 可观测性最佳实践

云容器引擎 CCE-使用云原生监控插件监控自定义指标:方法二：配置Service Annotations监控自定义指标

方法二：配置Service Annotations监控自定义指标当Service的Annotations配置符合Prometheus采集规范的规则后，Prometheus会自动采集这些Service暴露的指标。 Service Annotations使用方法和Pod Annotations基本相同，主要是采集的指标的适用场景不同，Pod Annotations更关注Pod的资源使用情况，Service Annotations侧重于对该业务的请求等指标。部署示例应用如下： kind: Deployment apiVersion: apps/v1 metadata: name: nginx-test namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-test template: metadata: labels: app: nginx-test spec: containers: - name: container-0 image: 'nginx:exporter' # 替换为您上传到SWR的镜像地址 resources: limits: cpu: 250m memory: 512Mi requests: cpu: 250m memory: 512Mi - name: container-1 image: 'nginx/nginx-prometheus-exporter:0.9.0' command: - nginx-prometheus-exporter args: - '-nginx.scrape-uri=http://127.0.0.1:8080/stub_status' imagePullSecrets: - name: default-secret 部署示例Service如下： apiVersion: v1 kind: Service metadata: name: nginx-test labels: app: nginx-test namespace: default annotations: prometheus.io/scrape: "true" # 配置为 true 表示开启服务发现 prometheus.io/port: "9113" # 配置为采集指标暴露的端口号 prometheus.io/path: "/metrics" # 填写指标暴露的 URI 路径，一般是 /metrics spec: selector: app: nginx-test externalTrafficPolicy: Cluster ports: - name: cce-service-0 targetPort: 80 nodePort: 0 port: 8080 protocol: TCP - name: cce-service-1 protocol: TCP port: 9113 targetPort: 9113 type: NodePort 查看指标，通过Service名称可以判断出该指标是根据Service配置上报的。 nginx_connections_accepted{app="nginx-test", cluster="2048c170-8359-11ee-9527-0255ac1000cf", cluster_category="CCE", cluster_name="cce-test", instance="10.0.0.38:9113", job="nginx-test", kubernetes_namespace="default", kubernetes_service="nginx-test", namespace="default", pod="nginx-test-78cfb65889-gtv7z", prometheus="monitoring/server", service="nginx-test"} 图3 查看监控指标

云容器引擎 CCE 可观测性最佳实践

云容器引擎 CCE-使用云原生监控插件监控自定义指标:方法三：配置Pod Monitor监控自定义指标

方法三：配置Pod Monitor监控自定义指标云原生监控插件提供了基于PodMonitor与ServiceMonitor配置指标采集任务的能力。Prometheus Operator将watch的PodMonitor的变化，通过Prometheus的reload机制，将Prometheus的采集任务热更新至Prometheus的实例中。 Prometheus Operator定义的CRD资源github地址：https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。部署示例应用如下： apiVersion: apps/v1 kind: Deployment metadata: name: nginx-test2 namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-test2 template: metadata: labels: app: nginx-test2 spec: containers: - image: nginx:exporter # 替换为您上传到SWR的镜像地址 name: container-0 ports: - containerPort: 9113 # 指标暴露的端口号 name: nginx-test2 # 该名称是后续配置PodMonitor时相匹配的名称 protocol: TCP resources: limits: cpu: 250m memory: 300Mi requests: cpu: 100m memory: 100Mi - name: container-1 image: 'nginx/nginx-prometheus-exporter:0.9.0' command: - nginx-prometheus-exporter args: - '-nginx.scrape-uri=http://127.0.0.1:8080/stub_status' imagePullSecrets: - name: default-secret 配置Pod Monitor示例如下： apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: podmonitor-nginx # PodMonitor的名称 namespace: monitoring # 所属命名空间，建议使用monitoring spec: namespaceSelector: # 匹配工作负载所在的命名空间 matchNames: - default # 工作负载所属的命名空间 jobLabel: podmonitor-nginx podMetricsEndpoints: - interval: 15s path: /metrics # 工作负载暴露指标的路径 port: nginx-test2 # 工作负载暴露指标的port名称 tlsConfig: insecureSkipVerify: true selector: matchLabels: app: nginx-test2 # Pod携带的标签，能被选择器选中查看指标，通过job名称可以判断出该指标是根据PodMonitor配置上报的。 nginx_connections_accepted{cluster="2048c170-8359-11ee-9527-0255ac1000cf", cluster_category="CCE", cluster_name="cce-test", container="container-0", endpoint="nginx-test2", instance="10.0.0.44:9113", job="monitoring/podmonitor-nginx", namespace="default", pod="nginx-test2-746b7f8fdd-krzfp", prometheus="monitoring/server"} 图4 查看监控指标

云容器引擎 CCE 可观测性最佳实践

云容器引擎 CCE-使用云原生监控插件监控自定义指标:方法四：配置Service Monitor监控自定义指标

方法四：配置Service Monitor监控自定义指标云原生监控插件提供了基于PodMonitor与ServiceMonitor配置指标采集任务的能力。Prometheus Operator将watch的ServiceMonitor的变化，通过Prometheus的reload机制，将Prometheus的采集任务热更新至Prometheus的实例中。 Prometheus Operator定义的CRD资源github地址：https://github.com/prometheus-community/helm-charts/tree/main/charts/kube-prometheus-stack/charts/crds/crds。部署示例应用如下： apiVersion: apps/v1 kind: Deployment metadata: name: nginx-test3 namespace: default spec: replicas: 1 selector: matchLabels: app: nginx-test3 template: metadata: labels: app: nginx-test3 spec: containers: - image: nginx:exporter # 替换为您上传到SWR的镜像地址 name: container-0 resources: limits: cpu: 250m memory: 300Mi requests: cpu: 100m memory: 100Mi - name: container-1 image: 'nginx/nginx-prometheus-exporter:0.9.0' command: - nginx-prometheus-exporter args: - '-nginx.scrape-uri=http://127.0.0.1:8080/stub_status' imagePullSecrets: - name: default-secret 部署示例Service如下： apiVersion: v1 kind: Service metadata: name: nginx-test3 labels: app: nginx-test3 namespace: default spec: selector: app: nginx-test3 externalTrafficPolicy: Cluster ports: - name: cce-service-0 targetPort: 80 nodePort: 0 port: 8080 protocol: TCP - name: servicemonitor-ports protocol: TCP port: 9113 targetPort: 9113 type: NodePort 配置Service Monitor示例如下： apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: servicemonitor-nginx namespace: monitoring spec: # 配置service中的暴露指标的port的名称 endpoints: - path: /metrics port: servicemonitor-ports jobLabel: servicemonitor-nginx # 采集任务的作用范围，如果不配置，默认为default namespaceSelector: matchNames: - default selector: matchLabels: app: nginx-test3 查看指标，通过endpoint名称可以判断出该指标是根据ServiceMonitor配置上报的。 nginx_connections_accepted{cluster="2048c170-8359-11ee-9527-0255ac1000cf", cluster_category="CCE", cluster_name="cce-test", endpoint="servicemonitor-ports", instance="10.0.0.47:9113", job="nginx-test3", namespace="default", pod="nginx-test3-6f8bccd9-f27hv", prometheus="monitoring/server", service="nginx-test3"}

云容器引擎 CCE 可观测性最佳实践

云容器引擎 CCE-使用云原生监控插件监控自定义指标:约束与限制

约束与限制使用Prometheus监控自定义指标时，应用程序需要提供监控指标接口，详情请参见Prometheus监控数据采集说明。使用Pod/Service Annotations的方式暂不支持采集kube-system与monitoring命名空间下的指标，如需采集这两个命名空间下的指标，请通过Pod Monitor与Service Monitor的方式配置。本文使用Nginx应用示例会拉取nginx/nginx-prometheus-exporter:0.9.0镜像，需要为应用部署的节点添加EIP或先将此镜像上传到SWR，以免部署应用失败。

云容器引擎 CCE 可观测性最佳实践

云服务器内容精选

可观测性

7*24

备案

专业服务

退订

建议反馈

售前咨询热线