云服务器内容精选

  • 如何创建终端节点? 当前支持通过创建终端节点和AOM/LTS服务打通网络,进行心跳和指标上报,以及日志上报。如果要通过终端节点的方式打通AOM/LTS的网络,需要为AOM和LTS各自购买1个终端节点。 目前此功能仅支持西南-贵阳一局点,其他局点暂不支持。 创建AOM/LTS终端节点的方法: 登录华为云VPC终端节点 VPCEP控制台,进入终端节点页面。 单击“购买终端节点”。 在购买终端节点页面,选择终端节点所在的区域,“服务类别”选择“云服务”,在“选择服务”下方查找并选择AOM的云服务,并且勾选“创建内网域名”,选择终端节点所在的虚拟私有云和子网,其他参数默认设置,更多操作请参考购买终端节点。 设置完成后,单击“立即购买”。购买成功后,即可完成AOM终端节点的创建。 重复上面步骤,需要再购买1个终端节点,选择终端节点所在的区域,“服务类别”选择“云服务”,在“选择服务”下方查找并选择LTS的云服务,并且勾选“创建内网域名”,选择终端节点所在的虚拟私有云和子网,其他参数默认设置。 设置完成后,单击“立即购买”。购买成功后,即可完成了LTS终端节点的创建。 父主题: 采集管理
  • ICAgent安装类常见问题 ICAgent安装机和目标机器网络不通,报错提示“[warn] ssh connect failed, 1.2.1.2:22”如何解决? 答:安装之前先在安装页面单击连接测试,选择网络能通的安装机。 ICAgent安装成功后,后续的心跳和注册都失败,代理机网络不通,如何解决? 答:在目标机器上执行“telnet 代理机ip”,检查代理机和目标机器间的网络连通性。 安装ICAgent时需要开放8149、8102、8923、30200、30201和80端口,安装完成后80端口是否可以关闭? 答:80端口仅用做k8s软件包拉取,ICAgent安装完成后即可关闭。 在K8S集群中安装ICAgent,当K8S集群版本升级后是否会对原本安装的ICAgent有影响? 答:升级k8s集群版本后系统会重启ICAgent,并将ICAgent的版本升级到最新。 父主题: 采集管理
  • 采集CCE集群的业务数据 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 配置信息如下: apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: kafka-exporter namespace: default spec: namespaceSelector: matchNames: - default # exporter 所在的命名空间 podMetricsEndpoints: - interval: 30s path: /metrics port: metric-port selector: matchLabels: k8s-app: kafka-exporter
  • 添加采集任务 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: redis-exporter namespace: default spec: namespaceSelector: #选择要监控 Exporter Pod 所在的namespace matchNames: - default # exporter所在的命名空间 podMetricsEndpoints: - interval: 30s # 设置指标采集周期 path: /metrics # 填写 Prometheus Exporter 对应的 path 的值,默认/metrics port: metric-port# 填写 Prometheus Exporter 对应的 YAML 的 ports 的 name selector: # 填写要监控 Exporter Pod 的 Label 标签,以定位目标 Exporter matchLabels: k8s-app: redis-exporter
  • 添加采集任务 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: memcached-exporter namespace: default spec: namespaceSelector: matchNames: - default # exporter所在的命名空间 podMetricsEndpoints: - interval: 30s path: /metrics port: metric-port selector: matchLabels: k8s-app: memcached-exporter
  • PostgreSQL Exporter 部署 登录CCE控制台。 单击已接入的集群名称,进入该集群的管理页面。 执行以下操作完成Exporter部署。 使用Secret管理PostgreSQL密码。 在左侧导航栏中选择“工作负载”,在右上角单击“YAML创建”完成YAML配置。YAML配置说明:使用Kubernetes的Secret来管理密码并对密码进行加密处理,在启动PostgreSQL Exporter的时候直接使用Secret Key,需要调整对应的password。 YAML 配置示例如下: apiVersion: v1 kind: Secret metadata: name: postgres-test type: Opaque stringData: username: postgres password: you-guess #对应 PostgreSQL 密码 部署PostgreSQL Exporter。 在左侧导航栏中选择“工作负载”,在右上角单击“YAML创建”,以YAML的方式部署Exporter。 YAML配置示例如下(请直接复制下面的内容,根据实际业务调整相应的参数): apiVersion: apps/v1 kind: Deployment metadata: name: postgres-test # 根据业务需要调整成对应的名称,建议加上 PG 实例的信息 namespace: default #需要和 postgres 的 service 在同一命名空间 labels: app: postgres app.kubernetes.io/name: postgresql spec: replicas: 1 selector: matchLabels: app: postgres app.kubernetes.io/name: postgresql template: metadata: labels: app: postgres app.kubernetes.io/name: postgresql spec: containers: - name: postgres-exporter image: swr.cn-north-4.myhuaweicloud.com/aom-exporter/postgres-exporter:v0.8.0 # 上传至 SWR 的 postgres-exporter 镜像 args: - "--web.listen-address=:9187" # Exporter 开启的端口 - "--log.level=debug" # 日志级别 env: - name: DATA_SOURCE_USER valueFrom: secretKeyRef: name: postgres-test # 对应上一步中的 Secret 的名称 key: username # 对应上一步中的 Secret Key - name: DATA_SOURCE_PASS valueFrom: secretKeyRef: name: postgres-test # 对应上一步中的 Secret 的名称 key: password # 对应上一步中的 Secret Key - name: DATA_SOURCE_URI value: "x.x.x.x:5432/postgres?sslmode=disable" # 对应的连接信息 ports: - name: http-metrics containerPort: 9187 获取指标。 通过“curl http://exporter:9187/metrics”无法获取Postgres实例运行时间,可以通过自定义一个queries.yaml来获取该指标。 创建一个包含queries.yaml的配置。 将配置作为Volume挂载到Exporter某个目录下。 通过extend.query-path来使用配置,将上述的Secret以及Deployment进行汇总,汇总后的YAML如下所示: # 以下 document 创建一个包含自定义指标的 queries.yaml --- apiVersion: v1 kind: ConfigMap metadata: name: postgres-test-configmap namespace: default data: queries.yaml: | pg_postmaster: query: "SELECT pg_postmaster_start_time as start_time_seconds from pg_postmaster_start_time()" master: true metrics: - start_time_seconds: usage: "GAUGE" description: "Time at which postmaster started" # 以下 document 挂载了 Secret 和 ConfigMap ,定义了部署 Exporter 相关的镜像等参数 --- apiVersion: apps/v1 kind: Deployment metadata: name: postgres-test namespace: default labels: app: postgres app.kubernetes.io/name: postgresql spec: replicas: 1 selector: matchLabels: app: postgres app.kubernetes.io/name: postgresql template: metadata: labels: app: postgres app.kubernetes.io/name: postgresql spec: containers: - name: postgres-exporter image: wrouesnel/postgres_exporter:latest args: - "--web.listen-address=:9187" - "--extend.query-path=/etc/config/queries.yaml" - "--log.level=debug" env: - name: DATA_SOURCE_USER valueFrom: secretKeyRef: name: postgres-test-secret key: username - name: DATA_SOURCE_PASS valueFrom: secretKeyRef: name: postgres-test-secret key: password - name: DATA_SOURCE_URI value: "x.x.x.x:5432/postgres?sslmode=disable" ports: - name: http-metrics containerPort: 9187 volumeMounts: - name: config-volume mountPath: /etc/config volumes: - name: config-volume configMap: name: postgres-test-configmap --- apiVersion: v1 kind: Service metadata: name: postgres spec: type: NodePort selector: app: postgres app.kubernetes.io/name: postgresql ports: - protocol: TCP nodePort: 30433 port: 9187 targetPort: 9187 访问地址: http://{集群任意节点的公网IP}:30433/metrics,即可通过自定义的queries.yaml查询到Postgres实例启动时间指标。 图1 访问地址
  • 添加采集任务 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: postgres-exporter namespace: default spec: namespaceSelector: matchNames: - default # exporter 所在的命名空间 podMetricsEndpoints: - interval: 30s path: /metrics port: http-metrics selector: matchLabels: app: postgres
  • 操作场景 使用MongoDB过程中需要对MongoDB运行状态进行监控,以便了解MongoDB服务是否运行正常,排查MongoDB故障问题原因。Prometheus监控服务提供了CCE容器场景下基于Exporter的方式来监控MongoDB运行状态。本文介绍如何部署Exporter以及实现MongoDB Exporter告警接入等操作。 为了方便安装管理Exporter,推荐使用CCE进行统一管理。
  • 数据库授权 登录集群执行以下命令: kubectl exec -it ${mysql_podname} bash mysql -u root -p 图1 执行命令 登录数据库,执行以下命令: CREATE USER 'exporter'@'x.x.x.x(hostip)' IDENTIFIED BY 'xxxx(password)' WITH MAX_USER_CONNECTIONS 3; GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'x.x.x.x(hostip)'; 验证授权是否成功。 输入以下命令查询sql,查看是否有exporter的数据,host为mysql所在节点的IP。 select user,host from mysql.user; 图2 查询sql
  • 采集CCE集群的业务数据 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 配置信息如下: apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: mysql-exporter namespace: default spec: namespaceSelector: matchNames: - default # exporter 所在的命名空间 podMetricsEndpoints: - interval: 30s path: /metrics port: metric-port selector: matchLabels: k8s-app: mysql-exporter
  • 操作场景 使用ElasticSearch过程中需要对ElasticSearch运行状态进行监控,例如集群及索引状态等。Prometheus监控服务提供了CCE容器场景下基于Exporter的方式来监控ElasticSearch运行状态。本文介绍如何部署ElasticSearch Exporter以及实现ElasticSearch Exporter告警接入等操作。 为了方便安装管理Exporter,推荐使用CCE进行统一管理。
  • 采集CCE集群的业务数据 通过新增PodMonitor方式为应用配置可观测监控Prometheus版的采集规则,监控部署在CCE集群内的应用的业务数据。 如下示例中指标采集的周期是30秒,所以等待大概30秒后才能在AOM的界面上查看到上报的指标。 apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: name: elasticSearch-exporter namespace: default spec: namespaceSelector: # 选择监控Exporter部署所在的namespace matchNames: - default # exporter所在的命名空间 podMetricsEndpoints: - interval: 30s # 设置指标采集周期 path: /metrics # 填写Prometheus Exporter对应的Path的值,默认/metrics port: metric-port # 填写Prometheus Exporter对应YAML的ports的name selector: # 填写要监控Exporter Pod的Label标签,以定位目标Exporter matchLabels: k8s-app: elasticSearch-exporter
  • 配置告警行动规则 在“总览”页面切换为“容器视角”。 在快速入门区域,单击“配置告警行动规则”,进入告警行动规则页面。 在“告警行动规则”页签下,单击“创建告警行动规则”。 设置行动规则名称、类型等信息,参数说明如表5所示。 图6 创建告警行动规则 表5 告警行动规则参数说明 参数名称 说明 行动规则名称 行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入200个字符。 企业项目 所属的企业项目。 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。 如果在全局页面已选择企业项目,则此处灰化不可选。 描述 行动规则的描述信息,最多可输入1024个字符。 行动规则类型 行动规则的类型。 指标或事件 当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 日志 当日志数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 行动方式 告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。 主题 SMN主题,请从下拉列表中选择。 若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。 消息模板 通知消息的模板,请从下列列表中选择。 若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。 设置完成后,单击“确定”。
  • 容器监控 登录AOM 2.0控制台。 在左侧导航栏单击“概览”,即可进入“概览”页面。 在“概览”页面切换为“容器视角”。 图1 切换视角 在快速入门区域,单击“容器监控”,进入“工作负载”页面。 图2 工作负载监控 在页面右上角设置工作负载信息的统计条件。 设置时间范围,查看已设时间范围内上报的工作负载。可通过如下两种方式设置时间范围: 方式一:使用AOM预定义好的时间标签,例如,近1小时、近6小时、近1天等,您可根据实际需要选择不同的时间粒度。 方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。 设置信息的刷新频率。单击,根据需要从下拉列表中选择。 单击任一工作负载页签,即可在下方列表区域查看该工作负载的名称、状态、集群、命名空间等信息。 在工作负载列表上方可按集群、命名空间、实例名称等设置搜索条件,实现工作负载过滤显示。 单击右上角的,可实时获取到该工作负载的最新信息。 单击右上角的,通过选中/取消选中各展示项前的复选框,自定义列表项的展示/隐藏。 单击工作负载名称,可查看该工作负载的详细信息。 在“Pod实例”页签下,可查看该工作负载所有实例的概况。单击实例名称,可查看该实例下所有容器的资源使用与健康状态。 在“监控视图”页签下,可视化展示该工作负载的资源使用情况。 在“日志”页签下,可查看该工作负载的原始日志、实时日志详情和进行日志可视化,详情请参见搜索日志。 在“告警”页签下,可查看该工作负载的告警详情,详情请参见查看告警。 在“事件”页签下,可查看该工作负载的事件详情,详情请查看事件。
  • 配置告警行动规则 在“总览”页面切换为“应用视角”。 在快速入门区域,单击“配置告警行动规则”,进入“告警行动规则”页面。 在“告警行动规则”页签下,单击“创建告警行动规则”。 设置行动规则名称、类型等信息,参数说明如表8所示。 图11 创建告警行动规则 表8 告警行动规则参数说明 参数名称 说明 行动规则名称 行动规则的名称,只能由中文、数字、字母、下划线和中划线组成,且不能以下划线或中划线开头和结尾,最多可输入200个字符。 企业项目 所属的企业项目。 如果在全局页面设置为“ALL”,此处请从下拉列表中选择企业项目。 如果在全局页面已选择企业项目,则此处灰化不可选。 描述 行动规则的描述信息,最多可输入1024个字符。 行动规则类型 行动规则的类型。 指标或事件 当指标或事件满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 日志 当日志数据满足对应的告警条件时,系统根据关联SMN主题与消息模板来发送告警通知。 行动方式 告警行动规则与SMN主题、消息模板关联的类型,请从下拉列表中选择。当前只支持“通知”类型。 主题 SMN主题,请从下拉列表中选择。 若没有合适的主题,请单击主题选择栏下方“创建主题”,在SMN界面创建。 消息模板 通知消息的模板,请从下列列表中选择。 若没有合适的消息模板,请单击消息模板选择栏右侧“创建消息模板”,新建消息模板。 设置完成后,单击“确定”。