云服务器内容精选

华为云首页用户手册

配置AOM告警规则

应用运维管理 AOM-普罗语句说明:常用的普罗命令

常用的普罗命令常用的查询指标的普罗命令如表1所示，用户可根据实际修改其中的IP地址、ID等参数信息。表1 常用的普罗命令指标标签定义 PromQL 主机CPU使用率 {nodeIP=""，hostID=""} aom_node_cpu_usage{nodeIP="192.168.57.93",hostID="ca76b63f-dbf8-4b60-9c71-7b9f13f5ad61"} 主机应用请求吞吐量 {aomApplicationID="",aomApplicationName=""} http_requests_throughput{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机应用请求成功率 {aomApplicationID="",aomApplicationName=""} http_requests_success_rate{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机组件CPU使用率 {appName="",serviceID="",clusterId=""} aom_process_cpu_usage{appName="icagent",serviceID="2d29673a69cd82fabe345be5f0f7dc5f",clusterId="00000000-0000-0000-0000-00000000"} 主机进程线程数 {processCmd="",processName=""} aom_process_thread_count{processCmd="cdbc06c2c05b58d598e9430fa133aff7_b14ee84c-2b78-4f71-9ecc-2d06e053172c_ca4d29a846e9ad46a187ade88048825e",processName="icwatchdog"} 集群磁盘使用率 {clusterId="",clusterName=""} aom_cluster_disk_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群虚拟内存使用率 {clusterId="",clusterName=""} aom_cluster_virtual_memory_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群可用虚拟内存 {clusterId="",clusterName=""} aom_cluster_virtual_memory_free_megabytes{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 工作负载文件系统使用率 {appName="",serviceID="",clusterId="",nameSpace=""} aom_container_filesystem_usage{appName="icagent",serviceID="cfebc2222b1ce1e29ad827628325400e",clusterId="af3cc895-bc5b-11ec-a642-0255ac101a0b",nameSpace="kube-system"} POD内核占用 {podID="",podName=""} aom_container_cpu_used_core{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""} aom_container_network_transmit_bytes{containerID="16bf66e9b62c08493ef58ff2b7056aae5d41496d5a2e4bac908c268518eb2cbc",containerName="coredns"}

应用运维管理 AOM 配置AOM告警规则
应用运维管理 AOM-普罗语句说明:普罗语句查询举例说明

普罗语句查询举例说明示例一：集群下指定pod占所在节点（不含控制节点）的内存使用率定义变量： pod中容器内存实际占用量（同一个Pod下可能会有多个容器/实例）：aom_container_memory_used_megabytes node内存实际总量：aom_node_memory_total_megabytes 查询逻辑：针对指标aom_container_memory_used_megabytes，使用聚合函数sum，按照nodeIP和podID进行指定node下指定pod当前的内存实际占用量计算。针对指标aom_node_memory_total_megabytes，使用聚合函数sum，按照nodeIP计算出指定node的内存总量。两者均采用(by nodeIP)进行过滤，以使获得的指标值具有相同的指标维度。（仅value不同）将上述两者获得的指标值进行“/”运算，即可获得pod的内存实际使用率。 pod的内存实际使用率的普罗语句如下所示： sum(aom_container_memory_used_megabytes{podID="2261xxxxxxxxfc1213",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例二：集群下指定pod占所在节点（不含控制节点）的cpu使用率定义变量： pod中容器的cpu实际使用量：aom_container_cpu_used_core node的cpu实际总量：aom_node_cpu_limit_core 查询逻辑：针对指标aom_container_cpu_used_core，使用聚合函数sum，按照nodeIP和podID计算指定node下指定pod当前使用的cpu使用率。针对指标aom_node_cpu_limit_core，使用聚合函数sum，按照nodeIP计算出指定node的cpu总量。两者均采用(by nodeIP)进行过滤，以使获得的指标值具有相同的指标维度。（仅value不同）将上述两者获得的指标值进行“/”运算，即可获得pod的内存实际使用率。 pod的cpu实际使用率的promQL如下所示： sum(aom_container_cpu_used_core{nodeIP="192.xx.xx.xx ",podID="3361xxxxxxxxab1613"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例三：集群下运行的Pod内存配额申请值 / 集群下该Pod所在节点的内存可分配量定义变量： pod中给容器分配的内存总量：aom_container_memory_request_megabytes node内存实际总量：aom_node_memory_total_megabytes 查询逻辑：针对指标aom_container_memory_request_megabytes，使用聚合函数sum，按照nodeIP和podID计算指定node下指定pod当前被分配的内存总量。针对指标aom_node_memory_total_megabytes，使用聚合函数sum，按照nodeIP计算出指定node的内存总量。两者均采用(by nodeIP)进行过滤，以使获得的指标值具有相同的指标维度。（仅value不同）将上述两者获得的指标值进行“/”运算，即可获得pod的内存实际分配率。 pod的内存实际分配率的promQL如下所示： sum(aom_container_memory_request_megabytes{podID="2363xxxxxxxxab1315",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例四：集群下运行的Pod的cpu配额申请值 / 集群下该Pod所在节点的cpu可分配量定义变量： pod中容器的cpu实际分配总量：aom_container_cpu_limit_core node的cpu实际分配总量：aom_node_cpu_limit_core 查询逻辑：针对指标aom_container_cpu_limit_core，使用聚合函数sum，按照nodeIP和podID计算指定node下指定pod当前使用的cpu分配量。针对指标aom_node_cpu_limit_core，使用聚合函数sum，按照nodeIP计算出指定node的cpu总量。两者均采用(by nodeIP)进行过滤，以使获得的指标值具有相同的指标维度。（仅value不同）将上述两者获得的指标值进行“/”运算，即可获得pod的cpu实际分配率。 pod的cpu实际分配率的promQL如下所示： sum(aom_container_cpu_limit_core{podID="5663xxxxxxxxcd3265",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="192.xx.xx.xx"}) by (nodeIP)

应用运维管理 AOM 配置AOM告警规则
应用运维管理 AOM-创建AOM指标告警规则:约束与限制

约束与限制当指标告警规则的状态（正常、超限阈值、生效中、停用中）发生变化时，如需使用企业微信、钉钉、飞书、语音、welink、邮件或短信等方式发送通知，请参考创建 AOM 告警通知规则设置告警通知规则。按全量指标和按Prometheus命令创建指标告警规则时支持秒级监控，指标告警的时效性取决于指标上报周期、规则检查频率及通知发送耗时。系统支持创建的指标告警规则、事件告警规则、应用性能监控告警规则总计不能超过3000条。使用智能告警功能创建指标告警规则时，需要注意以下约束与限制：智能告警功能当前仅在部分区域受限开放，如有需求可以通过提交工单，为您开放此功能。使用智能告警监控新接入的指标时，指标的数据量不足时没有结果，需要采集足够的数据量才会有结果。使用智能告警功能创建指标告警规则时，如果1个指标中有多条资源时间线，智能告警功能只会对指标最多的5条资源时间线生效。同一个租户在多个区域使用智能告警功能创建多个指标告警规则时，所有告警规则中监控的指标总数最多为30个，并且智能告警功能最多支持检测150条资源时间线。使用智能告警功能创建指标告警规则时，如果用户的指标名称过长或指标标签数量过多，会导致智能告警上报的指标入库失败，对智能告警产生影响。

应用运维管理 AOM 配置AOM告警规则
应用运维管理 AOM-标签和标注:告警规则标签说明

告警规则标签说明告警规则标签可应用于告警降噪模块的分组规则、抑制规则和静默规则，告警管理系统根据标签属性进行告警管理和通知。告警规则标签为key:value键值对格式，支持用户自定义。您最多可创建20个自定义标签。key和value只能包含中文、字母、数字和下划线。如果在创建告警规则时设置了告警规则标签，触发的告警会自动添加该标签为告警属性。消息模板中通过$event.metadata.key1变量获取告警标签信息，具体请参见消息模板变量说明。如您的组织已经设定AOM服务的相关标签策略，则需按照标签策略规则添加告警标签。标签如果不符合标签策略的规则，则可能会导致添加标签失败，请联系组织管理员了解标签策略详情。

应用运维管理 AOM 配置AOM告警规则
应用运维管理 AOM-创建CES一键告警:约束与限制

约束与限制仅开通了云监控 CES融合功能才支持“一键告警”功能。当前云监控 CES 融合功能受限开放，如有需求可以通过提交工单，为您开放此功能。如果需要在AOM控制台中使用云监控CES的功能，需要提前获取CES的相关权限，详情请参见CES权限管理。 AOM 2.0融合CES相关功能后，会向AOM FullAccess策略中添加“CES:*:*”，“ecs:instance:list”，“dms:instance:list”，“dms:instance:get”，“lts:topics:list”，“lts:groups:list”，“smn:topic:list”，“smn:topic:publish”，“swr:repository:*”，“swr:repo:*”，“vpc:bandwidths:get”，“as:groups:get”，“astrocanvas:*:*”细粒度权限，若您之前通过AOM FullAccess策略对租户下子用户进行了权限控制，那么AOM FullAccess策略增加上述权限后，子用户也会展示上述云服务资源，您若仍有子用户云服务资源控制诉求，则您可自行进行自定义的子用户权限配置，从而达成子用户云服务资源展示控制效果。

应用运维管理 AOM 配置AOM告警规则

配置AOM告警规则

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！