云服务器内容精选

  • 常用的普罗命令 常用的查询指标的普罗命令如表1所示,用户可根据实际修改其中的IP地址、ID等参数信息。 表1 常用的普罗命令 指标 标签定义 PromQL 主机CPU使用率 {nodeIP="",hostID=""} aom_node_cpu_usage{nodeIP="192.168.57.93",hostID="ca76b63f-dbf8-4b60-9c71-7b9f13f5ad61"} 主机应用请求吞吐量 {aomApplicationID="",aomApplicationName=""} http_requests_throughput{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机应用请求成功率 {aomApplicationID="",aomApplicationName=""} http_requests_success_rate{aomApplicationID="06dc9f3b0d8cb867453ecd273416ce2a",aomApplicationName="root"} 主机组件CPU使用率 {appName="",serviceID="",clusterId=""} aom_process_cpu_usage{appName="icagent",serviceID="2d29673a69cd82fabe345be5f0f7dc5f",clusterId="00000000-0000-0000-0000-00000000"} 主机进程线程数 {processCmd="",processName=""} aom_process_thread_count{processCmd="cdbc06c2c05b58d598e9430fa133aff7_b14ee84c-2b78-4f71-9ecc-2d06e053172c_ca4d29a846e9ad46a187ade88048825e",processName="icwatchdog"} 集群磁盘使用率 {clusterId="",clusterName=""} aom_cluster_disk_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群虚拟内存使用率 {clusterId="",clusterName=""} aom_cluster_virtual_memory_usage{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 集群可用虚拟内存 {clusterId="",clusterName=""} aom_cluster_virtual_memory_free_megabytes{clusterId="4ba8008c-b93c-11ec-894a-0255ac101afc",clusterName="aom-test"} 工作负载文件系统使用率 {appName="",serviceID="",clusterId="",nameSpace=""} aom_container_filesystem_usage{appName="icagent",serviceID="cfebc2222b1ce1e29ad827628325400e",clusterId="af3cc895-bc5b-11ec-a642-0255ac101a0b",nameSpace="kube-system"} POD内核占用 {podID="",podName=""} aom_container_cpu_used_core{podID="573663db-4f09-4f30-a432-7f11bdb8fb2e",podName="icagent-bkm6q"} 容器上行Bps {containerID="",containerName=""} aom_container_network_transmit_bytes{containerID="16bf66e9b62c08493ef58ff2b7056aae5d41496d5a2e4bac908c268518eb2cbc",containerName="coredns"}
  • 普罗语句查询举例说明 示例一:集群下指定pod占所在节点(不含控制节点)的内存使用率 定义变量: pod中容器内存实际占用量(同一个Pod下可能会有多个容器/实例):aom_container_memory_used_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_used_megabytes,使用聚合函数sum,按照nodeIP和podID进行指定node下指定pod当前的内存实际占用量计算。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的内存实际使用率的普罗语句如下所示: sum(aom_container_memory_used_megabytes{podID="2261xxxxxxxxfc1213",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例二:集群下指定pod占所在节点(不含控制节点)的cpu使用率 定义变量: pod中容器的cpu实际使用量:aom_container_cpu_used_core node的cpu实际总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_used_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu使用率。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际使用率。 pod的cpu实际使用率的promQL如下所示: sum(aom_container_cpu_used_core{nodeIP="192.xx.xx.xx ",podID="3361xxxxxxxxab1613"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例三:集群下运行的Pod内存配额申请值 / 集群下该Pod所在节点的内存可分配量 定义变量: pod中给容器分配的内存总量:aom_container_memory_request_megabytes node内存实际总量:aom_node_memory_total_megabytes 查询逻辑: 针对指标aom_container_memory_request_megabytes,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前被分配的内存总量。 针对指标aom_node_memory_total_megabytes,使用聚合函数sum,按照nodeIP计算出指定node的内存总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的内存实际分配率。 pod的内存实际分配率的promQL如下所示: sum(aom_container_memory_request_megabytes{podID="2363xxxxxxxxab1315",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_memory_total_megabytes{nodeIP="192.xx.xx.xx"}) by (nodeIP) 示例四:集群下运行的Pod的cpu配额申请值 / 集群下该Pod所在节点的cpu可分配量 定义变量: pod中容器的cpu实际分配总量:aom_container_cpu_limit_core node的cpu实际分配总量:aom_node_cpu_limit_core 查询逻辑: 针对指标aom_container_cpu_limit_core,使用聚合函数sum,按照nodeIP和podID计算指定node下指定pod当前使用的cpu分配量。 针对指标aom_node_cpu_limit_core,使用聚合函数sum,按照nodeIP计算出指定node的cpu总量。 两者均采用(by nodeIP)进行过滤,以使获得的指标值具有相同的指标维度。(仅value不同) 将上述两者获得的指标值进行“/”运算,即可获得pod的cpu实际分配率。 pod的cpu实际分配率的promQL如下所示: sum(aom_container_cpu_limit_core{podID="5663xxxxxxxxcd3265",nodeIP="192.xx.xx.xx"}) by (nodeIP) / sum(aom_node_cpu_limit_core{nodeIP="192.xx.xx.xx"}) by (nodeIP)
  • 查看和管理接入配置 您可以在日志接入界面对已添加的接入配置进行搜索、查看、编辑和删除。 搜索 在“日志接入”界面左侧选择需要查看接入配置的应用与组件,在右侧搜索框中输入关键词进行搜索。 查看 您可以在“日志接入”界面查看已创建的接入配置。单击“所属日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情。 编辑 在“日志接入”界面,单击“操作”列的“编辑”,可以编辑该接入配置。 删除 在“日志接入”界面,单击“操作”列的“删除”,可以删除该接入配置。或勾选接入配置名称,进行批量删除。 删除接入配置或删除映射日志流不可恢复,请您谨慎操作。
  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用 APM 配置功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关。 APM配置功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
  • 云审计 支持的 AOM 操作列表 资源类型为pe的事件,其实际执行服务为AOM,但操作入口位于云容器引擎(CCE)或应用管理与运维平台(ServiceStage)。 表1 云审计服务支持的AOM操作列表 功能类别 操作名称 资源类型 事件名称 全局配置 添加AccessCode icmgr icmgrAddAccessCode 删除AccessCode icmgr icmgrDelAccessCode 应用资源管理 创建应用 application createApp 更新应用 application updateApp 删除应用 application deleteApp 创建应用(供其他服务调用) application createAomApp 修改应用的EPSID(供EPS服务调用) application updateAppEpsId 新增子应用 sub_application createSubApp 删除子应用 sub_application deleteSubApp 更新子应用 sub_application updateSubApp 创建子应用(供其他服务调用) sub_application createAomSubApp 转移子应用 sub_application transferSubApp 新增组件 component createComponent 转移组件 component transferComponent 更新组件 component updateComponent 删除组件 component deleteComponent 创建组件(供其他服务调用) component createAomComponent 创建环境 environment createEnvironment 修改环境 environment updateEnvironment 删除环境 environment deleteEnvironment 创建环境(供其他服务调用) environment createAomEnv 创建环境标签 tag createTag 更新标签 tag updateTag 删除环境标签 tag deleteTag 更新环境标签 tag updateEnvTag 新增多云账户 cloud_account addCloudAccount 修改多云账户 cloud_account updateCloudAccount 删除多云账户 cloud_account deleteCloudAccount 创建工作负载 workload createWorkload 删除工作负载 workload deleteWorkload 更新工作负载 workload updateWorkload 上报E CS 主机信息 ecs aomImportECS 资源监控 创建仪表盘 dashboard updateDashboard 删除仪表盘 dashboard deleteDashboard 更新仪表盘 dashboard updateDashboard 创建仪表盘分组 dashboard_folder addDashboardFolder 更新仪表盘分组 dashboard_folder updateDashboardFolder 删除仪表盘分组 dashboard_folder deleteDashboardFolder 创建告警规则 audit_v4_alarm_rule addAlarm 更新告警规则 audit_v4_alarm_rule updateAlarm 删除告警规则 audit_v4_alarm_rule DeleteThresholdRule 创建进程发现规则 appDiscoveryRule addAppDiscoveryRule 更新进程发现规则 appDiscoveryRule updateAppDiscoveryRule 删除进程发现规则 appDiscoveryRule delAppDiscoveryRule 创建数据订阅规则 apminventory createSubscribeRule 验证dms连通性 apminventory verifyConnect 删除数据订阅规则 apminventory deleteSubscribeRule 新增告警模板 audit_v4_alarm_rule addAlarmRuleTemplate 修改告警模板 audit_v4_alarm_rule modAlarmRuleTemplate 删除告警模板 audit_v4_alarm_rule delAlarmRuleTemplate 新增分组规则 groupRule addGroupRule 修改分组规则 groupRule updateGroupRule 删除分组规则 groupRule delGroupRule 新增抑制规则 inhibitRule addInhibitRule 修改抑制规则 inhibitRule updateInhibitRule 删除抑制规则 inhibitRule delInhibitRule 新增静默规则 muteRule addMuteRule 修改静默规则 muteRule updateMuteRule 删除静默规则 muteRule delMuteRule 新增告警通知规则 actionRule addActionRule 修改告警通知规则 actionRule updateActionRule 删除告警通知规则 actionRule delActionRule 新增消息模板 notificationTemplate addNotificationTemplate 修改消息模板 notificationTemplate updateTemplate 删除消息模板 notificationTemplate delTemplate 自动化运维 开通自动化运维服务 function functionRegister 更新用户信息 function functionRegister 更新任务定时触发器 workflow operateCronTriggerFlow 创建任务 workflow createWorkflow 更新任务 workflow updateWorkflow 执行任务 execution execute 终止任务 execution terminateWorkflow 删除任务 workflow deleteWorkflow 创建作业执行方案 template createTemplate 发布作业执行方案 template publishTemplate 删除作业执行方案 template deleteTemplate 创建账号 account createAccount 更新账号 account updateAccount 删除账号 account deleteAccount 创建全局参数 param createParams 删除全局参数 param deleteParams 创建文件 package createPack 更新文件 package updateBasicPack 删除文件 package deletePack 创建作业 job createJob 更新作业 job updateJob 删除作业 job deleteJobByJobId 创建审批 approve createApprove 保存审批 approve saveApprove 创建脚本版本 script createScriptAndVersion 更新脚本版本 script updateVersionByVersionId 删除脚本版本 script deleteVersionByVersionId 上线服务场景 serviceScenario onboardToolMarketTenantInfo 收藏服务场景 serviceScenario serviceScenarioFavorites 更新脚本 script updateScript 执行脚本 ecs runScript
  • 创建委托apm_admin_trust 登录 IAM 控制台。 在左侧导航栏,单击“委托”,进入委托页面。 单击右上角“创建委托”,进入创建委托页面。 参考表5设置创建委托的参数。 表5 创建委托 名称 说明 样例 委托名称 标识该委托代理的名称。委托名称必须为apm_admin_trust。 - 委托类型 选择“云服务”。 云服务 云服务 请选择“ 应用运维管理 AOM”。 - 持续时间 选择“永久”。 永久 描述 可选参数,用于补充说明该委托代理的详细信息。 - 单击“完成”,在授权的确认弹窗中,单击“立即授权”,进入“授权”页面。 在“选择策略”页签选择“DMS UserAccess”策略,并单击“下一步”。 DMS UserAccess策略:分布式消息服务普通用户权限(无实例创建、修改、删除、扩容、转储)。 在“设置最小授权范围”页签设置授权范围方案为“指定区域项目资源”,并在下方“项目[所属区域]”选定生效区域。 单击“确定”,委托关系创建成功。
  • 数据订阅格式说明 AOM格式的指标JSON格式代码片段 package metric type MetricDatas struct { Metrics []Metrics `json:"metrics"` ProjectId string `json:"project_id"` } type Metrics struct { Metric Metric `json:"metric"` Values []Value `json:"values"` CollectTime int64 `json:"collect_time"` } type Metric struct { Namespace string `json:"namespace"` Dimensions []Dimension `json:"dimensions"` } type Value struct { Value interface{} `json:"value"` Type string `json:"type"` Unit string `json:"unit"` StatisticValues string `json:"statisticvalues"` MetricName string `json:"metric_name"` } type Dimension struct { Name string `json:"name"` Value string `json:"value"` } Kafka消息示例 key:, value:{"metrics":[{"metric":{"namespace":"PAAS.NODE","dimensions":[{"name":"nodeName","value":"test-aom-4-vss-cop-master-1"},{"name":"nodeIP","value":"1.1.1.1"},{"name":"hostID","value":"75d97111-4734-4c6c-ae9e-f6111111111"},{"name":"nameSpace","value":"default"},{"name":"clusterId","value":"46a7bc0d-1d8b-11ea-9b04-333333333333333"},{"name":"clusterName","value":"test-aom-4-vss-111"},{"name":"diskDevice","value":"vda"},{"name":"master","value":"true"}]},"values":[{"value":0,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskReadRate"},{"value":30.267,"type":"","unit":"Kilobytes/Second","statisticvalues":"","metric_name":"diskWriteRate"}],"collect_time":1597821030037}],"project_id":"111111111111111111111"} 告警数据格式说明 示例: { "events": [{ "id": "4346299651651991683", "starts_at": 1597822250194, "ends_at": 0, "arrives_at": 1597822250194, "timeout": 300000, "resource_group_id": "312313123112222222222232131312131", "metadata": { "kind": "Pod", "event_severity": "Major", "resource_type": "service", "clusterId": "6add4ef5-1358-11ea-a5bf-111111111", "event_type": "alarm", "clusterName": "cce-ief-4516140c-96ca-4a5f-8d85-1111111", "namespace": "PAAS.NODE", "name": "test15769793809553052-f5557bd7f-qnfkm", "event_name": "调度失败##FailedScheduling", "resource_id": "clusterName=cce-ief-4516140c-96ca-4a5f-8d85-111111;clusterID=6add4ef5-1358-11ea-a5bf-11111111111;kind=Pod;namespace=30d5758f166947c6b164af604a654b09;name=test15769793809553052-f5557bd7f-qnfkm;uid=589fc746-245d-11ea-a465-fa163e5fc15d", "nameSpace": "30d5758f166947c6b164af604a654b09", "resource_provider": "CCE", "nodeID": "589fc746-245d-11ea-a465-fa163e5fc15d" }, "annotations": { "alarm_probableCause_zh_cn": "FailedScheduling", "alarm_probableCause_en_us": "FailedScheduling", "message": "0/110 nodes are available: 1 node(s) had taints that the pod didn't tolerate, 109 node(s) didn't match node selector." }, "attach_rule": { } }], "project_id": "312313123112222222222232131312131" } 参数说明: 表3 告警参数 参数 参数类型 描述 events Array of objects,详见 表4。 事件或者告警详情。 project_id String 租户从IAM申请到的projectid,一般为32位字符串。 表4 EventModel 参数 参数类型 描述 id String 事件或者告警id,系统自动生成。 starts_at Long 事件或者告警产生的时间,UTC毫秒级时间戳。 ends_at Long 事件或者告警清除的时间,UTC毫秒级时间戳,为0时表示未删除。 arrives_at Long 事件或者告警到达AOM的时间,UTC毫秒级时间戳。 timeout Long 告警自动清除时间。毫秒数,例如一分钟则填写为60000。默认清除时间为5天。 resource_group_id String 资源组预留字段,当前默认和projectid的值一样。 metadata Object 事件或者告警的详细信息,为键值对形式。必须字段为: event_name:事件或者告警名称,类型为String。 event_severity:事件级别枚举值。类型为String,四种类型:“Critical”,“Major”,“Minor”,“Info”。 event_type:事件类别枚举值。类型为String,event为普通告警,alarm为告警事件。 resource_provider:事件对应云服务名称。类型为String。 resource_type:事件对应资源类型。类型为String。 resource_id:事件对应资源信息。类型为String。 annotations Object 事件或者告警附加字段,可以为空。 attach_rule Object 事件或者告警预留字段,为空。
  • 基础指标:CSE指标 介绍CSE服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 http http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 subscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 serviceCount Nacos naming 域名 个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 instance jvm_memory_max_bytes jvm已使用内存大小 内存最大字节,包含各种内存区。 ≥0 字节(b) jvm_memory_used_bytes jvm已使用内存大小 内存使用字节,包含各种内存区。 ≥0 字节(b) up 实例运行状态 Nacos实例是否处于运行状态。 1:运行中 0:非运行中 0、1 无 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
  • AOM控制台功能依赖的角色或策略 如果IAM用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 Prometheus for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限和CCE命名空间权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。 日志管理 日志转储 日志加工 日志接入规则 主机组管理 日志告警规则 云日志服务LTS 如果使用日志管理、日志转储、日志加工、日志接入规则、主机组管理、日志告警规则功能,需要设置LTS FullAccess权限。如需了解具体细粒度策略权限,请参见LTS权限管理。 企业项目 企业项目管理 EPS 如果使用企业项目功能需要设置EPS ReadOnlyAccess权限。如需了解具体细粒度策略权限,请参见企业项目管理权限说明。
  • 细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入 统一身份认证 (IAM)服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 无 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警通知规则 新增告警通知规则 aom:actionRule:delete 删除告警通知规则 删除告警通知规则 aom:actionRule:list 获取告警通知规则列表 获取告警通知规则列表 aom:actionRule:update 修改告警通知规则 修改告警通知规则 aom:actionRule:get 通过规则名称获取告警通知规则 通过规则名称获取告警通知规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
  • 采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
  • 自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
  • 应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
  • 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警通知规则 √ x 修改告警通知规则 √ x 删除告警通知规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
  • AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对ECS服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE FullAccess、DMS ReadOnlyAccess、CCE命名空间权限、LTS FullAccess、 CES FullAccess 其中CCE命名空间权限需授予用户或用户组全部命名空间的管理员权限(cluster-admin)或自定义权限。如果是自定义权限,需至少包含get、list、update操作权限,并指定configmaps、prometheuses、servicemonitors、podmonitors、namespaces资源。配置详情请参考:CCE命名空间权限。 AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess、CCE命名空间权限、LTS ReadOnlyAccess、CES ReadOnlyAccess 其中CCE命名空间权限需授予用户或用户组全部命名空间的管理员权限(cluster-admin)或自定义权限。如果是自定义权限,需至少包含get、list操作权限,并指定configmaps、prometheuses、servicemonitors、podmonitors、namespaces资源。配置详情请参考:CCE命名空间权限。 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略