-
基础指标:
CS E指标 介绍CSE服务上报到
AOM 的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 http http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 subscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 serviceCount Nacos naming
域名 个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 instance jvm_memory_max_bytes jvm已使用内存大小 内存最大字节,包含各种内存区。 ≥0 字节(b) jvm_memory_used_bytes jvm已使用内存大小 内存使用字节,包含各种内存区。 ≥0 字节(b) up 实例运行状态 Nacos实例是否处于运行状态。 1:运行中 0:非运行中 0、1 无 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
-
AOM控制台功能依赖的角色或策略 如果
IAM 用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 Prometheus for CCE 云容器引擎 CCE 如果使用Prometheus for CCE、工作负载监控和集群监控,需要设置CCE FullAccess权限和CCE命名空间权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。 日志管理 日志转储 日志加工 日志接入规则 主机组管理 日志告警规则
云日志服务LTS 如果使用日志管理、日志转储、日志加工、日志接入规则、主机组管理、日志告警规则功能,需要设置LTS FullAccess权限。如需了解具体细粒度策略权限,请参见LTS权限管理。 企业项目 企业项目管理 EPS 如果使用企业项目功能需要设置EPS ReadOnlyAccess权限。如需了解具体细粒度策略权限,请参见企业项目管理权限说明。
-
细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入
统一身份认证 (IAM)服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 无 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警通知规则 新增告警通知规则 aom:actionRule:delete 删除告警通知规则 删除告警通知规则 aom:actionRule:list 获取告警通知规则列表 获取告警通知规则列表 aom:actionRule:update 修改告警通知规则 修改告警通知规则 aom:actionRule:get 通过规则名称获取告警通知规则 通过规则名称获取告警通知规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
-
采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
-
自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
-
资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警通知规则 √ x 修改告警通知规则 √ x 删除告警通知规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
-
应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
-
AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对ECS服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE FullAccess、DMS ReadOnlyAccess、CCE命名空间权限、LTS FullAccess、
CES FullAccess 其中CCE命名空间权限需授予用户或用户组全部命名空间的管理员权限(cluster-admin)或自定义权限。如果是自定义权限,需至少包含get、list、update操作权限,并指定configmaps、prometheuses、servicemonitors、podmonitors、namespaces资源。配置详情请参考:CCE命名空间权限。 AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess、CCE命名空间权限、LTS ReadOnlyAccess、CES ReadOnlyAccess 其中CCE命名空间权限需授予用户或用户组全部命名空间的管理员权限(cluster-admin)或自定义权限。如果是自定义权限,需至少包含get、list操作权限,并指定configmaps、prometheuses、servicemonitors、podmonitors、namespaces资源。配置详情请参考:CCE命名空间权限。 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略
-
与AOM 1.0对比 AOM 2.0基于AOM 1.0原有功能,结合用户常用的应用监控,增加了多种指标和日志数据的采集与监控,并对监控结果可视化呈现。同时,通过自动化运维功能将日常运维操作服务化、自动化,减少运维人员重复性操作。 本章节主要对比AOM 2.0与AOM 1.0版本的功能特性。 表1 AOM 2.0与AOM 1.0版本的功能特性对比 功能项 功能项说明 AOM 1.0 AOM 2.0 应用资源管理 资源检索 提供应用、主机等资源的检索功能,支持通过ID、关键字、名称等方式快速检索资源。 不支持 支持 应用管理 管理云服务对象与应用之间的关系,遵循“应用 + 子应用(可选)+ 组件 + 环境”的应用管理模型。 资源管理 全局查看所有的云服务资源对象与应用的关联关系,便于用户对资源进行分析和管理。 环境标签 为已创建的应用环境添加标签,便于用户快速过滤和查找相同属性的应用环境。 资源监控 接入中心 快速接入需要监控的业务层、应用层、中间件层、基础设施层指标。 不支持 支持 仪表盘 将不同图表展示到同一个屏幕上,通过多种图表形式展示资源的指标、日志和性能数据。 部分支持 只支持指标数据和系统性能数据的可视化监控,不支持日志数据的监控。 支持 告警管理 对服务设置事件条件或者对资源的指标设置阈值条件,当AOM自身或外部服务存在异常或可能存在异常而产生告警时,将告警信息以邮件、短信、企业微信等方式发送给指定的人员。 部分支持 只支持按指标类型和Prometheus命令创建指标告警规则,不支持按全量指标创建。 支持 应用洞察 基于CMDB模型,从应用、组件到环境对资源健康状态分层监控。 部分支持 不支持基于CMDB模型,对指标数据分层监控。 支持 容器洞察 从工作负载和集群2个维度监控CCE的资源使用、状态和告警等信息,以便快速响应,保证工作负载顺畅运行。 支持 支持 指标浏览 实时监控日志数据和各资源的指标数据及趋势,还可对关注的指标进行创建告警规则等操作,以便实时查看业务及分析数据关联分析。 部分支持 只支持监控分析指标数据,不支持监控分析日志数据。 支持 基础设施监控 实时监控主机和云服务运行状态和虚机CPU、内存、磁盘等信息。 支持 支持 Prometheus监控 全面对接开源Prometheus生态,支持类型丰富的组件监控,可灵活扩展云原生组件指标插件。 不支持 支持 业务监控 将ELB上报到LTS的日志数据提取为指标来统一管理,便于后续在指标浏览、仪表盘界面实时监控。 不支持 支持
日志分析 通过日志接入和日志搜索功能帮您快速在海量日志中查询到所需的日志,还可通过分析日志的来源信息和上下文原始数据快速定位问题。 支持 支持 进程监控 通过配置应用发现规则发现和收集主机上部署的应用和关联的指标,并支持从应用下钻到组件,从组件下钻到实例,从实例下钻到容器。通过各层状态,完成对应用或组件的立体监控。 支持 支持 数据订阅 支持用户订阅指标或者告警信息,订阅后可以将数据转发到用户配置的kafka或DMS的Topic中,供消费者消费转发的订阅的信息。 支持 支持 采集管理 通过UniAgent调度采集任务对数据进行采集。 不支持 支持 自动化运维 服务场景 提供不同任务类型,并且可以对各原子服务场景卡片进行管理。 不支持 支持 定时运维 提供创建定时任务等功能,并展示定时任务的执行记录。 任务管理 提供执行任务等功能,并展示所有任务的执行记录。 参数库 提供创建参数等功能,并展示现有所有参数信息。 作业管理 提供创建作业等功能,并支持对作业进行管理。 脚本管理 提供创建脚本等功能,并支持对脚本进行版本管理。 文件管理 提供创建文件包等功能,并支持对文件包进行版本管理。 随着AOM 1.0相关功能逐步被AOM 2.0全面取代,AOM 1.0后续会逐步下线,建议用户将AOM 1.0升级到AOM 2.0版本,升级的相关操作请参见升级AOM。
-
其他相关操作 在操作日志页面中,您可以对历史任务进行如下相关操作,具体的操作有: 表1 相关操作 操作 说明 刷新任务列表 单击任务列表右上角的按钮,可刷新列表信息。 查看任务信息 单击任务ID,可以查看该任务的具体信息,包括主机名、IP名、插件类型、任务类型、执行状态、执行失败的原因、执行事件、执行耗时和查看操作日志。 过滤任务信息 在任务列表的表头,单击各列的,可按特定类型过滤显示任务的信息。 切换任务排序 在任务列表的表头,单击各列的,可切换任务的排序,为正序排序,为倒序排序。
-
其他相关操作 对于已创建的主机组可以对其进行修改,也可以对主机组进行添加主机、移除主机或者关联接入配置等操作,具体操作如下: 表4 操作列表 操作 具体步骤 修改主机组 在主机组列表中,单击待修改的主机组所在行“操作”列的。 在弹出的修改主机组页面,修改主机组名称、自定义标识、备注等信息。 单击“确定”,完成主机组修改。 添加主机 在主机组列表,单击待修改的主机组类型为IP的主机组所在行前的。 在主机页签,单击“添加主机”。 在弹出的添加主机页面,主机列表中显示该主机组所选主机类型下所有未选主机,选择需要加入该主机组的主机,详情请参见添加主机。 可以通过服务器名称、服务器ID或私有IP对列表进行过滤,也可以单击,并在弹出的搜索框中输入多个主机IP,进行批量搜索。 当列表中没有所需主机时,单击“安装Uniagent”,在弹出的页面安装指引完成Uniagent安装,具体操作可参见安装UniAgent。 单击“确定”。 自定义标识主机组下的主机不支持该操作。如需为自定义标识主机组添加主机,可参考为自定义标识主机组添加主机。 移除主机 在主机组列表,单击待修改的主机组类型为IP的主机组所在行前的。 在主机页签,单击待移除主机所在行“操作”列的“移除”。 在弹出的移除主机页面,单击“确定”,将该主机移除。 自定义标识主机组下的主机不支持该操作。 批量移除主机 在主机组列表,单击待修改的主机组所在行前的。 在主机页签,勾选待移除的主机,单击“批量移除”。 单击“确定”。 自定义标识主机组下的主机不支持该操作。 查看相关日志接入规则 在主机组列表,单击待修改的主机组所在行前的。 选择“相关日志接入规则”页签,查看该主机组配置的日志接入规则。 为主机组配置日志接入规则,详情请参见接入管理。 查看相关指标接入规则 在主机组列表,单击待修改的主机组所在行前的。 选择“相关指标接入规则”页签,查看该主机组配置的指标接入规则。 为主机组配置指标接入规则,详情请参见接入管理。 新增关联配置 在主机组列表,单击待修改的主机组所在行前的。 选择“相关日志接入规则”页签,单击“新增关联配置”。 在弹出的新增关联配置页面,勾选需要关联的接入配置。 单击“确定”,配置完成后会将所选的接入配置显示在列表中。 解除关联 在“相关日志接入规则”页签,单击待解除配置所在行“操作”列的“解除关联”。 单击“确定”,解除该主机组与该接入配置的关联。 批量解除关联 在“相关日志接入规则”页签,勾选待解除的配置,单击“批量解除关联”。 单击“确定”,解除该主机组与所勾选的接入配置的关联。 复制主机组信息 鼠标悬浮在主机组名称上,支持复制主机组ID。 删除主机组 在主机组列表,单击待删除的主机组所在行“操作”列的。 在弹出的删除主机组页面,单击“确定”,删除该主机组。 批量删除主机组 在主机组列表,勾选待删除的主机组,单击列表左上方“批量删除”。 在弹出的删除主机组页面,单击“确定”,删除所勾选的主机组。 标签管理 按照业务需求对不同的主机组添加对应的标签。 在主机组列表,单击待添加标签的主机组“操作”列的。 在弹出的编辑标签页面,分别填写标签键key和标签值value。 标签管理需注意以下事项: 如需添加多个标签可重复该步骤。 如需删除标签,在主机组列表可单击“操作”列的,进入编辑标签页面,再单击待删除标签“操作”列的。 标签键长度不能超过128个字符;标签值长度不能超过255个字符。 标签键名称不可重复。
-
查看和管理接入配置 您可以在日志接入界面对已添加的接入配置进行搜索、查看、编辑和删除。 搜索 在“日志接入”界面左侧选择需要查看接入配置的应用与组件,在右侧搜索框中输入关键词进行搜索。 查看 您可以在“日志接入”界面查看已创建的接入配置。单击“所属日志组”列的日志组名称,可以跳转到LTS控制台的日志组详情。 编辑 在“日志接入”界面,单击“操作”列的“编辑”,可以编辑该接入配置。 删除 在“日志接入”界面,单击“操作”列的“删除”,可以删除该接入配置。或勾选接入配置名称,进行批量删除。 删除接入配置或删除映射日志流不可恢复,请您谨慎操作。
-
时间范围和统计周期的关系说明(适用新版仪表盘) AOM约束单个指标单次查询最大返回1440个数据点,因此统计周期与时间范围的关系如下所示: 最大可查询时间范围=统计周期×1440 当您选中的查询时间范围小于等于最大可查询时间范围时,所有满足以上条件的统计周期可以被选择。例如,查询1小时的指标时,可选的统计周期为1分钟和5分钟。 以“仪表盘”页面为例,时间范围与统计周期的关系如下表所示。 表6 时间范围和统计周期关系表(新版) 类型 时间范围 统计周期 相对时间 1分钟 1分钟、5分钟 5分钟 15分钟 30分钟 1小时 4小时 1分钟、5分钟、15分钟、1小时 1天 今天 1周 1小时 本周 30天 本月 自定义(相对) 1分钟、5分钟、15分钟、1小时 整点时间 1分钟 1分钟、5分钟 15分钟 30分钟 1小时 4小时 1分钟、5分钟、15分钟、1小时 1天 1周 1小时 30天 今天 1分钟、5分钟、15分钟、1小时 昨天 前天 本周 1小时 上周 本月 上月 自定义(整点时间) 1分钟、5分钟、15分钟、1小时 自定义 自定义时间段 1分钟、5分钟、15分钟、1小时
-
更多仪表盘操作 仪表盘创建完成后,您还可以执行表4中的操作。 表4 相关操作 操作 说明 设置列表项 在仪表盘列表右上角单击,在“设置”弹框中对列表进行自定义设置。 基础设置 表格内容折行:启用此能力可让表格内容自动折行,禁用此功能可截断文本。 操作列:启用此能力可让操作列固定在最后一列永久可见。 自定义显示列:通过选中或取消选中“自定义显示列”前的复选框,自定义可选列的展示与隐藏。 收藏仪表盘 在仪表盘列表选择一个仪表盘,单击“操作”列的“收藏”。 移动仪表盘分组 移动一个仪表盘分组: 在仪表盘列表选择一个仪表盘,单击“操作”列的“移动分组”。 在仪表盘列表单击仪表盘名称,进入对应仪表盘页面,在仪表盘页面左上角,单击仪表盘名称,将光标移至待操作的仪表盘名称后的上,选择“移动分组”。 批量移动仪表盘分组:在仪表盘列表选中多个仪表盘前的复选框,单击“移动分组”按钮可批量修改仪表盘分组。 删除仪表盘 在仪表盘列表选择一个仪表盘,单击“操作”列的“删除”。 在仪表盘列表单击仪表盘名称,进入对应仪表盘页面,在仪表盘页面左上角,单击仪表盘名称,将光标移至待操作的仪表盘名称后的上,选择“删除”。 在仪表盘列表单击仪表盘名称,进入对应仪表盘页面,单击页面右上角,在“删除仪表盘”弹框中单击“确定”。 修改仪表盘分组名称 在仪表盘列表单击仪表盘名称,进入对应仪表盘页面。 在仪表盘页面左上角单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后的上,选择“编辑”可修改分组名称。 删除仪表盘分组 删除仪表盘分组功能有两种入口方式: 入口方式一: 在仪表盘列表单击仪表盘名称,进入对应仪表盘页面。 在仪表盘页面左上角单击仪表盘名称。 将光标移至待操作的仪表盘分组名称后的上,选择“删除”。 在弹出框中单击“确定”,删除仪表盘分组。 入口方式二:在仪表盘分组列表中,将光标移至需要删除的仪表盘分组名称后的上,选择“删除”,在弹出框中单击“确定”,删除仪表盘分组。 删除仪表盘中的图表 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击。 将光标移至某个图表框右上角,单击,选择“删除图表”。 单击,将已创建的图表删除。 调整仪表盘中图表的位置 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击。 将光标移至待操作的图表框内,选中该图表,可将该图表移动至仪表盘内任意位置。 单击,即可调整当前图表布局。 全屏显示 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击,可全屏显示仪表盘。 退出全屏显示 将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。 手动刷新 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击可手动刷新当前页面。 自动刷新 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击后的下拉箭头,选择刷新方式或刷新频率,包括:手动刷新、5秒自动刷新、10秒自动刷新、30秒自动刷新、1分钟自动刷新。 手动刷新单个图表 在仪表盘列表单击待操作的仪表盘名称,将光标移至某个图表框右上角,单击,选择“刷新”,可手动刷新当前图表。 修改单个图表 在仪表盘列表单击待操作的仪表盘名称,将光标移至某一图表框右上角,单击,选择“编辑”,可修改图表数据,具体操作请参见添加图表至仪表盘。 修改完成后,单击“保存”。 在仪表盘页面右上角单击,保存修改结果。 新增告警规则 添加图表时,新增告警规则 单击页面中的“添加图表”或单击页面右上角的。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 修改图表时,新增告警规则 选择待操作的仪表盘,将光标移至某一图表框右上角,单击,选择“编辑”。 选择指标后,在指标列表右上方单击,可为当前添加的所有指标新增告警规则。具体操作请参见创建指标告警规则。 轮播仪表盘 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击。具体操作请参见设置全屏模式在线时长。 仪表盘设置 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击。具体操作请参见设置AOM仪表盘过滤器(新版)。 查询时间设置 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击,设置查询时间,包括:相对时间、整点时间、自定义。 相对时间:表示查询距离当前时间1分钟、5分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置相对时间1小时,表示查询18:20:31~19:20:31的数据。 整点时间:表示查询最近整点1分钟、15分钟等时间区间的数据。例如当前时间为19:20:31,设置整点时间1小时,表示查询18:00:00~19:00:00的数据。 自定义:表示查询指定时间范围的数据。 导出仪表盘 在仪表盘列表单击待操作的仪表盘名称,在仪表盘页面右上角单击,选择“导出仪表盘”,可将该仪表盘的指标图表数据以JSON格式导出,并保存到本地便于进一步分析。 导入仪表盘 将本地存储的JSON格式仪表盘数据导入AOM,便于在AOM上可视化分析。导入仪表盘功能有两种入口方式: 入口方式一:在仪表盘页面单击“导入仪表盘”。 入口方式二:在仪表盘分组列表中,将光标移至仪表盘分组名称后的上,选择“导入仪表盘”。 导入方法: 选择待导入的JSON格式仪表盘文件,上传或拖入“导入仪表盘”对话框的文本上传区域,然后单击“创建”。 在“新建仪表盘”对话框,依次设置仪表盘名称等信息,具体请参见新建仪表盘。 设置完成,单击“确定”。 导出监控报告 选择待操作的仪表盘,在“仪表盘”页面右上角单击,选择“导出折线图监控报告”,可将该指标的折线图表以CSV格式导出,以便进行本地存储及进一步分析。 复制仪表盘 进入待操作的系统内置仪表盘或自定义仪表盘详情页,在“仪表盘”页面右上角单击。 在“新建仪表盘”对话框,依次设置仪表盘名称等信息,具体请参见新建仪表盘。 设置完成,单击“确定”,即可复制一个系统内置仪表盘作为自定义仪表盘进行数据定制。 设置仪表盘图表分组 进入待操作的自定义仪表盘详情页,在“仪表盘”页面右上角单击,新建一个分组。 单击新建的分组旁边的,设置分组名称。 选中图表,将该图表拖动至对应的分组内。当拖动图表时,建议先单击鼠标左键选中图表,然后按住鼠标滚轮再进行拖动。 如果只建了一个分组,默认所有图表在一个分组内,如果建了多个分组,可根据实际需求将图表拖动至对应的分组内。 在仪表盘页面右上角单击,进行保存。 表5 日志图表相关操作 操作 说明 创建日志组 输入日志组名称。日志组名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 设置日志存储时间。存储时间默认为7天,可设置为1-30天内的时间节点。超出存储时间的日志将会被自动删除,您可以按需将日志数据转储至OBS桶中长期存储。 单击“确定”完成创建。 创建日志流 输入日志流名称。日志流名称只支持输入英文、数字、中文、中划线、下划线及小数点,且不能以小数点、下划线开头或以小数点结尾。 单击“确定”完成创建。
-
约束与限制 当前新版仪表盘功能受限开放,如有需求可以通过提交工单,为您开放此功能。 新版仪表盘功能的图表配置与旧版仪表盘功能的图表配置不相同。 使用旧版仪表盘编辑新版仪表盘中创建的图表时,旧版仪表盘的图表配置无法兼容新版仪表盘的图表配置。 使用新版仪表盘编辑旧版仪表盘中创建的图表时,新版仪表盘的图表配置可以兼容旧版仪表盘的图表配置。 当前“仪表盘”中通过“日志源”添加日志图表功能受限开放,如有需求可以通过提交工单,为您开放此功能。