-
响应示例 状态码:200 查询成功 {
"meta_info" : {
"current_time" : "2022-01-01T08:08:29Z"
},
"payload" : {
"item" : {
"today_jobs_info" : {
"failed_jobs" : {
"processor_jobs" : [ {
"id" : 2,
"job_type" : "DATA_DESENSITIZATION",
"data_id" : "DPK0000002",
"status" : "SUBMIT_FAILED"
} ],
"system_jobs" : [ ],
"resim_jobs" : [ {
"id" : 1,
"job_type" : "REPLAY_SIM",
"data_id" : "DPK0000001",
"status" : "SUBMIT_FAILED"
} ]
},
"total_jobs_num" : {
"processor_jobs" : 3,
"system_jobs" : 2,
"resim_jobs" : 1
}
},
"vehicle_statistics" : {
"fleet_total_num" : 5,
"vehicle_total_num" : 10,
"vehicle_fleet_info" : [ {
"fleet_name" : "myFleet1",
"vehicle_num" : 1
}, {
"fleet_name" : "myFleet2",
"vehicle_num" : 3
} ]
},
"collected_data_statistics" : {
"total_duration" : 300000,
"total_storage_size" : 2000000,
"data_statistics_in_last30_days" : [ {
"date" : "2022-01-01",
"size" : 1000
}, {
"date" : "2023-01-02",
"size" : 1000
}, {
"date" : "2023-01-22",
"size" : 1000
}, {
"date" : "2023-01-23",
"size" : 1000
} ]
}
}
}
}
-
响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 payload DataOverviewPayload object 实际返回信息 meta_info RespMetaInfo object 元数据 表5 DataOverviewPayload 参数 参数类型 描述 item DataOverview object 总览信息 表6 DataOverview 参数 参数类型 描述 today_jobs_info today_jobs_info object 今日作业信息 vehicle_statistics vehicle_statistics object 车辆统计信息 collected_data_statistics collected_data_statistics object 采集数据统计 表7 today_jobs_info 参数 参数类型 描述 failed_jobs failed_jobs object 失败作业信息 total_jobs_num total_jobs_num object 今日作业数量 表8 failed_jobs 参数 参数类型 描述 processor_jobs Array of DataTaskVo objects 算子作业 system_jobs Array of DataTaskVo objects 内部作业 resim_jobs Array of DataTaskVo objects resim作业 表9 DataTaskVo 参数 参数类型 描述 id Long 作业ID job_type String 输出类型 data_id String 数据ID status String 作业状态 表10 total_jobs_num 参数 参数类型 描述 processor_jobs Integer 算子作业数量 system_jobs Integer 内部作业数量 resim_jobs Integer resim作业数量 表11 vehicle_statistics 参数 参数类型 描述 fleet_total_num Integer 车队总数 vehicle_total_num Integer 车辆总数 vehicle_fleet_info Array of DataTypeSubtotal objects 车队信息 表12 DataTypeSubtotal 参数 参数类型 描述 fleet_name String 车队名称 vehicle_num Integer 车辆数 表13 collected_data_statistics 参数 参数类型 描述 total_duration Double 采集总时长,单位(毫秒) data_statistics_in_last_30__days Array of DataDailyDataSize objects 近30天数据量统计 total_storage_size Long 采集总数据量,单位(byte) 表14 DataDailyDataSize 参数 参数类型 描述 date String 日期,示例:2020-01-01 size Long 数据量,单位(byte) 表15 RespMetaInfo 参数 参数类型 描述 current_time String 请求时间,UTC时间格式,时间为UTC标准时间
-
基础指标:
CS E指标 介绍CSE服务上报到
AOM 的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 http http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 subscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 serviceCount Nacos naming
域名 个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 instance jvm_memory_max_bytes jvm已使用内存大小 内存最大字节,包含各种内存区。 ≥0 字节(b) jvm_memory_used_bytes jvm已使用内存大小 内存使用字节,包含各种内存区。 ≥0 字节(b) up 实例运行状态 Nacos实例是否处于运行状态。 1:运行中 0:非运行中 0、1 无 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
-
编辑项目周报 进入项目总览界面,点击【项目周报】 编辑周报 图1 周报管理 表1 周报管理 参数 说明 周报名称 必填,自定义周报名称。 是否自动发送 必选。开关打开代表自动发送,提交之后会立即发送一次,之后按照设定的频率定期发送;关闭代表手动发送,提交之后只会立即发送一次,不会定期发送。 发送频次 打开自动发送之后为必选项。包含每周和每月。 发送时间 选择发送频次后为必选项。发送频次为每周,则发送时间为周一至周天的整点;发送频次为每月,则发送时间为每月1日至31日的整点。 密件抄送人 选择或输入邮箱地址后点击发送,将会以密送的形式发送到对方邮箱。 邮件接收人 必填。您也可以下拉选择空间成员,只有已经在解决方案工作台空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件;您也可以输入邮箱,发送给指定邮箱人员。 邮件抄送人 必填。您也可以下拉选择空间成员,只有已经在解决方案工作台空间订阅了邮件的账号才能够接收到周报邮件,没有订阅则不会接收到邮件。您也可以输入邮箱,发送给指定邮箱人员。 项目背景 选填。 整体工作进展 必填。项目的整体进展。 本周工作进度 必填。总结本周工作进度。 下周工作计划 必填。输入下周计划。 问题跟踪 选填。工作进展中出现的问题处理跟踪。 工作进展 工作项的进展详情(此项为系统自动生成)。 添加自定义工作项 选填。自定义添加的工作项。 点击【发送】(打开自动发送按钮为【自动发送】,否则为【手动发送】)。 父主题: 总览
-
如何使用快捷导航? “快捷导航”模块包含了“服务搜索”和“我的导航”功能,还具有支持服务链接与自定义链接的添加功能,相比较之前,更加实用。 成功登录华为云。 选择“总览”页签,在“快捷导航”模块,进行服务搜索和添加链接操作。 服务搜索:在服务搜索框,可输入关键词搜索服务,点击服务名进行跳转。 添加服务链接:点击“”,打开“添加”窗口,在“添加云服务”处,搜索服务,点击图标“”,当图标变为“”时,完成添加。 添加自定义链接:点击“”,打开“添加”窗口,在“自定义添加”处,添加主域名是huaweicloud.com或huawei.com的链接和名称,点击“添加按钮”,完成添加。 快捷导航链接上限值50个,若需继续添加,请删除已有链接。 删除链接:点击服务后面 “”,完成删除。
-
安全合规 安全合规包含补丁扫描数量统计和账号纳管数据统计。补丁扫描支持按照区域、应用和操作系统维度查看实例合规数据、按时间段范围展示实例已扫描数量统计。 图7 安全合规 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 补丁管理 实例扫描统计 补丁管理/CMDB 租户账号下所有ECS,执行过补丁扫描和未执行过扫描的实例数量 未扫描实例=全量实例-扫描实例 区域、应用 个 实例合规性状态 补丁管理 已扫描过的实例中,合规的实例数量和不合规的实例数量 统计补丁管理中各合规性状态的实例数量 区域、应用 个 最近扫描时间 补丁管理 统计已扫描的实例,最近一次的扫描时间区间 统计已扫描的实例,最近一次的扫描时间区间 区域、应用 个 账号管理 纳管实例数量 账号管理 统计账号管理中,纳管的各云服务实例数量 统计账号管理中,纳管的各云服务实例数量 区域、应用 个 纳管率 账号管理 统计所有实例中,纳管的各云服务实例数量占比 纳管率=已纳管数量/实例总数*100% 区域、应用 百分比 纳管实例统计 账号管理 按照时间周期,呈现实例纳管的趋势情况 按照时间周期,呈现实例纳管的趋势情况 区域、应用 -
-
SLO看板 SlO看板(服务级别目标)包含SLO总体达成情况、应用维度SLO统计、ErrorBudget管理。SLO总体达成情况可查看年度和月度的总体SLO情况,评估整体的服务水平趋势。应用维度SLO支持按照时间和应用维度查看SLO情况,评估每个应用的服务水平。ErrorBuget根据应用的SLO情况计算出错误成本,用以指导变更或其他高风险操作。指标详情可查看表5。 图8 SLO看板 表5 SLO看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 SLO总体达成情况 年度SLO期望值 SLO管理 全年度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 年 百分比 年度SLO实际值 SLO管理 全年度应用实际达成的SLO情况 年度SLO实际值=1-(年度应用不可用时长/全年应用总时长)*100%; 单个区域多应用SLO实际值=avg(年度SLO实际值); 多个区域单应用SLO实际值=min(年度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 未达标应用数量 SLO管理 统计未达标SLO目标的应用数量 统计未达成SLO目标的应用数量,选择全部区域时,任一区域的年度SLO实际值<年度SLO期望值,视为未达标 天/月 个 月度SLO期望值 SLO管理 月度应用期望达成的SLO指标 SLO期望值=SLO管理中设定的期望值; 多个应用SLO期望值=avg(SLO期望值); 天/月 百分比 月度SLO实际值 SLO管理 月度应用实际达成的SLO情况 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 单个区域多应用SLO实际值=avg(月度SLO实际值); 多个区域单应用SLO实际值=min(月度SLO实际值); 多个区域多应用SLO实际值=avg(多个区域单应用SLO实际值); 天/月 百分比 应用维度SLO统计 应用SLO统计 SLO管理 统计应用维度的SLO情况 按照应用维度,展示月度SLO实际值; 月度SLO实际值=1-(月度应用不可用时长/月度应用总时长)*100%; 多个区域单应用SLO实际值=min(月度SLO实际值); 天/月 百分比 Error Budget Error Budget SLO管理 用于测量实际性能与预期性能之间的差异,用于计算错误成本 当SLO实际值>SLO期望值时: ErrorBudget=(年度SLO实际值-年度SLO期望值)*全年服务总时长(min); 当SLO实际值≤SLO期望值时,ErrorBudget=0; 天/月 分钟
-
PRR看板 PRR看板(生产就绪程度评审)中包含评审服务汇总、评估雷达分布、改进任务闭环情况。评审服务汇总体现投入生产前各个服务当前所处的评审阶段,以及通过情况。评估雷达中体现服务不满足的评审项分布。改进任务闭环情况呈现对评审不满足项的整改情况。指标详情可查看表6。 图9 PRR看板 表6 PRR看板数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 PRR评审汇总 评审服务 PRR评审 统计参与PRR评审的服务数量 选择时间范围内,所有参与PRR评审的去重服务数量 天/月 个 应用PRR评审列表 PRR评审 统计参与PRR各个阶段的应用数量与通过情况 选择时间范围内,参与PRR各个阶段的所有应用评审数量与通过情况分布(应用不去重) 天/月 个 评估雷达分布图 评估雷达分布 PRR评审 统计PRR不满足项的分布 选择时间范围内,各评审项中不满足的项目数量 天/月 个 改进任务闭环情况 改进任务状态分布 PRR评审 统计改进任务数量以及状态分布 选择时间范围内,所有改进任务的数量以及状态分布情况 天/月 个 改进任务列表 PRR评审 统计各个维度的改进任务数量以及闭环情况 按照评审项目维度统计,各个维度的改进任务数量以及状态分布情况 天/月 个
-
故障管理 故障管理包含事件统计、WarRoom、问题改进三个模块,呈现事件管理全流程核心指标。事件统计中包含数量、闭环率、处理耗时、受损应用、SLA达成率等指标,通过环比、趋势图和Top/Bottom排序的方式,呈现事件风险情况。WarRoom中包含受损应用、引起WarRoom事件级别和时间窗,反映重大故障场景的发生和改善情况。问题改进中包含问题改进的完成率和趋势分析,确保对于已发生的故障进行经验沉淀,减少相同故障再次发生的频率和处理时间。指标详情可查看表3。 图5 故障管理 表3 事件管理数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 事件统计 事件总量 事件管理 统计所有事件单数量 选择时间范围内,所有事件单的数量 注:草稿、客户已关闭状态的事件单不计 天/月 个 事件级别 事件管理 统计各个类型和级别的事件单的数量 选择时间范围内,各个类型和级别的事件单的数量 天/月 个 事件闭环率 事件管理 统计事件单的闭环情况 选择时间范围内,“已完成”状态的事件单数量/事件单总量*100% 天/月 百分比 平均事件耗时 事件管理 统计事件单平均处理时长 已闭环事件单的处理时间求和/已闭环的事件单数量*100% 天/月 ddhhmm 受损应用 事件管理 统计事件单受损应用数量 去重计算事件单的受损应用数量(包含已删除应用) 天/月 个 事件SLA达成率 SLA管理 统计事件单SLA达成情况 未打破SLA的事件单数量/纳入统计的事件单总量*100% 天/月 百分比 WarRoom WarRoom WarRoom 统计所有WarRoom数量 选择时间范围内,所有WarRoom数量 天/月 个 事件级别 事件管理 WarRoom关联的事件单级别分布 统计WarRoom关联的各级别事件单的数量 天/月 个 受损应用 WarRoom 统计WarRoom中受损应用的数量 去重计算WarRoom的受损应用数量 天/月 个 平均处理时长 WarRoom 统计WarRoom平均处理时长 选择时间范围内,已关闭的WarRoom处理时间总和/已关闭WarRoom数量 天/月 ddhhmm 受理时间窗分布 WarRoom 统计WarRoom在各个时间窗内的拉起次数 统计各个时间窗范围内,WarRoom的拉起次数 天/月 个 问题改进 问题总数 问题管理 所有的问题单数量 统计时间周期内,除“已撤销”和“待提交”状态外的所有的问题单数量 天/月 个 问题完成率 问题管理 统计问题单的闭环情况 闭环率=已完成问题单数量/问题单总量*100% 天/月 百分比 改进总数 改进管理 所有的改进单数量 统计时间周期内,除“草稿”状态的所有的改进单数量 天/月 个 改进完成率 改进管理 统计改进单的闭环情况 闭环率=已完成改进单数量/改进单总量*100% 天/月 百分比
-
变更管理 变更管理包含变更概览、变更开销、变更风险三个模块,全方位呈现变更核心指标。数据概览中包含变更平均时长、成功率等指标,通过环比和趋势图体现变更整体情况。变更风险根据变更等级分布图,分析变更导致的故障。变更开销统计变更人力和时间趋势,有效控制变更成本。指标详情可查看表2。 图4 变更管理 表2 变更管理数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 变更概览 变更总量 变更管理 统计的变更单的数量 选择时间周期内,已完成的变更单数量 天/月 个 变更成功率 变更管理 统计变更单的成功率情况 变更成功率=变更成功的变更单数量/已完成的变更单数量*100% 天/月 百分比 变更平均时长 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 变更趋势 变更管理 变更成功和失败的数量以及变更成功率的趋势变化 变更成功和失败的数量以及变更成功率 天/月 个 变更开销 变更人力 变更管理 统计参与变更所需要的人数 变更人力=变更配合人+变更实施人 天/月 人次 变更时间 变更管理 统计变更单的平均处理时长 选择时间周期内,已完成的变更单时长求和/已完成的变更单数量*100% 天/月 ddhhmm 变更风险 变更导致的现网故障 变更管理 统计由于变更原因导致的现网各个级别的事件数量 选择时间范围内,各级别事件单类型为变更操作问题的数量 天/月 个 变更等级 变更管理 统计各个等级的变更单的数量 选择时间周期内,各个等级的变更单数量 天/月 个
-
监控告警 监控告警将告警信息以直观的图表形式展示,使运维人员快速掌握服务的整体状况,监控告警中含告警分析、告警成本、告警质量三个模块,体现告警管理核心指标。告警分析中提供告警总量、告警级别、Top应用、告警降量和告警趋势等指标,运维主管可通过对历史告警数据的分析,了解服务告警的趋势和模式,发现潜在的性能问题或故障隐患。告警成本统计告警闭环率和自动化处理率,运维主管可以利用告警成本有效控制变更的人力成本。告警质量统计事件单故障和WarRoom的告警发现率,帮助运维主管评估当前告警的有效性,并及时进行告警配置的优化。指标详情可查看表4。 图6 监控告警 表4 监控告警数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 告警分析 告警总量 告警管理 统计状态为“告警中”告警的数量 选择时间范围内,状态为“告警中”告警的数量 天/月 个 告警级别 告警管理 统计各个级别的状态为“告警中”告警的数量 选择时间范围内,各个级别的状态为“告警中”告警的数量 天/月 个 告警趋势 告警管理 选择时间范围内,各级别告警的数量趋势变化 选择时间范围内,各个级别的告警的数量 天/月 个 告警成本 告警闭环率 告警管理 统计告警闭环情况 选择时间范围内,已闭环告警数量/告警总数量*100% 天/月 百分比 告警自动化处理率 告警管理 统计告警的自动化处理情况 选择时间范围内,自动化处理告警/告警总数*100% 天/月 百分比 原始告警-告警质量 故障告警发现率 事件管理 统计所有事件单中,由告警发现的事件单数量 选择时间范围内,告警转事件单数量/事件单总数量*100% 天/月 百分比 WarRoom告警发现率 WarRoom 统计所有WarRoom中,由告警发现的WarRoom数量 选择时间范围内,告警转事件拉起的WarRoom数量/WarRoom 总数量*100% 天/月 百分比 汇聚告警-告警SLA统计 告警SLA达成率 SLA管理 统计汇聚告警SLA达成情况 未打破SLA的告警数量/纳入统计的告警总量*100% 天/月 百分比 告警总量指标中,页面呈现的气泡代表各级告警最多的应用,其中:紧急告警展示top1,重要告警展示top5,次要告警展示top10,提示告警展示top10。
-
运维总览 运维总览包含总览数据、风险冒泡、PRR评审汇总(生产准备度评估)、TOP5故障四个模块。总览数据可以全局视角观测运维态势情况,辅助运维优化改进和洞察决策。风险冒泡通过风险故障、WarRoom、变更导致故障呈现当前运维态势风险情况。PRR评审汇总体现应用上线/转商前的评审情况。TOP5故障通过算法统计影响最严重的Top5事件单,快速识别重大故障场景。指标详情可查看表1。 图3 运维总览 表1 运维总览数据字典 模块 指标名称 数据来源 指标定义 计算规则 统计周期 度量单位 总览数据 事件 事件中心 统计事件单的数量趋势 选择时间周期内,所有事件单的数量 天/月 个 告警 告警中心 统计汇聚告警的数量趋势 选择时间周期内,所有汇聚告警的数量 天/月 个 问题 问题管理 统计问题单的数量趋势 选择时间周期内,所有问题单的数量 天/月 个 WarRoom WarRoom 统计WarRoom的数量趋势 选择时间周期内,所有WarRoom的数量 天/月 个 变更 变更管理 统计变更单的数量趋势 选择时间周期内,所有变更单的数量 天/月 个 服务SLO SLO管理 统计服务SLO实际值的变化趋势 SLO实际值 = 1 - (服务不可用时长 / 云服务总时长)*100% 天/月 百分比 风险冒泡 变更导致故障数 事件管理 统计变更问题引发事件单数量 事件类型为变更操作问题的事件单数量 天/月 个 风险故障 事件管理 统计发生的P3+事件单数量 P1、P2、P3级别的所有事件单的数量,包括未完成状态的事件单 天/月 个 Warroom 告警中心 统计Warroom数量 选择时间周期内,WarRoom的数量 天/月 个 PRR评审汇总 PRR评审应用 PRR评审 统计参与PRR评审的应用数量 参与PRR评审的应用数量 天/月 个 PRR评审通过情况 PRR评审 统计在PRR各阶段中,通过与未通过的服务数量 PRR各阶段,通过与未通过的服务数量 天/月 个 TOP5故障 TOP5故障 事件管理 统计严重性最高的事件Top5 根据选择时间范围,统计已完成的P3+事件,并先按事件级别排序,再按照中断时长排序,排列TOP5事件 天/月 事件信息
-
操作场景 云运维中心提供运维态势感知的能力,包含变更、事件、告警、安全合规、SLO(服务级别目标)、PRR(生产准备度评估)等多种运维指标数据,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 面向不同角色运维人员的专属运维BI看板,辅助运维优化改进和洞察决策。 预置接入30个+运维指标,构建7张运维态势感知大屏,从宏观到微观全面呈现运维全局态势,提供企业级运维沙盘。 支持组织/委托管理员跨账号查看组织成员账号的运维态势,提供跨账号场景下的多区域、多应用数据汇聚能力。
-
资源看板 登录云运维中心。 进入COC“总览”,查看资源看板。默认展示全部区域的资源。 图1 资源信息 单击右上方。 同步资源与告警信息。 单击“全部区域”自定义筛选指定区域查看该区域下的资源。 图2 区域筛选 选择云服务图标鼠标悬停。 展示紧急/重要告警数量,和资源实例的区域分布。云服务图标右上角红底数字代表告警数量。 图3 鼠标悬停查看资源 单击云服务图标。 展示对应资源类型的全部资源信息。 图4 查询资源信息 选择需要查看的资源,单击操作列“查看详情”。 跳转至对应服务的资源详情页面。 选择需要查看的资源,单击资源名称左侧。 展开全部告警信息(来源于
CES )。 图5 查看告警 选择需要查看的告警,单击告警规则名称。 跳转至CES对应的告警规则页面。 选择需要查看的告警,单击“告警自动处理”。 进入COC执行响应预案页面,快速处理告警。
-
基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量。 ≥0 个 iotda_device_status_totalCount 设备总数 统计租户在当前实例/资源空间下的总的设备数量。 ≥0 个 iotda_device_status_offlineCount 离线设备数 统计租户在当前实例/资源空间下的离线的设备数量。 ≥0 个 iotda_device_status_abnormalCount 异常设备数 统计租户在当前实例/资源空间下的异常的设备数量。 ≥0 个 iotda_device_status_inactiveCount 未激活设备数 统计租户在当前实例/资源空间下的未激活的设备数量。 ≥0 个 iotda_device_status_activeCount 激活设备数 统计租户在当前实例/资源空间下的激活的设备数量。 ≥0 个 iotda_device_status_dailyOnlineCount 累计在线设备数 统计租户在当前实例/资源空间下的累计在线设备数量。 ≥0 个 NB数据上报数 iotda_south_dataReport_totalCount NB数据上报总次数 统计当前实例/资源空间下NB数据上报总次数。 ≥0 次 iotda_south_dataReport_successCount NB数据上报成功次数 统计当前实例/资源空间下NB数据上报成功次数。 ≥0 次 iotda_south_dataReport_failedCount NB数据上报失败次数 统计当前实例/资源空间下NB数据上报失败次数。 ≥0 次 MQTT事件上报数 iotda_south_eventUp_totalCount MQTT事件上报总数 统计当前实例/资源空间下MQTT事件上报总数。 ≥0 次 iotda_south_eventUp_successCount MQTT事件上报成功次数 统计当前实例/资源空间下MQTT事件上报成功次数。 ≥0 次 iotda_south_eventUp_failedCount MQTT事件上报失败次数 统计当前实例/资源空间下MQTT事件上报失败次数。 ≥0 次 MQTT属性上报数 iotda_south_propertiesReport_totalCount MQTT属性上报总数 统计当前实例/资源空间下MQTT属性上报总数。 ≥0 次 iotda_south_propertiesReport_successCount MQTT属性上报成功次数 统计当前实例/资源空间下MQTT属性上报成功次数。 ≥0 次 iotda_south_propertiesReport_failedCount MQTT属性上报失败次数 统计当前实例/资源空间下MQTT属性上报失败次数。 ≥0 次 MQTT消息上报数 iotda_south_messageUp_totalCount MQTT消息上报总数 统计当前实例/资源空间下MQTT消息上报总数。 ≥0 次 iotda_south_messageUp_successCount MQTT消息上报成功次数 统计当前实例/资源空间下MQTT消息上报成功次数。 ≥0 次 iotda_south_messageUp_failedCount MQTT消息上报失败次数 统计当前实例/资源空间下MQTT消息上报失败次数。 ≥0 次 AMQP流转次数 iotda_amqp_forwarding_totalCount AMQP流转次数 统计当前实例/资源空间下AMQP流转次数。 ≥0 次 iotda_amqp_forwarding_successCount AMQP流转成功次数 统计当前实例/资源空间下AMQP流转成功次数。 ≥0 次 iotda_amqp_forwarding_failedCount AMQP流转失败次数 统计当前实例/资源空间下AMQP流转失败次数。 ≥0 次 FunctionGraph流转次数 iotda_functionGraph_forwarding_totalCount FunctionGraph流转次数 统计当前实例/资源空间下FunctionGraph流转次数。 ≥0 次 iotda_functionGraph_forwarding_successCount FunctionGraph流转成功次数 统计当前实例/资源空间下FunctionGraph流转成功次数。 ≥0 次 iotda_functionGraph_forwarding_failedCount FunctionGraph流转失败次数 统计当前实例/资源空间下FunctionGraph流转失败次数。 ≥0 次
MRS Kafka流转次数 iotda_mrsKafka_forwarding_totalCount MRS Kafka流转次数 统计当前实例/资源空间下MRS Kafka流转次数。 ≥0 次 iotda_mrsKafka_forwarding_successCount MRS Kafka流转成功次数 统计当前实例/资源空间下MRS Kafka流转成功次数。 ≥0 次 iotda_mrsKafka_forwarding_failedCount MRS Kafka流转失败次数 统计当前实例/资源空间下MRS Kafka流转失败次数。 ≥0 次 MQTT流转次数 iotda_mqtt_forwarding_totalCount Mqtt流转次数 统计当前实例/资源空间下MQTT流转次数。 ≥0 次 iotda_mqtt_forwarding_successCount Mqtt流转成功次数 统计当前实例/资源空间下MQTT流转成功次数。 ≥0 次 iotda_mqtt_forwarding_failedCount Mqtt流转失败次数 统计当前实例/资源空间下MQTT流转失败次数。 ≥0 次 MySql流转次数 iotda_mysql_forwarding_totalCount MySql流转次数 统计当前实例/资源空间下MySql流转次数。 ≥0 次 iotda_mysql_forwarding_successCount MySql流转成功次数 统计当前实例/资源空间下MySql流转成功次数。 ≥0 次 iotda_mysql_forwarding_failedCount MySql流转失败次数 统计当前实例/资源空间下MySql流转失败次数。 ≥0 次 InfluxDB流转次数 iotda_influxDB_forwarding_totalCount InfluxDB流转次数 统计当前实例/资源空间下InfluxDB流转次数。 ≥0 次 iotda_influxDB_forwarding_successCount InfluxDB流转成功次数 统计当前实例/资源空间下InfluxDB流转成功次数。 ≥0 次 iotda_influxDB_forwarding_failedCount InfluxDB流转失败次数 统计当前实例/资源空间下InfluxDB流转失败次数。 ≥0 次 HTTP推送流转次数 iotda_http_forwarding_totalCount HTTP推送流转次数 统计当前实例/资源空间下HTTP推送流转次数。 ≥0 次 iotda_http_forwarding_successCount HTTP推送流转成功次数 统计当前实例/资源空间下HTTP推送流转成功次数。 ≥0 次 iotda_http_forwarding_failedCount HTTP推送流转失败次数 统计当前实例/资源空间下HTTP推送流转失败次数。 ≥0 次 OBS流转次数 iotda_obs_forwarding_totalCount OBS流转次数 统计当前实例/资源空间下OBS流转次数。 ≥0 次 iotda_obs_forwarding_successCount OBS流转成功次数 统计当前实例/资源空间下OBS流转成功次数。 ≥0 次 iotda_obs_forwarding_failedCount OBS流转失败次数 统计当前实例/资源空间下OBS流转失败次数。 ≥0 次 DMS Kafka流转次数 iotda_dmsKafka_forwarding_totalCount DMS Kafka流转次数 统计当前实例/资源空间下DMS Kafka流转次数。 ≥0 次 iotda_dmsKafka_forwarding_successCount DMS Kafka流转成功次数 统计当前实例/资源空间下DMS Kafka流转成功次数。 ≥0 次 iotda_dmsKafka_forwarding_failedCount DMS Kafka流转失败次数 统计当前实例/资源空间下DMS Kafka流转失败次数。 ≥0 次 DIS流转次数 iotda_dis_forwarding_totalCount DIS流转次数 统计当前实例/资源空间下DIS流转次数。 ≥0 次 iotda_dis_forwarding_successCount DIS流转成功次数 统计当前实例/资源空间下DIS流转成功次数。 ≥0 次 iotda_dis_forwarding_failedCount DIS流转失败次数 统计当前实例/资源空间下DIS流转失败次数。 ≥0 次 ROMA流转次数 iotda_roma_forwarding_totalCount ROMA流转次数 统计当前实例/资源空间下ROMA流转次数。 ≥0 次 iotda_roma_forwarding_successCount ROMA流转成功次数 统计当前实例/资源空间下ROMA流转成功次数。 ≥0 次 iotda_roma_forwarding_failedCount ROMA流转失败次数 统计当前实例/资源空间下ROMA流转失败次数。 ≥0 次 LTS流转次数 iotda_lts_forwarding_totalCount LTS流转次数 统计当前实例/资源空间下LTS流转次数。 ≥0 次 iotda_lts_forwarding_successCount LTS流转成功次数 统计当前实例/资源空间下LTS流转成功次数。 ≥0 次 iotda_lts_forwarding_failedCount LTS流转失败次数 统计当前实例/资源空间下LTS流转失败次数。 ≥0 次 查询设备影子 iotda_query_shadow_totalCount 查询设备影子总数 统计当前实例/资源空间下查询设备影子总数。 ≥0 次 iotda_query_shadow_successCount 查询设备影子成功数 统计当前实例/资源空间下查询设备影子成功数。 ≥0 次 iotda_query_shadow_failedCount 查询设备影子失败数 统计当前实例/资源空间下查询设备影子失败数。 ≥0 次 消息下发 iotda_message_down_totalCount 消息下发总数 统计当前实例/资源空间下消息下发总数。 ≥0 次 iotda_message_down_successCount 消息下发成功数 统计当前实例/资源空间下消息下发成功数。 ≥0 次 iotda_message_down_failedCount 消息下发失败数 统计当前实例/资源空间下消息下发失败数。 ≥0 次 属性设置 iotda_properties_set_totalCount 属性设置总数 统计当前实例/资源空间下属性设置总数。 ≥0 次 iotda_properties_set_successCount 属性设置成功数 统计当前实例/资源空间下属性设置成功数。 ≥0 次 iotda_properties_set_failedCount 属性设置失败数 统计当前实例/资源空间下属性设置失败数。 ≥0 次 属性查询 iotda_properties_query_totalCount 属性查询总数 统计当前实例/资源空间下属性查询总数。 ≥0 次 iotda_properties_query_successCount 属性查询成功数 统计当前实例/资源空间下属性查询成功数。 ≥0 次 iotda_properties_query_failedCount 属性查询失败数 统计当前实例/资源空间下属性查询失败数。 ≥0 次 命令数 iotda_command_totalCount 命令总数 统计当前实例/资源空间下命令总数。 ≥0 次 iotda_command_successCount 命令成功数 统计当前实例/资源空间下命令成功数。 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数。 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数。 ≥0 次 iotda_flowcontrol_south_failedCount 南向调用流控失败数 统计当前实例下数据上报流控失败次数。 ≥0 次 iotda_flowcontrol_forwarding_failedCount 流转流控失败数 统计当前实例下流转流控失败数。 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数。 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比。 0~100 百分比(%) TPS消息数 iotda_mqtt_publishIn_totalCount mqtt上报TPS 统计当前实例下上报的TPS数。 ≥0 次 iotda_mqtt_connect_totalCount mqtt建链数 统计当前实例下mqtt建链数。 ≥0 次 iotda_http_apigIn_totalCount 北向API的TPS数 统计当前实例下北向API的TPS数。 ≥0 次 北向API统计总数 iotda_http_request_totalCount 北向API的请求总个数 统计当前实例下北向API的请求总个数。 ≥0 次 iotda_http_request_failedCount 北向API的请求失败个数 统计当前实例下北向API的请求失败个数。 ≥0 次 iotda_http_request_successCount 北向API的请求成功个数 统计当前实例下北向API的请求成功个数。 ≥0 次 mongo流转数 iotda_mongodb_forwarding_totalCount mongo流转总数 统计当前实例下mongo流转总数。 ≥0 次 iotda_mongodb_forwarding_successCount mongo流转成功数 统计当前实例下mongo流转成功。 ≥0 次 iotda_mongodb_forwarding_failedCount mongo流转失败数 统计当前实例下mongo流转失败。 ≥0 次 bcs-fabric流转数 iotda_bcs_fabric_forwarding_totalCount bcs-fabric流转总数 统计当前实例下fabric流转总数。 ≥0 次 iotda_bcs_fabric_forwarding_successCount bcs-fabric流转成功数 统计当前实例下fabric成功次数。 ≥0 次 iotda_bcs_fabric_forwarding_failedCount bcs-fabric流转失败数 统计当前实例下fabric失败次数。 ≥0 次 bcs-huawei流转数 iotda_bcs_hw_forwarding_totalCount bcs-huawei流转总数 统计当前实例下hw流转总数。 ≥0 次 iotda_bcs_hw_forwarding_successCount bcs-huawei流转成功数 统计当前实例下hw成功次数。 ≥0 次 iotda_bcs_hw_forwarding_failedCount bcs-huawei流转失败数 统计当前实例下hw失败次数。 ≥0 次 AMQP消息数 iotda_amqp_forwarding_backlog_message_count AMQP的积压消息数 统计当前实例下AMQP的积压消息数。 ≥0 次 iotda_amqp_forwarding_consume_rate AMQP的积压速率 统计当前实例下AMQP的积压速率。 ≥0 次 消息数 iotda_userMessage_count 消息数的总数 统计当前实例下消息数的总数。 ≥0 次 在线设备 max_online_device 同时在线设备数 统计当前实例下同时在线设备数。 ≥0 次 批量任务 iotda_batchtask_success_count 批量任务成功数 统计当前实例下批量任务成功数。 ≥0 次 iotda_batchtask_failure_count 批量任务失败数 统计当前实例下批量任务失败数。 ≥0 次 数据总指标 iotda_indicator 数据总指标 统计当前实例指标总数。 ≥0 次 数据包大小 iotda_http_request_packageSize 数据包大小 统计当前实例数据包指标大小。 ≥0 次 iotda_south_packageSize 南向数据包大小 统计当前实例数据包南向指标大小。 ≥0 次 父主题: 指标总览