云服务器内容精选

  • 基础指标: CS E指标 介绍CSE服务上报到 AOM 的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 http http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 subscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 serviceCount Nacos naming 域名 个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 instance jvm_memory_max_bytes jvm已使用内存大小 内存最大字节,包含各种内存区。 ≥0 字节(b) jvm_memory_used_bytes jvm已使用内存大小 内存使用字节,包含各种内存区。 ≥0 字节(b) up 实例运行状态 Nacos实例是否处于运行状态。 1:运行中 0:非运行中 0、1 无 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
  • 基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量。 ≥0 个 iotda_device_status_totalCount 设备总数 统计租户在当前实例/资源空间下的总的设备数量。 ≥0 个 iotda_device_status_offlineCount 离线设备数 统计租户在当前实例/资源空间下的离线的设备数量。 ≥0 个 iotda_device_status_abnormalCount 异常设备数 统计租户在当前实例/资源空间下的异常的设备数量。 ≥0 个 iotda_device_status_inactiveCount 未激活设备数 统计租户在当前实例/资源空间下的未激活的设备数量。 ≥0 个 iotda_device_status_activeCount 激活设备数 统计租户在当前实例/资源空间下的激活的设备数量。 ≥0 个 iotda_device_status_dailyOnlineCount 累计在线设备数 统计租户在当前实例/资源空间下的累计在线设备数量。 ≥0 个 NB数据上报数 iotda_south_dataReport_totalCount NB数据上报总次数 统计当前实例/资源空间下NB数据上报总次数。 ≥0 次 iotda_south_dataReport_successCount NB数据上报成功次数 统计当前实例/资源空间下NB数据上报成功次数。 ≥0 次 iotda_south_dataReport_failedCount NB数据上报失败次数 统计当前实例/资源空间下NB数据上报失败次数。 ≥0 次 MQTT事件上报数 iotda_south_eventUp_totalCount MQTT事件上报总数 统计当前实例/资源空间下MQTT事件上报总数。 ≥0 次 iotda_south_eventUp_successCount MQTT事件上报成功次数 统计当前实例/资源空间下MQTT事件上报成功次数。 ≥0 次 iotda_south_eventUp_failedCount MQTT事件上报失败次数 统计当前实例/资源空间下MQTT事件上报失败次数。 ≥0 次 MQTT属性上报数 iotda_south_propertiesReport_totalCount MQTT属性上报总数 统计当前实例/资源空间下MQTT属性上报总数。 ≥0 次 iotda_south_propertiesReport_successCount MQTT属性上报成功次数 统计当前实例/资源空间下MQTT属性上报成功次数。 ≥0 次 iotda_south_propertiesReport_failedCount MQTT属性上报失败次数 统计当前实例/资源空间下MQTT属性上报失败次数。 ≥0 次 MQTT消息上报数 iotda_south_messageUp_totalCount MQTT消息上报总数 统计当前实例/资源空间下MQTT消息上报总数。 ≥0 次 iotda_south_messageUp_successCount MQTT消息上报成功次数 统计当前实例/资源空间下MQTT消息上报成功次数。 ≥0 次 iotda_south_messageUp_failedCount MQTT消息上报失败次数 统计当前实例/资源空间下MQTT消息上报失败次数。 ≥0 次 AMQP流转次数 iotda_amqp_forwarding_totalCount AMQP流转次数 统计当前实例/资源空间下AMQP流转次数。 ≥0 次 iotda_amqp_forwarding_successCount AMQP流转成功次数 统计当前实例/资源空间下AMQP流转成功次数。 ≥0 次 iotda_amqp_forwarding_failedCount AMQP流转失败次数 统计当前实例/资源空间下AMQP流转失败次数。 ≥0 次 FunctionGraph流转次数 iotda_functionGraph_forwarding_totalCount FunctionGraph流转次数 统计当前实例/资源空间下FunctionGraph流转次数。 ≥0 次 iotda_functionGraph_forwarding_successCount FunctionGraph流转成功次数 统计当前实例/资源空间下FunctionGraph流转成功次数。 ≥0 次 iotda_functionGraph_forwarding_failedCount FunctionGraph流转失败次数 统计当前实例/资源空间下FunctionGraph流转失败次数。 ≥0 次 MRS Kafka流转次数 iotda_mrsKafka_forwarding_totalCount MRS Kafka流转次数 统计当前实例/资源空间下MRS Kafka流转次数。 ≥0 次 iotda_mrsKafka_forwarding_successCount MRS Kafka流转成功次数 统计当前实例/资源空间下MRS Kafka流转成功次数。 ≥0 次 iotda_mrsKafka_forwarding_failedCount MRS Kafka流转失败次数 统计当前实例/资源空间下MRS Kafka流转失败次数。 ≥0 次 MQTT流转次数 iotda_mqtt_forwarding_totalCount Mqtt流转次数 统计当前实例/资源空间下MQTT流转次数。 ≥0 次 iotda_mqtt_forwarding_successCount Mqtt流转成功次数 统计当前实例/资源空间下MQTT流转成功次数。 ≥0 次 iotda_mqtt_forwarding_failedCount Mqtt流转失败次数 统计当前实例/资源空间下MQTT流转失败次数。 ≥0 次 MySql流转次数 iotda_mysql_forwarding_totalCount MySql流转次数 统计当前实例/资源空间下MySql流转次数。 ≥0 次 iotda_mysql_forwarding_successCount MySql流转成功次数 统计当前实例/资源空间下MySql流转成功次数。 ≥0 次 iotda_mysql_forwarding_failedCount MySql流转失败次数 统计当前实例/资源空间下MySql流转失败次数。 ≥0 次 InfluxDB流转次数 iotda_influxDB_forwarding_totalCount InfluxDB流转次数 统计当前实例/资源空间下InfluxDB流转次数。 ≥0 次 iotda_influxDB_forwarding_successCount InfluxDB流转成功次数 统计当前实例/资源空间下InfluxDB流转成功次数。 ≥0 次 iotda_influxDB_forwarding_failedCount InfluxDB流转失败次数 统计当前实例/资源空间下InfluxDB流转失败次数。 ≥0 次 HTTP推送流转次数 iotda_http_forwarding_totalCount HTTP推送流转次数 统计当前实例/资源空间下HTTP推送流转次数。 ≥0 次 iotda_http_forwarding_successCount HTTP推送流转成功次数 统计当前实例/资源空间下HTTP推送流转成功次数。 ≥0 次 iotda_http_forwarding_failedCount HTTP推送流转失败次数 统计当前实例/资源空间下HTTP推送流转失败次数。 ≥0 次 OBS流转次数 iotda_obs_forwarding_totalCount OBS流转次数 统计当前实例/资源空间下OBS流转次数。 ≥0 次 iotda_obs_forwarding_successCount OBS流转成功次数 统计当前实例/资源空间下OBS流转成功次数。 ≥0 次 iotda_obs_forwarding_failedCount OBS流转失败次数 统计当前实例/资源空间下OBS流转失败次数。 ≥0 次 DMS Kafka流转次数 iotda_dmsKafka_forwarding_totalCount DMS Kafka流转次数 统计当前实例/资源空间下DMS Kafka流转次数。 ≥0 次 iotda_dmsKafka_forwarding_successCount DMS Kafka流转成功次数 统计当前实例/资源空间下DMS Kafka流转成功次数。 ≥0 次 iotda_dmsKafka_forwarding_failedCount DMS Kafka流转失败次数 统计当前实例/资源空间下DMS Kafka流转失败次数。 ≥0 次 DIS流转次数 iotda_dis_forwarding_totalCount DIS流转次数 统计当前实例/资源空间下DIS流转次数。 ≥0 次 iotda_dis_forwarding_successCount DIS流转成功次数 统计当前实例/资源空间下DIS流转成功次数。 ≥0 次 iotda_dis_forwarding_failedCount DIS流转失败次数 统计当前实例/资源空间下DIS流转失败次数。 ≥0 次 ROMA流转次数 iotda_roma_forwarding_totalCount ROMA流转次数 统计当前实例/资源空间下ROMA流转次数。 ≥0 次 iotda_roma_forwarding_successCount ROMA流转成功次数 统计当前实例/资源空间下ROMA流转成功次数。 ≥0 次 iotda_roma_forwarding_failedCount ROMA流转失败次数 统计当前实例/资源空间下ROMA流转失败次数。 ≥0 次 LTS流转次数 iotda_lts_forwarding_totalCount LTS流转次数 统计当前实例/资源空间下LTS流转次数。 ≥0 次 iotda_lts_forwarding_successCount LTS流转成功次数 统计当前实例/资源空间下LTS流转成功次数。 ≥0 次 iotda_lts_forwarding_failedCount LTS流转失败次数 统计当前实例/资源空间下LTS流转失败次数。 ≥0 次 查询设备影子 iotda_query_shadow_totalCount 查询设备影子总数 统计当前实例/资源空间下查询设备影子总数。 ≥0 次 iotda_query_shadow_successCount 查询设备影子成功数 统计当前实例/资源空间下查询设备影子成功数。 ≥0 次 iotda_query_shadow_failedCount 查询设备影子失败数 统计当前实例/资源空间下查询设备影子失败数。 ≥0 次 消息下发 iotda_message_down_totalCount 消息下发总数 统计当前实例/资源空间下消息下发总数。 ≥0 次 iotda_message_down_successCount 消息下发成功数 统计当前实例/资源空间下消息下发成功数。 ≥0 次 iotda_message_down_failedCount 消息下发失败数 统计当前实例/资源空间下消息下发失败数。 ≥0 次 属性设置 iotda_properties_set_totalCount 属性设置总数 统计当前实例/资源空间下属性设置总数。 ≥0 次 iotda_properties_set_successCount 属性设置成功数 统计当前实例/资源空间下属性设置成功数。 ≥0 次 iotda_properties_set_failedCount 属性设置失败数 统计当前实例/资源空间下属性设置失败数。 ≥0 次 属性查询 iotda_properties_query_totalCount 属性查询总数 统计当前实例/资源空间下属性查询总数。 ≥0 次 iotda_properties_query_successCount 属性查询成功数 统计当前实例/资源空间下属性查询成功数。 ≥0 次 iotda_properties_query_failedCount 属性查询失败数 统计当前实例/资源空间下属性查询失败数。 ≥0 次 命令数 iotda_command_totalCount 命令总数 统计当前实例/资源空间下命令总数。 ≥0 次 iotda_command_successCount 命令成功数 统计当前实例/资源空间下命令成功数。 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数。 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数。 ≥0 次 iotda_flowcontrol_south_failedCount 南向调用流控失败数 统计当前实例下数据上报流控失败次数。 ≥0 次 iotda_flowcontrol_forwarding_failedCount 流转流控失败数 统计当前实例下流转流控失败数。 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数。 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比。 0~100 百分比(%) TPS消息数 iotda_mqtt_publishIn_totalCount mqtt上报TPS 统计当前实例下上报的TPS数。 ≥0 次 iotda_mqtt_connect_totalCount mqtt建链数 统计当前实例下mqtt建链数。 ≥0 次 iotda_http_apigIn_totalCount 北向API的TPS数 统计当前实例下北向API的TPS数。 ≥0 次 北向API统计总数 iotda_http_request_totalCount 北向API的请求总个数 统计当前实例下北向API的请求总个数。 ≥0 次 iotda_http_request_failedCount 北向API的请求失败个数 统计当前实例下北向API的请求失败个数。 ≥0 次 iotda_http_request_successCount 北向API的请求成功个数 统计当前实例下北向API的请求成功个数。 ≥0 次 mongo流转数 iotda_mongodb_forwarding_totalCount mongo流转总数 统计当前实例下mongo流转总数。 ≥0 次 iotda_mongodb_forwarding_successCount mongo流转成功数 统计当前实例下mongo流转成功。 ≥0 次 iotda_mongodb_forwarding_failedCount mongo流转失败数 统计当前实例下mongo流转失败。 ≥0 次 bcs-fabric流转数 iotda_bcs_fabric_forwarding_totalCount bcs-fabric流转总数 统计当前实例下fabric流转总数。 ≥0 次 iotda_bcs_fabric_forwarding_successCount bcs-fabric流转成功数 统计当前实例下fabric成功次数。 ≥0 次 iotda_bcs_fabric_forwarding_failedCount bcs-fabric流转失败数 统计当前实例下fabric失败次数。 ≥0 次 bcs-huawei流转数 iotda_bcs_hw_forwarding_totalCount bcs-huawei流转总数 统计当前实例下hw流转总数。 ≥0 次 iotda_bcs_hw_forwarding_successCount bcs-huawei流转成功数 统计当前实例下hw成功次数。 ≥0 次 iotda_bcs_hw_forwarding_failedCount bcs-huawei流转失败数 统计当前实例下hw失败次数。 ≥0 次 AMQP消息数 iotda_amqp_forwarding_backlog_message_count AMQP的积压消息数 统计当前实例下AMQP的积压消息数。 ≥0 次 iotda_amqp_forwarding_consume_rate AMQP的积压速率 统计当前实例下AMQP的积压速率。 ≥0 次 消息数 iotda_userMessage_count 消息数的总数 统计当前实例下消息数的总数。 ≥0 次 在线设备 max_online_device 同时在线设备数 统计当前实例下同时在线设备数。 ≥0 次 批量任务 iotda_batchtask_success_count 批量任务成功数 统计当前实例下批量任务成功数。 ≥0 次 iotda_batchtask_failure_count 批量任务失败数 统计当前实例下批量任务失败数。 ≥0 次 数据总指标 iotda_indicator 数据总指标 统计当前实例指标总数。 ≥0 次 数据包大小 iotda_http_request_packageSize 数据包大小 统计当前实例数据包指标大小。 ≥0 次 iotda_south_packageSize 南向数据包大小 统计当前实例数据包南向指标大小。 ≥0 次 父主题: 指标总览
  • 基础指标:CCI2.0指标 介绍通过CCI2.0服务上报到AOM的指标的类别、名称、含义等信息。 表1 CCI2.0服务监控指标 指标类别 指标名称 指标含义 CPU container_cpu_system_seconds_total 容器系统CPU总时长。 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间。 container_cpu_user_seconds_total 容器用户CPU总时长。 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数。 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数。 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间。 文件系统/磁盘 container_fs_inodes_free 文件系统的可用inode数量。 container_fs_usage_bytes 文件系统的使用量。 container_fs_inodes_total 文件系统的总计inode数量。 container_fs_io_current 磁盘/文件系统当前正在进行的 I/O 数量。 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数。 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权 I/O 时间。 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量。 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量。 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数。 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数。 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数。 container_fs_sector_reads_total 容器已完成扇区读取磁盘/文件系统的累积计数。 container_fs_sector_writes_total 容器已完成扇区写入磁盘/文件系统的累积计数。 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量。 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数。 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数。 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数。 container_blkio_device_usage_total 容器区分IO操作对磁盘的使用总量。 内存 container_memory_failures_total 容器内存分配失败的累积计数。 container_memory_failcnt 容器内存使用达到限制的次数。 container_memory_cache 容器总页缓存内存。 container_memory_mapped_file 容器内存映射文件的大小。 container_memory_max_usage_bytes 容器历史最大内存使用量。 container_memory_rss 容器常驻内存集的大小。 container_memory_swap 容器虚拟内存使用量。 container_memory_usage_bytes 容器当前的内存使用量。 container_memory_working_set_bytes 容器工作集内存使用量。 网络 container_network_receive_bytes_total 容器网络累积接收数据总量。 container_network_receive_errors_total 接收时遇到的错误累积计数。 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数。 container_network_receive_packets_total 接收数据包的累积计数。 container_network_transmit_bytes_total 容器网络累积传输数据总量。 container_network_transmit_errors_total 传输时遇到的错误累积计数。 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数。 container_network_transmit_packets_total 传输数据包的累积计数。 容器spec/状态 container_processes 容器当前运行的进程数。 container_sockets 容器当前打开套接字的个数。 container_file_descriptors 容器打开的文件描述符数量。 container_threads 容器内当前运行的线程数。 container_threads_max 容器内允许运行的最大线程数。 container_ulimits_soft 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外。 container_spec_cpu_period 容器分配的CPU周期。 container_spec_cpu_shares 容器分配的CPU份额。 container_spec_cpu_quota 容器分配的CPU配额。 container_spec_memory_limit_bytes 容器可以使用的总内存量限制。 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制。 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制。 container_start_time_seconds 容器已经运行的时间。 container_last_seen 最近一次监控采集器感知到容器的时间。 对象状态指标 kube_pod_info Pod信息。 kube_pod_owner Pod的Owner信息。 kube_pod_container_resource_limits 容器的资源limits。 kube_replicaset_owner RS的所有者信息。 父主题: 指标总览
  • 基础指标:CAE指标 介绍CAE服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 CAE服务监控指标 指标分类 指标名称 指标含义 job:kubernetes-cadvisor cadvisor_version_info Docker容器监控工具Prometheus中cAdvisor模块的版本信息指标。 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数。 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数。 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间。 container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值。 machine_cpu_physical_cores 物理CPU核心的数量。 machine_cpu_sockets 主机(机器)上的CPU插槽数。 machine_nvm_avg_power_budget_watts NVM(Non-Volatile Memory,非易失性内存)平均电力预算的Prometheus指标。 machine_nvm_capacity 机器(通常是服务器或节点)的NVM(Non-Volatile Memory,非易失性内存)容量。 machine_scrape_error 从目标机器(通常是服务器或容器)收集指标时遇到的错误情况。 container_cpu_system_seconds_total 容器系统CPU总时长。 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间。 container_cpu_user_seconds_total 容器用户CPU总时长。 container_file_descriptors 容器当前打开文件描述符的个数。 container_fs_inodes_free 文件系统的可用inode数量。 container_fs_inodes_total 文件系统的总计inode数量 container_fs_io_current 磁盘/文件系统当前正在进行的 I/O 数量。 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数。 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权 I/O 时间。 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量。 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数。 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量。 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数。 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数。 container_fs_sector_reads_total 容器已完成扇区读取磁盘/文件系统的累积计数。 container_fs_sector_writes_total 容器已完成扇区写入磁盘/文件系统的累积计数。 container_fs_usage_bytes 文件系统的使用量。 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数。 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量。 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数。 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数。 container_last_seen 最近一次监控采集器感知到容器的时间。 container_memory_cache 容器总页缓存内存。 container_memory_failcnt 容器内存使用达到限制的次数。 container_memory_mapped_file 容器内存映射文件的大小。 container_memory_max_usage_bytes 容器历史最大内存使用量。 container_memory_rss 容器常驻内存集的大小。 container_memory_swap 容器虚拟内存使用量。 container_memory_usage_bytes 容器当前的内存使用量。 container_memory_working_set_bytes 容器工作集内存使用量。 container_network_receive_bytes_total 容器网络累积接收数据总量。 container_network_receive_errors_total 接收时遇到的错误累积计数。 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数。 container_network_receive_packets_total 接收数据包的累积计数。 container_network_transmit_bytes_total 容器网络累积传输数据总量。 container_network_transmit_errors_total 传输时遇到的错误累积计数。 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数。 container_network_transmit_packets_total 传输数据包的累积计数。 container_processes 容器当前运行的进程数。 container_scrape_error 记录在从容器收集指标时遇到的错误次数。 container_sockets 容器当前打开套接字的个数。 container_spec_cpu_period 容器分配的CPU周期。 container_spec_cpu_quota 容器分配的CPU配额。 container_spec_cpu_shares 容器分配的CPU份额。 container_spec_memory_limit_bytes 容器可以使用的总内存量限制。 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制。 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制。 container_start_time_seconds 容器已经运行的时间。 container_tasks_state 处于给定状态的任务数(sleeping, running, stopped, uninterruptible, or ioawaiting)。 container_threads 容器内当前运行的线程数。 container_threads_max 容器内允许运行的最大线程数。 container_ulimits_soft 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外。 machine_cpu_cores 物理机或虚拟机中的CPU核心数量。 machine_memory_bytes 当前物理机或虚拟机的内存总数。 scrape_duration_seconds 衡量从目标资源获取监控数据(即“抓取”数据)所花费的时间。 scrape_samples_post_metric_relabeling 衡量在指标重标记(relabeling)之后,收集器(scrape)过程中采样的数量。 scrape_samples_scraped 记录在特定时间段内被scrape(抓取)操作收集的样本数量。 scrape_series_added 监控数据收集系统(如Prometheus)的性能。 up up指标通常用于描述一个系统组件或服务的运行时间。例如,在容器化环境中,如Docker容器,up可以表示容器的启动时间。 job:kubernetes-node-exporter node_filesystem_size_bytes 挂载的文件系统占用空间。 node_memory_Buffers_bytes 节点缓冲区的内存。 node_cpu_seconds_total 节点CPU时间。 node_filesystem_avail_bytes 挂载的文件系统可用空间。 node_memory_Cached_bytes 节点页面缓存中的内存。 node_memory_MemFree_bytes 节点空闲内存。 node_memory_MemTotal_bytes 节点内存总量。 node_network_receive_bytes_total 累积接收数据总量。 node_network_transmit_bytes_total 累积传输数据总量。 node_disk_reads_completed_total 磁盘读取完成的次数。 node_disk_writes_completed_total 磁盘写入完成的次数。 汇聚指标 cae_container_cpu_usage 容器的CPU使用情况。 cae_container_downlink_bps 容器的网络下行带宽(即从容器到外部网络的数据传输速率)。 cae_container_fs_reads_bytes_total 容器在文件系统中进行的读操作的总字节数。 cae_container_fs_writes_bytes_total 容器中文件系统的写操作字节数。 cae_container_memory_usage 容器的内存使用情况。 cae_container_uplink_bps 容器的上行网络带宽的比特率(bps)。 cae_node_cup_usage 度量节点(通常是Kubernetes节点或物理/虚拟服务器)的CPU使用情况。 cae_node_disk_reads_bytes 度量节点(通常是主机或服务器)的磁盘读取操作的字节数。 cae_node_disk_usage 节点(通常是Kubernetes节点或服务器)的磁盘使用情况。 cae_node_disk_writes_bytes 节点(通常是主机或服务器)的磁盘写入操作的字节数。 cae_node_downlink_bps 节点(通常是服务器或虚拟机)的下行带宽的比特率(bps)。 cae_node_memory_usage 节点(通常是Kubernetes节点或物理/虚拟服务器)的内存使用情况。 cae_node_uplink_bps Kubernetes集群中节点(Node)的网络上行带宽的比特率(bps)。 父主题: 指标总览
  • 虚机组件指标及其维度 AOM中,虚机组件指的是进程,虚机组件指标指的就是进程指标。 表1 进程指标 指标名称 指标含义 取值范围 单位 CPU内核总量(aom_process_cpu_limit_core) 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) CPU内核占用(aom_process_cpu_used_core) 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) CPU使用率(aom_process_cpu_usage) 该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。 0~100 百分比(%) 句柄数(aom_process_handle_count) 该指标用于统计测量对象使用的句柄数。 ≥0 无 最大句柄数(aom_process_max_handle_count) 该指标用于统计测量对象使用的最大句柄数。 ≥0 无 物理内存总量(aom_process_memory_request_megabytes) 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) 物理内存使用率(aom_process_memory_usage) 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) 物理内存使用量(aom_process_memory_used_megabytes) 该指标用于统计测量对象实际已经使用的物理内存(Resident Set Size)。 ≥0 兆字节(MB) 状态(aom_process_status) 该指标用于统计进程状态是否正常。 0、1 0表示正常 1表示异常 无 线程数(aom_process_thread_count) 该指标用于统计测量对象使用的线程数。 ≥0 无 虚拟内存总量(aom_process_virtual_memory_total_megabytes) 该指标用于统计测量对象申请的虚拟内存总量。 ≥0 兆字节(MB) 表2 进程指标维度 维度 说明 appName 服务名称。 clusterId 集群ID。 clusterName 集群名称。 nameSpace 集群的命名空间。 processID 进程ID。 processName 进程名称。 serviceID 存量ID。 aomApplicationName 应用名称。 aomApplicationID 应用ID。 processCmd 进程命令ID。 父主题: 指标总览