云服务器内容精选

  • 使用示例 下面给出具体的使用示例: URL路径 说明 /app/p?ttern 匹配 /app/pattern 和 /app/pAttern等文件,但不包括 /app/pttern。 /app/*.x 匹配app目录下所有.x结尾的文件。 /**/example 匹配 /app/example,/app/foo/example 和 /example。 /app/**/dir/file.* 匹配 /app/dir/file.jsp,/app/foo/dir/file.htm,/app/foo/bar/dir/file.pdf 和 /app/dir/file.c。 /**/*.jsp 匹配所有 .jsp 结尾的文件。
  • 规整方法 规整方式有四种:startwith、endwith、include、regex startwith:以匹配表达式开头的url,会统计成规整后的url,如图1中以http://127.0.0.1/v1开头的url,会汇聚成/v1/test/{id}。 endwith:以匹配表达式结尾的url,会统计成规整后的url,如图1中以/test结尾的url,会汇聚成/{id}/test。 include:包含匹配表达式的url,会统计成规整后的url,如图1中包含test的url,会汇聚成/test/{id}。 regex:符合通配符表达式的url,会统计成规整后的url,通配符规则请参考表1。 表1 通配符说明 通配符 说明 ? 匹配任意一个字符。 * 匹配零个、一个、多个字符。 ** 匹配零个、一个、多个目录。
  • 错误列表 错误列表展示错误信息的错误摘要、错误类型、错误次数、影响设备数、影响版本数、首次发生时间、最后发生时间以及操作。 图5 错误列表 表5 错误列表相关参数说明 参数名称 说明 错误摘要 错误信息的摘要。 错误类型 错误的类型。 错误次数 错误的次数。 影响设备数 错误影响设备的数量。 影响版本数 错误影响版本的次数。 首次发生时间 错误首次发生的时间。 最后发生时间 错误最后发生的时间。 单击“错误摘要”列的某一行对应的“操作”列的“分析”按钮,展示某条错误记录的详细信息。包括:错误总览趋势图、TOP5版本错误、TOP5设备错误以及错误列表。 图6 错误摘要详细信息 单击“设备型号/ID”列的某一行对应的“操作”列的“查看详情”。展示该错误记录的基本信息以及错误堆栈。 表6 错误-查看详情相关参数说明 参数名称 说明 发生时间 发生错误的时间。 用户标识 用户的唯一标识。 设备名称 设备名称。 摘要 错误信息摘要。 接入方式 App接入方式。 系统版本 系统版本号。 App版本 App版本号。 内存占用 内存占用大小。 内存空闲 内存空闲大小。 CPU使用 CPU已经使用率。 CPU架构 CPU的架构。 可用磁盘 磁盘总大小。 已用磁盘 磁盘已使用大小。 应用包名 应用包名称。 错误堆栈 错误堆栈。
  • 查看HttpClient监控 接口维度汇总 针对HttpClient监控系统会采集每个URL的指标,具体指标以及说明,参见表1。您可以单击列表右上角的自定义列表项,使界面上显示您需要查看的指标数据。 图4 接口维度汇总HttpClient监控 表1 HttpClient监控接口维度汇总指标说明列表 指标集 指标 说明 接口维度汇总 url 被调用url。 method url的httpmethod。 envId 被调用的url对应的集群id。 调用次数 被调用url的调用次数。 平均响应时间(ms) 被调用url的平均响应时间。 错误次数 被调用url的错误次数。 最大并发 被调用url的最大并发。 最慢调用(ms) 被调用url的最大响应时间。 0-10ms 响应时间在0-10ms范围请求数。 10-100ms 响应时间在10-100ms范围请求数。 100-500ms 响应时间在100-500ms范围请求数。 500-1000ms 响应时间在500-1000ms范围请求。 1-10s 响应时间在1-10s范围请求数。 10s以上 响应时间在10s以上请求数。 错误调用链 采集周期内发生错误的调用链对应的traceid。 最慢调用链 采集周期内最慢的调用链对应的traceid。 单击“调用次数”、“平均响应时间”等列蓝色字体数值,会以图表的形式显示对应的数值详情。 单击“最慢调用链”列或“错误调用链”列的,蓝色字体,系统会跳转到该调用链详情或历史信息页面,查看该调用链的调用情况以及历史信息。 集群维度汇总 APM支持以集群的维度汇总外部调用的指标,具体指标以及说明,参见表2。 图5 集群维度汇总HttpClient监控 表2 HttpClient监控集群维度汇总指标说明列表 指标集 指标 说明 集群维度汇总 envId 被调用方的集群id。 调用次数 调用该集群url的调用次数。 下游地址 下游url地址。 平均响应时间(ms) 调用该集群url的平均响应时间。 错误次数 被调用url的错误次数。 最慢调用(ms) 调用该集群url的最大响应时间。 hostUri hostUri地址。 0-10ms 响应时间在0-10ms范围请求数。 10-100ms 响应时间在10-100ms范围请求数。 100-500ms 响应时间在100-500ms范围请求数。 500-1000ms 响应时间在500-1000ms范围请求。 1-10s 响应时间在1-10s范围请求数。 10s以上 响应时间在10s以上请求数。 单击“调用次数”、“平均响应时间”等列的蓝色字体数值,会以图表的形式显示对应的数值详情。 状态码维度汇总 APM支持以状态码的维度汇总外部调用的指标,具体指标以及说明,参见表3。 图6 状态码维度汇总HttpClient监控 表3 HttpClient监控状态码维度汇总指标说明列表 指标集 指标 说明 状态码维度汇总 code 状态码。 数量 对应状态码的发生次数。 最近URL 产生对应状态码的url。 单击“code”列的某个状态码,系统会跳转到调用链页面,显示默认20分钟内所在环境,所选实例该状态码的调用情况。 单击“数量”列的数值,可以查看所选时间段内该状态码的趋势图。 单击最近url,可以查看对应状态码下的调用详情。 异常 可以在异常页签下查看对HttpClient调用的异常信息统计的指标,具体指标以及说明,参见表4。 图7 HttpClient监控异常 表4 HttpClient监控异常指标说明列表 指标集 指标 说明 异常 causeType 发生异常的类。 exceptionType 异常类型。 数量 该异常的发生次数。 异常消息 该异常产生的异常消息。 错误堆栈 该异常产生的堆栈信息。 单击“数量”列的蓝色数值,可以查看所选时间段内该线程的趋势图。 单击“异常消息”列的蓝色文字,可以查看异常消息的详细内容。 单击“错误堆栈”列的“查看详情”可以查看异常的详细信息。 单击“错误堆栈”列的“历史信息”可以查看该类名的历史异常堆栈列表。 总览 可以在总览页签下查看所选实例的的指标,具体指标以及说明,参见表5。 选中某一个时间节点时,图表支持联动。展示该时间节点下各个指标的实际数值。 图8 HttpClient监控总览 表5 HttpClient监控总览指标说明列表 指标集 指标 说明 总览 调用次数 总的调用次数。 平均响应时间(ms) 平均响应时间。 错误次数 总的错误次数。
  • 操作系统监控指标:DAVP 表12 DAVP类监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) davp_device_health DAVP健康状态 该指标用于统计虚拟机上DAVP卡的健康状态,是一个综合指标。 该指标无单位。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0:代表健康 1:代表异常 云服务器 云服务器 - DAVP 1分钟 davp_util_rate_mem DAVP显存使用率 该指标用于统计该DAVP卡的显存使用率。 单位:百分比 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0-100% 云服务器 云服务器 - DAVP 1分钟 davp_usage_mem DAVP显存使用量 该指标用于统计该DAVP卡的显存使用量 单位:MB 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 ≥ 0 云服务器 云服务器 - DAVP 1分钟 davp_util_rate_ai_core DAVP卡AI核心使用率 该指标用于统计该DAVP卡的AI核心的使用率。 单位:百分比。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0-100% 云服务器 云服务器 - DAVP 1分钟 davp_util_rate_vdsp_core DAVP卡vdsp核心使用率 该指标用于统计该DAVP卡的vdsp核心使用率。 单位:百分比。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0-100% 云服务器 云服务器 - DAVP 1分钟 davp_util_rate_enc_core DAVP卡编码核心使用率 该指标用于统计该DAVP的编码核心使用率。 单位:百分比。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0-100% 云服务器 云服务器 - DAVP 1分钟 davp_util_rate_dec_core DAVP卡解码核心使用率 该指标用于统计该DAVP卡的解码核心使用率。 单位:百分比。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 0-100% 云服务器 云服务器 - DAVP 1分钟 davp_sysc_temperature DAVP卡系统模块温度 该指标用于统计该DAVP卡的系统模块温度。 单位:摄氏度(℃)。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。 ≥ 0 云服务器 云服务器 - DAVP 1分钟 Windows系统暂不支持DAVP类监控指标。
  • 维度 维度 Key Value 云服务器 instance_id 云服务器ID。 云服务器 - 磁盘 disk 云服务器磁盘。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 云服务器 - 挂载点 mount_point 云服务器磁盘的挂载点。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 云服务器 - GPU gpu GPU类型云服务器中显卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 云服务器 - NPU npu NPU类型云服务器中显卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。 云服务器 - DAVP davp DAVP类型云服务器,其中搭载了DaoCloud DAVP1视频加速卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
  • 操作系统监控指标:NPU 表11 NPU类监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) npu_device_health NPU健康状况 该指标用于统计虚拟机上NPU卡的健康状态,是一个综合指标。 该指标无单位。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0:代表健康 1:代表存在一般告警 2:代表存在重要告警 3:代表存在紧急告警 云服务器 云服务器 - NPU 1分钟 npu_util_rate_mem NPU显存使用率 该指标用于统计该NPU的编码能力使用率。 单位:百分比 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0-100% 云服务器 云服务器 - NPU 1分钟 npu_util_rate_ai_core NPU卡AI核心使用率 该指标用于统计该NPU的AI核心使用率。 单位:百分比 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0-100% 云服务器 云服务器 - NPU 1分钟 npu_util_rate_ai_cpu NPU卡AI CPU使用率 该指标用于统计该NPU的AI CPU的使用率。 单位:百分比。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0-100% 云服务器 云服务器 - NPU 1分钟 npu_util_rate_ctrl_cpu NPU控制CPU使用率 该指标用于统计该NPU的控制CPU的使用率。 单位:百分比。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0-100% 云服务器 云服务器 - NPU 1分钟 npu_util_rate_mem_bandwidth NPU显存带宽使用率 该指标用于统计该NPU的显存的带宽使用率。 单位:百分比。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 0-100% 云服务器 云服务器 - NPU 1分钟 npu_freq_mem NPU显存频率 该指标用于统计该NPU的显存的时钟频率。 单位:兆赫兹(MHz)。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_freq_ai_core NPU卡AI核心频率 该指标用于统计该NPU AI核心的时钟频率。 单位:兆赫兹(MHz)。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_usage_mem NPU显存使用量 该指标用于统计该NPU 显存的使用量。 单位:兆Byte(MB)。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_sbe NPU单bit错误数量 该指标用于统计该NPU卡当前的单比特页错误的数量。 单位:个 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_dbe NPU双bit错误数量 该指标用于统计该NPU卡当前的多比特页错误的数量。 单位:个 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_power NPU功率 该指标用于统计该NPU卡的功率。其中,310卡仅支持显示额定功率,其余卡显示实际功率 单位:瓦(W) 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 npu_temperature NPU温度 该指标用于统计该NPU卡当前的温度 单位:摄氏度(℃) 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。 ≥ 0 云服务器 云服务器 - NPU 1分钟 Windows系统暂不支持NPU类监控指标。
  • 操作系统监控指标:GPU 表10 GPU类监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) gpu_status gpu健康状态 该指标用于统计虚拟机上GPU健康状态,是一个综合指标。 该指标无单位。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0:代表健康 1:代表亚健康 2:代表故障 云服务器 云服务器 - GPU 1分钟 gpu_usage_encoder 编码使用率 该指标用于统计该GPU的编码能力使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0-100% 云服务器 云服务器 - GPU 1分钟 gpu_usage_decoder 解码使用率 该指标用于统计该GPU的解码能力使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0-100% 云服务器 云服务器 - GPU 1分钟 gpu_volatile_correctable 可纠正ECC错误数量 该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 单位:个。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_volatile_uncorrectable 不可纠正ECC错误数量 该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_aggregate_correctable 累计可纠正ECC错误数量 该指标用于统计该GPU累计的可纠正ECC错误数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_aggregate_uncorrectable 累计不可纠正ECC错误数量 该指标用于统计该GPU累计的不可纠正ECC错误数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_retired_page_single_bit retired page single bit错误数量 该指标用于统计该GPU当前卡隔离的单比特页的数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_retired_page_double_bit retired page double bit错误数量 该指标用于统计该GPU当前卡隔离的双比特页的数量。 单位:个 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 云服务器 云服务器 - GPU 1分钟 gpu_performance_state (Agent) 性能状态 该指标用于统计测量对象当前的GPU性能状态。 该指标无单位。 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 P0-P15、P32, P0:表示最大性能状态 P15:表示最小性能状态 P32:表示状态未知 云服务器 云服务器 - GPU 1分钟 gpu_usage_mem (Agent) 显存使用率 该指标用于统计测量对象当前的显存使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0-100% 云服务器 云服务器 - GPU 1分钟 gpu_usage_gpu (Agent) GPU使用率 该指标用于统计测量对象当前的GPU使用率。 单位:百分比 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 0-100% 云服务器 云服务器 - GPU 1分钟 gpu_free_mem GPU显存剩余量 该指标用于统计测量对象当前的GPU显存剩余量。 单位:MB 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MB 云服务器 云服务器 - GPU 1分钟 gpu_graphics_clocks GPU显卡时钟频率 该指标用于统计测量对象当前的GPU显卡(着色器)时钟频率。 单位:MHz 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MHz 云服务器 云服务器 - GPU 1分钟 gpu_mem_clocks GPU内存时钟频率 该指标用于统计测量对象当前的GPU内存时钟频率。 单位:MHz 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MHz 云服务器 云服务器 - GPU 1分钟 gpu_power_draw GPU功率 该指标用于统计测量对象当前的GPU功率。 单位:W 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 NA 云服务器 云服务器 - GPU 1分钟 gpu_rx_throughput_pci GPU PCI入方向带宽 该指标用于统计测量对象当前的GPU PCI入方向带宽。 单位:MByte/s 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MByte/s 云服务器 云服务器 - GPU 1分钟 gpu_sm_clocks GPU流式处理器时钟频率 该指标用于统计测量对象当前的GPU流式处理器时钟频率。 单位:MHz 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MHz 云服务器 云服务器 - GPU 1分钟 gpu_temperature GPU温度 该指标用于统计测量对象当前的GPU温度。 单位:℃ 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 ℃ 云服务器 云服务器 - GPU 1分钟 gpu_tx_throughput_pci GPU PCI出方向带宽 该指标用于统计测量对象当前的GPU PCI出方向带宽。 单位:MByte/s 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MByte/s 云服务器 云服务器 - GPU 1分钟 gpu_used_mem GPU显存使用量 该指标用于统计测量对象当前的GPU显存使用量。 单位:MB 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MB 云服务器 云服务器 - GPU 1分钟 gpu_video_clocks GPU视频时钟频率 该指标用于统计测量对象当前的GPU视频(包含编解码)时钟频率。 单位:MHz 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。 ≥ 0 MHz 云服务器 云服务器 - GPU 1分钟
  • 操作系统监控指标:TCP 表9 TCP类监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) net_tcp_total (Agent) TCP TOTAL 该指标用于统计测量对象所有状态的TCP连接数总和。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_established (Agent) TCP ESTABLISHED 该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_sys_sent (Agent) TCP SYS_SENT 该指标用于统计测量对象处于请求连接状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_sys_recv (Agent) TCP SYS_RECV 该指标用于统计测量对象服务器端收到的请求连接的TCP数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_fin_wait1 (Agent) TCP FIN_WAIT1 该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_fin_wait2 (Agent) TCP FIN_WAIT2 该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_time_wait (Agent) TCP TIME_WAIT 该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_close (Agent) TCP CLOSE 该指标用于统计测量对象关闭的或未打开的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_close_wait (Agent) TCP CLOSE_WAIT 该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_last_ack (Agent) TCP LAST_ACK 该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_listen (Agent) TCP LISTEN 该指标用于统计测量对象处于LISTEN状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_closing (Agent) TCP CLOSING 该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。 单位:Count 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。 ≥ 0 云服务器 1分钟 net_tcp_retrans (Agent) TCP重传率 该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。 单位:百分比 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。 采集方式(Windows):重传率通过WindowsAPI GetTcpStatistics获取 0-100% 云服务器 1分钟
  • 操作系统监控指标:网卡 表7 网卡相关监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) net_bitRecv (Agent) 出网带宽 该指标用于统计测量对象网卡每秒发送的比特数。 单位:bit/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 ≥ 0 bit/s 云服务器 1分钟 net_bitSent (Agent) 入网带宽 该指标用于统计测量对象网卡每秒接收的比特数。 单位:bit/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 ≥ 0 bit/s 云服务器 1分钟 net_packetRecv (Agent) 网卡包接收速率 该指标用于统计测量对象网卡每秒接收的数据包数。 单位:Counts/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 ≥ 0 Counts/s 云服务器 1分钟 net_packetSent (Agent) 网卡包发送速率 该指标用于统计测量对象网卡每秒发送的数据包数。 单位:Counts/s 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。 ≥ 0 Counts/s 云服务器 1分钟 net_errin (Agent) 接收误包率 该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 0-100% 云服务器 1分钟 net_errout (Agent) 发送误包率 该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 0-100% 云服务器 1分钟 net_dropin (Agent) 接收丢包率 该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 0-100% 云服务器 1分钟 net_dropout (Agent) 发送丢包率 该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。 单位:百分比 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。 采集方式(Windows):暂不支持。 0-100% 云服务器 1分钟
  • 操作系统监控指标:文件系统 表6 文件系统类监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) disk_fs_rwstate (Agent) 文件系统读写状态 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。 采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。 0:可读写 1:只读 云服务器 - 挂载点 1分钟 disk_inodesTotal (Agent) inode空间大小 该指标用于统计测量对象当前磁盘的inode空间量。 采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 ≥ 0 云服务器 - 挂载点 1分钟 disk_inodesUsed (Agent) inode已使用空间 该指标用于统计测量对象当前磁盘已使用的inode空间量。 采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 ≥ 0 云服务器 - 挂载点 1分钟 disk_inodesUsedPercent (Agent) inode已使用占比 该指标用于统计测量对象当前磁盘已使用的inode占比。 单位:百分比 采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 0-100% 云服务器 - 挂载点 1分钟 Windows系统暂不支持文件系统类监控指标。
  • 操作系统监控指标:磁盘 目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。 会默认屏蔽docker相关的挂载点。挂载点前缀如下: /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos 表4 磁盘相关监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) disk_free (Agent) 磁盘剩余存储量 该指标用于统计测量对象磁盘的剩余存储空间。 单位:GB 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 ≥0 GB 云服务器 - 挂载点 1分钟 disk_total (Agent) 磁盘存储总量 该指标用于统计测量对象磁盘存储总量。 单位:GB 采集方式(Linux):执行df -h命令,查看Size列数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 ≥0 GB 云服务器 - 挂载点 1分钟 disk_used (Agent) 磁盘已用存量 该指标用于统计测量对象磁盘的已用存储空间。 单位:GB 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 ≥0 GB 云服务器 - 挂载点 1分钟 disk_usedPercent (Agent) 磁盘使用率 该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。 单位:百分比 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 0-100% 云服务器 - 挂载点 1分钟
  • 操作系统监控指标:磁盘I/O 表5 磁盘I/O相关监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) disk_agt_read_bytes_rate (Agent) 磁盘读速率 该指标用于统计每秒从测量对象读出数据量。 单位:Byte/s 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 ≥ 0 Byte/s 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_agt_read_requests_rate (Agent) 磁盘读操作速率 该指标用于统计每秒从测量对象读取数据的请求次数。 单位:请求/秒 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 ≥ 0 请求/秒 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_agt_write_bytes_rate (Agent) 磁盘写速率 该指标用于统计每秒写到测量对象的数据量。 单位:Byte/s 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 ≥ 0 Byte/s 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_agt_write_requests_rate (Agent) 磁盘写操作速率 该指标用于统计每秒向测量对象写数据的请求次数。 单位:请求/秒 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows): 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。 ≥ 0 请求/秒 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_readTime (Agent) 读操作平均耗时 该指标用于统计测量对象磁盘读操作平均耗时。 单位:ms/Count 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 ms/Count 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_writeTime (Agent) 写操作平均耗时 该指标用于统计测量对象磁盘写操作平均耗时。 单位:ms/Count 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 ms/Count 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_ioUtils (Agent) 磁盘I/O使用率 该指标用于统计测量对象磁盘I/O使用率。 单位:百分比 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 0-100% 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_queue_length (Agent) 平均队列长度 该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量 单位:个 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_write_bytes_per_operation (Agent) 平均写操作大小 该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。 单位:Byte/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 Byte/op 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_read_bytes_per_operation (Agent) 平均读操作大小 该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。 单位:Byte/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 Byte/op 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_io_svctm (Agent) 平均I/O服务时长 该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。 单位:ms/op 采集方式(Linux): 通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。 采集方式(Windows):暂不支持。 ≥ 0 ms/op 云服务器 - 磁盘 云服务器 - 挂载点 1分钟 disk_device_used_percent 块设备使用率 该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。 采集方式(Linux):通过汇总每个挂载点的磁盘使用量,在通过磁盘扇区大小和扇区数量计算出磁盘总大小,计算出整体磁盘使用率 (Windows):暂不支持。 0-100% 云服务器 - 磁盘 1分钟
  • 操作系统监控指标:内存 表3 内存相关监控指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) mem_available (Agent) 可用内存 该指标用于统计测量对象的可用内存。 单位:GB 采集方式(Linux):通过/proc/meminfo文件获取, 若/proc/meminfo中显示MemAvailable,则直接可得 若/proc/meminfo中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached 采集方式(Windows):计算方法为(内存总量-已用内存量)。通过WindowsAPI GlobalMemoryStatusEx获取。 ≥0 GB 云服务器 1分钟 mem_usedPercent (Agent) 内存使用率 该指标用于统计测量对象的内存使用率。 单位:百分比 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。 0-100% 云服务器 1分钟 mem_free (Agent) 空闲内存量 该指标用于统计测量对象的空闲内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。 采集方式(Windows):暂不支持。 ≥0 GB 云服务器 1分钟 mem_buffers (Agent) Buffers占用量 该指标用于统计测量对象的Buffers内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。 采集方式(Windows):暂不支持。 ≥0 GB 云服务器 1分钟 mem_cached (Agent) Cache占用量 该指标用于统计测量对象Cache内存量。 单位:GB 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。 采集方式(Windows):暂不支持。 ≥0 GB 云服务器 1分钟 total_open_files (Agent) 文件句柄总数 该指标用于统计测量对象的所有进程使用的句柄总和。 单位:个 采集方式(Linux):通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。 采集方式(Windows):暂不支持。 ≥0 云服务器 1分钟
  • 操作系统监控指标:CPU负载 表2 CPU负载指标说明 指标 指标名称 指标含义 取值范围 测量对象(维度) 监控周期(原始指标) load_average1 (Agent) 1分钟平均负载 该指标用于统计测量对象过去1分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。 ≥0 云服务器 1分钟 load_average5 (Agent) 5分钟平均负载 该指标用于统计测量对象过去5分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。 ≥0 云服务器 1分钟 load_average15 (Agent) 15分钟平均负载 该指标用于统计测量对象过去15分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。 ≥0 云服务器 1分钟 Windows系统暂不支持CPU负载指标。