云服务器内容精选

  • 概览页介绍 监控服务概览页如图1所示,展示近7天各级别告警数量、告警列表及关键事件列表等信息。 图1 监控服务概览 告警 - 近7天:展示近7天各级别告警数量。 告警列表 - 近7天:展示近7天严重和紧急级别的告警,可单击“更多”查看对应告警详情。 关键事件列表 - 近7天:展示近7天关键事件,可单击“更多”跳转至“事件列表”页面查看事件详情。 关键体验指标/黄金指标:展示关键体验指标/黄金指标,可以设置查询时间及查询粒度。 XXXX标准指标:展示各标准指标的监控数据,如负载均衡(SLB)标准指标、数据库治理(WiseDBA)标准指标、主机管理服务(VMS)标准指标等,如图2所示。 图2 VMS指标 父主题: 监控服务
  • 常用监控图表使用场景 表格:适用于多维度字段的指标统计。如图1所示,可以展示各接口下的总数、成功数、失败数、成功率、时延等数据。 图1 表格 折线图:适用于各维度的指标统计趋势对比。如图2所示,可以展示今昨对比的请求量趋势,如图3所示,可以展示各机房的请求量趋势。 图2 昨今对比折线图 图3 机房对比折线图 柱状图:适用于维度字段按照升序或降序的指标统计。如图4所示,可以展示下载次数的Top20。 图4 柱状图 饼图:适用于各维度的指标统计分布占比。如图5所示,可以展示Top5的错误码分布。 图5 饼图 地图:适用于各区域(国家、省份、城市等)维度指标的统计。如图6所示,可以展示各省份的下载次数分布。 图6 地图
  • 常用监控图表使用场景 表格:适用于多维度字段的指标统计。如图1所示,可以展示各接口下的总数、成功数、失败数、成功率、时延等数据。 图1 表格 折线图:适用于各维度的指标统计趋势对比。如图2所示,可以展示今昨对比的请求量趋势,如图3所示,可以展示各机房的请求量趋势。 图2 昨今对比折线图 图3 机房对比折线图 柱状图:适用于维度字段按照升序或降序的指标统计。如图4所示,可以展示下载次数的Top20。 图4 柱状图 饼图:适用于各维度的指标统计分布占比。如图5所示,可以展示Top5的错误码分布。 图5 饼图 地图:适用于各区域(国家、省份、城市等)维度指标的统计。如图6所示,可以展示各省份的下载次数分布。 图6 地图
  • 更多操作 日志指标规则创建完成后,您还可以执行表3中的相关操作。 表3 相关操作 操作 说明 查看日志指标规则 在左侧日志指标规则列表中,单击规则名称。 在右侧可查看该规则的启用状态、日志类型、接入指标等信息。 停用日志指标规则 在左侧日志指标规则列表中,单击规则名称。 在右侧页面右上角,单击“停用规则”。 编辑日志指标规则 在左侧日志指标规则列表中,单击规则名称。 在右侧页面右上角,单击,在下拉列表中选择“编辑”。具体操作请参见创建日志指标规则。 删除日志指标规则 在左侧日志指标规则列表中,单击规则名称。 在右侧页面右上角,单击,在下拉列表中选择“删除”。 添加接入指标 在左侧日志指标规则列表中,单击规则名称。 在右侧页面单击“添加接入指标”。具体操作请参见添加接入指标。 编辑接入指标 在左侧日志指标规则列表中,单击规则名称。 在右侧页面选择一个接入指标卡片,单击。具体操作请参见添加接入指标。 删除接入指标 在左侧日志指标规则列表中,单击规则名称。 在右侧页面选择一个接入指标卡片,单击。 搜索接入指标 在左侧日志指标规则列表中,单击规则名称。 在右侧页面“添加接入指标”后的搜索框中输入规则名称关键字,单击后显示匹配对象。
  • 更多操作 表1 仪表盘相关操作 操作 说明 全屏显示 选择待操作的仪表盘,在“仪表盘”页面右上角单击,可全屏显示仪表盘。 退出全屏显示 将光标移至屏幕上方,单击弹出的,或者单击,或者按键盘中的“Esc”可退出全屏模式。 手动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击可手动刷新当前页面。 自动刷新 选择待操作的仪表盘,在“仪表盘”页面右上角单击后的下拉箭头,开启仪表盘自动刷新开关。 轮播仪表盘 选择待操作的仪表盘,在“仪表盘”页面右上角单击。具体操作请参见设置全屏模式在线时长。 查询时间设置 选择待操作的仪表盘,在“仪表盘”页面右上角单击前面的下拉框,在下拉框可选择“近30分钟”、“近1小时”、“近6小时”、“近一天”、“近一周”、“自定义时间段”。若选择“自定义时间段”,在弹出日历表中选择对应的时间段,时间可精确至秒数。单击“确定”后,可根据选择时间查询仪表盘中所有图表数据。 导出监控报告 选择待操作的仪表盘,在“仪表盘”页面右上角单击,选择“导出折线图监控报告”,可将该指标的折线图表以CSV格式导出,以便进行本地存储及进一步分析。
  • Agent启停 当Agent处于启动状态时,启停按钮显示为;当Agent处于停止状态时,启停按钮显示为。 停止Agent 在实例列表页面,单击需要停用Agent的实例所在行的启停按钮。 在弹出的“停用Agent”弹框单击“确定”,完成对所选实例的停止。 启动Agent 在实例列表页面,单击需要启动Agent的实例所在行的启停按钮。 在弹出的“启用Agent”弹框单击“确定”,完成对所选实例的启动。
  • 查看URL监控 接口维度汇总 针对外部服务调用常见的URL调用,系统会采集每个URL的指标。具体指标以及说明,参见表1。 图4 接口维度汇总URL监控 表1 接口维度汇总指标说明表 指标集 指标 说明 接口维度汇总 url 请求的url。 method 请求的httpmethod。 调用次数 该url的调用次数。 平均响应时间(ms) 该url在采集周期内平均响应时间。 错误数 该url的错误数。 最大并发 该url的最大并发。 最慢调用(ms) 该url在采集周期内最大响应时间。 apdex 满意度,取值范围0~1。数值越趋近于1,表示满意度越高。 详情请参见基本概念-apdex。 异常数 该url的异常数。 0-10ms 响应时间在0-10ms范围请求数。 10-100ms 响应时间在10-100ms范围请求数。 100-500ms 响应时间在100-500ms范围请求数。 500-1000ms 响应时间在500-1000ms范围请求数。 1-10s 响应时间在1-10s范围请求数。 10s-n 响应时间在10s以上请求数。 接口调用会作为调用链的起点,单击某个URL,系统会跳转到调用链页面,显示默认20分钟内该接口的调用情况。 可以将某个环境的某个监控项的调用标示为URL跟踪,具体配置方法请参见配置URL跟踪。 单击“调用次数”、“平均响应时间”等列的蓝色字体数值,会以图表的形式显示对应的数值详情。 状态码维度汇总 APM支持以状态码的维度汇总对接口的调用次数。系统会采集每个URL的指标。具体指标以及说明,参见表2。 图5 状态码维度汇总URL监控 表2 状态码维度汇总指标说明表 指标集 指标 说明 状态码维度汇总 code 状态码。 个数 该状态码的发生次数。 最近url 该状态码在采集周内采样的url。 单击“code”列的某个状态码,系统会跳转到调用链页面,显示默认20分钟内所在环境,所选实例该状态码的调用情况。 单击“个数”列的数值,可以查看所选时间段内该状态码的趋势图。 单击最近url,可以查看对应状态码下的调用详情。 集群维度汇总 APM支持以集群的维度汇总对接口的指标。具体指标以及说明,参见表3。 图6 集群维度汇总URL监控 表3 集群维度汇总指标说明表 指标集 参数 说明 集群维度汇总 clusterId 调用方的集群id。 调用次数 该集群的调用次数。 平均响应时间(ms) 用户在采集周期内平均响应时间。 错误数 该集群调用的错误次数。 最大并发 该集群的最大并发次数。 最慢调用(ms) 用户在采集周期内最慢调用时间。 单击“调用次数”、“平均响应时间”等列的蓝色字体数值,会以图表的形式显示对应的数值详情。 总览 可以在总览页签下查看所选实例的指标的趋势图。具体指标以及说明,参见表4。选中某一个时间节点时,图表支持联动。展示该时间节点下,总请求数、平均响应时间(ms)、错误次数以及apdex的实际数值。 图7 URL监控总览 表4 总览指标说明表 指标集 指标 说明 总览 总请求数 url的总请求数。 平均响应时间(ms) url的平均响应时间。 错误次数 url的总错误次数。 apdex url的满意度。
  • 维度 Key Value reliablemq_instance_id RocketMQ实例 reliablemq_broker RocketMQ实例节点 reliablemq_topics RocketMQ实例队列 reliablemq_groups RocketMQ实例的消费组 reliablemq_groups_topics RocketMQ实例队列的消费组 reliablemq_dlq_topics RocketMQ实例的死信队列
  • 维度 Key Value kafka_instance_id Kafka实例 kafka_broker Kafka实例节点 kafka_topics Kafka实例主题 kafka_partitions Kafka实例分区 kafka_groups-partitions Kafka实例分区的消费组 kafka_groups_topics Kafka实例队列的消费组 kafka_groups Kafka实例的消费组 connector_task Kafka实例的Smart Connect任务
  • Smart Connect监控指标 表5 Smart Connect支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) kafka_wait_synchronize_data 待同步Kafka数据量 Kafka任务的待同步数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 kafka_synchronize_rate Kafka每分钟同步数据量 Kafka任务每分钟同步的数据量。 单位:Count ≥ 0 Kafka实例的Smart Connect任务 1分钟 task_status 任务状态 当前任务状态。 0:任务异常 1:任务正常 Kafka实例的Smart Connect任务 1分钟 message_delay 消息时延 消息到达源端的时间与到达目标端的时间之差。 单位:ms ≥ 0 Kafka实例的Smart Connect任务 1分钟 Kafka双向数据复制的Smart Connect任务在监控中会被拆分为2个任务,分别为“Smart Connect任务名_source_0”和“Smart Connect任务名_source_1”。 如果Topic中的消息在进行下一次数据同步前,已经全部老化,此时实际是没有待同步的Kafka数据,但是Kafka数据同步监控指标使用的是包含老化数据的offset值,“待同步Kafka数据量”会显示老化的消息数。
  • 消费组监控指标 表4 消费组支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) messages_consumed 分区已消费消息数 该指标用于统计当前消费组已经消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 messages_remained 分区可消费消息数 该指标用于统计消费组可消费的消息个数。 单位:Count 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例的消费组 1分钟 topic_messages_remained 队列可消费消息数 该指标用于统计消费组指定队列可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 topic_messages_consumed 队列已消费消息数 该指标用于统计消费组指定队列当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_remained 消息堆积数(消费组可消费消息数) 该指标用于统计消费组剩余可以消费的消息个数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 consumer_messages_consumed 消费组已消费消息数 该指标用于统计消费组当前已经消费的消息数。 单位:个 说明: 在“消费组”页签,“主题”为“全部队列”时,才包含该指标。 0~(263-1) Kafka实例的消费组 1分钟 messages_consumed_per_min 分区消费速率 统计消费组指定队列分区每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“分区监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 topic_messages_consumed_per_min 队列消费速率 统计消费组指定队列每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为指定的Topic名称,“监控类型”为“基本监控”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟 consumer_messages_consumed_per_min 消费组消费速率 统计消费组每分钟的消费数。 单位:个/分钟 说明: 在“消费组”页签,“主题”为“全部Topic”时,才包含该指标。 部分存量实例不支持此监控,具体以控制台为准。 0~30000000 Kafka实例的消费组 1分钟
  • 主题监控指标 表3 主题支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) topic_bytes_in_rate 生产流量 该指标用于统计每秒生产的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_bytes_out_rate 消费流量 该指标用于统计每秒消费的字节数。 单位:Byte/s、KB/s、MB/s、GB/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000000 Kafka实例队列 1分钟 topic_data_size 队列数据容量 该指标用于统计队列当前的消息数据大小。 单位:Byte、KB、MB、GB、TB、PB 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~5000000000000 Kafka实例队列 1分钟 topic_messages 队列消息总数 该指标用于统计队列当前的消息总数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 topic_messages_in_rate 消息生产速率 该指标用于统计每秒生产的消息数量。 单位:Count/s 说明: 在“主题”页签,当“监控类型”为“基本监控”时,才包含该指标。 0~500000 Kafka实例队列 1分钟 partition_messages 分区消息数 该指标用于统计分区中当前的消息个数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟 produced_messages 生产消息数 该指标用于统计目前生产的消息总数。 单位:Count 说明: 在“主题”页签,当“监控类型”为“分区监控”时,才包含该指标。 ≥ 0 Kafka实例队列 1分钟
  • 实例监控指标 表1 实例支持的监控指标 指标ID 指标名称 指标含义 取值范围 测量对象 监控周期(原始指标) current_partitions 分区数 该指标用于统计Kafka实例中已经使用的分区数量。 单位:Count 0~100000 Kafka实例 1分钟 current_topics 主题数 该指标用于统计Kafka实例中已经创建的主题数量。 单位:Count 0~100000 Kafka实例 1分钟 group_msgs 堆积消息数 该指标用于统计Kafka实例中所有消费组中总堆积消息数。 单位:Count 0~1000000000 Kafka实例 1分钟
  • 查看Redis实例实时并发连接数 当您需要查看DCS实例收到的实时连接数时,在控制台缓存管理页面,单击需要查看的实例右侧的“查看监控”,进入云监控页面。 图1 查看监控 进入监控页面后,找到“活跃的客户端数量”监控项。您可以单击该监控项的右上角的查看按钮,使用大图模式查看。 在弹出的“活跃的客户端数量”页面,根据需要选择查看的时间段,例如,需要查看10分钟内的连接数,您可以将时间自定义为10分钟。由于监控数据采集的是周期内增加的连接数,您可以通过监控图表,查看这个时间段的连接数的走势,并统计10分钟内的连接总数。 监控指标“活跃的客户端数量”用于统计已连接的客户端数量,包括系统监控、配置同步和业务相关的连接数,不包括来自从节点的连接。 您还可以通过控制台会话管理,查看连接实例的客户端会话信息。
  • 安全检测 物联网平台提供安全检测能力,可持续检测设备的安全威胁。本文介绍具体的安全检测项,及如何查看并处理检测出的安全风险。 检测项说明 检测项 说明 设备侧使用非加密方式接入 设备与物联网平台之间,未使用加密协议建立安全连接,可能导致中间人劫持、重放攻击,会对业务造成影响。 使用不安全的TLS版本协议 不安全的TLS协议版本(TLS v1.0、v1.1)存在可被利用的安全漏洞,可能会造成设备数据泄露等安全风险。 使用不安全的加密算法套件 当前主要检测包含以下几种不安全的加密算法套件: TLS_ECDHE_PSK_WITH_AES_128_CBC_SHA, TLS_ECDHE_PSK_WITH_AES_256_CBC_SHA, TLS_PSK_WITH_AES_128_CBC_SHA, TLS_PSK_WITH_AES_256_CBC_SHA 不安全的加密算法套件存在可被利用的安全漏洞,可能会造成设备数据泄露等安全风险。 设备侧单位时间内多次建链 设备侧在1秒内与物联网平台进行多次建链,存在设备被暴力破解,导致身份信息泄露的可能,会造成正常设备被迫下线、业务数据被窃取等安全风险。 设备鉴权失败 设备身份认证信息错误,导致设备无法上线,可能会对业务造成影响。 上述通用异常检测功能检测项开关默认开启,同时设备异常检测包括一些非公共检测项,用户可以根据需求进行检测项的开关等配置。 表1 检测项说明 检测项 说明 内存泄漏检测 检测端侧设备是否存在内存泄漏。 异常端口检测 检测端侧设备是否开启了异常端口。 CPU使用率检测 检测端侧设备CPU使用率是否过高。 磁盘空间检测 检测端侧设备磁盘空间是否不足。 电池电量检测 检测端侧设备电池电量是否过低。 恶意IP检测 检测与设备通信的IP地址是否为恶意IP地址。 本地登录检测 检测设备是否被通过非SSH等网络方式登录。 暴力破解登录检测 检测设备是否被尝试通过暴力破解账号密码进行登录。 文件篡改检测 检测设备指定目录下的文件是否被篡改。