华为云用户手册

  • URI POST /v1/{project_id}/eihealth-projects/{eihealth_project_id}/workflows 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128
  • 响应示例 状态码: 200 OK { "id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "name" : "demo-app", "version" : "1.0.0", "summary" : "summary", "description" : "description", "labels" : [ "labelA", "labelB" ], "image" : "gwj-test-01/busybox:latest", "commands" : [ "echo eihealth;" ], "resources" : { "cpu_type" : "X86", "cpu" : "1C", "memory" : "1G", "gpu_type" : "GPU", "gpu" : 0 }, "inputs" : [ { "name" : "dir-parameter", "description" : "parameter description", "required" : true, "concurrent" : "var_iter", "type" : "DIRECTORY", "pattern" : "*.fastq", "values" : [ "/test" ] } ], "outputs" : [ { "name" : "dir-parameter", "description" : "parameter description", "required" : true, "type" : "DIRECTORY", "pattern" : "*.fastq", "values" : [ "/test" ] } ], "create_time" : "2021-01-30T02:34:36Z", "update_time" : "2021-01-30T02:53:26Z", "user_name" : "gwj-test-01", "source_project_name" : "null", "source_resource_id" : "null", "node_labels" : [ "health.node" ], "icon" : "data:image/png;base64,xxxxx" }
  • URI GET /v1/{project_id}/eihealth-projects/{eihealth_project_id}/apps/{app_id} 表1 路径参数 参数 是否必选 参数类型 描述 app_id 是 String 应用id 最小长度:1 最大长度:128 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128
  • 请求示例 创建自动作业,自动作业名称为demo-auto-job,使用如下数据库,使用数据库列为user_name。 https://eihealth.cn-north-4.myhuaweicloud.com/v1/{project_id}/eihealth-projects/{eihealth_project_id}/auto-jobs { "name" : "demo-auto-job", "description" : "description", "database_id" : "2adc4b5fbeeb4a518f177167074a5fb2", "database_column" : "user_name", "database_column_type" : "NEW", "clean_database_column" : false, "database_trigger" : [ { "name" : "status", "judge_mode" : "gte", "value" : "100" } ], "tool_id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "tool_type" : "workflow", "job_name" : "demo-job", "job_name_type" : "AUTO", "job_description" : "description", "labels" : [ "labelA", "labelB" ], "priority" : 0, "timeout" : 1440, "output_dir" : "/job", "output_dir_type" : "MANUAL", "node_labels" : [ "health.node" ], "io_acc_id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "tasks" : [ { "task_name" : "app1-1", "inputs" : [ { "name" : "dir-parameter", "source" : "MANUAL", "values" : [ "/test" ] } ], "resources" : { "cpu" : "1C", "cpu_type" : "X86", "memory" : "1G", "gpu_type" : "GPU", "gpu" : "0" }, "io_acc_type" : "SFS" } ] }
  • 响应示例 状态码: 201 CREATED { "id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "app_infos" : [ { "app_id" : "baabcb56-5bb6-11eb-8a0d-fa163e3ddba1", "app_name" : "demo-app", "app_version" : "1.0.0", "app_node_labels" : [ "health.node" ] } ], "job_info" : { "job_name" : "demo-job", "job_node_labels" : [ "health.node" ] } }
  • URI POST /v1/{project_id}/eihealth-projects/{eihealth_project_id}/auto-jobs 表1 路径参数 参数 是否必选 参数类型 描述 eihealth_project_id 是 String 平台项目ID,您可以在平台单击所需的项目名称,进入项目设置页面查看。 最小长度:1 最大长度:128 project_id 是 String 华为云项目ID,您可以从获取项目ID中获取。 最小长度:1 最大长度:128
  • 监控日志 AOM 可以对日志数据进行监控分析,首先您需要对日志进行结构化配置,具体请参考结构化配置。 在左侧导航栏中选择“指标浏览”。 默认显示“指标源”页签,单击“日志源”,切换至日志源页签。 依次在下拉框选择“日志组名称”和“日志流名称”。 在SQL查询条件框中输入SQL语句,单击“查询”即可查看该日志流下日志数据分析。目前支持的SQL语句详见SQL查询语法。 依照业务需求选择不同图表类型,呈现查询结果。图标类型与配置的详细说明请参见日志数据类图表(表格、柱状图、折线图、饼图、数字图、数字折线图、地图)。 单击:以表格形式展示当前日志数据。 单击:以折线图形式展示当前日志数据。 单击:以柱状图形式展示当前日志数据。 单击:以饼图形式展示当前日志数据。 单击:以数字图形式展示当前日志数据。 单击:以数字折线图形式展示当前日志数据。 单击:以国级、省级等地图形式展示当前日志数据。 对查询结果可执行以下操作: 单击“新建”,在弹出的“创建可视化图表”中,根据业务需求填写“图表名称”、“可视化对象”,选择需要展示的“图表类型”,单击“确定”,可视化图表保存成功。 单击“保存”,在弹出的“保存可视化图表”对话框中,根据业务需求填写“图表名称”,单击“确定”,可视化图表保存成功;当选中某个可视化图表时,单击“保存”,可对该图表进行修改。 单击“另存为”,在弹出的“保存可视化图表”中,根据业务需求填写“图表名称”,单击“确定”,对已有可视化图表进行复制。 须先保存一个图表后,才可另存为可视化图表。 单击“下载”,可下载当前SQL查询结果的可视化数据,该文件为.csv。 单击“展开图表”,可展开当前日志流下的可视化图表。 单击“收起图表”,可收起当前日志流下展开的可视化图表。
  • 监控指标更多设置 您还可以执行表3中的操作。 表3 相关操作 操作 说明 回到旧版(仅适用新版) 单击“回到旧版”,即可切换至旧版操作界面,具体请参见监控指标(旧版)。 隐藏指标数据(仅适用旧版) 选择指标后,在指标项前单击,可将该指标数据在当前图表中隐藏。在指标项前单击,可将该指标数据在当前图表中展示。或显示的是该指标数据的实时状态。 为指标添加创建告警规则 选择指标后,在指标列表右上方单击,可为当前添加的所有指标创建告警规则。 说明: 快捷跳转到“创建告警规则”界面后,“告警规则设置”和“告警规则详情”相关信息会自动选择为跳转前“指标浏览”界面的配置。 删除指标 在需要删除的指标项后单击。 添加指标图表到仪表盘 选择指标后,在指标列表右上方单击。
  • 监控指标(新版) 登录AOM 2.0控制台。 在左侧导航栏中选择“指标浏览”。 从下拉列表选择需要监控的Prometheus实例。 通过“全量指标”或“按普罗语句添加”方式选择一个或多个关注的指标。 通过“全量指标”方式选择指标 图1 通过“全量指标”方式选择指标 监控条件设置的详细说明请参见表2。 选择某个关注的指标后,可根据条件属性过滤显示指标。例如,不同的RDS实例均有CPU使用率指标,用户需要查看特定RDS实例类型的CPU使用率指标。具体操作如下: 在“指标”输入框搜索并选择对应的RDS实例的CPU使用率指标,然后在“条件”设置处设置维度名称为RDS for MySQL实例、RDS for PostgreSQL实例等RDS实例类型,并选择对应维度值,即可过滤显示出特定RDS实例类型的CPU使用率指标。 单击“新增指标”可多次添加监控指标,并为指标设置统计周期等信息。将光标移动到指标数据和对应监控条件后,还可以根据需要执行以下操作: 单击监控条件后的,可将对应行的指标数据在当前图表中隐藏。 单击监控条件后的,可将对应行的指标数据和监控条件转换为Prometheus命令。 单击监控条件后的,可快速复制对应行的指标数据及监控条件等信息,并根据需要修改。 单击监控条件后的,可删除对对应行指标数据的监控。 通过“按普罗语句添加”方式选择指标,普罗语句输入的详细说明请参见普罗语句说明。 图2 通过“按普罗语句添加”方式选择指标 参考表1设置指标参数信息,查看页面上方的指标图表,多角度对指标数据进行分析。 表1 指标参数说明 参数名称 说明 统计方式 指标数据按照所设置的统计方式进行聚合,包括:平均值、最小值、最大值、总计、样本个数。 说明: 样本个数为指标数据点的计数。 统计时段 指标数据按照所设置的时间范围进行聚合。设置时间范围的方式包括:近30分钟、近1小时、近6小时、近1天、近1周、自定义时间段。 刷新频率 指标数据按照所设置的频率进行刷新。包括:手动刷新、30秒、1分钟、5分钟。 (可选)设置指标数据的展示形式。 在页面右侧单击图表类型后的向下箭头,从下拉列表中选择合适的图表类型,并设置图表的配置参数,例如X轴名称、Y轴名称及显示数值等,配置参数的说明具体请参见指标数据类图表(折线图、数字图、TopN、表格、柱状图、数字折线图)。 1个折线图最多支持展示200条指标数据。 图3 选择图表类型
  • 健康状态类图表(蜂巢图和表格) 健康状态类图表支持将关注的一个或多个阈值规则、主机或组件的状态信息分别置于同一图表中监控,并以蜂巢图或表格形式展示。 阈值状态图表:实时监控阈值规则的状态,阈值状态图表仅支持表格形式展示,最多可添加10条阈值监控数据。 图15 阈值状态图表 添加阈值状态图表前请先创建指标告警规则。 主机状态图表:实时监控主机的状态。主机状态图表支持蜂巢图或表格形式展示,最多可添加10条主机监控数据。 图16 主机状态图表-蜂巢图 图17 主机状态图表-表格 组件状态图表:实时监控组件的状态。组件状态图表支持蜂巢图或表格形式展示,最多可添加10条组件监控数据。 图18 组件状态图表-蜂巢图 图19 组件状态图表-表格
  • 细粒度权限说明 使用自定义细粒度策略,请使用管理员用户进入 统一身份认证 IAM )服务,按需选择AOM的细粒度权限进行授权操作。AOM细粒度权限说明请参见表6。 表6 AOM细粒度权限说明 权限名称 权限描述 权限依赖 应用场景 cms:workflow:create 创建任务 ecs:cloudServers:list ecs:cloudServers:listServerInterfaces rds:instance:list 创建任务 cms:workflow:update 更新任务 functiongraph:function:create functiongraph:function:updateCode 更新任务 cms:workflow:list 获取任务列表 无 查询任务列表 cms:execution:get 获取任务执行信息 查询执行详情 cms:execution:create 执行任务 functiongraph:function:create functiongraph:function:invoke functiongraph:function:list 执行任务,如执行脚本,作业,安装和卸载文件包等 cms:template:get 获取模板信息 无 查询模板详情,查询作业执行方案详情 cms:template:list 获取模板列表 查询作业执行方案列表,查询可用于创建任务的模板列表 cms:script:get 查询脚本信息 查询脚本详情 cms:script:list 查询脚本列表 查询脚本列表 cms:job:list 查询作业列表 查询作业列表 aom:cmdbApplication:get 获取应用详情 无 根据应用ID获取应用详情、根据应用名称获取应用详情 aom:cmdbApplication:update 修改应用 修改应用 aom:cmdbApplication:delete 删除应用 删除应用 aom:cmdbApplication:get 获取应用详情 获取应用详情 aom:cmdbComponent:get 查询组件详情 根据组件ID查询组件详情、根据组件名称查询组件详情 aom:cmdbComponent:create 新增组件 新增组件 aom:cmdbComponent:update 更新组件 更新组件 aom:cmdbComponent:delete 删除组件 删除组件 aom:cmdbComponent:move 转移组件 转移组件 aom:cmdbComponent:list 查询组件列表 查询组件列表 aom:cmdbEnvironment:create 创建环境 创建环境 aom:cmdbEnvironment:update 修改环境 修改环境 aom:cmdbEnvironment:get 获取环境详情 根据环境ID获取环境详情、根据环境名称Region和组件ID获取环境详情 aom:cmdbEnvironment:delete 删除环境 删除环境 aom:cmdbSubApplication:get 查询子应用详情 查询子应用详情 aom:cmdbSubApplication:update 修改子应用 修改子应用 aom:cmdbSubApplication:move 转移子应用 转移子应用 aom:cmdbSubApplication:delete 删除子应用 删除子应用 aom:cmdbSubApplication:create 创建子应用 创建子应用 aom:cmdbSubApplication:list 查询子应用列表 查询子应用列表 aom:cmdbResources:unbind 解绑资源 解绑资源 aom:cmdbResources:bind 绑定资源 绑定资源 aom:cmdbResources:move 转移资源 转移资源 aom:cmdbResources:get 查询资源详情 查询资源详情 aom:alarm:put 上报告警 上报自定义告警 aom:event2AlarmRule:create 新增一条事件类告警规则 新增一条事件类告警规则 aom:event2AlarmRule:set 更新事件类告警规则 更新事件类告警规则 aom:event2AlarmRule:delete 删除事件类告警规则 删除事件类告警规则 aom:event2AlarmRule:list 查询全部事件类告警规则 查询全部事件类告警规则 aom:actionRule:create 新增告警行动规则 新增告警行动规则 aom:actionRule:delete 删除告警行动规则 删除告警行动规则 aom:actionRule:list 获取告警行动规则列表 获取告警行动规则列表 aom:actionRule:update 修改告警行动规则 修改告警行动规则 aom:actionRule:get 通过规则名称获取告警行动规则 通过规则名称获取告警行动规则 aom:alarm:list 获取告警发送结果 获取告警发送结果 aom:alarmRule:create 创建阈值规则 创建阈值规则 aom:alarmRule:set 修改阈值规则 修改阈值规则 aom:alarmRule:get 查询阈值规则 根据ID查询单个阈值规则或者查询所有阈值规则 aom:alarmRule:delete 删除阈值规则 批量删除阈值规则或者根据ID删除单个阈值规则 aom:discoveryRule:list 查看应用发现规则 查询系统中已有应用发现规则 aom:discoveryRule:delete 删除应用发现规则 删除应用发现规则 aom:discoveryRule:set 添加应用发现规则 添加应用发现规则 aom:metric:list 查询时间序列 查询时间序列 aom:metric:list 查询时序数据 查询时序数据 aom:metric:get 查询指标 查询指标 aom:metric:get 查询监控数据 查询监控数据 aom:muteRule:delete 删除静默规则 无 删除静默规则 aom:muteRule:create 新增静默规则 新增静默规则 aom:muteRule:update 修改静默规则 修改静默规则 aom:muteRule:list 获取静默规则列表 获取静默规则列表
  • AOM控制台功能依赖的角色或策略 如果IAM用户需要在AOM控制台拥有相应功能的查看或使用权限,请确认已经对该用户所在的用户组设置了AOM FullAccess或AOM ReadOnlyAccess策略的集群权限,再按如下表7增加依赖服务的角色或策略。 用户首次开通AOM服务,AOM会为其创建服务委托,用户除需授权AOM FullAccess外,还需要授予Security Administrator。 表7 AOM控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 工作负载 集群监控 云容器引擎 CCE 如果使用工作负载监控和集群监控,需要设置CCE ReadOnlyAccess权限。 数据订阅 分布式消息服务Kafka版 如果使用数据订阅功能,需要设置DMS ReadOnlyAccess权限。
  • 采集管理常用操作与系统权限 表5列出了采集管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表5 采集管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询代理区域 √ √ 编辑代理区域 √ x 删除代理区域 √ x 新建代理区域 √ x 查询某代理区域内所有的代理机 √ √ 查询全部代理区域 √ √ 安装Agent结果详情 √ √ 获取对应主机的安装命令 √ √ 获取对应主机的心跳及和server的连接状况 √ √ 批量卸载运行中的Agent √ x 查询Agent首页 √ √ 测试安装机和目标机的连通性 √ x 批量导入安装Agent √ x 获取Agent最近一次操作的执行日志相关信息 √ √ 获取Agent安装时可选择的版本列表 √ √ 获取当前项目ID下所有Agent版本号列表 √ √ 删除多条Agent主机 √ x 根据ecs_id查询Agent信息 √ √ 删除单条Agent主机 √ x 设置安装机 √ x 重置安装机参数 √ x 查询当前登录用户的项目能够被设置成安装机的列表 √ √ 查询Agent安装机列表 √ √ 删除安装机 √ x 批量升级Agent √ x 查询历史任务详情日志 √ √ 查询历史任务详情 √ √ 查询全部历史任务 √ √ 获取所有种类的执行状态和任务类型 √ √ 获取历史任务详情里Agent的执行状态种类 √ √ 编辑代理机 √ x 删除Agent代理主机 √ x 设置代理主机 √ x 查询当前用户能够被设置成代理机的列表 √ √ 批量更新插件 √ x 批量卸载插件 √ x 批量安装插件 √ x 查询插件历史任务详情日志 √ √ 查询插件执行历史记录的分页列表 √ √ 根据任务id,查询插件执行记录详情的分页列表 √ √ 获取历史任务详情里插件的执行状态的种类 √ √ 获取全部插件列表 √ √ 查询插件对应的版本号 √ √ 查询当前支持的插件列表 √ √ 获取租户下CCE集群信息列表 √ √ 获取租户下某个CCE集群下的Agent信息列表 √ √ 给租户下某个CCE集群安装ICAgent √ x 给租户下某个CCE集群升级ICAgent √ x 给租户下某个CCE集群卸载ICAgent √ x 获取CCE集群列表 √ √ 获取ICAgent机器列表 √ √ CCE集群机器安装ICAgent √ x CCE集群机器升级ICAgent √ x CCE集群机器卸载ICAgent √ x
  • 资源监控常用操作与系统权限 表3列出了资源监控常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表3 资源监控常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 创建告警规则 √ x 修改告警规则 √ x 删除告警规则 √ x 创建告警模板 √ x 修改告警模板 √ x 删除告警模板 √ x 创建告警行动规则 √ x 修改告警行动规则 √ x 删除告警行动规则 √ x 创建消息模板 √ x 修改消息模板 √ x 删除消息模板 √ x 创建分组规则 √ x 修改分组规则 √ x 删除分组规则 √ x 创建抑制规则 √ x 修改抑制规则 √ x 删除抑制规则 √ x 创建静默规则 √ x 修改静默规则 √ x 删除静默规则 √ x 创建仪表盘 √ x 修改仪表盘 √ x 删除仪表盘 √ x 创建Prometheus实例 √ x 修改Prometheus实例 √ x 删除Prometheus实例 √ x 创建应用发现规则 √ x 修改应用发现规则 √ x 删除应用发现规则 √ x 订阅阈值告警 √ x 配置虚机日志采集路径 √ x
  • 自动化运维常用操作与系统权限 表4列出了自动化运维常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表4 自动化运维常用操作与系统权限的关系 操作 CMS FullAccess CMS ReadOnlyAccess 创建脚本 √ x 编辑脚本 √ x 复制并新建脚本 √ x 编辑版本 √ x 查看脚本下的版本 √ √ 创建文件包 √ x 查看文件包 √ √ 编辑文件包 √ x 查看文件包版本列表 √ √ 修改文件包版本 √ x 删除文件包 √ x 创建任务 √ x 编辑任务 √ x 删除任务 √ x 查看任务列表 √ √ 查看任务详情 √ √ 执行任务 √ x
  • 应用资源管理常用操作与系统权限 表2列出了应用资源管理常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 应用资源管理常用操作与系统权限的关系 操作 AOM FullAccess AOM ReadOnlyAccess 查询应用详情 √ √ 查询子应用详情 √ √ 查询组件详情 √ √ 查询环境详情 √ √ 查询环境标签 √ √ 查询资源详情 √ √ 新建应用 √ x 更新应用 √ x 删除应用 √ x 新建子应用 √ x 更新子应用 √ x 删除子应用 √ x 转移子应用 √ x 新建组件 √ x 更新组件 √ x 删除组件 √ x 转移组件 √ x 新建环境 √ x 更新环境 √ x 删除环境 √ x 创建环境标签 √ x 更新环境标签 √ x 删除环境标签 √ x 导入资源 √ x 更新资源 √ x 删除资源 √ x 转移资源 √ x 资源同步 √ x 绑定资源 √ x 解绑资源 √ x 开通资源授权 √ x 取消资源授权 √ x 获取应用列表 √ √ 获取子应用列表 √ √ 获取组件列表 √ √ 获取应用下标签列表 √ √ 获取资源列表 √ √ 查询节点拓扑关系 √ √ 查询操作记录 √ √
  • AOM权限 默认情况下,管理员创建的IAM用户没有任何权限,您需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对AOM进行操作。 AOM部署时通过物理区域划分,为项目级服务。授权时,“作用范围”需要选择“区域级项目”,然后在指定区域对应的项目中设置相关权限,并且该权限仅对此项目生效;如果在“所有项目”中设置权限,则该权限在所有区域项目中都生效。访问AOM时,需要先切换至授权区域。 根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对E CS 服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分,AOM支持的API授权项请参见策略和授权项说明。 如表1所示,包括了AOM的所有系统权限。 表1 AOM系统权限 子服务名称 策略名称 描述 类别 依赖系统权限 应用资源管理/监控中心/采集管理 AOM FullAccess AOM2.0管理员权限,拥有该权限的用户可以操作并使用AOM。 系统策略 CCE ReadOnlyAccess、DMS ReadOnlyAccess AOM ReadOnlyAccess AOM2.0只读权限,拥有该权限的用户仅能查看AOM数据。 系统策略 自动化运维 CMS FullAccess 自动化运维管理员权限,拥有该权限的用户可以操作并使用自动化运维。 系统策略 - CMS ReadOnlyAccess 自动化运维只读权限,拥有该权限的用户仅能查看自动化运维数据。 系统策略
  • 基础指标:IEF指标 介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。 表1 IEF服务监控指标 指标类别 分类 AOM呈现的指标 IEF上报的指标 指标名称 指标含义 取值范围 单位 主机指标 CPU aom_node_cpu_limit_core cpuCoreLimit CPU内核总量 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) aom_node_cpu_used_core cpuCoreUsed CPU内核占用量 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) aom_node_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_node_memory_total_megabytes totalMem 物理内存容量 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) aom_node_memory_free_megabytes freeMem 可用物理内存 该指标用于统计测量对象上的尚未被使用的物理内存。 ≥0 兆字节(MB) aom_node_memory_usage memUsedRate 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) aom_node_virtual_memory_usage virMemUsedRate 虚拟内存使用率 该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 ≥0 兆字节(MB) 网络 aom_node_network_receive_bytes recvBytesRate 下行Bps 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) aom_node_network_transmit_bytes sendBytesRate 上行Bps 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Byte/s) 磁盘 aom_node_disk_capacity_megabytes diskCapacity 磁盘空间容量 总的磁盘空间容量。 ≥0 兆字节(MB) aom_node_disk_available_capacity_megabytes diskAvailableCapacity 可用磁盘空间 还未经使用的磁盘空间。 ≥0 兆字节(MB) aom_node_disk_usage diskUsedRate 磁盘使用率 已使用的磁盘空间占总的磁盘空间容量百分比。 0~100 百分比(%) aom_node_disk_read_kilobytes diskReadRate 磁盘读取速率 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) aom_node_disk_write_kilobytes diskWriteRate 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) GPU aom_node_gpu_memory_free_megabytes gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) aom_node_gpu_memory_usage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) aom_node_gpu_memory_used_megabytes gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) aom_node_gpu_usage gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 主机 aom_node_process_number processNum 进程数量 该指标用于统计测量对象上正在运行的进程个数。 ≥0 无 Atlas 500 智能小站 aom_node_npu_temperature_centigrade node_temperature 节点温度 Atlas 500小站节点温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) node_power node_power 节点功率 Atlas 500小站节点功率,由用户调用edgecore接口上报。 ≥0 瓦(W) node_voltage node_voltage 节点电压 Atlas 500小站节点电压,由用户调用edgecore接口上报。 ≥0 伏(V) npu_temperature npu_temperature 芯片温度 Atlas 500小站节点NPU卡温度,由用户调用edgecore接口上报。 ≥0 摄氏度(℃) npu_health npu_health 芯片健康状态 Atlas 500小站节点NPU卡的健康状态,由用户调用edgecore接口上报。 ≥0 无 ai_cpu_rate ai_cpu_rate AI cpu占用率 昇腾AI加速卡的AI CPU使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ai_core_rate ai_core_rate AI core占用率 昇腾AI加速卡的AI Core使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ctrl_cpu_rate ctrl_cpu_rate 控制cpu占用率 昇腾AI加速卡在控制CPU使用率,由用户调用edgecore接口上报。 0~100 百分比(%) ddr_cap_rate ddr_cap_rate ddr内存占用率 Atlas 500小站节点的ddr内存占用率,由用户调用edgecore接口上报。 0~100 百分比(%) ddr_bw_rate ddr_bw_rate ddr带宽占用率 Atlas 500小站节点的ddr带宽占用率,由用户调用edgecore接口上报。 0~100 百分比(%) 容器指标 CPU aom_container_cpu_limit_core cpuCoreLimit CPU内核总量 该指标用于统计测量对象申请的CPU核总量。 ≥1 核(Core) aom_container_cpu_used_core cpuCoreUsed CPU内核占用量 该指标用于统计测量对象已经使用的CPU核个数。 ≥0 核(Core) aom_container_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_container_memory_request_megabytes memCapacity 物理内存容量 该指标用于统计测量对象申请的物理内存总量。 ≥0 兆字节(MB) aom_container_memory_used_megabytes memUsed 物理内存使用量 该指标用于统计测量对象上已使用的物理内存。 ≥0 兆字节(MB) memUsedRate memUsedRate 物理内存使用率 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0~100 百分比(%) 磁盘 aom_container_disk_read_kilobytes diskReadRate 磁盘读取速率 该指标用于统计每秒从磁盘读出的数据量。 ≥0 千字节/秒(kB/s) aom_container_disk_write_kilobytes diskWriteRate 磁盘写入速率 该指标用于统计每秒写入磁盘的数据量。 ≥0 千字节/秒(kB/s) 网络 aom_container_network_receive_bytes recvBytesRate 下行Bps 该指标用于统计测试对象的入方向网络流速。 ≥0 字节/秒(Byte/s) aom_container_network_transmit_bytes sendBytesRate 上行Bps 该指标用于统计测试对象的出方向网络流速。 ≥0 字节/秒(Byte/s) GPU aom_container_gpu_memory_free_megabytes gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) aom_container_gpu_memory_usage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) aom_container_gpu_memory_used_megabytes gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) aom_container_gpu_usage gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 容器状态 aom_container_status status 容器状态 该指标用于统计容器的状态。 ≥0 无 进程指标 CPU aom_process_cpu_usage cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) 内存 aom_process_memory_used_megabytes memUsed 物理内存使用量 该指标用于统计测量对象上已使用的物理内存。 ≥0 兆字节(MB) 进程状态 aom_process_status status 进程状态 该指标用于统进程的状态。 ≥0 无 GPU gpuMemCapacity gpuMemCapacity 显存容量 该指标用于统计测量对象的显存容量。 ≥0 兆字节(MB) gpuMemUsage gpuMemUsage 显存使用率 该指标用于统计测量对象已使用的显存占显存容量的百分比。 0~100 百分比(%) gpuMemUsed gpuMemUsed 显存使用量 该指标用于统计测量对象已使用的显存。 ≥0 兆字节(MB) gpuUtil gpuUtil GPU使用率 该指标用于统计测量对象显卡使用率。 0~100 百分比(%) 父主题: 指标总览
  • 基础指标:node-exporter指标 介绍通过中间件Exporter上报到AOM的node-exporter指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Job名称 指标 指标说明 node-exporter node_filesystem_size_bytes 挂载的文件系统占用空间 node_filesystem_readonly 只读挂载的文件系统 node_filesystem_free_bytes 挂载的文件系统剩余空间 node_filesystem_avail_bytes 挂载的文件系统可用空间 node_cpu_seconds_total 节点CPU时间 node_network_receive_bytes_total 累积接收数据总量 node_network_receive_errs_total 接收时遇到的错误累积计数 node_network_transmit_bytes_total 累积传输数据总量 node_network_receive_packets_total 接收数据包的累积计数 node_network_transmit_drop_total 传输时丢弃的累积计数 node_network_transmit_errs_total 传输时遇到的错误累积计数 node_network_up 网卡的状态 node_network_transmit_packets_total 传输数据包的累积计数 node_network_receive_drop_total 接收时丢弃的累积计数 go_gc_duration_seconds 数据来自调用debug.ReadGCStats(),调用该函数时,会将传入参数GCStats结构体的PauseQuantile字段设置为5,这样函数将会返回最小、25%、50%、75% 和最大,这5个GC暂停时间百分位数。然后prometheus Go客户端根据返回的GC暂停时间百分位数、以及NumGC和PauseTotal变量创建摘要类型指标。 node_load5 节点5分钟CPU负载 node_filefd_allocated 已分配的文件描述符 node_exporter_build_info NodeExporter构建信息 node_disk_written_bytes_total 写入成功的字节总数 node_disk_writes_completed_total 写入完成的次数 node_disk_write_time_seconds_total 写入花费的总时长 node_nf_conntrack_entries 链接状态跟踪表分配的数量 node_nf_conntrack_entries_limit 链接状态跟踪表总量 node_processes_max_processes PID限制值 node_processes_pids PID个数 node_sockstat_TCP_alloc 已分配的TCP套接字数量 node_sockstat_TCP_inuse 正在使用的TCP套接字数量 node_sockstat_TCP_tw 等待关闭的TCP连接数 node_timex_offset_seconds 时钟时间偏移 node_timex_sync_status 节点时钟同步状态 node_uname_info 节点uname信息 node_vmstat_pgfault /proc/vmstat中的pgfault node_vmstat_pgmajfault /proc/vmstat中的pgmajfault node_vmstat_pgpgin /proc/vmstat中的pgpgin node_vmstat_pgpgout /proc/vmstat中的pgpgout node_disk_reads_completed_total 读取完成的次数 node_disk_read_time_seconds_total 读取花费的总时长 process_cpu_seconds_total 该指标计算使用到utime(Go进程执行在用户态模式下的滴答数)和stime(Go进程执行在内核态时候的滴答数,例如系统调用时),参数的单位为jiffies,jiffy描述了两次系统定时器中断之间的滴答时间。process_cpu_seconds_total等于utime和stime之和除以USER_HZ。即将程序滴答总数除以 Hz(每秒滴答数)得到就是操作系统运行该进程的总时间(以秒为单位)。 node_disk_read_bytes_total 读取成功的字节总数 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权秒数 node_disk_io_time_seconds_total I/O总耗时 node_disk_io_now 当前运行的I/O数量 node_context_switches_total 上下文切换次数 node_boot_time_seconds 节点开机时间 process_resident_memory_bytes 即RSS(Resident Set Size),指的是常驻内存集,是进程实际使用的内存,他不包括分配但未使用的内存,也不包括换出的内存页面,但包含共享内存。 node_intr_total 节点中断总数 node_load1 节点1分钟CPU负载 go_goroutines 通过runtime.NumGoroutine()调用获取,基于调度器结构sched和全局allglen变量计算得来。由于sched结构体的所有字段可能并发的更改,因此最后会检查计算的值是否小于1,如果小于1,那么返回1。 scrape_duration_seconds 采集scrape target花费的时间 node_load15 节点15分钟CPU负载 scrape_samples_post_metric_relabeling metric被重设标签后,剩余sample数量 node_netstat_Tcp_PassiveOpens 从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数 scrape_samples_scraped scrape target暴露的sample数量 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数 scrape_series_added scrape target新增加的系列数 node_netstat_Tcp_ActiveOpens 从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数 node_memory_MemTotal_bytes 节点内存总量 node_memory_MemFree_bytes 节点空闲内存 node_memory_MemAvailable_bytes 节点可用内存 node_memory_Cached_bytes 节点页面缓存中的内存 up scrape target的状态 node_memory_Buffers_bytes 节点缓冲区的内存 父主题: 指标总览
  • 采集管理使用限制 操作系统使用限制 表4 采集管理支持的操作系统及版本 操作系统 版本 EulerOS 1.1 64bit 2.0 64bit CentOS 7.1 64bit 7.2 64bit 7.3 64bit 7.4 64bit 7.5 64bit 7.6 64bit 7.7 64bit 7.8 64bit 7.9 64bit 8.0 64bit Ubuntu 16.04 server 64bit 18.04 server 64bit 20.04 server 64bit 22.04 server 64bit 对于Linux x86_64服务器,采集管理支持上表中所有的操作系统及版本。 对于Linux ARM服务器,当前CentOS操作系统支持7.4/7.5/7.6版本,EulerOS操作系统支持2.0版本,Ubuntu操作系统支持18.04版本。 资源使用限制 表5 资源使用限制 对象 使用限制 Agent客户端 当连续两分钟平均CPU使用率大于50%或者内存大于100M时,Agent客户端将自动重启。 Agent安装、升级或卸载 一次最多可对100台主机安装、升级或卸载Agent。 主机删除 一次最多可删除50台卸载了Agent的主机记录。
  • 资源监控使用限制 表2 资源监控使用限制 分类 对象 使用限制 仪表盘 仪表盘 1个区域中最多可创建1000个仪表盘。 仪表盘中的图表 1个仪表盘中最多可添加30个图表。 仪表盘中图表可选资源、阈值规则、组件或主机的个数 1个数字图最多可添加12个资源,只能展示1个资源,默认展示第一个资源。 1个阈值状态图表最多可添加10个阈值规则。 1个主机状态图表最多可添加10个主机。 1个组件状态图表最多可添加10个组件。 指标 指标数据 基础规格:指标数据在数据库中最多保存7天。 专业规格:指标数据在数据库中最多保存30天。 指标项 资源(例如,集群、组件、主机等)被删除后,其关联的指标项在数据库中最多保存30天。 维度 每个指标的维度最多为20个。 指标查询接口 单次最大可同时查询20个指标。 统计周期 最大统计周期为1小时。 单次查询返回指标数据 单个指标单次查询最大返回1440个数据点。 自定义指标 无限制。 上报自定义指标 单次请求数据最大不能超过40KB,上报指标所带时间戳不能超前于标准UTC时间10分钟,不接收乱序指标,即有新指标上报后,旧指标上报将会失败。 应用指标 JOB指标 每个主机的容器个数超过1000个时,ICAgent将停止采集该主机应用指标,并发送“ICAgent停止采集应用指标”告警(告警ID:34105)。 每个主机的容器个数缩减到1000个以内时,ICAgent将恢复该主机应用指标采集,并清除“ICAgent停止采集应用指标”告警 。 由于JOB在完成任务之后,会自动退出。如果您需要监控JOB指标,要保证存活时间大于90秒才能采集到指标数据。 采集器资源消耗 采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关,在未运行任何业务的VM上,采集器将消耗30M内存、1% CPU。为保证采集可靠性,单节点上运行的容器个数应小于1000。 告警规则 告警规则 告警规则(包含指标告警规则和事件告警规则)最多可创建3000个。 告警模板 告警模板最多可创建150个。 日志 日志功能限制 日志功能限制请参考LTS日志限制。 日志文件 只支持采集文本类型日志文件,不支持采集其他类型日志文件(例如二进制文件)。 每个通过卷挂载日志的路径下,ICAgent最多采集20个日志文件。 每个ICAgent最多采集1000个容器标准输出日志文件,容器标准输出日志只支持json-file类型。 采集日志文件的资源消耗 日志文件采集时消耗的资源和日志量、文件个数及网络带宽、backend服务处理能力等多种因素强相关。 日志丢弃 当单行日志长度超过10240字节时,此行会被丢弃。 日志采集路径 Linux 采集路径支持递归路径,**表示递归5层目录。示例:/var/logs/**/a.log。 采集路径支持模糊匹配,匹配目录或文件名中的任何字符。示例:/var/logs/*/a.log、/var/logs/service/a*.log。 采集路径如果配置的是目录,示例:/var/logs/,则只采集目录下后缀为“.log”、“.trace”和“.out”的文件;如果配置的是文件名,则直接采集对应文件,只支持文本类型的文件。 采集路径不能重复配置,即同一主机下的同一路径,即使跨日志组和日志流,也只能配置一次。 Windows Windows环境日志采集路径支持递归路径,**表示递归5层目录。配置样例:C:\var\service\**\a.log。 Windows环境日志采集路径支持模糊匹配,匹配目录或文件名中的任何字符。配置样例:C:\var\service\*\a.log、C:\var\service\a*.log。 采集路径不能重复配置,即同一主机下的同一路径,即使跨日志组和日志流,也只能配置一次。 windows事件日志采集不能重复配置,即同一主机下,即使跨日志组和日志流,也只能配置一次。 日志重复 当采集器被重启后,重启时间点附近可能会产生一定的数据重复。 历史日志 日志数据存储时长与您选择的版本有关,且收费不同,详见价格详情。 告警列表 告警 可查询最近一年内,时间跨度不超过31天的告警。 事件 可查询最近一年内,时间跨度不超过31天的事件。 应用发现 应用发现规则 应用发现规则最多可创建100个。
  • 自动化运维使用限制 表3 自动化运维使用限制 对象 使用限制 任务 单个操作ECS的任务最多支持选择100个实例。 单个操作RDS的任务最多支持选择20个实例。 单个操作CCE负载的任务最多支持选择10个实例。 作业 单用户支持最多可以创建1000个作业。 每个作业最多支持创建20个全局参数、20个作业步骤、50个执行方案。 脚本 单用户支持最多创建脚本版本合计1000个。 文件包 单用户支持最多创建文件包版本合计1000个。 OS账号 单用户支持最多创建100个账号。 磁盘空间 支持清理1-1000天前的文件。 定时运维 定时运维任务单用户最大配额100个。
  • 修订记录 表1 版本说明列表 日期 修订记录 2023-09-30 新增以下章节: AOM与 CES 的云服务监控功能对比 安全 优化以下章节: 基础指标:容器指标 2023-09-15 删除“计费说明”章节。 2023-08-04 删除“基础指标-云服务指标”章节。 2023-06-30 新增以下章节: 与AOM 1.0对比 基础指标:IoTDA指标 优化以下章节: 基础指标:容器指标 基础指标-云服务指标 2022-12-30 新增以下章节: 基础指标:虚机指标 基础指标:容器指标 基础指标-云服务指标 指标维度 优化以下章节: 简介 计费说明 2022-06-30 第一次发布。
  • 基础指标:CSE指标 介绍CSE服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 CSE服务监控指标 指标类别 分类 指标 指标名称 指标含义 取值范围 单位 ServiceComb registry servicecomb_service_center_db_service_total 微服务版本数 微服务版本数。 ≥0 个 servicecomb_service_center_db_instance_total 微服务实例数 微服务实例数。 ≥0 个 servicecomb_service_center_http_request_total http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_service_center_http_request_durations_microseconds http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 微秒(μs) config servicecomb_kie_request_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 servicecomb_kie_request_process_duration http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 毫秒(ms) servicecomb_kie_config_count 配置个数 ServiceComb配置个数。 ≥0 个 Nacos config nacos_configCount Nacos config配置个数 Nacos集群内各节点的配置个数。 ≥0 个 nacos_getConfig Nacos config读配置请求数 Nacos集群内各节点的读配置请求次数。 ≥0 次 nacos_longPolling Nacos config HTTP长连接数(监听者数) Nacos config HTTP长连接数。 ≥0 个 nacos_publish Nacos config写配置请求数 Nacos集群内各节点的写配置请求次数。 ≥0 次 nacos_subscriberCount Nacos config订阅者数量 Nacos config订阅者数量。 ≥0 个 nacos_configPushCost Nacos config推送时延 Nacos config推送时延。 ≥0 毫秒(ms) http nacos_http_server_requests_seconds_count http请求次数 http请求次数,包括多种url、方法、code。 ≥0 次 nacos_http_server_requests_seconds_max http请求总耗时最大值 统计周期内http请求时延的最大值,包括多种url、方法、code,使用Nacos-Client 1.x时上报。 ≥0 秒(s) nacos_http_server_requests_seconds_sum http请求总耗时 http请求总耗时,包括多种url、方法、code。 ≥0 秒(s) naming nacos_avgPushCost Nacos naming平均推送耗时 Nacos naming平均推送耗时(ms)。 ≥0 毫秒(ms) nacos_maxPushCost Nacos naming最大推送耗时 Nacos naming最大推送耗时(ms)。 ≥0 毫秒(ms) nacos_failedPush Nacos naming推送失败数 Nacos naming推送失败数。 ≥0 次 nacos_ipCount Nacos naming ip个数 微服务注册实例数。 ≥0 个 nacos_serviceSubscriberCount Nacos naming订阅者数量 Nacos naming订阅者数量。 ≥0 个 nacos_serviceCount Nacos naming域名个数(2.x 版本) Nacos集群内各节点的服务个数。 ≥0 个 应用网关 envoy cpuUsage CPU使用率 该指标用于统计测量对象的CPU使用率。 0~100 百分比(%) envoy_http_downstream_cx_active 活跃连接总数 该指标用于统计活跃连接数。 ≥0 个 downstream_cx_delayed_close_timeout 延迟关闭连接总数 该指标用于统计延迟关闭的连接数。 ≥0 个 envoy_http_downstream_cx_destroy 摧毁连接总数 该指标用于统计摧毁的链接数。 ≥0 个 envoy_http_downstream_cx_destroy_active_rq 摧毁活跃连接数 该指标用于统计摧毁的活跃链接数。 ≥0 个 envoy_http_downstream_cx_destroy_local 摧毁本地的连接数 该指标用于统计摧毁的本地连接数。 ≥0 个 envoy_http_downstream_cx_destroy_local_active_rq 摧毁本地活跃连接数 该指标用于统计摧毁本地活跃连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote 摧毁远端关闭的连接数 该指标用于统计因为远端关闭而摧毁的连接数。 ≥0 个 envoy_http_downstream_cx_destroy_remote_active_rq 摧毁远端关闭的活跃连接数 该指标用于统计因为远端关闭而摧毁的活跃连接数。 ≥0 个 envoy_http_downstream_cx_drain_close 驱逐关闭连接数 该指标用于统计因为驱逐而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_http1_active http1获取连接数 该指标用于统计http1的连接数。 ≥0 个 envoy_http_downstream_cx_max_duration_reached 超时连接数 该指标用于统计因超过最大连接时间而关闭的连接数。 ≥0 个 envoy_http_downstream_cx_tx_bytes_total 总发送字节数 该指标用于统计总发送的字节数。 ≥0 字节(Byte) envoy_http_downstream_rq 总请求数 该指标用于统计总请求数。 ≥0 个 envoy_http_downstream_rq_http1_total http1总请求数 该指标用于统计http1总请求数。 ≥0 个 envoy_http_downstream_rq_http2_total http2总请求数 该指标用于统计http2总请求数。 ≥0 个 envoy_http_downstream_rq_idle_timeout 空闲时间超时关闭请求数 该指标用于统计因空闲时间超时的请求数。 ≥0 个 envoy_http_downstream_rq_too_large 请求体过大请求数 该指标用于统计请求body过大返回413的请求数。 ≥0 个 downstream_rq_ws_on_non_ws_route websocket没有路由的请求数 该指标用于统计因为没有路由而被拒绝的请求数。 ≥0 个 envoy_http_local_rate_limiter_http_local_rate_limit_enforced 限流请求数 该指标用于统计被限流的请求数。 ≥0 个 envoy_cluster_circuit_breakers_default_cx_open 连接断路器触发状态 0:连接断路器低于其并发限制。 1:连接断路器已达到容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_open envoy_cluster_circuit_breakers_default_cx_pool_open 连接池断路器触发状态 0:连接池断路器低于其并发限制。 1:连接池断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_cx_pool_open envoy_cluster_circuit_breakers_default_remaining_cx 连接断路器的剩余连接数 断路器达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx envoy_cluster_circuit_breakers_default_remaining_cx_pools 连接池断路器的剩余连接数 断路器连接池达到并发限制之前的剩余连接数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_cx_pools envoy_cluster_circuit_breakers_default_remaining_pending 断路器达到并发限制之前剩余的待处理请求数 断路器达到并发限制之前剩余的待处理请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_pending envoy_cluster_circuit_breakers_default_remaining_retries 断路器达到并发限制之前的剩余重试次数 断路器达到并发限制之前的剩余重试次数。 ≥0 次 envoy_cluster_circuit_breakers_high_remaining_retries envoy_cluster_circuit_breakers_default_remaining_rq 断路器达到并发限制之前剩余的请求数 断路器达到并发限制之前剩余的请求数。 ≥0 个 envoy_cluster_circuit_breakers_high_remaining_rq envoy_cluster_circuit_breakers_default_rq_open 请求断路器触发状态 0:请求断路器低于其并发限制。 1:请求断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_open envoy_cluster_circuit_breakers_default_rq_retry_open 重试断路器触发状态 0:重试断路器低于其并发限制。 1:重试断路器已达容量限制不再接纳。 0、1 无 envoy_cluster_circuit_breakers_high_rq_retry_open envoy_cluster_ejections_overflow 驱逐达到最大驱逐阈值的次数 主机因请求异常率达到最大驱逐比例而被限制驱逐的次数。 ≥0 次 envoy_cluster_ejections_consecutive_5xx 连续5xx 驱逐次数 主机因连续返回5xx导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_consecutive_5xx 连续5xx 驱逐次数(即使未强制执行) 主机因连续返回5xx导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_gateway_failure 检测到的连续网关故障的驱逐次数 检测到的连续网关故障的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_consecutive_local_origin_failure 连续本地源故障的驱逐次数 检测到的连续本地源故障导致的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_local_origin_failure 连续本地源故障强制驱逐次数 主机因检测到的连续本地源故障导致的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_failure_percentage 请求失败率超阈值的驱逐次数 主机因请求失败率达到失败率阈值而被驱逐的次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_failure_percentage 本地主动请求检测失败率超阈值的驱逐次数 主机因本地主动请求检测失败率超阈值的驱逐次数。 ≥0 次 envoy_cluster_ejections_detected_local_origin_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数(即使未强制执行)。 ≥0 次 envoy_cluster_ejections_detected_success_rate 本地主动请求检测成功率未达阈值的驱逐次数 主机因本地主动请求检测成功率未达到阈值而触发的驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_5xx 连续 5xx 强制驱逐次数 主机因连续 5xx 强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_consecutive_gateway_failure 连续网关故障强制驱逐次数 主机因连续网关故障强制驱逐次数。 ≥0 次 envoy_cluster_ejections_enforced_failure_percentage 请求失败率超阈值而被强制驱逐次数 主机因请求失败率超阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_failure_percentage 本地主动请求失败率超阈值而被强制驱逐次数 主机因本地主动请求失败率超过阈值而被强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_local_origin_success_rate 本地主动请求成功率未达阈值驱逐次数 主机因本地主动请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_success_rate 请求成功率未达阈值驱逐次数 主机因请求成功率未达阈值而强制驱逐的次数。 ≥0 次 envoy_cluster_ejections_enforced_total 强制驱逐的次数 由于任何异常类型而强制驱逐的次数。 ≥0 次 envoy_http_downstream_cx_rx_bytes_total 请求收到的总字节数 请求收到的总字节数。 ≥0 字节(Byte) 父主题: 指标总览
  • 基础指标:容器指标 介绍通过CCE的kube-prometheus-stack插件或者自建K8s集群上报到AOM集群容器指标的类别、名称、含义等信息。 表1 CCE/自建K8s集群容器指标 Target名称 Job名称 指标 指标含义 serviceMonitor/monitoring/coredns/0 serviceMonitor/monitoring/node-local-dns/0 coredns 和node-local-dns coredns_build_info CoreDNS的构建信息 coredns_cache_entries 缓存中元素的数量 coredns_cache_size 缓存大小 coredns_cache_hits_total 缓存命中次数 coredns_cache_misses_total 缓存未命中次数 coredns_cache_requests_total 不同维度下DNS解析请求的计数 coredns_dns_request_duration_seconds_bucket DNS请求耗时直方图bucket coredns_dns_request_duration_seconds_count DNS请求耗时直方图count coredns_dns_request_duration_seconds_sum DNS请求耗时直方图sum coredns_dns_request_size_bytes_bucket DNS请求大小直方图bucket coredns_dns_request_size_bytes_count DNS请求大小直方图count coredns_dns_request_size_bytes_sum DNS请求大小直方图sum coredns_dns_requests_total DNS请求次数 coredns_dns_response_size_bytes_bucket DNS响应大小直方图bucket coredns_dns_response_size_bytes_count DNS响应大小直方图count coredns_dns_response_size_bytes_sum DNS响应大小直方图sum coredns_dns_responses_total DNS响应码及数量 coredns_forward_conn_cache_hits_total 每个协议和数据流的缓存命中次数 coredns_forward_conn_cache_misses_total 每个协议和数据流的缓存未命中次数 coredns_forward_healthcheck_broken_total 健康检查broken次数 coredns_forward_healthcheck_failures_total 健康检查失败次数 coredns_forward_max_concurrent_rejects_total 并发超限拒绝次数 coredns_forward_request_duration_seconds_bucket forward请求耗时直方图bucket coredns_forward_request_duration_seconds_count forward请求耗时直方图count coredns_forward_request_duration_seconds_sum forward请求耗时直方图sum coredns_forward_requests_total 每个数据流的请求次数 coredns_forward_responses_total 每个数据流的响应次数 coredns_health_request_duration_seconds_bucket health请求耗时直方图bucket coredns_health_request_duration_seconds_count health请求耗时直方图count coredns_health_request_duration_seconds_sum health请求耗时直方图sum coredns_health_request_failures_total health请求失败总数 coredns_hosts_reload_timestamp_seconds 最近一次加载host文件的时间戳 coredns_kubernetes_dns_programming_duration_seconds_bucket DNS编程耗时直方图bucket coredns_kubernetes_dns_programming_duration_seconds_count DNS编程耗时直方图count coredns_kubernetes_dns_programming_duration_seconds_sum DNS编程耗时直方图sum coredns_local_localhost_requests_total localhost请求数量 coredns_nodecache_setup_errors_total nodecache设置错误次数 coredns_dns_response_rcode_count_total 每个Zone和Rcode的响应次数 coredns_dns_request_count_total DNS请求次数 coredns_dns_request_do_count_total 设置了DO标志位的请求总数 coredns_dns_do_requests_total 设置了DO标志位的请求总数 coredns_dns_request_type_count_total 每个Zone和Type的请求次数 coredns_panics_total 发生Panic的总数 coredns_plugin_enabled 各插件的启用状态 coredns_reload_failed_total reload失败次数 serviceMonitor/monitoring/kube-apiserver/0 apiserver aggregator_unavailable_apiservice 不可用的APIService数量 apiserver_admission_controller_admission_duration_seconds_bucket 准入控制器(Admission Controller)的处理延时 apiserver_admission_webhook_admission_duration_seconds_bucket 准入Webhook(Admission Webhook)的处理延时 apiserver_admission_webhook_admission_duration_seconds_count 准入Webhook(Admission Webhook)的处理请求统计 apiserver_client_certificate_expiration_seconds_bucket 证书剩余有效时长 apiserver_client_certificate_expiration_seconds_count 证书剩余有效时长 apiserver_current_inflight_requests 在处理读请求数量 apiserver_request_duration_seconds_bucket 客户端对APIServer的访问时延 apiserver_request_total 对APIServer不同请求的计数 go_goroutines 协程数量 kubernetes_build_info 构建信息 process_cpu_seconds_total 进程CPU累计时长 process_resident_memory_bytes 进程常驻内存集的大小 rest_client_requests_total REST请求数量 workqueue_adds_total 工作队列Add次数 workqueue_depth 工作队列深度 workqueue_queue_duration_seconds_bucket 任务在工作队列中存在的时长 aggregator_unavailable_apiservice_total 不可用的APIService总数 rest_client_request_duration_seconds_bucket REST请求耗时 serviceMonitor/monitoring/kubelet/0 kubelet kubelet_certificate_manager_client_expiration_renew_errors 证书续期错误次数 kubelet_certificate_manager_client_ttl_seconds Kubelet客户端证书的TTL kubelet_cgroup_manager_duration_seconds_bucket 控制组管理器操作的持续时间bucket kubelet_cgroup_manager_duration_seconds_count 控制组管理器操作的持续时间count kubelet_node_config_error 如果节点遇到与配置相关的错误,则此指标为true(1),否则为false(0) kubelet_node_name 节点名称,值始终为1 kubelet_pleg_relist_duration_seconds_bucket PLEG中relist Pod耗时bucket kubelet_pleg_relist_duration_seconds_count PLEG中relist Pod耗时count kubelet_pleg_relist_interval_seconds_bucket PLEG中relist时间间隔bucket kubelet_pod_start_duration_seconds_count Pod启动时间count kubelet_pod_start_duration_seconds_bucket Pod启动时间bucket kubelet_pod_worker_duration_seconds_bucket 同步单个Pod的持续时间。按操作类型细分:create、update、sync kubelet_running_containers 当前运行的容器数 kubelet_running_pods 当前运行的pod数 kubelet_runtime_operations_duration_seconds_bucket 运行时操作耗时bucket kubelet_runtime_operations_errors_total 按操作类型列出的运行时操作错误的累积数 kubelet_runtime_operations_total 按操作类型列出的运行时操作的累积数 kubelet_volume_stats_available_bytes volume可用量 kubelet_volume_stats_capacity_bytes volume容量 kubelet_volume_stats_inodes volume inode总数 kubelet_volume_stats_inodes_used volume 已使用inode数量 kubelet_volume_stats_used_bytes volume已用量 storage_operation_duration_seconds_bucket 存储操作耗时bucket storage_operation_duration_seconds_count 存储操作耗时count storage_operation_errors_total 存储操作错误次数 volume_manager_total_volumes Volume Manager中的volumes总数 rest_client_requests_total HTTP请求数,维度包含Status code、Method和Host rest_client_request_duration_seconds_bucket 请求时延bucket process_resident_memory_bytes 进程常驻内存集的大小 process_cpu_seconds_total 进程CPU累计时长 go_goroutines 协程个数 serviceMonitor/monitoring/kubelet/1 kubelet container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间 container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_file_descriptors 容器打开的文件描述符数量 container_fs_inodes_free 文件系统的可用inode数量 container_fs_inodes_total 文件系统的总计inode数量 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数 container_fs_usage_bytes 文件系统的使用量 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数 container_memory_cache 容器总页缓存内存 container_memory_failcnt 容器内存使用达到限制的次数 container_memory_max_usage_bytes 容器历史最大内存使用量 container_memory_rss 容器常驻内存集的大小 container_memory_swap 容器虚拟内存使用量 container_memory_usage_bytes 容器当前的内存使用量 container_memory_working_set_bytes 容器工作集内存使用量 container_network_receive_bytes_total 容器网络累积接收数据总量 container_network_receive_errors_total 接收时遇到的错误累积计数 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数 container_network_receive_packets_total 接收数据包的累积计数 container_network_transmit_bytes_total 容器网络累积传输数据总量 container_network_transmit_errors_total 传输时遇到的错误累积计数 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数 container_network_transmit_packets_total 传输数据包的累积计数 container_spec_cpu_quota 容器分配的CPU配额 container_spec_memory_limit_bytes 容器可以使用的总内存量限制 machine_cpu_cores 逻辑CPU个数 machine_memory_bytes 内存总数 serviceMonitor/monitoring/kube-state-metrics/0 kube-state-metrics-prom kube_cronjob_status_active 当前活动的周期任务 kube_cronjob_info 周期任务 kube_cronjob_labels 周期任务标签 kube_configmap_info ConfigMap信息 kube_daemonset_created Daemonset创建时间 kube_daemonset_status_current_number_scheduled 当前调度的DaemonSet数量 kube_daemonset_status_desired_number_scheduled 期望调度的DaemonSet数量 kube_daemonset_status_number_available 期望运行DaemonSet且已经至少运行一个Pod的节点数 kube_daemonset_status_number_misscheduled 期望之外运行DaemonSet的节点数 kube_daemonset_status_number_ready 期望运行DaemonSet且Pod已经就绪的节点数 kube_daemonset_status_number_unavailable 期望运行DaemonSet但没有Pod运行的节点数 kube_daemonset_status_updated_number_scheduled 正在运行已更新的DaemonSet的Pod的节点数 kube_deployment_created Deployment创建时间戳 kube_deployment_labels Deployment标签 kube_deployment_metadata_generation Deployment期望状态的generation kube_deployment_spec_replicas Deployment期望的副本数 kube_deployment_spec_strategy_rollingupdate_max_unavailable 滚动升级时最大不可用副本数 kube_deployment_status_observed_generation Deployment控制器观察到的generation kube_deployment_status_replicas Deployment当前的副本数 kube_deployment_status_replicas_available Deployment可用的replicas数量 kube_deployment_status_replicas_ready Deployment已Ready的replicas数量 kube_deployment_status_replicas_unavailable Deployment不可用的replicas数量 kube_deployment_status_replicas_updated Deployment已更新的replicas数量 kube_job_info job信息 kube_namespace_labels 命名空间标签 kube_node_labels 节点标签 kube_node_info 节点信息 kube_node_spec_taint 节点污点信息 kube_node_spec_unschedulable 节点是否可调度 kube_node_status_allocatable 节点可分配资源 kube_node_status_capacity 节点资源总量 kube_node_status_condition 节点状态condition kube_node_volcano_oversubscription_status 节点超卖状态 kube_persistentvolume_status_phase PV状态的phase kube_persistentvolumeclaim_status_phase PVC状态的phase kube_persistentvolume_info PV信息 kube_persistentvolumeclaim_info PVC信息 kube_pod_container_info Pod的容器信息 kube_pod_container_resource_limits 容器的资源limits kube_pod_container_resource_requests 容器的资源requests kube_pod_container_status_last_terminated_reason 上次terminated的原因 kube_pod_container_status_ready 容器的readiness是否成功 kube_pod_container_status_restarts_total 容器重启次数 kube_pod_container_status_running 容器是否running kube_pod_container_status_terminated 容器是否terminated kube_pod_container_status_terminated_reason terminated容器的reason kube_pod_container_status_waiting 容器是否waiting kube_pod_container_status_waiting_reason waiting容器的reason kube_pod_info Pod信息 kube_pod_labels Pod标签 kube_pod_owner Pod的Owner信息 kube_pod_status_phase Pod当前的phase kube_pod_status_ready Pod状态是否Ready kube_secret_info Secret信息 kube_statefulset_created StatefulSet的创建时间戳 kube_statefulset_labels StatefulSet的标签信息 kube_statefulset_metadata_generation StatefulSet期望状态的generation kube_statefulset_replicas StatefulSet期望的Pod数 kube_statefulset_status_observed_generation StatefulSet控制器观察到的generation kube_statefulset_status_replicas StatefulSet的replicas数量 kube_statefulset_status_replicas_ready StatefulSet已ready的replicas数量 kube_statefulset_status_replicas_updated StatefulSet已更新的replicas数量 kube_job_spec_completions 成功完成所需Pod数量 kube_job_status_failed 失败的Job kube_job_status_succeeded 成功的Job kube_node_status_allocatable_cpu_cores 节点可分配CPU核数 kube_node_status_allocatable_memory_bytes 节点可分配内存 kube_replicaset_owner RS的所有者信息 kube_resourcequota ResourceQuota信息 kube_pod_spec_volumes_persistentvolumeclaims_info Pod关联的PVC信息 serviceMonitor/monitoring/prometheus-lightweight/0 prometheus-lightweight vm_persistentqueue_blocks_dropped_total 发送队列Block丢弃数量 vm_persistentqueue_blocks_read_total 发送队列Block读取数量 vm_persistentqueue_blocks_written_total 发送队列Block写入数量 vm_persistentqueue_bytes_pending 发送队列Pending字节数 vm_persistentqueue_bytes_read_total 发送队列读取的字节数 vm_persistentqueue_bytes_written_total 发送队列写入的字节数 vm_promscrape_active_scrapers 活跃的采集数量 vm_promscrape_conn_read_errors_total 采集读取错误次数 vm_promscrape_conn_write_errors_total 采集写入错误次数 vm_promscrape_max_scrape_size_exceeded_errors_total 采集大小超限错误次数 vm_promscrape_scrape_duration_seconds_sum 采集耗时sum vm_promscrape_scrape_duration_seconds_count 采集耗时count vm_promscrape_scrapes_total 采集次数 vmagent_remotewrite_bytes_sent_total 远程写发送字节数 vmagent_remotewrite_duration_seconds_sum 远程写耗时sum vmagent_remotewrite_duration_seconds_count 远程写耗时count vmagent_remotewrite_packets_dropped_total 远程写丢弃包次数 vmagent_remotewrite_pending_data_bytes 远程写Pending字节数 vmagent_remotewrite_requests_total 远程写请求次数 vmagent_remotewrite_retries_count_total 远程写重试次数 go_goroutines 协程个数 serviceMonitor/monitoring/node-exporter/0 node-exporter node_boot_time_seconds 节点开机时间 node_context_switches_total 上下文切换次数 node_cpu_seconds_total 节点CPU时间 node_disk_io_now 当前运行的I/O数量 node_disk_io_time_seconds_total I/O总耗时 node_disk_io_time_weighted_seconds_total 执行I/O所花费的加权秒数 node_disk_read_bytes_total 读取成功的字节总数 node_disk_read_time_seconds_total 读取花费的总时长 node_disk_reads_completed_total 读取完成的次数 node_disk_write_time_seconds_total 写入花费的总时长 node_disk_writes_completed_total 写入完成的次数 node_disk_written_bytes_total 写入成功的字节总数 node_docker_thinpool_data_space_available docker thinpool数据可用空间 node_docker_thinpool_metadata_space_available docker thinpool元数据可用空间 node_exporter_build_info NodeExporter构建信息 node_filefd_allocated 已分配的文件描述符 node_filefd_maximum 最大文件描述符 node_filesystem_avail_bytes 挂载的文件系统可用空间 node_filesystem_device_error statfs获取文件信息失败 node_filesystem_free_bytes 挂载的文件系统剩余空间 node_filesystem_readonly 只读挂载的文件系统 node_filesystem_size_bytes 挂载的文件系统占用空间 node_forks_total 节点fork总数 node_intr_total 节点中断总数 node_load1 节点1分钟CPU负载 node_load15 节点15分钟CPU负载 node_load5 节点5分钟CPU负载 node_memory_Buffers_bytes 节点缓冲区的内存 node_memory_Cached_bytes 节点页面缓存中的内存 node_memory_MemAvailable_bytes 节点可用内存 node_memory_MemFree_bytes 节点空闲内存 node_memory_MemTotal_bytes 节点内存总量 node_network_receive_bytes_total 累积接收数据总量 node_network_receive_drop_total 接收时丢弃的累积计数 node_network_receive_errs_total 接收时遇到的错误累积计数 node_network_receive_packets_total 接收数据包的累积计数 node_network_transmit_bytes_total 累积传输数据总量 node_network_transmit_drop_total 传输时丢弃的累积计数 node_network_transmit_errs_total 传输时遇到的错误累积计数 node_network_transmit_packets_total 传输数据包的累积计数 node_procs_blocked 当前blocked的进程 node_procs_running 当前运行的进程 node_sockstat_sockets_used 正在使用的套接字总量 node_sockstat_TCP_alloc 已分配的TCP套接字数量 node_sockstat_TCP_inuse 正在使用的TCP套接字数量 node_sockstat_TCP_orphan 无主的TCP连接数 node_sockstat_TCP_tw 等待关闭的TCP连接数 node_sockstat_UDPLITE_inuse UDP-Lite 套接字当前使用量 node_sockstat_UDP_inuse UDP 套接字当前使用量 node_sockstat_UDP_mem UDP 套接字缓冲区使用量 node_timex_offset_seconds 时钟时间偏移 node_timex_sync_status 节点时钟同步状态 node_uname_info 节点uname信息 node_vmstat_oom_kill /proc/vmstat中的oom_kill process_cpu_seconds_total 进程CPU累计时长 process_max_fds 进程最大文件描述符 process_open_fds 进程当前打开的文件描述符 process_resident_memory_bytes 进程常驻内存集的大小 process_start_time_seconds 进程启动时间 process_virtual_memory_bytes 进程虚拟内存大小 process_virtual_memory_max_bytes 进程虚拟内存最大大小 node_netstat_Tcp_ActiveOpens 从CLOSED 状态直接转换到SYN-SENT 状态的TCP连接数 node_netstat_Tcp_PassiveOpens 从LISTEN 状态直接转换到SYN-RCVD 状态的TCP连接数 node_netstat_Tcp_CurrEstab 当前状态为ESTABLISHED 或CLOSE-WAIT 的TCP 连接数 node_vmstat_pgmajfault /proc/vmstat中的pgmajfault node_vmstat_pgpgout /proc/vmstat中的pgpgout node_vmstat_pgfault /proc/vmstat中的pgfault node_vmstat_pgpgin /proc/vmstat中的pgpgin node_processes_max_processes PID限制值 node_processes_pids PID个数 node_nf_conntrack_entries 链接状态跟踪表分配的数量 node_nf_conntrack_entries_limit 链接状态跟踪表总量 promhttp_metric_handler_requests_in_flight 当前正在处理的metrics数量 go_goroutines NodeExporter协程个数 podMonitor/monitoring/nvidia-gpu-device-plugin/0 monitoring/nvidia-gpu-device-plugin cce_gpu_utilization gpu卡算力使用率 cce_gpu_memory_utilization gpu卡显存使用率 cce_gpu_encoder_utilization gpu卡编码使用率 cce_gpu_decoder_utilization gpu卡解码使用率 cce_gpu_utilization_process gpu各进程算力使用率 cce_gpu_memory_utilization_process gpu各进程显存使用率 cce_gpu_encoder_utilization_process gpu各进程编码使用率 cce_gpu_decoder_utilization_process gpu各进程解码使用率 cce_gpu_memory_used gpu显存使用量 cce_gpu_memory_total gpu显存总量 cce_gpu_memory_free gpu显存空闲量 cce_gpu_bar1_memory_used gpu bar1 内存使用量 cce_gpu_bar1_memory_total gpu bar1 内存总量 cce_gpu_clock gpu时钟频率 cce_gpu_memory_clock gpu显存频率 cce_gpu_graphics_clock gpu图形处理器频率 cce_gpu_video_clock gpu视频处理器频率 cce_gpu_temperature gpu温度 cce_gpu_power_usage gpu功率 cce_gpu_total_energy_consumption gpu总能耗 cce_gpu_pcie_link_bandwidth gpu pcie 带宽 cce_gpu_nvlink_bandwidth gpu nvlink 带宽 cce_gpu_pcie_throughput_rx gpu pcie 接收带宽 cce_gpu_pcie_throughput_tx gpu pcie 发送带宽 cce_gpu_nvlink_utilization_counter_rx gpu nvlink 接收带宽 cce_gpu_nvlink_utilization_counter_tx gpu nvlink 发送带宽 cce_gpu_retired_pages_sbe gpu 单比特错误隔离页数量 cce_gpu_retired_pages_dbe gpu 双比特错误隔离页数量 xgpu_memory_total xgpu显存总量 xgpu_memory_used xgpu显存使用量 xgpu_core_percentage_total xgpu算力总量 xgpu_core_percentage_used xgpu算力使用量 gpu_schedule_policy gpu模式分成0、1、2三种:0为显存隔离算力共享模式;1为显存算力隔离模式;2为默认模式表示当前卡还没被用于xgpu设备分配。 xgpu_device_health xgpu设备的健康情况。0表示xgpu设备为健康状态,1表示为非健康状态。 serviceMonitor/monitoring/prometheus-server/0 prometheus-server prometheus_build_info Prometheus构建信息 prometheus_engine_query_duration_seconds 查询时间 prometheus_engine_query_duration_seconds_count 查询次数 prometheus_sd_discovered_targets 各个 job 发现的采集目标数 prometheus_remote_storage_bytes_total 发送字节数 prometheus_remote_storage_enqueue_retries_total 入队列重试次数 prometheus_remote_storage_highest_timestamp_in_seconds 存储在WAL中的任何样本的最大时间戳 prometheus_remote_storage_queue_highest_sent_timestamp_seconds 远程写入成功发送的最大时间戳 prometheus_remote_storage_samples_dropped_total 远程写丢弃sample数量 prometheus_remote_storage_samples_failed_total 远程写失败sample数量 prometheus_remote_storage_samples_in_total 远程写写入sample数量 prometheus_remote_storage_samples_pending 远程写pending sample 数量 prometheus_remote_storage_samples_retried_total 远程写重试sample数量 prometheus_remote_storage_samples_total 远程写sample总数 prometheus_remote_storage_shard_capacity 用于并行发送到远程存储的队列中每个分片的容量 prometheus_remote_storage_shards 当前用于并行发送到远程存储的分片数 prometheus_remote_storage_shards_desired 分片队列期望基于输入样本和输出样本的比率运行的分片数 prometheus_remote_storage_shards_max 可用于并行发送到远程存储的分片数的最大值 prometheus_remote_storage_shards_min 可用于并行发送到远程存储的分片数的最小值 prometheus_tsdb_wal_segment_current TSDB当前正在写入的WAL段索引 prometheus_tsdb_head_chunks head中保存的chunk数量 prometheus_tsdb_head_series head中保存的series数量 prometheus_tsdb_head_samples_appended_total head中添加的samples数量 prometheus_wal_watcher_current_segment 每个远程写入实例当前正在读取的WAL段文件 prometheus_target_interval_length_seconds 抓取时间间隔 prometheus_target_interval_length_seconds_count 抓取时间间隔count prometheus_target_interval_length_seconds_sum 抓取时间间隔sum prometheus_target_scrapes_exceeded_body_size_limit_total 采集body大小超限次数 prometheus_target_scrapes_exceeded_sample_limit_total 采集sample超限次数 prometheus_target_scrapes_sample_duplicate_timestamp_total 时间戳重复Samples数量 prometheus_target_scrapes_sample_out_of_bounds_total 时间戳超限Samples数量 prometheus_target_scrapes_sample_out_of_order_total 乱序Samples数量 prometheus_target_sync_length_seconds 同步scrape pool的间隔 prometheus_target_sync_length_seconds_count 同步scrape pool的间隔count prometheus_target_sync_length_seconds_sum 同步scrape pool的间隔sum promhttp_metric_handler_requests_in_flight 当前正在处理的metrics数量 promhttp_metric_handler_requests_total metrics处理次数 go_goroutines 协程个数 podMonitor/monitoring/virtual-kubelet-pods/0 monitoring/virtual-kubelet-pods container_cpu_load_average_10s 容器过去10秒内的CPU负载的平均值 container_cpu_system_seconds_total 容器系统CPU总时长 container_cpu_usage_seconds_total 容器在所有CPU内核上的累积占用时间 container_cpu_user_seconds_total 容器用户CPU总时长 container_cpu_cfs_periods_total 容器已经执行的CPU时间周期数 container_cpu_cfs_throttled_periods_total 容器被限流的CPU时间周期数 container_cpu_cfs_throttled_seconds_total 容器被限流的CPU时间 container_fs_inodes_free 文件系统的可用inode数量 container_fs_usage_bytes 文件系统的使用量 container_fs_inodes_total 文件系统的总计inode数量 container_fs_io_current 磁盘/文件系统当前正在进行的 I/O 数量 container_fs_io_time_seconds_total 磁盘/文件系统花费在 I/O 上的累计秒数 container_fs_io_time_weighted_seconds_total 磁盘/文件系统累积加权 I/O 时间 container_fs_limit_bytes 容器可以使用的磁盘/文件系统总量 container_fs_reads_bytes_total 容器累积读取磁盘/文件系统数据的总量 container_fs_read_seconds_total 容器累积读取磁盘/文件系统数据的秒数 container_fs_reads_merged_total 容器合并读取磁盘/文件系统的累积计数 container_fs_reads_total 容器已完成读取磁盘/文件系统的累积计数 container_fs_sector_reads_total 容器已完成扇区读取磁盘/文件系统的累积计数 container_fs_sector_writes_total 容器已完成扇区写入磁盘/文件系统的累积计数 container_fs_writes_bytes_total 容器累积写入磁盘/文件系统数据的总量 container_fs_write_seconds_total 容器累计写入磁盘/文件系统的秒数 container_fs_writes_merged_total 容器合并写入磁盘/文件系统的累积计数 container_fs_writes_total 容器已完成写入磁盘/文件系统的累积计数 container_blkio_device_usage_total 容器区分IO操作对磁盘的使用总量 container_memory_failures_total 容器内存分配失败的累积计数 container_memory_failcnt 容器内存使用达到限制的次数 container_memory_cache 容器总页缓存内存 container_memory_mapped_file 容器内存映射文件的大小 container_memory_max_usage_bytes 容器历史最大内存使用量 container_memory_rss 容器常驻内存集的大小 container_memory_swap 容器虚拟内存使用量 container_memory_usage_bytes 容器当前的内存使用量 container_memory_working_set_bytes 容器工作集内存使用量 container_network_receive_bytes_total 容器网络累积接收数据总量 container_network_receive_errors_total 接收时遇到的错误累积计数 container_network_receive_packets_dropped_total 接收时丢弃的数据包的累积计数 container_network_receive_packets_total 接收数据包的累积计数 container_network_transmit_bytes_total 容器网络累积传输数据总量 container_network_transmit_errors_total 传输时遇到的错误累积计数 container_network_transmit_packets_dropped_total 传输时丢弃的数据包的累积计数 container_network_transmit_packets_total 传输数据包的累积计数 container_processes 容器当前运行的进程数 container_sockets 容器当前打开套接字的个数 container_file_descriptors 容器当前打开文件描述符的个数 container_threads 容器内当前运行的线程数 container_threads_max 容器内允许运行的最大线程数 container_ulimits_soft 容器内1号进程的软 ulimit 值。如果为-1,则无限制,优先级和nice除外 container_tasks_state 处于给定状态的任务数(sleeping, running, stopped, uninterruptible, or ioawaiting) container_spec_cpu_period 容器分配的CPU周期 container_spec_cpu_shares 容器分配的CPU份额 container_spec_cpu_quota 容器分配的CPU配额 container_spec_memory_limit_bytes 容器可以使用的总内存量限制 container_spec_memory_reservation_limit_bytes 容器可以使用的预留内存限制 container_spec_memory_swap_limit_bytes 容器可以使用的虚拟内存限制 container_start_time_seconds 容器已经运行的时间 container_last_seen 最近一次监控采集器感知到容器的时间 container_accelerator_memory_used_bytes 容器正在使用的GPU加速卡内存量 container_accelerator_memory_total_bytes 总GPU加速卡可用内存量 container_accelerator_duty_cycle GPU加速卡实际运行时间百分比 podMonitor/monitoring/everest-csi-controller/0 monitoring/everest-csi-controller everest_action_result_total action结果数量 everest_function_duration_seconds_bucket action耗时直方图bucket everest_function_duration_seconds_count action耗时直方图count everest_function_duration_seconds_sum action耗时直方图sum everest_function_duration_quantile_seconds action所需的时间分位数 node_volume_read_completed_total 读操作完成次数 node_volume_read_merged_total 读操作merged次数 node_volume_read_bytes_total 扇区读字节总数 node_volume_read_time_milliseconds_total 读操作总耗时 node_volume_write_completed_total 写操作完成次数 node_volume_write_merged_total 写操作merged次数 node_volume_write_bytes_total 扇区写字节总数 node_volume_write_time_milliseconds_total 写操作总耗时 node_volume_io_now 当前正在进行的I/O次数 node_volume_io_time_seconds_total IO操作总耗时 node_volume_capacity_bytes_available 可用容量 node_volume_capacity_bytes_total 总容量 node_volume_capacity_bytes_used 已用容量 node_volume_inodes_available 可用inode node_volume_inodes_total 总inode node_volume_inodes_used 已用inode node_volume_read_transmissions_total 读取传输次数 node_volume_read_timeouts_total 读取超时次数 node_volume_read_sent_bytes_total 读取字节数 node_volume_read_queue_time_milliseconds_total 读取队列等待耗时 node_volume_read_rtt_time_milliseconds_total 读取rtt时长 node_volume_write_transmissions_total 写入传输次数 node_volume_write_timeouts_total 写入超时次数 node_volume_write_queue_time_milliseconds_total 写入队列等待耗时 node_volume_write_rtt_time_milliseconds_total 写入rtt时长 node_volume_localvolume_stats_capacity_bytes 本地存储容量 node_volume_localvolume_stats_available_bytes 本地存储可用量 node_volume_localvolume_stats_used_bytes 本地存储已用量 node_volume_localvolume_stats_inodes 本地存储inodes数量 node_volume_localvolume_stats_inodes_used 本地存储inodes已用量 podMonitor/monitoring/nginx-ingress-controller/0 monitoring/nginx-ingress-controller nginx_ingress_controller_bytes_sent 发送到客户端的字节数 nginx_ingress_controller_connect_duration_seconds 与上游服务器建立连接所花费的时间 nginx_ingress_controller_header_duration_seconds 从上游服务器接收第一个报头所花费的时间 nginx_ingress_controller_ingress_upstream_latency_seconds 上行服务延迟 nginx_ingress_controller_request_duration_seconds 请求处理时间(以毫秒为单位) nginx_ingress_controller_request_size 请求长度(包括请求行、请求头和请求体长度) nginx_ingress_controller_requests Nginx Ingress Controller自启动以来处理的所有HTTP请求的总数 nginx_ingress_controller_response_duration_seconds 从上游服务器接收响应所花费的时间 nginx_ingress_controller_response_size 响应长度(包括请求行、头和请求体长度) nginx_ingress_controller_nginx_process_connections 当前处于活动、读取、写入、等待状态,每种状态各自的客户端连接数 nginx_ingress_controller_nginx_process_connections_total 自启动以来处于接受、已处理状态,每种状态各自的客户端连接数 nginx_ingress_controller_nginx_process_cpu_seconds_total Nginx进程消耗的CPU时间总量(以秒为单位) nginx_ingress_controller_nginx_process_num_procs 进程数 nginx_ingress_controller_nginx_process_oldest_start_time_seconds 自1970/01/01以来的开始时间(以秒为单位) nginx_ingress_controller_nginx_process_read_bytes_total 读取的字节数 nginx_ingress_controller_nginx_process_requests_total 自启动以来,Nginx处理的请求总数 nginx_ingress_controller_nginx_process_resident_memory_bytes 进程的常驻内存使用量,即实际占用的物理内存大小 nginx_ingress_controller_nginx_process_virtual_memory_bytes 进程的虚拟内存使用量,即分配给进程的总内存大小,包括实际物理内存和虚拟交换空间 nginx_ingress_controller_nginx_process_write_bytes_total Nginx进程向磁盘或其他长期存储设备写入的数据量 nginx_ingress_controller_build_info 记录Nginx Ingress Controller的构建信息,包括版本号、编译时间等 nginx_ingress_controller_check_success Nginx Ingress Controller的健康检查结果。1为正常,0为异常 nginx_ingress_controller_config_hash 运行配置的哈希值 nginx_ingress_controller_config_last_reload_successful Nginx Ingress Controller的配置重新加载是否成功 nginx_ingress_controller_config_last_reload_successful_timestamp_seconds Nginx Ingress Controller最后一次配置重新加载是否成功的时间戳 nginx_ingress_controller_ssl_certificate_info Nginx Ingress Controller的证书信息 nginx_ingress_controller_success Nginx Ingress Controller的重新加载操作的累计次数 nginx_ingress_controller_orphan_ingress 入口孤立状态,1 表示孤立。0 表示正常。“namespace”为标识入口命名空间的字符串,“ingress”表示入口名称,“type”表示孤立类型 为“no-service”'或 “no-endpoint”。 nginx_ingress_controller_admission_config_size Admission准入控制器的配置大小 nginx_ingress_controller_admission_render_duration Admission准入控制器配置渲染所花费的时间 nginx_ingress_controller_admission_render_ingresses Admission准入控制器配置渲染的入口长度 nginx_ingress_controller_admission_roundtrip_duration Admission准入控制器处理新事件所花费的时间 nginx_ingress_controller_admission_tested_duration Admission准入控制器测试所花费的时间 nginx_ingress_controller_admission_tested_ingresses Admission准入控制器测试的入口长度 父主题: 指标总览
  • 基础指标:IoTDA指标 介绍IoTDA服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。 表1 IoTDA服务监控指标 指标类别 指标 指标名称 指标含义 取值范围 单位 设备总数 iotda_device_status_onlineCount 在线设备数 统计租户在当前实例/资源空间下的在线的设备数量 ≥0 个 iotda_device_status_totalCount 设备总数 统计租户在当前实例/资源空间下的总的设备数量 ≥0 个 iotda_device_status_offlineCount 离线设备数 统计租户在当前实例/资源空间下的离线的设备数量 ≥0 个 iotda_device_status_abnormalCount 异常设备数 统计租户在当前实例/资源空间下的异常的设备数量 ≥0 个 iotda_device_status_inactiveCount 未激活设备数 统计租户在当前实例/资源空间下的未激活的设备数量 ≥0 个 NB数据上报数 iotda_south_dataReport_totalCount NB数据上报总数 统计当前实例/资源空间下NB数据上报总次数 ≥0 次 iotda_south_dataReport_successCount NB数据上报成功次数 统计当前实例/资源空间下NB数据上报成功次数 ≥0 次 iotda_south_dataReport_failedCount NB数据上报失败次数 统计当前实例/资源空间下NB数据上报失败次数 ≥0 次 MQTT事件上报数 iotda_south_eventUp_totalCount MQTT事件上报总数 统计当前实例/资源空间下MQTT事件上报总数 ≥0 次 iotda_south_eventUp_successCount MQTT事件上报成功次数 统计当前实例/资源空间下MQTT事件上报成功次数 ≥0 次 iotda_south_eventUp_failedCount MQTT事件上报失败次数 统计当前实例/资源空间下MQTT事件上报失败次数 ≥0 次 MQTT属性上报数 iotda_south_propertiesReport_totalCount MQTT属性上报总数 统计当前实例/资源空间下MQTT属性上报总数 ≥0 次 iotda_south_propertiesReport_successCount MQTT属性上报成功次数 统计当前实例/资源空间下MQTT属性上报成功次数 ≥0 次 iotda_south_propertiesReport_failedCount MQTT属性上报失败次数 统计当前实例/资源空间下MQTT属性上报失败次数 ≥0 次 MQTT消息上报数 iotda_south_messageUp_totalCount MQTT消息上报总数 统计当前实例/资源空间下MQTT消息上报总数 ≥0 次 iotda_south_messageUp_successCount MQTT消息上报成功次数 统计当前实例/资源空间下MQTT消息上报成功次数 ≥0 次 iotda_south_messageUp_failedCount MQTT消息上报失败次数 统计当前实例/资源空间下MQTT消息上报失败次数 ≥0 次 AMQP流转次数 iotda_amqp_forwarding_totalCount AMQP流转次数 统计当前实例/资源空间下AMQP流转次数 ≥0 次 iotda_amqp_forwarding_successCount AMQP流转成功次数 统计当前实例/资源空间下AMQP流转成功次数 ≥0 次 iotda_amqp_forwarding_failedCount AMQP流转失败次数 统计当前实例/资源空间下AMQP流转失败次数 ≥0 次 FunctionGraph流转次数 iotda_functionGraph_forwarding_totalCount FunctionGraph流转次数 统计当前实例/资源空间下FunctionGraph流转次数 ≥0 次 iotda_functionGraph_forwarding_successCount FunctionGraph流转成功次数 统计当前实例/资源空间下FunctionGraph流转成功次数 ≥0 次 iotda_functionGraph_forwarding_failedCount FunctionGraph流转失败次数 统计当前实例/资源空间下FunctionGraph流转失败次数 ≥0 次 MRS Kafka流转次数 iotda_mrsKafka_forwarding_totalCount MRS Kafka流转次数 统计当前实例/资源空间下MRS Kafka流转次数 ≥0 次 iotda_mrsKafka_forwarding_successCount MRS Kafka流转成功次数 统计当前实例/资源空间下MRS Kafka流转成功次数 ≥0 次 iotda_mrsKafka_forwarding_failedCount MRS Kafka流转失败次数 统计当前实例/资源空间下MRS Kafka流转失败次数 ≥0 次 MQTT流转次数 iotda_mqtt_forwarding_totalCount Mqtt流转次数 统计当前实例/资源空间下MQTT流转次数 ≥0 次 iotda_mqtt_forwarding_successCount Mqtt流转成功次数 统计当前实例/资源空间下MQTT流转成功次数 ≥0 次 iotda_mqtt_forwarding_failedCount Mqtt流转失败次数 统计当前实例/资源空间下MQTT流转失败次数 ≥0 次 MySql流转次数 iotda_mysql_forwarding_totalCount MySql流转次数 统计当前实例/资源空间下MySql流转次数 ≥0 次 iotda_mysql_forwarding_successCount MySql流转成功次数 统计当前实例/资源空间下MySql流转成功次数 ≥0 次 iotda_mysql_forwarding_failedCount MySql流转失败次数 统计当前实例/资源空间下MySql流转失败次数 ≥0 次 InfluxDB流转次数 iotda_influxDB_forwarding_totalCount InfluxDB流转次数 统计当前实例/资源空间下InfluxDB流转次数 ≥0 次 iotda_influxDB_forwarding_successCount InfluxDB流转成功次数 统计当前实例/资源空间下InfluxDB流转成功次数 ≥0 次 iotda_influxDB_forwarding_failedCount InfluxDB流转失败次数 统计当前实例/资源空间下InfluxDB流转失败次数 ≥0 次 HTTP推送流转次数 iotda_http_forwarding_totalCount HTTP推送流转次数 统计当前实例/资源空间下HTTP推送流转次数 ≥0 次 iotda_http_forwarding_successCount HTTP推送流转成功次数 统计当前实例/资源空间下HTTP推送流转成功次数 ≥0 次 iotda_http_forwarding_failedCount HTTP推送流转失败次数 统计当前实例/资源空间下HTTP推送流转失败次数 ≥0 次 OBS流转次数 iotda_obs_forwarding_totalCount OBS流转次数 统计当前实例/资源空间下OBS流转次数 ≥0 次 iotda_obs_forwarding_successCount OBS流转成功次数 统计当前实例/资源空间下OBS流转成功次数 ≥0 次 iotda_obs_forwarding_failedCount OBS流转失败次数 统计当前实例/资源空间下OBS流转失败次数 ≥0 次 DMS Kafka流转次数 iotda_dmsKafka_forwarding_totalCount DMS Kafka流转次数 统计当前实例/资源空间下DMS Kafka流转次数 ≥0 次 iotda_dmsKafka_forwarding_successCount DMS Kafka流转成功次数 统计当前实例/资源空间下DMS Kafka流转成功次数 ≥0 次 iotda_dmsKafka_forwarding_failedCount DMS Kafka流转失败次数 统计当前实例/资源空间下DMS Kafka流转失败次数 ≥0 次 DIS流转次数 iotda_dis_forwarding_totalCount DIS流转次数 统计当前实例/资源空间下DIS流转次数 ≥0 次 iotda_dis_forwarding_successCount DIS流转成功次数 统计当前实例/资源空间下DIS流转成功次数 ≥0 次 iotda_dis_forwarding_failedCount DIS流转失败次数 统计当前实例/资源空间下DIS流转失败次数 ≥0 次 ROMA流转次数 iotda_roma_forwarding_totalCount ROMA流转次数 统计当前实例/资源空间下ROMA流转次数 ≥0 次 iotda_roma_forwarding_successCount ROMA流转成功次数 统计当前实例/资源空间下ROMA流转成功次数 ≥0 次 iotda_roma_forwarding_failedCount ROMA流转失败次数 统计当前实例/资源空间下ROMA流转失败次数 ≥0 次 LTS流转次数 iotda_lts_forwarding_totalCount LTS流转次数 统计当前实例/资源空间下LTS流转次数 ≥0 次 iotda_lts_forwarding_successCount LTS流转成功次数 统计当前实例/资源空间下LTS流转成功次数 ≥0 次 iotda_lts_forwarding_failedCount LTS流转失败次数 统计当前实例/资源空间下LTS流转失败次数 ≥0 次 查询设备影子 iotda_query_shadow_totalCount 查询设备影子总数 统计当前实例/资源空间下查询设备影子总数 ≥0 次 iotda_query_shadow_successCount 查询设备影子成功数 统计当前实例/资源空间下查询设备影子成功数 ≥0 次 iotda_query_shadow_failedCount 查询设备影子失败数 统计当前实例/资源空间下查询设备影子失败数 ≥0 次 消息下发 iotda_message_down_totalCount 消息下发总数 统计当前实例/资源空间下消息下发总数 ≥0 次 iotda_message_down_successCount 消息下发成功数 统计当前实例/资源空间下消息下发成功数 ≥0 次 iotda_message_down_failedCount 消息下发失败数 统计当前实例/资源空间下消息下发失败数 ≥0 次 属性设置 iotda_properties_set_totalCount 属性设置总数 统计当前实例/资源空间下属性设置总数 ≥0 次 iotda_properties_set_successCount 属性设置成功数 统计当前实例/资源空间下属性设置成功数 ≥0 次 iotda_properties_set_failedCount 属性设置失败数 统计当前实例/资源空间下属性设置失败数 ≥0 次 属性查询 iotda_properties_query_totalCount 属性查询总数 统计当前实例/资源空间下属性查询总数 ≥0 次 iotda_properties_query_successCount 属性查询成功数 统计当前实例/资源空间下属性查询成功数 ≥0 次 iotda_properties_query_failedCount 属性查询失败数 统计当前实例/资源空间下属性查询失败数 ≥0 次 命令数 iotda_command_totalCount 命令总数 统计当前实例/资源空间下命令总数 ≥0 次 iotda_command_successCount 命令成功数 统计当前实例/资源空间下命令成功数 ≥0 次 iotda_command_failedCount 命令失败数 统计当前实例/资源空间下命令失败数 ≥0 次 流控数据 iotda_flowcontrol_north_failedCount API调用流控失败数 统计当前实例下调用API流控失败次数 ≥0 次 iotda_flowcontrol_south_failedCount 南向调用流控失败数 统计当前实例下数据上报流控失败次数 ≥0 次 iotda_flowcontrol_forwarding_failedCount 流转流控失败数 统计当前实例下流转流控失败数 ≥0 次 同时在线设备数 iotda_max_online_devices_totalCount 每天最大同时在线设备数 统计当前实例下每天最大同时在线设备数 ≥0 个 iotda_max_online_devices_percent 最大同时在线设备数百分比 统计当前实例下每天最大同时在线设备数百分比 0~100 百分比(%) 父主题: 指标总览
  • 计费模式 提供按小时、按月、按年的计费方式供您灵活选择,使用越久越便宜。 包年/包月:该方式为一种预付费模式,相对于按需付费提供更大的折扣,对于长期使用者,推荐该方式。 按需付费(小时):这种购买方式比较灵活,可以即开即停,按实际使用时长计费。以自然小时为单位整点计费,不足一小时按实际使用时长计费。创建按需实例时会冻结一部分保证金,冻结的保证金在满足以下条件之一时返还,在解冻保证金时,若该资源欠费,解冻的保证金优先抵扣该资源的欠费。 客户释放资源。 客户资源开通失败。 保证金冻结24小时以后客户未释放资源。 计费方式更改:支持包周期和按需计费方式转换。 如需更改计费方式,请参考按需实例转包周期和包周期实例转按需计费章节进行计费方式转换。
  • 变更配置 您可以根据业务需求对现有数据库实例进行规格变更,变更后即刻按照新的规格计费。 增加实例或节点数量:您可以根据业务需求增加您现有实例的数量,增加后即刻按照新的实例数量计费。在集群实例中,您需要注意的是集群节点只能增加,不能减少。dds mongos数量可选范围2~32、Shard数量可选范围2~32、Config数量默认1个,不需要选择。 扩容存储空间:您可以根据业务需求增加您的存储空间,扩容后即刻按照新的存储空间计费。您需要注意的是为了您的数据完整和安全,存储空间只允许扩容,不能缩容。
  • 续费 目前DDS提供“包年/包月”和“按需计费”购买方式,您可以根据业务需要定制相应计算能力和存储空间的数据库实例。 “按需计费”方式,即按实际使用时长计费,以自然小时为单位整点计费,不足一小时按一小时计费,只要您账户上有足够余额,就可以一直使用服务。当账户余额不足时,就会导致欠费,因此在欠费前请及时充值。 “包年/包月”计费方式,您在购买时一次性付费,使用过程中不会再另外扣费,只要您的账户上有足够余额,则不会影响您的使用。 如需续费,请进入“续费管理”页面进行续费操作。
  • 计费项及计费标准 表1 计费项说明 计费项 计费说明 计费标准 实例规格 按照您选择的实例规格收费。 其中,对于集群实例,规格费用包含了dds mongos规格费用、shard规格费用和config规格费用。 华为云DDS管理费用详情,请参见产品价格详情。您可以通过DDS提供的价格计算器,选择您需要的实例规格,来快速计算出购买DDS实例的参考价格。 存储空间 按照您选择存储空间收费。 其中,对于集群实例,存储空间费用包含了shard存储空间费用和config存储空间费用。 备份存储(可选) 文档数据库的备份文件存储在 对象存储服务 (OBS)中,不会占用文档数据库实例的存储空间。 DDS提供了部分免费存储空间,用于存放您的备份数据,其总容量约为您购买容量的100%。备份存储用量超过数据库存储空间的100%,开始按需计费。 审计日志空间(可选) 审计日志记录您对数据库或集合执行的操作,生成的日志文件将以文件的形式存储在对象存储服务(OBS)中。 开启审计日志会收取一定费用,收费详情请参见产品价格详情。 公网流量(可选) DDS实例支持公网访问,公网访问会产生带宽流量费。 DDS数据库实例在云内部网络产生的流量不计费。 详情请参见弹性公网IP计费详情。 -
共100000条