检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
图2 安装&升级插件 部分机器还可支持在购买时直接开启监控,默认安装Agent。详细操作步骤请参考快速购买和使用Linux ECS。 图3 开启详细监控 Linux不支持一键安装的机器,可以进行手动安装,手动安装包括单台安装和批量安装两种方式。单击主机列表上方“手动安装”后可弹出安装指引。
Data source > Add data source > Prometheus > 填写Prometheus地址 > 保存&测试”。 图3 配置Prometheus数据源 配置相关云服务监控视图。 推荐用户使用CES提供的模板,CES提供的模板涉及企业项目概念,请完成第2步中,
用户Token。 约束限制: 不涉及。 取值范围: 最小字符数量为1,最大为16384。 默认取值: 不涉及。 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 alarm_policy_ids 是 Array of strings 需要批量启停的告警规则策略的ID列表
用户Token。 约束限制: 不涉及。 取值范围: 最小字符数量为1,最大为16384。 默认取值: 不涉及。 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 alarm_ids 是 Array of strings 需要批量启停的告警规则的ID列表
Administrator、CES FullAccessPolicy或CES ReadOnlyAccessPolicy策略的集群权限,再按如下表3增加依赖服务的角色或策略。 表3 云监控控制台依赖服务的角色或策略 控制台功能 依赖服务 需配置角色/策略 云服务监控 云手机服务器 CPH ROMA Connect:
事件生效。 屏蔽时间 屏蔽规则的生效时间。 指定时间:设置屏蔽规则在指定时间范围内生效。选择指定时间后需要选择生效的时间,支持选择1小时、3小时、12小时、24小时或7天。 周期时间:设置屏蔽规则每天循环在固定时区内生效,还可以设置循环日期范围,即从哪天到哪天循环生效。例如设定的
用户Token。 约束限制: 不涉及。 取值范围: 最小字符数量为1,最大为16384。 默认取值: 不涉及。 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 notification_enabled 是 Boolean 是否开启告警通知,值为tr
用户Token。 约束限制: 不涉及。 取值范围: 最小字符数量为1,最大为16384。 默认取值: 不涉及。 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 notification_enabled 是 Boolean 是否开启告警通知,值为tr
请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 租户Token 最小长度:1 最大长度:16384 表3 请求Body参数 参数 是否必选 参数类型 描述 group_name 是 String 资源分组名称,只能为字母、数字、汉字、-、_,最大长度为128
说明: 每一小时告警一次是指告警发生后如果状态未恢复正常,每间隔一个小时重复发送一次告警通知。 - 根据界面提示,配置告警通知参数。 表3 主机监控告警通知配置说明 参数 参数说明 发送通知 通过开关按钮配置是否发告警通知,支持通过短信、邮件、HTTP、HTTPS、Functi
在统一身份认证服务页面单击委托,单击被委托方账号操作列的“授权”按钮,进入选择策略页面。 图2 授权 在选择策略页面,单击击右上角“新建策略”,进入新建策略页面。 图3 新建策略 在新建策略页面,输入策略名称,策略内容点击“云服务”在搜索框输入“分布式消息”或“DMS”,搜索出来后点击“分布式消息服务(DMS)”。
sl证书校验 auth: auth_url: "https://iam.{region_id}.myhuaweicloud.com/v3" project_name: "cn-north-1" # 华为云项目名称,可以在“华为云->统一身份认证服务->项目”中查看 access_key:
查询CES指定项目指定资源类型标签列表。 指标管理 查询主机监控原始维度值 根据ECS/BMS资源ID查询磁盘、挂载点、进程、显卡、RAID控制器维度指标信息 API V3 插件状态查询 插件状态查询 插件状态查询,包括uniagent状态以及插件状态 Agent任务相关接口 查询Agent任务列表 查询Agent任务列表
键告警,单击告警规则所在行“操作”列的一键告警开关,可以关闭不需要开启一键告警的告警规则。 按照界面提示配置告警通知参数,参数说明请参见表3。 配置完成后,单击“确定”,即可开启一键告警,开启后将增加至告警规则列表中。 图1 开启一键告警 修改告警规则 已开启一键告警的告警规则支
参数类型 描述 X-Auth-Token 是 String 租户Token 最小长度:1 最大长度:16384 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 group_name String 资源分组的名称 正则匹配:^((([a-z]|[0-9]){8
在输入框中输入DNS服务器地址,多个IP地址以英文逗号隔开。 不同区域nameserver不同,详细请参考华为云提供的内网DNS地址是多少? 图3 修改DNS服务器地址 单击“确定”,保存设置。 重启ECS或BMS,具体步骤请参考重启弹性云服务器或重启裸金属服务器。 Windows平台修改DNS
存在ecc硬件错误,发生内存页自动隔离。 1、如果业务受损停止,则重启业务恢复。 2、如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务。 3、如果业务仍然无法恢复,请提交工单。 一般随ecc故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 high
存在ecc硬件错误,发生内存页自动隔离。 1、如果业务受损停止,则重启业务恢复。 2、如果业务无法启动,建议尝试虚拟机重启虚拟机恢复业务。 3、如果业务仍然无法恢复,请提交工单。 一般随ecc故障告警出现,单独出现不影响业务。 GPU single bit ECC过多告警 high
GPU指标 gpu_status 虚拟机上GPU健康状态。该指标是一个综合指标。 故障可能:1. ecc超过阈值。2. 显存地址重映射失败。3.gpu卡rev ff。4. infoROM错误。5. 存在待隔离页。6. remapped rows错误。(具体可以看下面详细指标) 采集