云服务器内容精选

  • 约束与限制 当前仅华北-乌兰察布二零一、华北-北京一、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域可以直接使用 APM 配置功能,华北-北京四区域需提前在“菜单开关”中开启应用监控和配置的开关,详细操作请参见菜单开关。 APM配置功能当前仅在华北-乌兰察布二零一、华北-北京一、华北-北京四、华南-广州、西南-贵阳一、亚太-新加坡、中国-香港、华东-上海一、华东-上海二区域开放。
  • 应用场景 域名 证书监控功能用于为您统一监控所有站点的HTTPS状态并简化证书维护的复杂度,开启后可帮助您监测多个站点的HTTPS业务状态并及时发现站点上的SSL证书安全问题(例如:未配置SSL证书、证书已过期等),方便您统一维护多站点HTTPS,降低因人为疏忽导致HTTPS业务中断的风险。 初次使用域名证书监控功能,系统会为您发放一个有效期为7天的免费实例,您可以试用该实例体验域名证书监控功能。有效期截止后实例自动失效。 如需继续使用,您可以单击右上角“购买域名证书监控”购买更多域名证书监控实例。
  • 更多操作 导出 勾选需要导出的作业实例名称,单击“导出”,弹出“导出实例运行结果”页面,再次单击“导出”,可以在“导出记录”页签查看导出实例的结果是否成功,可以下载导出成功的作业实例。系统支持查看近3个月的导出记录。 删除 勾选需要删除的作业实例名称,单击“删除”,可以批量删除作业实例。 停止运行 勾选需要停止运行的作业实例名称,单击“停止运行”,可以批量停止运行中的作业实例。 重跑 选择需要重跑的作业实例名称,单击作业实例右侧“操作”列的“重跑”,可以重跑该作业实例。
  • 问题描述 在 CES 数据管理中创建采集指标模板或者自定义采集指标报错。可能的报错如下: Policy doesn't allow [ces:metricData:list] to be performed., code=ces.0050} #AppStage平台没有CES权限,需要申请CES FullAccess或者CES ReadOnlyAccess权限 You are not authorized with rms:resources:list #AppStage平台没有 RMS 权限,需要申请RMS FullAccess或者RMS ReadOnlyAccess权限。
  • Label相关指标介绍 表4 Label名字栏 指标对象 Label名字 Label描述 容器级别指标 modelarts_service 容器属于哪个服务,包含notebook,train和infer。 instance_name 容器所属pod的名字。 service_id 页面展示的实例或者job id。如开发环境为:cf55829e-9bd3-48fa-8071-7ae870dae93a, 训练作业为:9f322d5a-b1d2-4370-94df-5a87de27d36e node_ip 容器所属的节点IP值。 container_id 容器ID。 cid 集群ID。 container_name 容器名称。 project_id 用户所属的账号的project id。 user_id 提交作业的用户所属的账号的user id。 npu_id 昇腾卡的ID信息,比如davinci0(即将废弃)。 device_id 昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 pool_id 物理专属池对应的资源池id。 pool_name 物理专属池对应的资源池name。 logical_pool_id 逻辑子池的id。 logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type 容器使用的GPU的型号。 account_name 训练、推理或开发环境任务创建者的账号名。 user_name 训练、推理或开发环境任务创建者的用户名。 task_creation_time 训练、推理或开发环境任务的创建时间。 task_name 训练、推理或开发环境任务的名称。 task_spec_code 训练、推理或开发环境任务的规格。 cluster_name CCE集群名称。 node级别指标 cid 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。 npu_id 昇腾卡的ID信息,比如davinci0(即将废弃)。 device_id 昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。 filesystem NFS挂载的文件系统。 mount_point NFS的挂载点。 Diagnos cid GPU所在节点所属的CCE集群ID。 node_ip GPU所在节点的IP。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。 gpu_uuid GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name 网络设备或磁盘设备的名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。
  • 网络相关指标 表3 Diagnos(IB,仅专属池上会收集) 分类 名称 指标 指标含义 单位 取值范围 infiniband或RoCE网络 PortXmitData infiniband_port_xmit_data_total The total number of data octets, divided by 4, (counting in double words, 32 bits), transmitted on all VLs from the port. 计数值 自然数 PortRcvData infiniband_port_rcv_data_total The total number of data octets, divided by 4, (counting in double words, 32 bits), received on all VLs from the port. 计数值 自然数 SymbolErrorCounter infiniband_symbol_error_counter_total Total number of minor link errors detected on one or more physical lanes. 计数值 自然数 LinkErrorRecoveryCounter infiniband_link_error_recovery_counter_total Total number of times the Port Training state machine has successfully completed the link error recovery process. 计数值 自然数 PortRcvErrors infiniband_port_rcv_errors_total Total number of packets containing errors that were received on the port including: Local physical errors (ICRC, VCRC, LPCRC, and all physical errors that cause entry into the BAD PACKET or BAD PACKET DISCARD states of the packet receiver state machine) Malformed data packet errors (LVer, length, VL) Malformed link packet errors (operand, length, VL) Packets discarded due to buffer overrun (overflow) 计数值 自然数 LocalLinkIntegrityErrors infiniband_local_link_integrity_errors_total This counter indicates the number of retries initiated by a link transfer layer receiver. 计数值 自然数 PortRcvRemotePhysicalErrors infiniband_port_rcv_remote_physical_errors_total Total number of packets marked with the EBP delimiter received on the port. 计数值 自然数 PortRcvSwitchRelayErrors infiniband_port_rcv_switch_relay_errors_total Total number of packets received on the port that were discarded when they could not be forwarded by the switch relay for the following reasons: DLI D mapping VL mapping Looping (output port = input port) 计数值 自然数 PortXmitWait infiniband_port_transmit_wait_total The number of ticks during which the port had data to transmit but no data was sent during the entire tick (either because of insufficient credits or because of lack of arbitration). 计数值 自然数 PortXmitDiscards infiniband_port_xmit_discards_total Total number of outbound packets discarded by the port because the port is down or congested. 计数值 自然数
  • GaussDB 实例的哪些监控指标需要重点关注 对于GaussDB实例,需要关注的监控指标有:CPU利用率、内存利用率、磁盘空间利用率。 可以根据实际应用场景配置告警提示,当收到告警,可采取相应措施消除告警。 配置示例: 如果在某段时间内(如5min),CPU使用率的平均值出现多次(如4次)不低于某特定值(如90%)的情况,则发出相应Cloud Eye告警。 如果在某段时间内(如5min),内存使用率的平均值出现多次(如3次)不低于某特定值(如90%)的情况,则发出相应Cloud Eye告警。 如果在某段时间内(如5min),磁盘使用率的最大值出现多次(如2次)不低于某特定值(如85%)的情况,则发出相应Cloud Eye告警。 Cloud Eye告警详细配置方法,请参见《 云监控 用户指南》中“创建告警规则”。 采取措施: 收到与CPU利用率、内存利用率有关的告警,通过实例规格变更分别增大CPU、内存。 请参见规格变更。 收到与磁盘空间利用率有关的告警,通过磁盘空间扩容增大磁盘空间。 请参见扩容磁盘。 父主题: 数据库监控
  • 请求示例 创建名称为rg_test,且资源分组添加资源方式为TAG的资源分组。 { "group_name" : "rg_test", "enterprise_project_id" : "0", "type" : "TAG", "tags" : [ { "key" : "key1", "value" : "value1" } ], "association_ep_ids" : [ "d61d4705-5658-42f5-8e0c-70eb34d17b02" ] }
  • 响应参数 状态码:200 表14 响应Body参数 参数 参数类型 描述 group_id String 资源分组ID,以rg开头,后跟22位由字母或数字组成的字符串 状态码:400 表15 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:401 表16 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:403 表17 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:500 表18 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID
  • 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 租户Token 表3 请求Body参数 参数 是否必选 参数类型 描述 group_name 是 String 资源分组的名称,只能为字母、数字、汉字、-、_,最大长度为128 正则匹配:^([\u4E00-\u9FFF]|[a-z]|[A-Z]|[0-9]|_|-)+$ enterprise_project_id 否 String 资源分组归属企业项目ID 正则匹配:^((([a-z]|[0-9]){8}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){12})|0)$ type 否 String 资源分组添加资源方式,取值只能为EPS(同步企业项目),TAG(标签动态匹配),NAME(实例名称),不传为手动添加 正则匹配:^(EPS|TAG|Manual|COMB|NAME)$ tags 否 Array of ResourceGroupTagRelation objects 标签动态匹配时的关联标签,type为TAG时必传 association_ep_ids 否 Array of strings 该资源分组内包含的资源来源的企业项目ID,type为EPS时必传 providers 否 String 云服务名称,格式为"dcs,ecs",支持的云服务providers请参考https://support.huaweicloud.com/api-rms/rms_06_0100.html enterprise_project_id_and_tags 否 Array of EnterpriseProjectIdAndTags objects 匹配企业项目或匹配标签参数 resources 否 Array of Resource objects 手动创建时的资源详情 product_resources 否 Array of ProductResource objects 手动创建,选择资源层级为云产品时的资源详情 instances 否 Array of Instance objects 实例名称匹配参数 product_names 否 String 创建资源层级为云产品时的云产品的取值,一般由"服务命名空间,服务首层维度名称"组成,如"SYS.E CS ,instance_id"。多个云产品则用“;”隔开,如"SERVICE.BMS,instance_id;SYS.ECS,instance_id"。 resource_level 否 String 资源层级,资源生效范围。选择云产品,则云产品及其子层级均可进入该资源分组,选择子维度,则只生效具体的子维度 product 云产品 dimension 子维度 枚举值: product dimension comb_relation 否 CombRelation object 组合匹配参数 表4 ResourceGroupTagRelation 参数 是否必选 参数类型 描述 key 是 String TMS标签键规范。 operator 否 String tag操作符,含义是标签key与value的关系。 include表示包含 prefix表示前缀 suffix表示后缀 notInclude表示不包含 equal表示相等 当operator为equal,value为空字符串时表示为全部 all表示全部 枚举值: include prefix suffix notInclude equal all value 否 String TMS标签值规范。 表5 EnterpriseProjectIdAndTags 参数 是否必选 参数类型 描述 enterprise_project_id 否 String 企业项目ID 正则匹配:^([a-z]|[A-Z]|[0-9]|_|-)+$ tag 否 ResourceGroupTagRelation object 标签的匹配规则 表6 Resource 参数 是否必选 参数类型 描述 namespace 是 String 查询服务的命名空间,各服务命名空间请参考“服务命名空间” dimensions 是 Array of ResourceDimension objects 资源的维度信息 表7 ResourceDimension 参数 是否必选 参数类型 描述 name 是 String 资源维度,如:弹性云服务器,则维度为instance_id;目前最大支持4个维度,各服务资源的指标维度名称可查看:“服务指标维度”。 正则匹配:^([a-z]|[A-Z]){1}([a-z]|[A-Z]|[0-9]|_|-){1,32}$ value 是 String 资源维度值,为资源的实例ID,如:4270ff17-aba3-4138-89fa-820594c39755。 正则匹配:^((([a-z]|[A-Z]|[0-9]){1}([a-z]|[A-Z]|[0-9]|_|-|\.)*)|\*){1,256}$ 表8 ProductResource 参数 是否必选 参数类型 描述 product_name 是 String 资源所属的云产品,一般由"服务命名空间,服务首层维度名称"组成,如"SYS.ECS,instance_id" namespace 是 String 查询服务的命名空间,各服务命名空间请参考“服务命名空间” 正则匹配:^([a-z]|[A-Z]){1}([a-z]|[A-Z]|[0-9]|_)*\.([a-z]|[A-Z]){1}([a-z]|[A-Z]|[0-9]|_)*$ product_instances 是 Array of ProductInstance objects 产品实例详情 表9 ProductInstance 参数 是否必选 参数类型 描述 first_dimension_name 是 String 资源首层维度,如:弹性云服务器,则维度为instance_id;”。 正则匹配:^([a-z]|[A-Z]){1}([a-z]|[A-Z]|[0-9]|_|-){1,32}$ first_dimension_value 是 String 资源首层维度值,为资源的实例ID,如:4270ff17-aba3-4138-89fa-820594c39755。 正则匹配:^((([a-z]|[A-Z]|[0-9]){1}([a-z]|[A-Z]|[0-9]|_|-|\.)*)|\*){1,256}$ resource_name 是 String 资源名称 表10 Instance 参数 是否必选 参数类型 描述 product_name 是 String 云产品名称 logical_operator 是 String 逻辑运算符 ALL 所有条件匹配成功 ANY 任意条件匹配成功 枚举值: ALL ANY instance_names 是 Array of ResourceName objects 资源名称匹配参数数组 表11 ResourceName 参数 是否必选 参数类型 描述 resource_name 否 String 资源名称条件值 operator 是 String 实例操作符,含义是真实资源的名称与资源名称条件值的运算关系。 include表示包含 prefix表示前缀 suffix表示后缀 notInclude表示不包含 equal表示相等 all表示全部 枚举值: include prefix suffix notInclude equal all resource_name_is_ignore_case 否 Boolean 资源名称忽略大小写 表12 CombRelation 参数 是否必选 参数类型 描述 logical_operator 是 String 逻辑运算符 ALL 所有条件匹配成功 ANY 任意条件匹配成功 枚举值: ALL ANY conditions 是 Array of Condition objects 组合匹配资源分组的匹配条件 表13 Condition 参数 是否必选 参数类型 描述 enterprise_project_id 否 String 企业项目ID 正则匹配:^((([a-z]|[0-9]){8}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){12})|0)$ instance_name 否 ResourceName object 资源名称 tag 否 ResourceGroupTagRelation object 标签的匹配规则
  • 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 dimensions Array of AgentDimension objects 维度信息 count Integer 维度信息总数 取值范围: 0-2147483647 表5 AgentDimension 参数 参数类型 描述 name String 维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器 枚举值: mount_point disk proc gpu raid value String 维度值,32位字符串,如:2e84018fc8b4484b94e89aae212fe615 origin_value String 实际维度信息,字符串,如:vda。 状态码:400 表6 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:404 表7 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:500 表8 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID
  • 响应示例 状态码:200 查询成功 { "dimensions" : [ { "name" : "disk", "value" : "2e84018fc8b4484b94e89aae212fe615", "origin_value" : "vda" }, { "name" : "disk", "value" : "6a1b2de69eeb9a037ea23de6b529394d", "origin_value" : "vdc" } ], "count" : 10 }
  • URI GET /v2/{project_id}/instances/{instance_id}/agent-dimensions 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 租户ID 正则匹配:^[a-zA-Z0-9-]{1,64}$ instance_id 是 String 资源ID,如:4270ff17-aba3-4138-89fa-820594c39755。 表2 Query参数 参数 是否必选 参数类型 描述 dim_name 是 String 维度名称,枚举类型,类型有: mount_point:挂载点, disk:磁盘, proc:进程, gpu:显卡, raid: RAID控制器, 枚举值: mount_point disk proc gpu raid dim_value 否 String 维度值,32位字符串,如:2e84018fc8b4484b94e89aae212fe615。 offset 否 Integer 分页偏移量 取值范围: 0-2147483647 默认取值: 0 正则匹配:^(0|[1-9][0-9]*)$ limit 否 Integer 分页大小 取值范围: 1-1000 默认取值: 1000 正则匹配:^([1-9]|[1-9][0-9]|[1-9][0-9][0-9]|1000)$
  • 响应示例 状态码:200 OK { "resource_groups" : [ { "group_name" : "group1", "create_time" : "2006-01-02T15:04:05.000Z", "group_id" : "rg0123456789xxxx", "enterprise_project_id" : "0", "type" : "Manual" }, { "group_name" : "band", "type" : "EPS", "create_time" : "2006-01-02T15:04:05.000Z", "group_id" : "rg0123456789xxxx", "enterprise_project_id" : "d61d4705-5658-42f5-8e0c-70eb34d17b02" }, { "group_name" : "group2", "type" : "TAG", "create_time" : "2006-01-02T15:04:05.000Z", "group_id" : "rg0123456789xxxx", "enterprise_project_id" : "0" } ], "count" : 3 }
  • 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 count Integer 资源分组总数 取值范围: 0-1000 resource_groups Array of OneResourceGroupResp objects 资源分组列表 表5 OneResourceGroupResp 参数 参数类型 描述 group_name String 资源分组的名称 正则匹配:^((([a-z]|[0-9]){8}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){12})|0)$ group_id String 资源分组ID,以rg开头,后跟22位由字母或数字组成的字符串 create_time DateTime 资源分组的创建时间 enterprise_project_id String 资源分组归属企业项目ID 正则匹配:^((([a-z]|[0-9]){8}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){4}-([a-z]|[0-9]){12})|0)$ type String 资源添加/匹配方式,取值只能为EPS(匹配企业项目),TAG(匹配标签),NAME(匹配实例名称), COMB(组合匹配),Manual(手动添加) 枚举值: EPS TAG NAME COMB Manual status String 指标告警状态,取值为health(告警中)、unhealthy(已触发)、no_alarm_rule(未设置告警规则) 枚举值: health unhealthy no_alarm_rule event_status String 事件告警状态,取值为health(告警中)、unhealthy(已触发)、no_alarm_rule(未设置告警规则) 枚举值: health unhealthy no_alarm_rule resource_statistics resource_statistics object 资源数(告警中/已触发/资源总数) related_ep_ids Array of strings 当资源匹配规则为匹配企业项目时,指定的企业项目列表 association_alarm_templates Array of AssociationAlarmTemplate objects 关联的告警模板列表 表6 resource_statistics 参数 参数类型 描述 unhealthy Integer 告警中的资源数 取值范围: 0-9999999 total Integer 资源总数 取值范围: 0-9999999 event_unhealthy Integer 已触发的资源数 取值范围: 0-9999999 namespaces Integer 资源类型数 取值范围: 0-9999999 表7 AssociationAlarmTemplate 参数 参数类型 描述 template_id String 告警模板ID template_name String 告警模板名称 状态码:400 表8 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:401 表9 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:403 表10 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID 状态码:500 表11 响应Body参数 参数 参数类型 描述 error_code String 请求异常内部业务状态码 error_msg String 请求异常信息 request_id String 请求ID