云服务器内容精选

  • CCE用户没有开通日志功能,为什么会开始计费? 用户在购买CCE集群时,系统会默认勾选自动采集容器标准输出,会采集日志(如标准输出日志)、指标、K8S事件等运维数据。如果想停止使用日志功能,请参考以下方法: 在云日志服务(LTS)控制台,单击左侧导航栏“主机管理”。 选择“主机”页签,单击“CCE集群”。 在CCE集群中,选择您需要关闭标准输出到AOM的CCE集群,关闭采集容器标准输出到AOM按钮。 单击“确定”,待ICAgent重启完成后,已关闭CCE标准输出到AOM。 父主题: 计费FAQ
  • 已开通旧版本编译构建服务,能否转换为新版本计费? 本章节仅供老用户参考。 已购买包周期套餐的用户,套餐到期后,您可以选择继续购买CodeArts Build包月套餐。 开通旧版按需计费的用户,仍延续旧版按需计费规则,您也可以选择购买包月套餐,开始使用新版本计费。 旧版套餐计费方式详情请参考CodeArts旧版计费方式说明,旧版编译构建服务关闭方式请参考关闭服务。 开通/购买套餐需要您拥有租户账号,或拥有Tenant Administrator权限的IAM用户账号,配置权限策略方法请参考创建用户组并授权。 父主题: 计费FAQ
  • 插件中除log-operator外组件均未就绪 问题现象:插件中除log-operator外组件均未就绪,且出现异常事件“实例挂卷失败”。 解决方案:请查看log-operator日志,安装插件时,其余组件所需的配置文件需要log-operator生成,log-operator生成配置出错,会导致所有组件无法正常启动。 日志信息如下: MountVolume.SetUp failed for volume "otel-collector-config-vol":configmap "log-agent-otel-collector-config" not found
  • 节点容器引擎为docker时采集不到容器文件日志 问题现象: 配置了容器文件路径采集,采集的目录不是挂载到容器内的,且节点容器引擎为docker,采集不到日志。 解决方案: 请检查工作负载所在节点的容器存储模式是否为Device Mapper,Device Mapper不支持采集容器内日志(创建日志策略时已提示此限制)。检查方法如下: 进入业务工作负载所在节点。 执行docker info | grep "Storage Driver"。 若返回的Storage Driver值为Device Mapper,则该日志无法采集。 图1 创建日志策略
  • log-agent-otel-collector组件出现OOM 排查方法: 查看log-agent-otel-collector组件标准输出,查看近期是否有错误日志。 kubectl logs -n monitoring log-agent-otel-collector-xxx 若存在报错请优先处理报错,确认日志恢复正常采集。 若日志近期没有报错,且仍然出现OOM,则参考以下步骤进行处理: 进入“日志中心”,单击“展开日志条数统计图”查看日志统计图。若上报的日志组日志流不是默认日志组日志流,则单击“全局日志查询”页签,选择上报的日志组和日志流后进行查看。 根据统计图中的柱状图,计算每秒上报的日志量,检查是否超过当前规格的日志采集性能。 若超过当前规格的日志采集性能,可尝试增加log-agent-otel-collector副本数或提高log-agent-otel-collector的内存上限。 若CPU使用率超过90%,则需要提高log-agent-otel-collector的CPU上限。
  • 采集容器内日志,且采集目录配置了通配符,日志无法采集 排查方法:请检查工作负载配置中Volume挂载情况,如果业务容器的数据目录是通过数据卷(Volume)挂载的,插件不支持采集它的父目录,需设置采集目录为完整的数据目录。例如/var/log/service目录是数据卷挂载的路径,则设置采集目录为/var/log或/var/log/*将采集不到该目录下的日志,需设置采集目录为/var/log/service。 解决方案:若日志生成目录为/application/logs/{应用名}/*.log,建议工作负载挂载Volume时,直接挂载/application/logs,日志策略中配置采集路径为/application/logs/*/*.log
  • log-operator标准输出报错 问题现象: 2023/05/05 12:17:20.799 [E] call 3 times failed, resion: create group failed, projectID: xxx, groupName: k8s-log-xxx, err: create groups status code: 400, response: {"error_code":"LTS.0104","error_msg":"Failed to create log group, the number of log groups exceeds the quota"}, url: https://lts.cn-north-4.myhuaweicloud.com/v2/xxx/groups, process will retry after 45s 解决方案:LTS日志组有配额限制,如果出现该报错,请前往LTS下删除部分无用的日志组。限制详情见:日志组。
  • 报文样例 请求消息样例 { "tenantId":"00030010", "authToken": "XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX", "model": { "id": -1, "faqGroupId": 10012, "question": "南京市购房限购", "simQuestions": [ { "statement": "南京市购房限购政策", "type": "Q" } ], "answer": "每户限购2套", "simAnswers": [ { "statement": "每户最多购买2套", "type": "A" } ], "keywords": [ { "w": "限购" } ] } } 响应消息样例 { "errorCode" : "0", "errorMsg" : "" }
  • 报文样例 请求消息样例 { "tenantId":"00030010", "language":"en_US", "name":"", "pageNum":1, "pageSize":10, "authToken": "0*******************************" } 响应消息样例 { "data": [ { "id": 10003, "tenantId": "00030010", "name": "FAQ", "description": "", "language": "en_US", "updateTime": 1556260264000, "on": false, "amount": 1 }, { "id": 10005, "tenantId": "00030010", "name": "Social Security Related FAQ", "description": "", "language": "en_US", "updateTime": 1556260257000, "on": false, "amount": 1 }, { "id": 10002, "tenantId": "00030010", "name": "Service Provisioning", "description": "", "language": "en_US", "updateTime": 1554285568000, "on": false, "amount": 1 } ], "totalSize": 3 }
  • 请求说明 表1 请求体参数 参数名称 数据类型 参数位置 必选/可选 描述 tenantId String body True 租户ID language String body False 语言 英文:en_US、 中文:zh_CN、 西班牙语:es_ES、 阿拉伯语:ar、 泰语:th_TH、 葡萄牙语:pt_BR name String body False 名称 pageNum int body True 页码 分页查询,查询第几页,首页为1 pageSize int body True 每页多少条 authToken String body True 认证token。 请参见C3 智能助手平台接口鉴权方式
  • CCE容器场景 通常情况下,用户购买CCE集群,部署工作负载之后,默认会采集cluster、Pod、Container、Node等基础指标-容器指标,基础指标的上报不产生费用。 产生计费的可能原因是: Prometheus实例内置的服务发现功能采集到自定义指标并上报指标到AOM。 表1 内置ServiceMonitor配置费用说明 ServiceMonitor 是否导致费用 默认状态(关闭表示不会采集自定义指标) etcd-server 会产生部分自定义指标,产生费用 关闭 kube-controller 会产生部分自定义指标,产生费用 关闭 kube-scheduler 会产生部分自定义指标,产生费用 关闭 kubernetes-service-endpoints 会产生部分自定义指标,产生费用 关闭 表2 内置PodMonitor配置费用说明 PodMonitor 是否产生费用 默认状态(关闭表示不会采集自定义指标) istio 会产生部分自定义指标,产生费用 关闭 kubernetes-pods 会产生部分自定义指标,产生费用 关闭 用户自定义ServiceMonitor或PodMonitor配置采集指标并上报指标到AOM,产生相关费用。比如容器场景自定义中间件mysql、nginx、业务指标等。
  • 为什么项目删除完了,仍然还在计费? 如果ModelArts的自动学习项目、Notebook实例、训练作业或服务,都已经处于停止状态,即总览页面没看到收费项目,仍然发现账号还在计费。 有以下几种可能情况: 因为您在使用ModelArts过程中,将数据上传至OBS进行存储,OBS会根据实际存储的数据进行计费。建议前往OBS管理控制台,清理您不再使用的数据、文件夹以及OBS桶,避免产生不必要的费用。 您在创建Notebook时,选择了云硬盘EVS存储,该存储会单独收费,Notebook停止后,EVS还在计费,请及时删除该Notebook实例。 您在体验CodeLab时,切换规格为付费的规格时会收费。请前往CodeLab界面单击右上角停止Notebook实例。 父主题: 计费FAQ
  • 解决方法 ModelArts全局配置的委托权限不足,导致创建失败? 解决方法请参见ModelArts创建委托授权。 申请的资源中包含受限购买的资源规格,导致购买失败? 当前modelarts.bm.npu.arm.8snt9b3.d为受限购买,需要提前联系ModelArts运营或提工单申请开通资源规格。 图2 报错信息 ECS、EVS配额不足,导致创建失败? 集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。 图3 报错信息(1) 图4 报错信息(2) 资源售罄或容量不足,导致创建失败? 减少资源池节点数量,或提工单给ModelArts申请更多资源。 图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施 其他报错请提工单联系ModelArts运维进一步定位解决。 集群纳管节点失败? 查看资源池失败报错信息: 查看资源池失败报错信息,包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。 其他报错请提工单联系ModelArts运维进一步定位解决。 集群容器网段不足,导致创建失败? 图6 报错信息 用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下: ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。 图7 设置容器网段 ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。 账号冻结导致创建失败? 查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。 订单取消导致资源创建失败? 查看资源池失败报错信息,存在"the operation is canceled by customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。 其他错误 可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。 图8 报错信息 如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下: { "error_code": "ModelArts.50004000", "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available" }
  • 原因分析 以自定义UDF为例: 报错信息显示是找不到类。 首先需要确认的是这个类属于的jar包是否在jvm的classpath里面, spark自带的jar都在“spark客户端目录/jars/”。 确认是否存在多个jar包拥有这个类。 如果是其他依赖包,可能是没有使用--jars添加到任务里面。 如果是已经添加到任务里面,但是依旧没有取到,可能是因为配置文件的driver或者executor的classpath配置不正确,可以查看日志确认是否加载到环境。 另外可能报错是类初始化失败导致后面使用这个类的时候出现上述报错,需要确认是否在之前就有初始化失败或者其他报错的情况发生。 报错信息显示找不到方法。 确认这个方法对应的类所在的jar包是否加载到jvm的classpath里面,spark自带的类都在“spark客户端目录/jars/”。 确认是否有多个jar包包含这个类(尤其注意相同工具的不同版本)。 如果报错是Hadoop相关的包,有可能是因为使用的Hadoop版本不一致导致部分方法已经更改。 如果报错的是三方包里面的类,可能是因为Spark已经自带了相关的jar包,但是和代码中使用的版本不一致。
  • 问题现象 Spark能对接很多的第三方工具,因此在使用过程中经常会依赖一堆的三方包。而有一些包MRS已经自带,这样就有可能造成代码使用的jar包版本和集群自带的jar包版本不一致,在使用过程中就有可能出现jar包冲突的情况。 常见的jar包冲突报错有: 1、报错类找不到:java.lang.NoClassDefFoundError 2、报错方法找不到:java.lang.NoSuchMethodError