AI-华为云

AI开发平台MODELARTS-节点故障定位:故障说明和处理建议

故障说明和处理建议图1 Lite池故障处理流程对于ModelArts Lite资源池，每个节点会以DaemonSet方式部署node-agent组件，该组件会检测节点状态，并将检测结果写到K8S NodeCondtition中。同时，节点故障指标默认会上报到 AOM ，您可在AOM配置告警通知。当发生节点异常时，在故障初步分析阶段，您可先按表1识别是否为亚健康并自助进行处理，若不是，则为故障，请联系客户经理发起维修流程（若无客户经理可提交工单）。

AI开发平台MODELARTS k8s Cluster资源使用

AI开发平台MODELARTS-资源池创建失败的原因与解决方法？:解决方法

解决方法 ModelArts全局配置的委托权限不足，导致创建失败？解决方法请参见ModelArts创建委托授权。申请的资源中包含受限购买的资源规格，导致购买失败？当前modelarts.bm.npu.arm.8snt9b3.d为受限购买，需要提前联系ModelArts运营或提工单申请开通资源规格。图2 报错信息 E CS 、EVS配额不足，导致创建失败？集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额，因此需要申请扩大配额。解决方法请参见申请扩大资源配额。图3 报错信息（1）图4 报错信息（2）资源售罄或容量不足，导致创建失败？减少资源池节点数量，或提工单给ModelArts申请更多资源。图5 报错信息 ECS、BMS节点创建失败？查看资源池失败报错信息：包含错误码，如：Ecs.0000时，可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。包含错误码，如：BMS.0001时，可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。包含错误码，如：CCE.01400001时，可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施其他报错请提工单联系ModelArts运维进一步定位解决。集群纳管节点失败？查看资源池失败报错信息：查看资源池失败报错信息，包含错误码，如：CCE.01400001时，可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。其他报错请提工单联系ModelArts运维进一步定位解决。集群容器网段不足，导致创建失败？图6 报错信息用户可根据实际业务场景和节点规模，自定义配置容器网段，配置方式如下： ModelArts Standard池，资源池创建阶段指定容器网段，根据实际需要设置更大的容器网段。图7 设置容器网段 ModelArts Lite池，选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。账号冻结导致创建失败？查看资源池失败报错信息，存在"frozen deposit fail"，表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况，账号解冻后重新购买资源。订单取消导致资源创建失败？查看资源池失败报错信息，存在"the operation is canceled by customer"，表示资源池对应订单已取消，取消原因可能为超时未支付、用户自主取消，需重新购买。其他错误可通过F12查看浏览器请求信息，选择标红的pools接口，查看响应里的详细报错信息，如下图所示。通过错误提示修正输入参数后再次提交订单。图8 报错信息如CCE集群不可用，请检查CCE集群版本和状态。报错信息如下： { "error_code": "ModelArts.50004000", "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available" }

AI开发平台MODELARTS FAQ

AI开发平台MODELARTS-准备工作:Step3：基础权限开通

Step3：基础权限开通基础权限开通需要登录管理员账号，为子用户账号开通Server功能所需的基础权限（ModelArts FullAccess/BMS FullAccess/ECS FullAccess/VPC FullAccess/VPC Administrator/VPCEndpoint Administrator）。登录统一身份认证服务管理控制台。单击目录左侧“用户组”，然后在页面右上角单击“创建用户组”。填写“用户组名称”并单击“确定”。在操作列单击“用户组管理”，将需要配置权限的用户加入用户组中。单击用户组名称，进入用户组详情页。在权限管理页签下，单击“授权”。图1 “配置权限” 在搜索栏输入“ModelArts FullAccess”，并勾选“ModelArts FullAccess”。图2 ModelArts FullAccess 以相同的方式，依次添加：BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator。（Server Administrator、DNS Administrator为依赖策略，会自动被勾选）。图3 基础权限作用范围选择“区域级项目”，在下拉框中选择“所有资源 (包括未来在所有区域下创建的项目)”。图4 作用范围单击“确认”，完成基础权限开通。

AI开发平台MODELARTS

AI开发平台MODELARTS-节点池管理

节点池管理在资源池详情页，单击“节点池管理”页签，您可以创建、更新和删除节点池。图1 节点池管理创建节点池当您需要更多节点池时，可单击“创建节点池”新增节点池，相关参数请参见k8s Cluster资源开通（直接购买）。查看节点列表当您想查看某一节点池下的节点相关信息，可单击操作列的“节点列表”，可查询节点的名称、规格及可用区。更新节点池当您想更新节点池配置时，可单击操作列的“更新”，相关参数介绍请参见k8s Cluster资源开通（直接购买）。需注意，更新节点池配置时，不同参数的作用范围不同，例如K8S标签节点、污点的修改，会同步更新节点池下的存量节点。容器引擎空间大小、节点子网等参数，仅对新增的节点（扩容或重置生效），存量节点配置保持不变。图2 更新节点池删除节点池当有多个节点池时，支持删除节点池，此时在操作列会显示“删除”按钮，单击“删除”后输入“DELETE”并单击“确定”即可。每个资源池至少需要有一个节点池，当只有一个节点池时不支持删除。父主题： k8s Cluster资源使用

AI开发平台MODELARTS k8s Cluster资源使用

AI开发平台MODELARTS-开通流程

开通流程图1 DevServer资源开通流程图表1 DevServer资源开通流程阶段任务参考准备工作 1、申请开通资源规格。 Step1：申请开通资源规格 2、资源配额提升。 Step2：资源配额提升 3、基础权限开通。 Step3：基础权限开通 4、配置ModelArts委托授权。 Step4：配置ModelArts委托授权 5、创建虚拟私有云。 Step5：创建虚拟私有云 6、创建密钥对。（可选，若为密码登录方式则不需要） Step6：创建密钥对购买Server资源 7、在ModelArts控制台上购买资源。购买Server资源父主题： DevServer资源开通

AI开发平台MODELARTS DevServer资源开通

AI开发平台MODELARTS-k8s Cluster资源开通（直接购买）:集群资源开通流程

集群资源开通流程开通集群资源过程中用户侧需要完成的任务流程如下图所示。图1 用户侧任务流程表1 用户侧任务流程阶段任务说明参考文档准备工作登录华为云控制台，在ModelArts上创建委托授权。第一次使用ModelArts时需要创建委托授权，授权允许ModelArts代表用户去访问其他云服务。如果之前已经创建过委托授权，需要更新委托相应的权限。配置ModelArts访问授权申请开通资源规格当前部分规格为受限购买，需要提前联系客户经理申请开通资源规格，预计1~3个工作日内开通（若无客户经理可提交工单反馈）。申请开通资源规格申请扩大资源配额。集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额，因此需要申请扩大配额。具体的配额方案请联系客户经理获取。配额需大于要开通的资源，且在购买开通前完成配额提升，否则会导致资源开通失败。提升资源配额购买集群资源在ModelArts控制台上购买资源池。 - 购买集群资源

AI开发平台MODELARTS k8s Cluster资源开通

AI开发平台MODELARTS-k8s Cluster资源开通（直接购买）:Step1 在ModelArts上创建委托授权

Step1 在ModelArts上创建委托授权新建委托第一次使用ModelArts时需要创建委托授权，授权允许ModelArts代表用户去访问其他云服务。使用ModelArts Lite的资源池需要授权允许ModelArts代表用户访问云容器引擎服务CCE、裸金属服务BMS、镜像服务 IMS和密钥管理服务DEW。进入到ModelArts控制台的“全局配置”页面，单击“添加授权”，根据提示进行操作。更新委托如果之前给ModelArts创过委托授权，此处需要更新授权。进入到ModelArts控制台的“专属资源池”页面，查看是否存在授权缺失的提示。如果有授权缺失，根据提示，单击“此处”更新委托。根据提示选择“追加至已有授权”，单击“确定”，系统会提示权限更新成功。

AI开发平台MODELARTS k8s Cluster资源开通

AI开发平台MODELARTS-CodeLab:功能亮点

功能亮点免费算力 CodeLab内置了免费算力，包含CPU和GPU两种。您可以使用免费规格，端到端体验ModelArts Notebook能力。也可使用此免费算力，在线完成您的算法开发。即开即用无需创建Notebook实例，打开即可编码。高效分享 ModelArts在AI Gallery中提供的Notebook样例，可以直接通过Run in ModelArts，一键打开运行和学习，并且可将样例修改后分享到AI Gallery中直接另存用于个人开发。同时，您开发的代码，也可通过CodeLab快速分享到AI Gallery中给他人使用学习。

AI开发平台MODELARTS

AI开发平台MODELARTS-CodeLab:体验CodeLab

体验CodeLab 进入CodeLab主页。从管理控制台总览页进入，展示CodeLab首页。图2 CodeLab首页常用功能。 CodeLab的界面依托于JupyterLab，其相关的常见功能，与JupyterLab相同。常用操作指导可参见JupyterLab操作指导：JupyterLab简介及常用操作。由于CodeLab的存储为系统默认路径，在使用“上传文件”或“下载文件至本地”时，只能使用JupyterLab页面提供的功能。如需使用大文件上传和下载的功能，建议您前往Notebook，创建一个收费的实例进行使用。切换规格。 CodeLab支持CPU和GPU两种规格，在右侧区域，单击切换规格，修改规格类型。图3 切换规格资源监控。在使用过程中，如果想了解资源使用情况，可在右侧区域选择“Resource Monitor”，展示“CPU使用率”和“内存使用率”。图4 资源监控分享副本到AI Gallery。单击右上角的，将修改后的Notebook样例保存分享到AI Gallery中，供自己或他人学习使用。图5 分享到AI Gallery 分享成功后，通过分享链接可以打开分享的副本，也可以在AI Gallery中找到分享的Notebook。图6 发布成功

AI开发平台MODELARTS

AI开发平台MODELARTS-CodeLab:使用限制

使用限制 CodeLab默认打开，使用的是CPU计算资源。如需切换为GPU，请在右侧窗口，更换GPU规格。在ModelArts控制台的“总览”界面打开CodeLab，使用的是CPU或GPU资源，无法使用Ascend资源。如果是AI Gallery社区的Notebook案例，本身使用的资源是Ascend的，那么“Run in ModelArts”跳转到CodeLab，就可以使用昇腾卡进行训练，也支持切换规格。自启动后，免费规格默认可使用1小时，请注意右上角的剩余时长。超过1小时后，可执行续期操作，且系统每隔一段时间，将提醒确认下续期。免费的CodeLab主要用于体验，72小时内未使用，将释放资源。保存在其中的代码文档将丢失，请注意备份文件以及使用时长。

AI开发平台MODELARTS

AI开发平台MODELARTS-本地交互式推理:基于VisPlatform进行图片/视频推理

基于VisPlatform进行图片/视频推理图片推理方式1：在线推理 VisDetPlatform(learner, stage="val", det_box_color=(0, 0, 255)) 单击“Select”按钮可以交互式选择需要预测的文件、文件夹，会自动过滤出文件夹支持的图片及视频。当检测框置信度大于“Score Thr”时会在图片中显示，当检测框和标注框的iou值大于“Iou Thr”时会显示蓝色框，当iou值小于“Iou Thr时”会显示红色框。 “Category”默认选择“ALL”，表示会显示所有类别信息，也可以选择只显示某一种类别。 “Pred_bbox”表示是否显示检测框，“Pred_label”表示是否显示对应预测的标签和置信度，“GT_bbox”表示是否显示标注框，“GT_label”表示是否显示对应的标签。方式2：离线推理在验证集进行评估，并保存验证集检测结果到文件中。 learner.validate(out="./output/mmdetection/fcos/prediction.pkl") 使用检测结果文件和标注进行离线推理 VisDetPlatform(ann_json="./data/raw/helmet/annotations/instances_val2017.json", det_file="./output/mmdetection/fcos/prediction.pkl") 此时的交互式方式和在线推理类似，但是不支持视频的推理。方式3：数据集可视化只展示数据集标注信息。 VisDetPlatform(ann_json="./data/raw/helmet/annotations/instances_val2017.json") 如果只传入ann_json路径，那么可以使用VisDetPlatform对数据集进行可视化，此时pred_bbox、pred_label、Score Thr和IoU Thr被锁定，无法进行编辑操作；只会对于ann_json中具有标注信息的图片进行可视化。视频推理 infer_param = {"nms_pre": 100, "max_per_img": 20, "img_scale": (800, 600)} # 默认为None VisDetPlatform(learner, infer_param=infer_param, stage="val", det_box_color=(0, 0, 255)) infer_param参数取值默认为None，则会使用默认的推理配置参数，设置infer_param后（接收nms_pre, max_per_img, img_scale），能够提高视频推理的FPS；视频推理模式下，pred_bbox、pred_label、GT_bbox、GT_label和IoU Thr无效；开启async模式后，对于小模型而言，适量增大“batch size”的大小能够提高视频推理的FPS，如下图所示：

AI开发平台MODELARTS

AI开发平台MODELARTS-本地交互式推理:VisPlatform

VisPlatform from modelarts.algo_kits import VisDetPlatform VisDetPlatform(learner, stage="val", det_box_color=(0, 0, 255)) 表1 Valplatform参数说明参数名称可选/必选参数类型参数描述 learner 可选 Learner object Learner对象，用于在线实时推理，在离线推理或数据集可视化场景可省略。 stage 可选 string 推理图片所属的DataBlock数据集类别，包括"train"、"val"、"test"，默认为"train"，只对在线推理有效。 classes 可选 list 需要展示的类别列表。 ann_json 可选 string 标注文件路径，主要用于离线展示。 det_file 可选 string 验证输出的检测结果文件路径，主要用于离线展示。 det_box_color 可选 tuple 检测框颜色，默认为(0, 0, 255) gt_box_color 可选 string GT标注框颜色，默认为(80, 127, 255) without_gt 可选 bool 离线推理是否包含gt信息。 mask_palette 可选 list mask蒙版颜色列表，如果不设置，则使用随机颜色，只对mask类算法生效。 infer_param 可选 dict 推理相关参数，如不指定则使用配置文件默认参数，与推理速度相关，目前只对mmdetection类模型生效，主要包含： 1. nms_pre：nms操作前生成的bbox数量 2. max_per_img：每张图片最大目标数 3. img_scale：图像resize尺寸。

AI开发平台MODELARTS

AI开发平台MODELARTS-VS Code一键连接Notebook:常见问题

常见问题在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，未弹出VS Code窗口远程连接出现弹窗报错：Could not establish connection to xxx 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开，VS Code打开后未进行远程连接报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决？报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决？报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决？

AI开发平台MODELARTS

AI开发平台MODELARTS-JupyterLab简介及常用操作:JupyterLab常用快捷键和插件栏

JupyterLab常用快捷键和插件栏图12 JupyterLab常用快捷键和插件栏表1 快捷键说明快捷键说明快速打开Notebook、Terminal。或打开Launcher页面，可快速创建新的Notebook、Console或其他文件。创建文件夹。上传文件。刷新文件目录。 Git插件，可连接此Notebook实例关联的Github代码库。表2 插件栏常用插件说明插件说明文件列表。单击此处，将展示此Notebook实例下的所有文件列表。当前实例中正在运行的Terminal和Kernel。 Git插件，可以方便快捷的使用Github代码库。属性检查器。文档结构图。图13 导航栏按钮表3 导航栏按钮介绍按钮说明 File 新建、关闭、保存、重新加载、重命名、导出、打印Notebook等功能。 Edit 编辑ipynb文件中代码块的相关操作，包括撤销、重做、剪切、复制、粘贴、选择、移动、合并、清除、查找代码块等。 View 查看视图相关操作。 Run 运行代码块相关操作，例如：运行选中代码块、一键运行所有代码块等。 Kernel 中断、重启、关闭、改变Kernel相关操作。 Git Git插件相关操作，可以方便快捷的使用Github代码库。 Tabs 同时打开多个ipynb文件时，通过Tabs激活或选择文件。 Settings JupyterLab工具系统设置。 Help JupyterLab工具自带的帮助参考。图14 ipynb文件菜单栏中的快捷键表4 ipynb文件菜单栏中的快捷键快捷键说明保存文件。添加新代码块。剪切选中的代码块。复制选中的代码块。粘贴选中的代码块。执行选中的代码块。终止kernel。重启kernel。重启kernel，然后重新运行当前Notebook的所有代码。此处下拉框有4个选项，分别是： Code（写python代码），Markdown（写Markdown代码，通常用于注释），Raw（一个转换工具），-（不修改）。查看代码历史版本。 git插件，图标显示灰色表示当前Region不支持。当前的资源规格。单击可以选择Kernel。表示代码运行状态，变为实心圆时，表示代码在运行中。分享到AI Gallery。

AI开发平台MODELARTS JupyterLab

AI开发平台MODELARTS-JupyterLab简介及常用操作:新建文件并打开Console

新建文件并打开Console Console的本质为Python终端，输入一条语句就会给出相应的输出，类似于Python原生的IDE。进入JupyterLab主页后，可在“Console”区域下，选择适用的AI引擎，单击后将新建一个对应框架的Notebook文件。由于每个Notebook实例选择的工作环境不同，其支持的AI框架也不同，下图仅为示例，请根据实际显示界面选择AI框架。图5 选择AI引擎并新建一个Console 文件创建成功后，将直接呈现Console页面。图6 新建文件（Console）

AI开发平台MODELARTS JupyterLab

云服务器内容精选

AI

7*24

备案

专业服务

退订

建议反馈

售前咨询热线