云服务器内容精选

  • 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到 AOM ,您可在AOM配置告警通知。 当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。
  • 解决方法 ModelArts全局配置的委托权限不足,导致创建失败? 解决方法请参见ModelArts创建委托授权。 申请的资源中包含受限购买的资源规格,导致购买失败? 当前modelarts.bm.npu.arm.8snt9b3.d为受限购买,需要提前联系ModelArts运营或提工单申请开通资源规格。 图2 报错信息 E CS 、EVS配额不足,导致创建失败? 集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。解决方法请参见申请扩大资源配额。 图3 报错信息(1) 图4 报错信息(2) 资源售罄或容量不足,导致创建失败? 减少资源池节点数量,或提工单给ModelArts申请更多资源。 图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施 其他报错请提工单联系ModelArts运维进一步定位解决。 集群纳管节点失败? 查看资源池失败报错信息: 查看资源池失败报错信息,包含错误码,如:CCE.01400001时,可查看云容器引擎 CCE_错误码查看详细的错误信息及处理措施。 其他报错请提工单联系ModelArts运维进一步定位解决。 集群容器网段不足,导致创建失败? 图6 报错信息 用户可根据实际业务场景和节点规模,自定义配置容器网段,配置方式如下: ModelArts Standard池,资源池创建阶段指定容器网段,根据实际需要设置更大的容器网段。 图7 设置容器网段 ModelArts Lite池,选择/创建具有更大容器网段的CCE集群。CCE容器网段配置参见网络规划。 账号冻结导致创建失败? 查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。 订单取消导致资源创建失败? 查看资源池失败报错信息,存在"the operation is canceled by customer",表示资源池对应订单已取消,取消原因可能为超时未支付、用户自主取消,需重新购买。 其他错误 可通过F12查看浏览器请求信息,选择标红的pools接口,查看响应里的详细报错信息,如下图所示。通过错误提示修正输入参数后再次提交订单。 图8 报错信息 如CCE集群不可用,请检查CCE集群版本和状态。报错信息如下: { "error_code": "ModelArts.50004000", "error_msg": "Bad request. spec.clusters[0].providerId: Invalid value: \"77f6f112-a631-11eb-8dae-0255ac100b0d\": the cluster 77f6f112-a631-11eb-8dae-0255ac100b0d is not available" }
  • Step3:基础权限开通 基础权限开通需要登录管理员账号,为子用户账号开通Server功能所需的基础权限(ModelArts FullAccess/BMS FullAccess/ECS FullAccess/VPC FullAccess/VPC Administrator/VPCEndpoint Administrator)。 登录 统一身份认证 服务管理控制台。 单击目录左侧“用户组”,然后在页面右上角单击“创建用户组”。 填写“用户组名称”并单击“确定”。 在操作列单击“用户组管理”,将需要配置权限的用户加入用户组中。 单击用户组名称,进入用户组详情页。 在权限管理页签下,单击“授权”。 图1 “配置权限” 在搜索栏输入“ModelArts FullAccess”,并勾选“ModelArts FullAccess”。 图2 ModelArts FullAccess 以相同的方式,依次添加:BMS FullAccess、ECS FullAccess、VPC FullAccess、VPC Administrator、VPCEndpoint Administrator。(Server Administrator、DNS Administrator为依赖策略,会自动被勾选)。 图3 基础权限 作用范围选择“区域级项目”,在下拉框中选择“所有资源 (包括未来在所有区域下创建的项目)”。 图4 作用范围 单击“确认”,完成基础权限开通。
  • 节点池管理 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理 创建节点池 当您需要更多节点池时,可单击“创建节点池”新增节点池,相关参数请参见k8s Cluster资源开通(直接购买)。 查看节点列表 当您想查看某一节点池下的节点相关信息,可单击操作列的“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见k8s Cluster资源开通(直接购买)。 需注意,更新节点池配置时,不同参数的作用范围不同,例如K8S标签节点、污点的修改,会同步更新节点池下的存量节点。容器引擎空间大小、节点子网等参数,仅对新增的节点(扩容或重置生效),存量节点配置保持不变。 图2 更新节点池 删除节点池 当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,单击“删除”后输入“DELETE”并单击“确定”即可。 每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。 父主题: k8s Cluster资源使用
  • 开通流程 图1 DevServer资源开通流程图 表1 DevServer资源开通流程 阶段 任务 参考 准备工作 1、申请开通资源规格。 Step1:申请开通资源规格 2、资源配额提升。 Step2:资源配额提升 3、基础权限开通。 Step3:基础权限开通 4、配置ModelArts委托授权。 Step4:配置ModelArts委托授权 5、创建虚拟私有云。 Step5:创建虚拟私有云 6、创建密钥对。(可选,若为密码登录方式则不需要) Step6:创建密钥对 购买Server资源 7、在ModelArts控制台上购买资源。 购买Server资源 父主题: DevServer资源开通
  • 集群资源开通流程 开通集群资源过程中用户侧需要完成的任务流程如下图所示。 图1 用户侧任务流程 表1 用户侧任务流程 阶段 任务 说明 参考文档 准备工作 登录华为云控制台,在ModelArts上创建委托授权。 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。 如果之前已经创建过委托授权,需要更新委托相应的权限。 配置ModelArts访问授权 申请开通资源规格 当前部分规格为受限购买,需要提前联系客户经理申请开通资源规格,预计1~3个工作日内开通(若无客户经理可提交工单反馈)。 申请开通资源规格 申请扩大资源配额。 集群所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小资源会超出华为云默认提供的资源配额,因此需要申请扩大配额。 具体的配额方案请联系客户经理获取。 配额需大于要开通的资源,且在购买开通前完成配额提升,否则会导致资源开通失败。 提升资源配额 购买集群资源 在ModelArts控制台上购买资源池。 - 购买集群资源
  • Step1 在ModelArts上创建委托授权 新建委托 第一次使用ModelArts时需要创建委托授权,授权允许ModelArts代表用户去访问其他云服务。使用ModelArts Lite的资源池需要授权允许ModelArts代表用户访问云容器引擎服务CCE、裸金属服务BMS、 镜像服务 IMS和密钥管理服务DEW。 进入到ModelArts控制台的“全局配置”页面,单击“添加授权”,根据提示进行操作。 更新委托 如果之前给ModelArts创过委托授权,此处需要更新授权。 进入到ModelArts控制台的“专属资源池”页面,查看是否存在授权缺失的提示。 如果有授权缺失,根据提示,单击“此处”更新委托。根据提示选择“追加至已有授权”,单击“确定”,系统会提示权限更新成功。
  • 功能亮点 免费算力 CodeLab内置了免费算力,包含CPU和GPU两种。您可以使用免费规格,端到端体验ModelArts Notebook能力。也可使用此免费算力,在线完成您的算法开发。 即开即用 无需创建Notebook实例,打开即可编码。 高效分享 ModelArts在AI Gallery中提供的Notebook样例,可以直接通过Run in ModelArts,一键打开运行和学习,并且可将样例修改后分享到AI Gallery中直接另存用于个人开发。 同时,您开发的代码,也可通过CodeLab快速分享到AI Gallery中给他人使用学习。
  • 体验CodeLab 进入CodeLab主页。 从管理控制台总览页进入,展示CodeLab首页。 图2 CodeLab首页 常用功能。 CodeLab的界面依托于JupyterLab,其相关的常见功能,与JupyterLab相同。 常用操作指导可参见JupyterLab操作指导:JupyterLab简介及常用操作。 由于CodeLab的存储为系统默认路径,在使用“上传文件”或“下载文件至本地”时,只能使用JupyterLab页面提供的功能。 如需使用大文件上传和下载的功能,建议您前往Notebook,创建一个收费的实例进行使用。 切换规格。 CodeLab支持CPU和GPU两种规格,在右侧区域,单击切换规格,修改规格类型。 图3 切换规格 资源监控。 在使用过程中,如果想了解资源使用情况,可在右侧区域选择“Resource Monitor”,展示“CPU使用率”和“内存使用率”。 图4 资源监控 分享副本到AI Gallery。单击右上角的,将修改后的Notebook样例保存分享到AI Gallery中,供自己或他人学习使用。 图5 分享到AI Gallery 分享成功后,通过分享链接可以打开分享的副本,也可以在AI Gallery中找到分享的Notebook。 图6 发布成功
  • 使用限制 CodeLab默认打开,使用的是CPU计算资源。如需切换为GPU,请在右侧窗口,更换GPU规格。 在ModelArts控制台的“总览”界面打开CodeLab,使用的是CPU或GPU资源,无法使用Ascend资源。 如果是AI Gallery社区的Notebook案例,本身使用的资源是Ascend的,那么“Run in ModelArts”跳转到CodeLab,就可以使用昇腾卡进行训练,也支持切换规格。 自启动后,免费规格默认可使用1小时,请注意右上角的剩余时长。超过1小时后,可执行续期操作,且系统每隔一段时间,将提醒确认下续期。 免费的CodeLab主要用于体验,72小时内未使用,将释放资源。保存在其中的代码文档将丢失,请注意备份文件以及使用时长。
  • 基于VisPlatform进行图片/视频推理 图片推理 方式1:在线推理 VisDetPlatform(learner, stage="val", det_box_color=(0, 0, 255)) 单击“Select”按钮可以交互式选择需要预测的文件、文件夹,会自动过滤出文件夹支持的图片及视频。 当检测框置信度大于“Score Thr”时会在图片中显示,当检测框和标注框的iou值大于“Iou Thr”时会显示蓝色框,当iou值小于“Iou Thr时”会显示红色框。 “Category”默认选择“ALL”,表示会显示所有类别信息,也可以选择只显示某一种类别。 “Pred_bbox”表示是否显示检测框,“Pred_label”表示是否显示对应预测的标签和置信度,“GT_bbox”表示是否显示标注框,“GT_label”表示是否显示对应的标签。 方式2: 离线推理 在验证集进行评估,并保存验证集检测结果到文件中。 learner.validate(out="./output/mmdetection/fcos/prediction.pkl") 使用检测结果文件和标注进行离线推理 VisDetPlatform(ann_json="./data/raw/helmet/annotations/instances_val2017.json", det_file="./output/mmdetection/fcos/prediction.pkl") 此时的交互式方式和在线推理类似,但是不支持视频的推理。 方式3: 数据集可视化 只展示数据集标注信息。 VisDetPlatform(ann_json="./data/raw/helmet/annotations/instances_val2017.json") 如果只传入ann_json路径,那么可以使用VisDetPlatform对数据集进行可视化,此时pred_bbox、pred_label、Score Thr和IoU Thr被锁定,无法进行编辑操作; 只会对于ann_json中具有标注信息的图片进行可视化。 视频推理 infer_param = {"nms_pre": 100, "max_per_img": 20, "img_scale": (800, 600)} # 默认为None VisDetPlatform(learner, infer_param=infer_param, stage="val", det_box_color=(0, 0, 255)) infer_param参数取值默认为None,则会使用默认的推理配置参数,设置infer_param后(接收nms_pre, max_per_img, img_scale),能够提高视频推理的FPS; 视频推理模式下,pred_bbox、pred_label、GT_bbox、GT_label和IoU Thr无效; 开启async模式后,对于小模型而言,适量增大“batch size”的大小能够提高视频推理的FPS,如下图所示:
  • VisPlatform from modelarts.algo_kits import VisDetPlatform VisDetPlatform(learner, stage="val", det_box_color=(0, 0, 255)) 表1 Valplatform参数说明 参数名称 可选/必选 参数类型 参数描述 learner 可选 Learner object Learner对象,用于在线实时推理,在离线推理或数据集可视化场景可省略。 stage 可选 string 推理图片所属的DataBlock数据集类别,包括"train"、"val"、"test",默认为"train",只对在线推理有效。 classes 可选 list 需要展示的类别列表。 ann_json 可选 string 标注文件路径,主要用于离线展示。 det_file 可选 string 验证输出的检测结果文件路径,主要用于离线展示。 det_box_color 可选 tuple 检测框颜色,默认为(0, 0, 255) gt_box_color 可选 string GT标注框颜色,默认为(80, 127, 255) without_gt 可选 bool 离线推理是否包含gt信息。 mask_palette 可选 list mask蒙版颜色列表,如果不设置,则使用随机颜色,只对mask类算法生效。 infer_param 可选 dict 推理相关参数,如不指定则使用配置文件默认参数,与推理速度相关,目前只对mmdetection类模型生效,主要包含: 1. nms_pre:nms操作前生成的bbox数量 2. max_per_img:每张图片最大目标数 3. img_scale:图像resize尺寸。
  • 常见问题 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,未弹出VS Code窗口 远程连接出现弹窗报错:Could not establish connection to xxx 在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 报错“ssh: connect to host xxx.pem port xxxxx: Connection refused”如何解决? 报错“no such identity: C:/Users/xx /test.pem: No such file or directory”如何解决? 报错“Bad owner or permissions on C:\Users\Administrator/.ssh/config”或“Connection permission denied (publickey)”如何解决?
  • JupyterLab常用快捷键和插件栏 图12 JupyterLab常用快捷键和插件栏 表1 快捷键说明 快捷键 说明 快速打开Notebook、Terminal。或打开Launcher页面,可快速创建新的Notebook、Console或其他文件。 创建文件夹。 上传文件。 刷新文件目录。 Git插件,可连接此Notebook实例关联的Github代码库。 表2 插件栏常用插件说明 插件 说明 文件列表。单击此处,将展示此Notebook实例下的所有文件列表。 当前实例中正在运行的Terminal和Kernel。 Git插件,可以方便快捷的使用Github代码库。 属性检查器。 文档结构图。 图13 导航栏按钮 表3 导航栏按钮介绍 按钮 说明 File 新建、关闭、保存、重新加载、重命名、导出、打印Notebook等功能。 Edit 编辑ipynb文件中代码块的相关操作,包括撤销、重做、剪切、复制、粘贴、选择、移动、合并、清除、查找代码块等。 View 查看视图相关操作。 Run 运行代码块相关操作,例如:运行选中代码块、一键运行所有代码块等。 Kernel 中断、重启、关闭、改变Kernel相关操作。 Git Git插件相关操作,可以方便快捷的使用Github代码库。 Tabs 同时打开多个ipynb文件时,通过Tabs激活或选择文件。 Settings JupyterLab工具系统设置。 Help JupyterLab工具自带的帮助参考。 图14 ipynb文件菜单栏中的快捷键 表4 ipynb文件菜单栏中的快捷键 快捷键 说明 保存文件。 添加新代码块。 剪切选中的代码块。 复制选中的代码块。 粘贴选中的代码块。 执行选中的代码块。 终止kernel。 重启kernel。 重启kernel,然后重新运行当前Notebook的所有代码。 此处下拉框有4个选项,分别是: Code(写python代码),Markdown(写Markdown代码,通常用于注释),Raw(一个转换工具),-(不修改)。 查看代码历史版本。 git插件,图标显示灰色表示当前Region不支持。 当前的资源规格。 单击可以选择Kernel。 表示代码运行状态,变为实心圆时,表示代码在运行中。 分享到AI Gallery。
  • 新建文件并打开Console Console的本质为Python终端,输入一条语句就会给出相应的输出,类似于Python原生的IDE。 进入JupyterLab主页后,可在“Console”区域下,选择适用的AI引擎,单击后将新建一个对应框架的Notebook文件。 由于每个Notebook实例选择的工作环境不同,其支持的AI框架也不同,下图仅为示例,请根据实际显示界面选择AI框架。 图5 选择AI引擎并新建一个Console 文件创建成功后,将直接呈现Console页面。 图6 新建文件(Console)