华为云用户手册

  • 问题七 Llama-Factory环境,运行DockerFile或install.sh中的setup.py失败 【问题现象】 执行Llama-Factory代码目录下setup.py失败,报错:“SetuptoolsDeprecationWarning: License classifiers are deprecated.” 图3 setup.py报错提示 【问题根因】 pip依赖包版本过低导致与其他依赖包冲突。 【解决措施】 修改添加pip install --upgrade pip命令至AscendFactory/install.sh文件,如图所示: 重新执行DockerFile或install.sh。
  • 问题五 Llama-Factory框架数据预处理过大数据集超时 【问题根因】 Llama-Factory框架处理数据默认先处理0卡,再依次处理1~7卡,串行处理数据导致时间占用过大导致超时。 【解决措施】 方案A:修改LLamaFactory barrier策略,将0卡先处理,1~7卡再处理方案修改为0~7卡同步处理,训练前执行以下命令: export DISABLE_MAIN_PRO CES S_FIRST = True 方案B:默认处理策略不变,将训练作业运行超时时间修改为2小时,训练前执行以下命令: export ACL_DEVICE_SYNC_TIMEOUT=7200 方案B操作简单,但数据集过大时,有可能2个小时也会超时,可以继续修改延长超时时间。
  • 问题二 网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称 关于环境变量的解释可以参考:Distributed communication package - torch.distributed — PyTorch 2.3 documentation
  • 问题四 DockerFile或install.sh安装三方依赖包失败 【问题现象】 下载安装AscendFactory/dependences.yaml中三方依赖包:Llama-Factory、MindSpeed-LLM等失败。 【问题根因】 无法连接公网导致拉取git失败。 【解决措施】 配置代理或使用有公网权限的机器手动拉取AscendFactory/dependences.yaml中的三方依赖包,命名、版本与dependences.yaml中${save_name}、${version}值保持一致,并将其复制至AscendFactory/third-party目录下,重新DockerFile或执行install.sh命令。
  • 在生产环境下使用专属资源池 在使用训练、推理、开发环境时,建议在生产环境下使用专属资源池,它在提供独享的计算资源情况下,还可以提供更强更安全的资源隔离能力,专属资源池的使用请参考创建专属资源池。 在使用ModelArts进行AI全流程开发时,您可以选择使用两种不同的资源池。 公共资源池:公共资源池提供公共的大规模计算集群,根据用户作业参数分配使用,资源按作业隔离。按资源规格、使用时长及实例数计费,不区分任务(训练作业、部署、开发)。公共资源池是ModelArts默认提供,不需另行创建或配置,您可以直接在AI开发过程中,直接选择公共资源池进行使用。 专属资源池:提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享,更加高效。 在使用专属资源池之前,您需要先购买一个专属资源池,然后在AI开发过程中选择此专属资源池。
  • 场景说明 安全性是华为云与您的共同责任。华为云负责云服务自身的安全,提供安全的云;作为租户,您需要合理使用云服务提供的安全能力对数据进行保护,安全地使用云。 本文提供了ModelArts使用过程中的安全最佳实践,旨在为提高整体安全能力提供可操作的规范性指导。根据该指导文档您可以持续评估ModelArts资源的安全状态,更好的组合使用ModelArts提供的多种安全能力,提高对ModelArts资源的整体安全防御能力,保护在ModelArts平台上的数据不泄露、不被篡改,以及数据传输过程中不泄露、不被篡改。 本文从以下几个维度给出建议,您可以评估ModelArts使用情况,并根据业务需要在本指导的基础上进行安全配置。 使用IP白名单的方式接入Notebook 在生产环境下使用专属资源池 自定义镜像使用非root用户运行 开发过程不使用硬编码的凭证 对不同的子用户,使用独立的委托
  • 自定义镜像使用非root用户运行 自定义镜像支持自行开发Dockerfile,并推送到SWR,出于权限控制范围的考虑,建议用户在自定义镜像时,显式定义默认运行的用户为非root用户,以降低容器运行时的安全风险。 在AI业务开发以及运行的过程中,一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题,在ModelArts的AI开发最佳实践中,通过容器镜像的方式,将运行环境进行固化,以这种方式不仅能够的进行依赖管理,而且可以方便的完成工作环境切换。配合ModelArts提供的云化容器资源使用,可以更加快速、高效地进行AI开发与模型实验的迭代等。 ModelArts Standard中使用自定义镜像请参见自定义镜像使用场景。
  • 云桌面 的计费方式 不同区域支持的计费类型可参考云桌面价格计算器,具体请以实际购买云桌面页面显示为准。 表6 云桌面计费方式 计费模式 计费方式 计费周期 包年/包月 先购买再使用,用户在购买时,系统会根据用户所选的套餐对用户云账户中的金额进行扣除。 计费周期以UTC+8时区的时间为准。计费周期的起点是资源开通的时间点(精确到秒),终点是指定使用时长后的第一个00:00:00。 按需计费 先使用后扣款,后台会依据用户在区间时间段内使用时长,对用户云账户中的金额进行扣除。 以整点小时为计费周期,计费周期以UTC+8时区的时间为准。使用过程中,系统在每个整点时间(如2:00:00,3:00:00)会自动出账单核算区间时间内使用时长所需费用。 订单到期后,提供7天的宽限期,宽限期内资源依然可用。 宽限期后,提供15天的保留期,保留期内资源不可用,但并未删除。 保留期后,如果您没有续费订单,资源将自动删除。
  • 计费模式 云桌面的规格包括计算资源(vCPU 、内存)和存储资源(系统盘、数据盘)。您可以根据业务中接入用户规划及云桌面使用场景规划,来决定您购买云桌面实例规格、数量及区域分布,以便为您的用户提供最优质的云桌面服务。云桌面支持包年包月计费模式和按需计费模式供您灵活选择。 包年/包月:华为云提供包月和包年的购买模式。这种购买方式相对于按需付费则能够提供更大的折扣,对于长期使用者,推荐该方式。包年/包月计费按照订单的购买周期来进行结算。 按月购买模式下的计算套餐提供以下档位: 有限时长:一个月内限制使用时长,包含120小时/月、200小时/月、260小时/月。 Flexus规格的小时包套餐使用时长有效期为一个月,当月剩余时长不可转存至次月。 若月度时长提前使用完,超出时长部分计算资源按需计费,具体费用以实际界面显示为准,请确保账号余额充足。 不限时长:一个月内不限制使用时长。 适用场景:适合稳定长期使用云桌面资源的场景,相对于按需付费则能够提供更大的折扣。 按需计费:按需申请云桌面资源使用,实例从“开通”开启计费到“删除”结束计费,按实际购买时长(精确到秒)计费即开即停,支持变更为包年/包月资源,具体详情参考云桌面《用户指南》的“桌面计费模式变更(按需转包周期)”章节。 适用场景:适合短期业务需求的场景使用,可按需开关机释放实例计算资源,节省成本。
  • 云桌面套餐 云桌面支持基于X86架构和基于鲲鹏架构的桌面套餐,您可以通过本章节快速浏览在售的所有规格清单,具体套餐请参见云桌面价格详情请以实际购买页面为准。 企业版和尊享版云桌面使用非绑定CPU调度模式,vCPU会根据系统负载被随机分配到空闲的CPU超线程上,当主机负载较大时,可能由于不同桌面vCPU争抢物理CPU资源而导致桌面性能波动不稳定。 企业版办公型如表1所示。 表1 企业版套餐 套餐类型 套餐ID vCPU 内存 CPU架构 企业办公型-2U4GB workspace.x86.enterprise.large2 2核 4GB X86计算 企业办公型-2U8GB workspace.x86.enterprise.large4 2核 8GB X86计算 企业办公型-4U8GB workspace.x86.enterprise.xlarge2 4核 8GB X86计算 企业办公型-4U16GB workspace.x86.enterprise.xlarge4 4核 16GB X86计算 企业办公型-8U16GB workspace.x86.enterprise.2xlarge2 8核 16GB X86计算 企业办公型-8U32GB workspace.x86.enterprise.2xlarge4 8核 32GB X86计算 尊享版办公型如表2所示。 表2 尊享版套餐 套餐类型 套餐ID vCPU 内存 CPU架构 尊享办公型-2U4G workspace.x86.ultimate.large2 2核 4GB X86计算 尊享办公型-2U8G workspace.x86.ultimate.large4 2核 8GB X86计算 尊享办公型-4U8G workspace.x86.ultimate.xlarge2 4核 8GB X86计算 尊享办公型-4U16G workspace.x86.ultimate.xlarge4 4核 16GB X86计算 尊享办公型-8U16G workspace.x86.ultimate.2xlarge2 8核 16GB X86计算 尊享办公型-8U32G workspace.x86.ultimate.2xlarge4 8核 32GB X86计算 鲲鹏计算型如表3所示。 表3 鲲鹏计算型套餐 套餐类型 套餐ID vCPU 内存 CPU架构 鲲鹏基础办公型-2U4G workspace.k.large2.uosv20pro 2核 4GB 鲲鹏计算 鲲鹏基础办公增强型-2U8G workspace.k.large4.uosv20pro 2核 8GB 鲲鹏计算 鲲鹏通用办公型-4U8G workspace.k.xlarge2.uosv20pro 4核 8GB 鲲鹏计算 鲲鹏通用办公增强型-4U16G workspace.k.xlarge4.uosv20pro 4核 16GB 鲲鹏计算 鲲鹏高级办公型-8U16G workspace.k.2xlarge2.uosv20pro 8核 16GB 鲲鹏计算 鲲鹏高级办公增强型-8U32G workspace.k.2xlarge4.uosv20pro 8核 32GB 鲲鹏计算 Flexus办公型如表4所示。 表4 Flexus办公型套餐 套餐类型 套餐ID vCPU 内存 CPU架构 Flexus办公-4U8G workspace.x86.flexus.xlarge2 4核 8GB X86计算 Flexus办公-4U16G workspace.x86.flexus.xlarge4 4核 16GB X86计算 Flexus办公-8U16G workspace.x86.flexus.2xlarge2 8核 16GB X86计算 Flexus办公-8U32G workspace.x86.flexus.2xlarge4 8核 32GB X86计算 Flexus办公-16U32G workspace.x86.flexus.4xlarge2 16核 32GB X86计算 Flexus办公-16U64G workspace.x86.flexus.4xlarge4 16核 64GB X86计算 各区域上线的套餐可能不同,请以实际购买页面为准。
  • 计费规则: 按需购买的实例支持关机/休眠不计费,关机/休眠后的计费规则: 实例本身(vCPU,内存,镜像)不计费,其它所挂载的资源如云硬盘,公网IP或带宽则正常计费。 按需计费云桌面支持关机/休眠不计费,即关机/休眠期间,在保留云桌面的前提下,系统将自动回收计算资源(vCPU、内存)。此时,将不再收取计算资源相关费用,仅收取存储资源(系统盘和数据盘)费用,可以降低您的使用成本,再次启动时会重新申请vCPU和内存,在资源不足时会有启动失败的风险,您可以通过稍后启动或更改实例规格的方式来恢复。 按需计费的特殊实例不支持关机/休眠不计费。特殊实例关机/休眠后仍然正常收费,同时vCPU和内存等资源也会保留。 不支持关机不计费的特殊实例包括: 含本地盘的实例,如磁盘增强型实例、超高I/O型实例等。 公网/ 私网NAT网关 根据您选择的公网NAT网关规格和使用时长计费。详细的价格说明请参考NAT网关价格计算器。 除特殊公共镜像,其他公共镜像为免费,如果公共镜像转为私有镜像,则会根据云市场价格收取镜像费用。 云桌面删除或者退订(具体操作请参考云桌面《用户指南》的“桌面退订”章节),桌面的弹性公网IP会自动解绑、弹性公网IP会继续保留并计费,请前往弹性公网IP页面手动删除。 Flexus规格小时包桌面购买后不支持退订。 应用中心中文件使用OBS存储时进行计费,详情参考 对象存储服务 OBS的计费说明。
  • 云桌面支持的操作系统列表 支持购买如表1中所示操作系统的云桌面。 表1 操作系统支持说明 操作系统类型 操作系统版本 操作系统规格 说明 Linux UOS统一操作系统 V20 1050 OEM 64位 云桌面目前支持购买UOS(统信,UnionTechOS)统一操作系统、麒麟操作系统和Windows操作系统的普通桌面。后续云桌面将持续为您提供更多操作系统桌面版本,丰富办公环境。 麒麟 V10 SP1 64位 Windows Windows Server 2016 64位 Windows Server 2019 64位
  • 云桌面支持的客户端列表 通过客户端可以登录您购买的云桌面,请根据您的本地设备的操作系统下载对应的客户端版本,客户端软件包可从华为云桌面客户端下载页面获取。 软终端 支持如表2所示操作系统版本的软终端登录云桌面。 表2 软终端支持说明 终端设备操作系统 说明 Windows 10 支持Windows 10操作系统的PC,通过安装的云桌面客户端登录桌面。 macOS 10.14~13.6(64位) 支持macOS(64位,版本10.14到13.6)的PC,通过安装的云桌面客户端登录桌面。
  • 请求示例 请求示例,创建在线服务。 POST https://{endpoint}/v1/{project_id}/services { "infer_type" : "real-time", "service_name" : "mnist", "description" : "mnist service", "config" : [ { "specification" : "modelarts.vm.cpu.2u", "weight" : 100, "model_id" : "0e07b41b-173e-42db-8c16-8e1b44cc0d44", "instance_count" : 1 } ] } 请求示例,创建在线服务且配置多版本分流。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "mnist", "description" : "mnist service", "infer_type" : "real-time", "config" : [ { "model_id" : "xxxmodel-idxxx", "weight" : "70", "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1, "envs" : { "model_name" : "mxnet-model-1", "load_epoch" : "0" } }, { "model_id" : "xxxxxx", "weight" : "30", "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1 } ] } 请求示例,创建专属资源池自定义规格在线服务样例。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "realtime-demo", "description" : "", "infer_type" : "real-time", "cluster_id" : "8abf68a969c3cb3a0169c4acb24b0000", "config" : [ { "model_id" : "eb6a4a8c-5713-4a27-b8ed-c7e694499af5", "weight" : "100", "cluster_id" : "8abf68a969c3cb3a0169c4acb24b0000", "specification" : "custom", "custom_spec" : { "cpu" : 1.5, "memory" : 7500 }, "instance_count" : 1 } ] } 请求示例,创建在线服务设置自动停止。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "service-demo", "description" : "demo", "infer_type" : "real-time", "config" : [ { "model_id" : "xxxmodel-idxxx", "weight" : "100", "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1 } ], "schedule" : [ { "type" : "stop", "time_unit" : "HOURS", "duration" : 1 } ] } 请求示例,创建批量服务且输入数据映射方式为“file”。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "batchservicetest", "description" : "", "infer_type" : "batch", "cluster_id" : "8abf68a969c3cb3a0169c4acb24b****", "config" : [ { "model_id" : "598b913a-af3e-41ba-a1b5-bf065320f1e2", "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1, "src_path" : "https://infers-data.obs.xxxxx.com/xgboosterdata/", "dest_path" : "https://infers-data.obs.xxxxx.com/output/", "req_uri" : "/", "mapping_type" : "file" } ] } 请求示例,创建批量服务且输入数据映射方式为“csv”。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "batchservicetest", "description" : "", "infer_type" : "batch", "config" : [ { "model_id" : "598b913a-af3e-41ba-a1b5-bf065320f1e2", "specification" : "modelarts.vm.cpu.2u", "instance_count" : 1, "src_path" : "https://infers-data.obs.xxxxx.com/xgboosterdata/", "dest_path" : "https://infers-data.obs.xxxxx.com/output/", "req_uri" : "/", "mapping_type" : "csv", "mapping_rule" : { "type" : "object", "properties" : { "data" : { "type" : "object", "properties" : { "req_data" : { "type" : "array", "items" : [ { "type" : "object", "properties" : { "input5" : { "type" : "number", "index" : 0 }, "input4" : { "type" : "number", "index" : 1 }, "input3" : { "type" : "number", "index" : 2 }, "input2" : { "type" : "number", "index" : 3 }, "input1" : { "type" : "number", "index" : 4 } } } ] } } } } } } ] } 请求示例,创建边缘服务样例。 POST https://{endpoint}/v1/{project_id}/services { "service_name" : "service-edge-demo", "description" : "", "infer_type" : "edge", "config" : [ { "model_id" : "eb6a4a8c-5713-4a27-b8ed-c7e694499af5", "specification" : "custom", "instance_count" : 1, "custom_spec" : { "cpu" : 1.5, "memory" : 7500 }, "envs" : { }, "nodes" : [ "2r8c4fb9-t497-40u3-89yf-skui77db0472" ] } ] }
  • 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 quotas Array of TrainingQuotaResponse objects 训练作业配额组。 表4 TrainingQuotaResponse 参数 参数类型 描述 resource String 配额的资源类型,当前支持:job-num,作业的个数配额。 quota Integer 配额个数。 used Integer 已使用的个数。
  • URI GET /v2/{project_id}/training-quotas 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 user_id 否 String 用户ID。 resource 否 String 配额的资源类型,当前支持的传参:job-num,作业个数的配额。
  • URI POST /v1/{project_id}/notebooks/{id}/start 表1 路径参数 参数 是否必选 参数类型 描述 id 是 String Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 duration 否 Long 启动后运行时长(单位:毫秒)。 type 否 String 自动停止类别,默认为timing。 timing:自动停止。 idle:空闲停止。
  • 响应示例 状态码:200 OK { "description" : "api-test", "feature" : "NOTEBOOK", "flavor" : "modelarts.vm.cpu.2u", "id" : "f9937afa-4451-42db-a76b-72d624749f66", "image" : { "description" : "description", "id" : "e1a07296-22a8-4f05-8bc8-e936c8e54090", "name" : "notebook2.0-mul-kernel-cpu-cp36", "swr_path" : "swr.xxxxx.com/atelier/notebook2.0-mul-kernel-cpu-cp36:3.3.2-release_v1", "tag" : "3.3.2-release_v1", "type" : "BUILD_IN" }, "lease" : { "create_at" : 1638841744515, "duration" : 6327212, "enable" : true, "type" : "TIMING", "update_at" : 1638844471727 }, "name" : "notebooks_test", "status" : "STARTING", "token" : "5cc60e8b-8772-7690-efd6-a5874ca387c0", "url" : "https://authoring-modelarts-xxxxx.xxxxx.com/f9937afa-4451-42db-a76b-72d624749f66/lab", "volume" : { "category" : "EFS", "ownership" : "MANAGED", "mount_path" : "/home/ma-user/work/", "capacity" : 50 }, "workspace_id" : "0" }
  • URI DELETE /v1/{project_id}/notebooks/{instance_id}/storage/{storage_id} 表1 路径参数 参数 是否必选 参数类型 描述 instance_id 是 String Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。 storage_id 是 String OBS存储ID。
  • 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 category String 存储类型。可选值为OBS。 id String 动态挂载实例ID。 mount_path String 在Notebook实例中挂载的路径。 status String 动态挂载OBS状态。枚举值如下: MOUNTING:挂载中 MOUNT_FAILED:挂载失败 MOUNTED:已挂载 UNMOUNTING:卸载中 UNMOUNT_FAILED:卸载失败 UNMOUNTED:卸载完成 uri String OBS对象路径。 状态码:204 No Content
  • 响应示例 状态码:200 OK { "arch" : "x86_64", "create_at" : 1671708630448, "description" : "", "dev_services" : [ "NOTEBOOK", "SSH" ], "id" : "708ca95d-c601-4dc7-86b9-670adfd5e818", "name" : "pytorch_1_8", "namespace" : "op_svc_modelarts_container2", "origin" : "CUSTOMIZE", "resource_categories" : [ "CPU" ], "service_type" : "UNKNOWN", "size" : 3376133259, "status" : "ACTIVE", "swr_path" : "swr.xxx.com/op_svc_modelarts_container2/pytorch_1_8:train-pytorch_1.8.0-cuda_10.2-py_3.7", "tag" : "train-pytorch_1.8.0-cuda_10.2-py_3.7", "type" : "DEDICATED", "update_at" : 1671708630448, "visibility" : "PRIVATE", "workspace_id" : "0" }
  • 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 id String 待创建Notebook实例的镜像,需要指定镜像ID,ID格式为通用唯一识别码(Universally Unique Identifier,简称UUID)。预置镜像的ID参考查询支持的镜像列表获取。 name String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 origin String 指定镜像来源,可选项,默认自定义构建镜像为CUSTOMIZE。枚举值如下: CUSTOMIZE:用户自定义构建镜像。 IMAGE_SAVE:Notebook实例保存镜像。 resource_categories Array of strings 镜像支持的规格。枚举值如下: CPU GPU ASCEND service_type String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小(单位KB)。 status String 镜像状态。枚举值如下: INIT:初始化。 CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message String 镜像保存操作过程中,构建信息展示。 support_res_categories Array of strings 镜像支持的规格。 枚举值如下: CPU GPU ASCEND swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String 镜像可见度。枚举值如下: PRIVATE:私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id String 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 flavor_type String 镜像的资源类型,枚举值: -ASCEND_SNT9 -ASCEND_SNT9B -ASCEND_SNT3 状态码:201 Created
  • 请求示例 注册自定义镜像。设置镜像支持的规格为“CPU”,支持的处理器架构类型为“X86_64”。 { "description" : "", "resource_category" : [ "CPU" ], "arch" : "X86_64", "swr_path" : "swr.xxx.com/op_svc_modelarts_container2/pytorch_1_8:train-pytorch_1.8.0-cuda_10.2-py_3.7" }
  • 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 arch 否 String 该镜像所支持处理器架构类型,默认值X86_64。枚举值: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 description 否 String 该镜像所对应的描述信息,长度限制512个字符。 origin 否 String 指定镜像来源,可选项,默认自定义构建镜像为CUSTOMIZE。枚举值: CUSTOMIZE: 用户自定义构建镜像。 IMAGE_SAVE:Notebook实例保存镜像。 resource_category 否 Array of strings 镜像支持的规格,默认值CPU、GPU。 枚举值如下: CPU GPU ASCEND service_type 否 String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 services 否 Array of strings 镜像支持的服务,默认值NOTEBOOK、SSH。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 swr_path 是 String SWR镜像地址。 visibility 否 String 镜像可见度,默认值PRIVATE。枚举值: PRIVATE:私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id 否 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 flavor_type 否 String 资源类型 -ASCEND_SNT9 -ASCEND_SNT9B -ASCEND_SNT3
  • 响应示例 状态码:200 OK。 { "kind" : "WorkloadList", "apiVersion" : "v1", "items" : [ { "kind" : "Workload", "apiVersion" : "v1", "uid" : "837ad51b-7c39-41f7-82e9-ea904cbb8ed6", "jobUUID" : "19d05662-0f87-43c7-8426-1ccf4b30179b", "name" : "ma-job-19d05662-0f87-43c7-8426-1ccf4b30179b", "jobName" : "DI-job-202412022313-hlyh5", "type" : "train", "namespace" : "os-pool-train-d910b-memarts1-1ccf4b30179b", "status" : "Running", "resourceRequirement" : { "cpu" : "360 Cores", "memory" : "2.36 TiB" }, "priority" : "1", "createTime" : 1733152598000, "runningDuration" : 1857065, "pendingPosition" : -1, "gvk" : "batch.volcano.sh/v1alpha1, Kind=Job", "hostIps" : "192.168.81.93,192.168.73.217", "nodes" : [ { "hostIp" : "192.168.81.93", "npuTopologyPlacement" : "0x00ff", "resourceRequirement" : { "cpu" : "180 Cores", "memory" : "1.18 TiB", "huawei.com/ascend-1980" : "8" } }, { "hostIp" : "192.168.73.217", "npuTopologyPlacement" : "0x00ff", "resourceRequirement" : { "cpu" : "180 Cores", "memory" : "1.18 TiB", "huawei.com/ascend-1980" : "8" } } ] } ] } 状态码:400 Bad Request。 { "error_code" : "ModelArts.50004000", "error_msg" : "Bad request." } 状态码:404 Not Found。 { "error_code" : "ModelArts.50015001", "error_msg" : "Pool {name} not found." }
  • 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 apiVersion String API版本。可选值如下: v1 kind String 资源类型。可选值如下: WorkloadList:作业列表 items Array of Workload objects 作业列表。 表4 Workload 参数 参数类型 描述 apiVersion String 资源版本。可选值如下: v1 kind String 资源类型,可选值如下: Workload type String 作业所属业务类型。可选值如下: train:训练作业 namespace String 作业所属资源池名称。 name String 作业名称。 jobName String 上层业务作业名称。 uid String 作业uid。 jobUUID String 上层业务作业id。 flavor String 作业规格。 status String 作业状态。 resourceRequirement resourceRequirement object 运行作业的资源请求量。 priority String 作业优先级。 runningDuration Integer 作业运行时长。 pendingDuration Integer 作业排队时长。 pendingPosition Integer 作业排队位置。 createTime Integer 作业创建时间。 gvk String 作业的k8s资源类型、分组和版本。 hostIps String 作业运行的节点IP列表,逗号分隔。 nodes Array of WorkloadNodeVO objects 作业所使用的节点资源信息 表5 resourceRequirement 参数 参数类型 描述 cpu String CPU使用量。 memory String 内存使用量。 nvidia.com/gpu String GPU资源使用量。 huawei.com/ascend-snt3 String 昇腾资源使用量。 huawei.com/ascend-snt9 String 昇腾资源使用量。 表6 WorkloadNodeVO 参数 参数类型 描述 hostIp String 节点ip npuTopologyPlacement String 910卡占用拓扑信息, 将16进制转换成二进制后,比特位从右往左卡编号0-15,比特位1代表占用。 resourceRequirement ResourceRequirementVO object 请求资源量 表7 ResourceRequirementVO 参数 参数类型 描述 cpu String cpu使用信息 memory String memory使用信息 nvidia.com/gpu String nvidia.com/gpu使用信息 huawei.com/ascend-310 String huawei.com/ascend-310使用信息 huawei.com/ascend-1980 String huawei.com/ascend-1980使用信息 状态码:400 表8 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 状态码:404 表9 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。
  • URI GET /v2/{project_id}/pools/{pool_name}/workloads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的命名空间。 表2 Query参数 参数 是否必选 参数类型 描述 type 否 String 作业所属业务。可选值如下: train:训练作业 infer:推理服务 notebook:Notebook作业 status 否 String 作业状态。可选值如下: Queue:排队中 Pending:等待中 Abnormal:异常 Terminating:中止中 Creating:创建中 Running:运行中 Completed:已完成 Terminated:已终止 Failed:运行失败 sort 否 String 排序依据字段。可选值: create_time:根据作业创建时间排序 ascend 否 Boolean 是否按照升序排序。 offset 否 String 分页查询,起始位置。 limit 否 Integer 单页查询最大数量,值为空或者0时默认为500,最大值为500。
  • 响应示例 状态码:200 OK { "arch" : "x86_64", "create_at" : 1671093486722, "description" : "", "dev_services" : [ "NOTEBOOK", "SSH" ], "id" : "c9ab2b2f-edda-4556-bdbb-494e868d043c", "name" : "mock-service-python", "namespace" : "mock-service1", "origin" : "CUSTOMIZE", "resource_categories" : [ "CPU" ], "service_type" : "UNKNOWN", "size" : 387840321, "status" : "DELETED", "swr_path" : "swr.xxx.com/mock-service1/mock-service-python:0.0.17", "tag" : "0.0.17", "type" : "DEDICATED", "update_at" : 1671093486722, "visibility" : "PRIVATE", "workspace_id" : "0" }
  • 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 arch String 该镜像所支持处理器架构类型。枚举值如下: X86_64:x86处理器架构。 AARCH64:ARM体系架构。 create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。 SSH:镜像支持本地IDE通过SSH协议远程连接Notebook。 id String 待创建Notebook实例的镜像,需要指定镜像ID,ID格式为通用唯一识别码(Universally Unique Identifier,简称UUID)。预置镜像的ID参考查询支持的镜像列表获取。 name String 镜像名称,长度限制512个字符,支持小写字母、数字、中划线、下划线和点。 namespace String 镜像所属组织,可以在SWR控制台“组织管理”创建和查看。 origin String 指定镜像来源,可选项,默认自定义构建镜像为CUSTOMIZE。枚举值如下: CUSTOMIZE:用户自定义构建镜像。 IMAGE_SAVE:Notebook实例保存镜像。 resource_categories Array of strings 镜像支持的规格。枚举值如下: CPU GPU ASCEND service_type String 镜像支持服务类型。枚举值如下: COMMON:通用镜像。 INFERENCE: 建议仅在推理部署场景使用。 TRAIN: 建议仅在训练任务场景使用。 DEV: 建议仅在开发调测场景使用。 UNKNOWN: 未明确设置的镜像支持的服务类型。 size Long 镜像大小(单位KB)。 status String 镜像状态。枚举值如下: INIT:初始化。 CREATING:镜像保存中,此时Notebook不可用。 CREATE_FAILED:镜像保存失败。 ERROR:错误。 DELETED:已删除。 ACTIVE:镜像保存成功,保存的镜像可以在SWR控制台查看,同时可以基于保存的镜像创建Notebook实例。 status_message String 镜像保存操作过程中,构建信息展示。 support_res_categories Array of strings 镜像支持的规格。 枚举值如下: CPU GPU ASCEND swr_path String SWR镜像地址。 tag String 镜像Tag。 type String 镜像类型。枚举值如下: BUILD_IN:系统内置镜像。 DEDICATED:用户保存的镜像。 update_at Long 镜像最后更新的时间,UTC毫秒。 visibility String 镜像可见度。枚举值如下: PRIVATE:私有镜像。 PUBLIC: 所有用户可以根据ImageId来进行只读使用。 workspace_id String 工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 flavor_type String 镜像的资源类型,枚举值: -ASCEND_SNT9 -ASCEND_SNT9B -ASCEND_SNT3 状态码:204 No Content
  • 响应示例 状态码:200 OK { "create_at" : 1638841805440, "description" : "update", "feature" : "DEFAULT", "flavor" : "modelarts.vm.cpu.free", "id" : "f9937afa-ca78-45b6-bc12-7ecf42553c48", "image" : { "description" : "description", "id" : "e1a07296-22a8-4f05-8bc8-e936c8e54090", "name" : "notebook2.0-mul-kernel-cpu-cp36", "swr_path" : "swr.xxxxx.com/atelier/notebook2.0-mul-kernel-cpu-cp36:3.3.2-release_v1", "tag" : "3.3.2-release_v1", "type" : "BUILD_IN" }, "lease" : { "create_at" : 1638841805439, "duration" : 3600000, "enable" : true, "update_at" : 1638841805439 }, "name" : "notebook_5ee4bf0e", "status" : "DELETING", "token" : "58ba50c6-e8ff-245c-4840-49e51aa70737", "update_at" : 1638842504178, "workspace_id" : "0" }
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全