训练作业运行失败 训练作业运行失败排查指导 训练作业运行失败,出现NCCL报错 自定义镜像训练作业失败定位思路 使用自定义镜像创建的训练作业一直处于运行中 使用自定义镜像创建训练作业找不到启动文件 训练作业的监控内存指标持续升高直至作业失败 父主题: 训练作业
专属资源池创建训练作业 创建训练作业界面无云存储名称和挂载路径排查思路 父主题: 训练作业
训练作业性能问题 训练作业性能降低 父主题: 训练作业
服务部署 自定义镜像模型部署为在线服务时出现异常 部署的在线服务状态为告警 服务启动失败 服务部署、启动、升级和修改时,拉取镜像失败如何处理? 服务部署、启动、升级和修改时,镜像不断重启如何处理? 服务部署、启动、升级和修改时,容器健康检查失败如何处理? 服务部署、启动、升级和修改时
通用问题 ModelArts中提示OBS相关错误 ModelArts中提示ModelArts.7211: 账号已受限
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GP相关问题 业务代码问题 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题
训练作业卡死 训练作业卡死检测定位 复制数据卡死 训练前卡死 训练中途卡死 训练最后一个epoch卡死 父主题: 训练作业
Lite Cluster 资源池创建失败的原因与解决方法? 如何定位和处理Cluster资源池节点故障 特权池信息数据显示均为0%如何解决? 重置节点后无法正常使用? 如何根据Cluster节点故障自动恢复业务
如果仍无法解决,请联系华为工程师处理。 FAIL:功耗压测功能执行失败,请联系华为工程师处理。 父主题: Lite Server超节点管理
workspace_id 否 String 工作空间ID,默认为“0”。 表2 get_model_list打印参数说明 参数 参数类型 描述 total_count Integer 不分页的情况下,符合查询条件的总模型数量。 count Integer 模型数量。
前提条件:给子账号配置允许使用Cloud Shell的权限 使用主用户账号登录华为云管理控制台,单击右上角用户名,在下拉框中选择“统一身份认证”,进入统一身份认证(IAM)服务。
当您的账户被扣为负值时,系统将通过邮件、短信和站内信的方式通知到华为云账号的创建者。 欠费后影响 当您的账号因按需资源自动扣费导致欠费后,账号将变成欠费状态。欠费后,按需资源不会立即停止服务,资源进入宽限期。
约束与限制 华为云账号 只有华为云账号可以使用委托授权,可以为当前账号授权,也可以为当前账号下的所有IAM用户授权。 多个IAM用户或账号,可使用同一个委托。 一个账号下,最多可创建100个委托。 对于首次使用ModelArts的新用户,请直接新增委托即可。
os.modelarts/workspace.id String 参数解释:工作空间ID。 约束限制:不涉及。 取值范围:不涉及。 默认取值:0。
workspace_id String 参数解释:工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 取值范围:不涉及。 feature String 参数解释:实例类别。
workspace_id String 参数解释:工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 取值范围:不涉及。 feature String 参数解释:实例类别。
workspace_id String 参数解释:工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 取值范围:不涉及。 feature String 参数解释:实例类别。
workspace_id String 参数解释:工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 取值范围:不涉及。 feature String 参数解释:实例类别。
workspace_id String 参数解释:工作空间ID。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 取值范围:不涉及。 feature String 参数解释:实例类别。
workspace Object 工作空间,如表7所示。 ai_project Object AI项目,如表12所示。 error_code String 错误码。请参考错误码。 queuing_info Object 排队信息,如表26所示。