检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
h框架创建训练作业。 训练作业进阶功能 ModelArts Standard还支持以下训练进阶功能,例如: 增量训练 分布式训练 训练加速 训练高可靠性 查看训练结果和日志 查看训练作业详情 训练作业运行中或运行结束后,可以在训练作业详情页面查看训练作业的参数设置,训练作业事件等。
删除训练作业 功能介绍 删除训练作业接口用于从ModelArts平台上移除已创建的训练作业。 该接口适用于以下场景:当用户需要清理已完成或不再需要的训练作业时,可以通过此接口删除指定的训练作业。使用该接口的前提条件是训练作业已存在且用户具有删除训练作业的权限。删除操作完成后,训练作
超过最大递归深度导致训练作业失败 问题现象 ModelArts训练作业报错: RuntimeError: maximum recursion depth exceeded in __instancecheck__ 原因分析 递归深度超过了Python默认的递归深度,导致训练失败。 处理方法
行管理平台,支持部署华为云ModelArts平台训练的模型,提供云上管理平台、丰富的技能市场和开发者工具与插件,帮助用户高效开发AI应用,并将其部署到多种端侧计算设备运行和在线管理。 华为HiLens为端云协同AI应用开发与运行管理平台,支持部署华为云ModelArts平台训练的
终止训练作业 功能介绍 终止训练作业接口用于停止ModelArts平台上正在运行的训练作业,只可终止创建中、等待中、运行中的作业。 该接口适用于以下场景:当用户需要提前终止正在进行的训练作业时,可以通过此接口停止作业。使用该接口的前提条件是训练作业正在运行且用户具有终止作业的权限
生态伙伴计划是围绕华为云一站式AI开发平台ModelArts推出的一项合作伙伴计划,旨在与合作伙伴一起构建合作共赢的AI生态体系,加速AI应用落地,华为云向伙伴提供培训、技术、营销和销售的全面支持。 D-Plan AI 生态伙伴计划是围绕华为云一站式AI开发平台ModelArts推
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_info返回参数说明 参数 参数类型 描述 kind String 训练作业类型。默认使用job。
Object 会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 表2 get_job_log请求参数说明 参数 是否必选 参数类型
在ModelArts上如何提升训练效率并减少与OBS的交互? 场景描述 在使用ModelArts进行自定义深度学习训练时,训练数据通常存储在对象存储服务(OBS)中,且训练数据较大时(如200GB以上),每次都需要使用GP资源池进行训练,且训练效率低。 希望提升训练效率,同时减少与对象存
会话对象,初始化方法请参考Session鉴权。 job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。 无成功响应参数。 表2 调用训练接口失败响应参数 参数 类型 描述 error_msg
训练作业调测 使用SDK调测单机训练作业 使用SDK调测多机分布式训练作业 父主题: 训练作业
训练作业 创建训练作业 训练作业调测 查询训练作业列表 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练日志 查询训练作业的运行指标 父主题: 训练管理
code_dir+boot_file取训练作业的代码目录和启动文件。 tasks Array of TaskResponse objects 异构训练作业的任务列表。 spec spec object 训练作业规格参数。 表5 JobMetadata 参数 参数类型 描述 id String 训练作业ID,
删除训练作业 功能介绍 删除训练作业。 此接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI DELETE /v1/{project_id}/training-jobs/{job_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型
创建单机多卡的分布式训练(DataParallel) 在深度学习领域,随着模型规模的不断扩大,训练时间也随之增加。为了提高训练效率,需要采用高效的并行计算方法。在单机环境下,如何充分利用多块GPU卡的计算能力成为一个关键问题。本章节将介绍基于PyTorch引擎的单机多卡数据并行训练方法,通过
获取训练配额 功能介绍 获取用户的训练配额。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-quotas
训练前卡死 作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。 解决方案1 检查代码,检查是否有参数中未传入“
训练中途卡死 问题现象1 检测每个节点日志是否有报错信息,某个节点报错但作业未退出导致整个训练作业卡死。 解决方案1 查看报错原因,解决报错。 问题现象2 作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因
味着在分布式训练中可以适当增大学习率以加快收敛速度。 为了帮助读者更好地理解和实践,我们以ResNet18在CIFAR10数据集上的图像分类任务为例,提供了完整的单机训练和分布式训练改造(DDP)代码示例。该代码支持多节点分布式训练,同时兼容CPU和GPU分布式训练环境。值得注意
训练作业性能降低 问题现象 使用ModelArts平台训练算法训练耗时增加。 原因分析 可能存在如下原因: 平台上的代码经过修改优化、训练参数有过变更。 训练的GPU硬件工作出现异常。 处理方法 请您对作业代码进行排查分析,确认是否对训练代码和参数进行过修改。 检查资源分配情况(