检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
开发用于预置框架训练的代码 在使用ModelArts Standard平台进行算法开发时,开发者需要利用预置框架来构建和训练模型。然而,预置框架虽然提供了基础功能,但可能无法完全满足特定的业务需求,需要进行定制化开发。为了确保预置框架能够与具体的业务需求完美结合,开发者需要在使用预置框架创建算法之前
开发用于自定义镜像训练的代码 在使用 ModelArts Standard 进行模型训练时,平台提供了多种预置框架和算法,能够满足大部分用户的需求。然而,当预置框架和算法确实无法满足需求时,ModelArts Standard 提供了自定义镜像训练的功能,为用户提供了一个灵活的解决方案
在ModelArts Standard上运行多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GP、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看。
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。 登录AOM控制台查看监控指标