检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
950808 转 1
预约咨询
工单提交
我有建议
未实名认证
已实名认证
ModelArts模型训练,俗称“建模”,指通过分析手段、方法和技巧对准备好的数据进行探索分析,从中发现因果关系、内部联系和业务规律,为商业目的提供决策参考。训练模型的结果通常是一个或多个机器学习或深度学习模型,模型可以应用到新的数据中,得到预测、评价等结果。
针对常见AI引擎,ModelArts提供训练模式选择,支持用户根据实际场景获取不同的诊断信息。在训练作业创建页面,支持普通模式、高性能模式和故障诊断模式,默认设置为普通模式。
主要介绍基于Pytorch引擎的单机多卡数据并行训练、多机多卡数据并行训练。同时,也提供了分布式训练的适配教程和分布式调测的代码示例,可在PyCharm/VSCode/JupyterLab等开发工具中调试分布式训练。
针对AI训练场景中大模型Checkpoint保存和加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能文件服务SFS Turbo的AI云存储解决方案。
ModelArts支持导入本地开发的算法,格式要求如下:
使用自动学习产生的模型只能在ModelArts上部署上线,无法下载至本地使用。
使用自定义算法或者订阅算法训练生成的模型,会存储至用户指定的OBS路径中,供用户下载。
支持。您可以使用以下三种方式实现图像分割任务的训练。
训练环境的当前目录以及代码目录在容器的位置一般通过环境变量${MA_JOB_DIR}读取,${MA_JOB_DIR}变量对应的实际值是/home/ma-user/modelarts/user-job-dir。
问题分析
创建训练作业选择的代码目录有大小和文件个数限制。
解决方法
将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。
ModelArts训练作业的程序运行在容器中,容器挂载的目录地址是唯一的,只有运行时的容器能访问到。因此训练作业的“/cache”是安全的。
在ModelArts管理控制台,选择“训练管理>训练作业”,进入训练作业列表页面。在训练作业列表中,单击目标作业名称,查看该作业的详情。您可以在“资源占用情况”页签查看到如下指标信息。
更快的普惠AI平台