AI开发平台MODELARTS-断点续训练和增量训练:ModelArts中如何实现断点续训练和增量训练

时间:2024-05-23 15:15:11

ModelArts中如何实现断点续训练和增量训练

在ModelArts训练中实现断点续训练或增量训练,建议使用“训练输出”功能。

在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存checkpoint,“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的checkpoint文件下载到训练容器的本地目录。

图1 训练输出设置

断点续训练建议和训练容错检查(即自动重启)功能同时使用。在创建训练作业页面,开启“自动重启”开关。训练环境预检测失败、或者训练容器硬件检测故障、或者训练作业失败时会自动重新下发并运行训练作业。

support.huaweicloud.com/develop-modelarts/develop-modelarts-0023.html