AI开发平台MODELARTS-断点续训和故障快恢说明:不同点
时间:2025-05-09 11:46:39
不同点
- 断点续训:可指定加载训练过程中生成的权重,如MindSpeed-LLM:${user_converted_ckpt_path},Llama-Factory:${resume_from_checkpoint}参数
- 故障快恢:默认加载最后一次间隔生成权重,如MindSpeed-LLM中${output_dir}/saved_checkpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。
MindSpeed-LLM有以下几点需要注意:
- lora微调不支持断点续训
- 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。
|──${saved_checkpoints} |──iter_0000010 |──iter_0000020 |——latest_checkpointed_iteration.txt 示例,latest_checkpointed_iteration.txt文件内容:20
- 同时开启故障快恢和断点续训时需满足以下条件:
- 如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints(加载故障快恢路径) 必须为空,否则此参数无效断点续训失效。
- 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定train_auto_resume =1和 ${user_converted_ckpt_path}训练过程的权重保存路径,加载路径一致。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590221.html