AI开发平台MODELARTS-断点续训和故障快恢说明:不同点

时间:2025-05-09 11:46:39

不同点

  • 断点续训:可指定加载训练过程中生成的权重,如MindSpeed-LLM:${user_converted_ckpt_path},Llama-Factory:${resume_from_checkpoint}参数
  • 故障快恢:默认加载最后一次间隔生成权重,如MindSpeed-LLM中${output_dir}/saved_checkpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。

MindSpeed-LLM有以下几点需要注意:

  1. lora微调不支持断点续训
  2. 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。
    |──${saved_checkpoints}
       |──iter_0000010   
       |──iter_0000020            
       |——latest_checkpointed_iteration.txt
    示例,latest_checkpointed_iteration.txt文件内容:20
  3. 同时开启故障快恢和断点续训时需满足以下条件:
    • 如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints(加载故障快恢路径) 必须为空,否则此参数无效断点续训失效。
    • 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定train_auto_resume =1和 ${user_converted_ckpt_path}训练过程的权重保存路径,加载路径一致。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590221.html