AI开发平台MODELARTS-ModelArts Standard环境:步骤四:开启训练故障自动重启功能

时间:2025-06-23 14:52:39

步骤四:开启训练故障自动重启功能

创建训练作业时,可开启自动重启功能。当环境问题导致训练作业异常时,系统将自动修复异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。

图5 开启故障重启

断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状态、调度器状态)。即便模型训练中断,也可以基于checkpoint继续训练。

当训练作业发生故障中断本次作业时,代码可自动从训练中断的位置接续训练,加载中断生成的checkpoint,中间不需要改动任何参数。MindSpeed-LLM可通过save-interval参数、Llama-Factory可通过save_steps参数,指定间隔多少step保存checkpoint。

  1. 如果要使用自动重启功能,资源规格必须选择八卡规格且超参配置有限制。
    • MindSpeed-LLM:train_auto_resume参数必须为true,默认为false。
    • Llama-Factory:overwrite_output_dir参数必须为false,默认为true。
  2. 训练作业中的训练故障自动恢复功能包括:
    • 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查
    • 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590513.html