AI开发平台MODELARTS-常见错误原因和解决方法:问题五 Llama-Factory框架数据预处理过大数据集超时

时间:2025-05-19 09:57:49

问题五 Llama-Factory框架数据预处理过大数据集超时

【问题根因】

Llama-Factory框架处理数据默认先处理0卡,再依次处理1~7卡,串行处理数据导致时间占用过大导致超时。

【解决措施】

  • 方案A:修改LLamaFactory barrier策略,将0卡先处理,1~7卡再处理方案修改为0~7卡同步处理,训练前执行以下命令:
    export DISABLE_MAIN_PRO CES S_FIRST = True
  • 方案B:默认处理策略不变,将训练作业运行超时时间修改为2小时,训练前执行以下命令:
    export ACL_DEVICE_SYNC_TIMEOUT=7200

    方案B操作简单,但数据集过大时,有可能2个小时也会超时,可以继续修改延长超时时间。

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590224.html
提示

您即将访问非华为云网站,请注意账号财产安全