AI开发平台MODELARTS-常见错误原因和解决方法:问题五 Llama-Factory框架数据预处理过大数据集超时
时间:2025-05-19 09:57:49
问题五 Llama-Factory框架数据预处理过大数据集超时
【问题根因】
Llama-Factory框架处理数据默认先处理0卡,再依次处理1~7卡,串行处理数据导致时间占用过大导致超时。
【解决措施】
- 方案A:修改LLamaFactory barrier策略,将0卡先处理,1~7卡再处理方案修改为0~7卡同步处理,训练前执行以下命令:
export DISABLE_MAIN_PRO CES S_FIRST = True
- 方案B:默认处理策略不变,将训练作业运行超时时间修改为2小时,训练前执行以下命令:
export ACL_DEVICE_SYNC_TIMEOUT=7200
方案B操作简单,但数据集过大时,有可能2个小时也会超时,可以继续修改延长超时时间。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590224.html