AI开发平台MODELARTS-常见错误原因和解决方法:问题六 Llama-Factory框架训练过程中训练至某一步卡死现象
问题六 Llama-Factory框架训练过程中训练至某一步卡死现象
【问题现象】
多节点训练任务,运行至某一个steps时训练任务卡死2H,导致任务超时
【问题根因】
ascend_trace线程抓取调用栈时对相关资源加锁,dataloader_worker进程在被fork拉起时继承了锁状态,导致dataloader_worker进程因无法获取到锁而卡死。
【解决措施】
训练作业前,先通过加载环境变量export ASCEND_COREDUMP_SIGNAL=none关闭ascend的堆栈跟踪。
export ASCEND_COREDUMP_SIGNAL=none