AI开发平台MODELARTS-常见错误原因和解决方法:问题六 Llama-Factory框架训练过程中训练至某一步卡死现象

时间:2025-05-19 09:57:49

问题六 Llama-Factory框架训练过程中训练至某一步卡死现象

【问题现象】

多节点训练任务,运行至某一个steps时训练任务卡死2H,导致任务超时

【问题根因】

ascend_trace线程抓取调用栈时对相关资源加锁,dataloader_worker进程在被fork拉起时继承了锁状态,导致dataloader_worker进程因无法获取到锁而卡死。

【解决措施】

训练作业前,先通过加载环境变量export ASCEND_COREDUMP_SIGNAL=none关闭ascend的堆栈跟踪。

export ASCEND_COREDUMP_SIGNAL=none
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590224.html
提示

您即将访问非华为云网站,请注意账号财产安全