云服务器内容精选
-
问题七 Llama-Factory环境,运行DockerFile或install.sh中的setup.py失败 【问题现象】 执行Llama-Factory代码目录下setup.py失败,报错:“SetuptoolsDeprecationWarning: License classifiers are deprecated.” 图3 setup.py报错提示 【问题根因】 pip依赖包版本过低导致与其他依赖包冲突。 【解决措施】 修改添加pip install --upgrade pip命令至AscendFactory/install.sh文件,如图所示: 重新执行DockerFile或install.sh。
-
问题六 Llama-Factory框架训练过程中训练至某一步卡死现象 【问题现象】 多节点训练任务,运行至某一个steps时训练任务卡死2H,导致任务超时 【问题根因】 ascend_trace线程抓取调用栈时对相关资源加锁,dataloader_worker进程在被fork拉起时继承了锁状态,导致dataloader_worker进程因无法获取到锁而卡死。 【解决措施】 训练作业前,先通过加载环境变量export ASCEND_COREDUMP_SIGNAL=none关闭ascend的堆栈跟踪。 export ASCEND_COREDUMP_SIGNAL=none
-
问题八 MindSpeed-LLM蒸馏模型训练精度问题 【问题根因】 MindSpeed-LLM框架中某些参数值为固定值,与蒸馏后模型配置不一致,导致训练结果精度问题。 【解决措施】 训练前修改代码包目录下scripts_modellink/{model}/3_training.sh文件参数值与蒸馏模型权重目录下config.json参数值保持一致,参数表格如下: 表1 3_training.sh参数修改值 蒸馏模型 原模型 3_training.sh文件参数 DeepSeek-R1-Distill-Qwen-7B qwen2.5-7b --rotary-base 10000 DeepSeek-R1-Distill-Qwen-14B/32B qwen2.5-14b/32b --norm-epsilon 1e-5
-
问题二 网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称, export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称 关于环境变量的解释可以参考:Distributed communication package - torch.distributed — PyTorch 2.3 documentation
-
问题四 DockerFile或install.sh安装三方依赖包失败 【问题现象】 下载安装AscendFactory/dependences.yaml中三方依赖包:Llama-Factory、MindSpeed-LLM等失败。 【问题根因】 无法连接公网导致拉取git失败。 【解决措施】 配置代理或使用有公网权限的机器手动拉取AscendFactory/dependences.yaml中的三方依赖包,命名、版本与dependences.yaml中${save_name}、${version}值保持一致,并将其复制至AscendFactory/third-party目录下,重新DockerFile或执行install.sh命令。
-
问题五 Llama-Factory框架数据预处理过大数据集超时 【问题根因】 Llama-Factory框架处理数据默认先处理0卡,再依次处理1~7卡,串行处理数据导致时间占用过大导致超时。 【解决措施】 方案A:修改LLamaFactory barrier策略,将0卡先处理,1~7卡再处理方案修改为0~7卡同步处理,训练前执行以下命令: export DISABLE_MAIN_PRO CES S_FIRST = True 方案B:默认处理策略不变,将训练作业运行超时时间修改为2小时,训练前执行以下命令: export ACL_DEVICE_SYNC_TIMEOUT=7200 方案B操作简单,但数据集过大时,有可能2个小时也会超时,可以继续修改延长超时时间。