云服务器内容精选

华为云首页用户手册

主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）

AI开发平台MODELARTS-常见错误原因和解决方法:问题七 Llama-Factory环境，运行DockerFile或install.sh中的setup.py失败

问题七 Llama-Factory环境，运行DockerFile或install.sh中的setup.py失败【问题现象】执行Llama-Factory代码目录下setup.py失败，报错：“SetuptoolsDeprecationWarning: License classifiers are deprecated.” 图3 setup.py报错提示【问题根因】 pip依赖包版本过低导致与其他依赖包冲突。【解决措施】修改添加pip install --upgrade pip命令至AscendFactory/install.sh文件，如图所示：重新执行DockerFile或install.sh。

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）
AI开发平台MODELARTS-常见错误原因和解决方法:问题六 Llama-Factory框架训练过程中训练至某一步卡死现象

问题六 Llama-Factory框架训练过程中训练至某一步卡死现象【问题现象】多节点训练任务，运行至某一个steps时训练任务卡死2H，导致任务超时【问题根因】 ascend_trace线程抓取调用栈时对相关资源加锁，dataloader_worker进程在被fork拉起时继承了锁状态，导致dataloader_worker进程因无法获取到锁而卡死。【解决措施】训练作业前，先通过加载环境变量export ASCEND_COREDUMP_SIGNAL=none关闭ascend的堆栈跟踪。 export ASCEND_COREDUMP_SIGNAL=none

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）
AI开发平台MODELARTS-常见错误原因和解决方法:问题八 MindSpeed-LLM蒸馏模型训练精度问题

问题八 MindSpeed-LLM蒸馏模型训练精度问题【问题根因】 MindSpeed-LLM框架中某些参数值为固定值，与蒸馏后模型配置不一致，导致训练结果精度问题。【解决措施】训练前修改代码包目录下scripts_modellink/{model}/3_training.sh文件参数值与蒸馏模型权重目录下config.json参数值保持一致，参数表格如下：表1 3_training.sh参数修改值蒸馏模型原模型 3_training.sh文件参数 DeepSeek-R1-Distill-Qwen-7B qwen2.5-7b --rotary-base 10000 DeepSeek-R1-Distill-Qwen-14B/32B qwen2.5-14b/32b --norm-epsilon 1e-5

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）
AI开发平台MODELARTS-常见错误原因和解决方法:问题二网卡名称错误

问题二网卡名称错误当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。比如，ifconfig看到当前机器IP对应的网卡名称为enp67s0f5，则可以设置环境变量指定该值。图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5 # 多机之间使用gloo通信时需要指定网口名称， export TP_SOCKET_IFNAME=enp67s0f5 # 多机之间使用TP通信时需要指定网口名称 export HCCL_SOCKET_IFNAME=enp67s0f5 # 多机之间使用HCCL通信时需要指定网口名称关于环境变量的解释可以参考：Distributed communication package - torch.distributed — PyTorch 2.3 documentation

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）
AI开发平台MODELARTS-常见错误原因和解决方法:问题四 DockerFile或install.sh安装三方依赖包失败

问题四 DockerFile或install.sh安装三方依赖包失败【问题现象】下载安装AscendFactory/dependences.yaml中三方依赖包：Llama-Factory、MindSpeed-LLM等失败。【问题根因】无法连接公网导致拉取git失败。【解决措施】配置代理或使用有公网权限的机器手动拉取AscendFactory/dependences.yaml中的三方依赖包，命名、版本与dependences.yaml中${save_name}、${version}值保持一致，并将其复制至AscendFactory/third-party目录下，重新DockerFile或执行install.sh命令。

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）
AI开发平台MODELARTS-常见错误原因和解决方法:问题五 Llama-Factory框架数据预处理过大数据集超时

问题五 Llama-Factory框架数据预处理过大数据集超时【问题根因】 Llama-Factory框架处理数据默认先处理0卡，再依次处理1~7卡，串行处理数据导致时间占用过大导致超时。【解决措施】方案A：修改LLamaFactory barrier策略，将0卡先处理，1~7卡再处理方案修改为0~7卡同步处理，训练前执行以下命令： export DISABLE_MAIN_PRO CES S_FIRST = True 方案B：默认处理策略不变，将训练作业运行超时时间修改为2小时，训练前执行以下命令： export ACL_DEVICE_SYNC_TIMEOUT=7200 方案B操作简单，但数据集过大时，有可能2个小时也会超时，可以继续修改延长超时时间。

AI开发平台MODELARTS 主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）

主流开源大模型适配AscendFactory PyTorch NPU训练指导（6.5.902）

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！