AI开发平台MODELARTS-常见错误原因和解决方法:问题八 MindSpeed-LLM蒸馏模型训练精度问题

时间:2025-05-19 09:57:49

问题八 MindSpeed-LLM蒸馏模型训练精度问题

【问题根因】

MindSpeed-LLM框架中某些参数值为固定值,与蒸馏后模型配置不一致,导致训练结果精度问题。

【解决措施】

训练前修改代码包目录下scripts_modellink/{model}/3_training.sh文件参数值与蒸馏模型权重目录下config.json参数值保持一致,参数表格如下:

表1 3_training.sh参数修改值

蒸馏模型

原模型

3_training.sh文件参数

DeepSeek-R1-Distill-Qwen-7B

qwen2.5-7b

--rotary-base 10000

DeepSeek-R1-Distill-Qwen-14B/32B

qwen2.5-14b/32b

--norm-epsilon 1e-5

support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590224.html
提示

您即将访问非华为云网站,请注意账号财产安全