AI开发平台MODELARTS-常见错误原因和解决方法:问题八 MindSpeed-LLM蒸馏模型训练精度问题
问题八 MindSpeed-LLM蒸馏模型训练精度问题
【问题根因】
MindSpeed-LLM框架中某些参数值为固定值,与蒸馏后模型配置不一致,导致训练结果精度问题。
【解决措施】
训练前修改代码包目录下scripts_modellink/{model}/3_training.sh文件参数值与蒸馏模型权重目录下config.json参数值保持一致,参数表格如下:
蒸馏模型 |
原模型 |
3_training.sh文件参数 |
---|---|---|
DeepSeek-R1-Distill-Qwen-7B |
qwen2.5-7b |
--rotary-base 10000 |
DeepSeek-R1-Distill-Qwen-14B/32B |
qwen2.5-14b/32b |
--norm-epsilon 1e-5 |