华为云用户手册

AI开发平台MODELARTS-查看日志和性能:查看性能

查看性能训练性能主要通过训练日志中的2个指标查看，吞吐量和loss收敛情况。吞吐量（tokens/s/p）：可通过修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl计算性能。取中间过程多steps平均值吞吐计算公式为： delta_tokens = end_total_tokens-start_ total_tokens delta_time = end_elapsed_time - start_elapsed_time 吞吐值(tps) = delta_tokens / delta_time / 训练卡数如图所示： loss收敛情况：日志里存在lm loss参数，lm loss参数随着训练迭代周期持续性减小，并逐渐趋于稳定平缓。loss收敛图存放路径对应表1表格中output_dir参数值路径下的training_loss.png中也可以使用可视化工具TrainingLogParser查看loss收敛情况，将trainer_log.jsonl文件长传至可视化工具页面，如图2所示。单节点训练：训练过程中的loss直接打印在窗口上。多节点训练：训练过程中的loss打印在第一个节点上。图2 Loss收敛情况（示意图） ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:Step2 获取推理镜像

Step2 获取推理镜像建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。 containerd 容器引擎有命名空间的概念。Kubernetes 下使用的 containerd 默认命名空间是 k8s.io。所以在导入镜像时需要指定命令空间为 k8s.io，否则使用 crictl images 无法查询到。以下命令可选其一进行镜像拉取：使用 containerd 自带的工具 ctr 进行镜像拉取。 ctr -n k8s.io images pull {image_url} 使用 nerdctl 工具进行镜像拉取。 nerdctl --namespace k8s.io pull {image_url} 注意：集群有多个节点，要确保每个节点都拥有镜像。镜像获取完成后可通过如下其中一个命令进行查看： # ctr 工具查看 ctr -n k8s.io image list # 或 crictl image # nerdctl 工具查看 nerdctl --namespace k8s.io image list

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:镜像版本

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b cann_8.0.rc3

AI开发平台MODELARTS
AI开发平台MODELARTS-Eagle投机小模型训练:步骤五：训练生成权重转换成可以支持vLLM推理的格式

步骤五：训练生成权重转换成可以支持vLLM推理的格式将训练完成后的权重文件（.bin文件或. safetensors文件），移动到下载好的开源权重目录下（即步骤4中，config文件所在目录）。然后在llm_tools/spec_decode/EAGLE文件夹，执行 python convert_eagle_ckpt_to_vllm_compatible.py --base-path 大模型权重地址 --draft-path 小模型权重地址 --base-weight-name 大模型包含lm_head的权重文件名 --draft-weight-name 小模型权重文件名 --base-path：为大模型权重地址，例如 ./llama2-7b-chat --draft-path：小模型权重地址，即步骤四中config文件所在目录，例如 ./eagle_llama2-7b-chat --base-weight-name：为大模型包含lm_head的权重文件名，可以在base-path目录下的 model.safetensors.index.json 文件获取，例如llama2-7b-chat的权重名为pytorch_model-00001-of-00002.bin 图3 权重文件名 --draft-weight-name 为小模型权重文件名，即刚才移动的.bin文件或者.safetensors文件。

AI开发平台MODELARTS
AI开发平台MODELARTS-Eagle投机小模型训练:步骤二：非sharegpt格式数据集转换（可选）

步骤二：非sharegpt格式数据集转换（可选）如果数据集json文件不是sharegpt格式，而是常见的如下格式，则需要执行convert_to_sharegpt.py 文件将数据集转换为share gpt格式。 { "prefix": "AAA" "input": "BBB", "output": "CCC" } 执行convert_to_sharegpt.py 文件。 python convert_to_sharegpt.py \ --input_file_path data_test.json \ --out_file_name ./data_for_sharegpt.json \ --prefix_name instruction \ --input_name input \ --output_name output \ --code_type utf-8 其中： input_file_path：预训练json文件地址。 out_file_name：输出的sharegpt格式文件地址。 prefix_name：预训练json文件的前缀字段名称，例如：您是一个xxx专家，您需要回答下面问题。prefix_name可设置为None，此时预训练数据集只有input和output两段输入。 input_name：预训练json文件的指令输入字段名称，例如：请问苹果是什么颜色。 output_name output：预训练json文件的output字段名称，例如：苹果是红色的。 code_type：预训练json文件编码，默认utf-8。当转换为sharegpt格式时，prefix和input会拼接成一段文字，作为human字段，提出问题，而output字段会作为gpt字段，做出回答。

AI开发平台MODELARTS
AI开发平台MODELARTS-Eagle投机小模型训练:步骤四：执行训练

步骤四：执行训练安装完成后，执行： accelerate launch -m --mixed_precision=bf16 eagle.train.main \ --tmpdir [path of data] \ --cpdir [path of checkpoints] \ --configpath [path of config file] \ --basepath [path of base_model] --bs [batch size] tmpdir：即为步骤三中的outdir，训练data地址 cpdir：为训练生成权重的地址 configpath：为模型config文件的地址 basepath：为大模型权重地址 bs：为batch大小其中，要获取模型config文件，首先到https://github.com/SafeAILab/EAGLE/页找到对应eagle模型地址。图1 EAGLE Weights 以llama2-chat-7B为例，单击进入后，如下图所示config文件，即为对应模型的eagle config文件。图2 eagle config文件

AI开发平台MODELARTS
AI开发平台MODELARTS-附录：大模型推理常见问题:问题2：在推理预测过程中遇到ValueError:User-specified max_model_len is greater than the drived max_model_len

问题2：在推理预测过程中遇到ValueError:User-specified max_model_len is greater than the drived max_model_len 解决方法：修改config.json文件中的"seq_length"的值，"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下，例如：/data/nfs/benchmark/tokenizer/chatglm3-6b/config.json

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题3：使用llama3.1系列模型进行推理时报错

问题3：使用llama3.1系列模型进行推理时报错使用llama3.1系模型进行推理时报错：ValueError: 'rope_scaling' must be a dictionary with two fields, 'type' and 'factor', got {'factor': 8.0, 'low_freq_factor': 1.0, 'high_freq_factor': 4.0, 'original_max_position_embeddings': 8192, 'rope_type': 'llama3'}

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题8：使用benchmark-tools对GLM系列模型进行性能测试报错

问题8：使用benchmark-tools对GLM系列模型进行性能测试报错使用benchmark-tools对GLM系列模型进行性能测试报错TypeError: _pad() got an unexpected keyword argument 'padding_side' 解决方法： 1、下载最新的tokenization_chatglm.py，替换原来权重里的tokenization_chatglm.py。 https://huggingface.co/THUDM/glm-4-9b-chat/blob/main/tokenization_chatglm.py https://huggingface.co/THUDM/chatglm3-6b/blob/main/tokenization_chatglm.py 或者2、修改tokenization_chatglm.py，在266行增加padding_side: str = "left"，如图1所示。图1 tokenization_chatglm.py

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题9：使用benchmark-tools访问推理服务返回报错

问题9：使用benchmark-tools访问推理服务返回报错使用benchmark-tools访问推理服务时，输入输出的token和大于max_model_len，服务端返回报错Response payload is not completed，见图2。再次设置输入输出的token和小于max_model_len访问推理服务，服务端响应200，见图3。客户端仍返回报错Response payload is not completed，见图4。图2 服务端返回报错Response payload is not completed 图3 服务端响应200 图4 仍返回报错Response payload is not completed 解决方法：安装brotlipy后返回正确报错 pip install brotlipy

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题5：使用AWQ转换llama3.1系列模型权重出现报错

问题5：使用AWQ转换llama3.1系列模型权重出现报错使用AWQ转换llama3.1系列模型权重出现报错：ValueError: 'rope_scaling' must be a dictionary with two fields, 'type' and 'factor' 解决方法：该问题通过将transformers升级到4.44.0，修改对应transformers中的transformers/models/llama/modeling_llama.py，在class LlamaRotaryEmbedding中的forward函数中增加self.inv_freq = self.inv_freq.npu()

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题12：使用SmoothQuant做权重转换时，scale显示为nan或推理时精度异常

问题12：使用SmoothQuant做权重转换时，scale显示为nan或推理时精度异常图7 权重转换scale显示为nan 涉及模型：qwen2-1.5b, qwen2-7b 解决方法：修改AscendCloud/AscendCloud-LLM/llm_tools/AutoSmoothQuant/autosmoothquant/utils/utils.py中的build_model_and_tokenizer函数，将torch_dtype类型从torch.float16改成torch.bfloat16 kwargs = {"torch_dtype": torch.bfloat16, "device_map": "auto"}

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题4：使用SmoothQuant进行W8A8进行模型量化时报错

问题4：使用SmoothQuant进行W8A8进行模型量化时报错使用SmoothQuant进行W8A8进行模型量化时报错：AttributeError: type object 'LlamaAttention' has no attribute '_init_rope' 解决方法：降低transformers版本到4.42 pip install transformers==4.42 --upgrade

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-附录：大模型推理常见问题:问题13：使用SmoothQuant做权重转换时报错

问题13：使用SmoothQuant做权重转换时报错图8 权重转换报错涉及模型：qwen2-1.5b, qwen2-0.5b 解决方法：修改AscendCloud/AscendCloud-LLM/llm_tools/AutoSmoothQuant/autosmoothquant/examples/smoothquant_model.py中的main函数，保存模型时将safe_serialization指定为False int8_model.save_pretrained(output_path,safe_serialization=False)

AI开发平台MODELARTS 主流开源大模型基于Standard适配PyTorch NPU推理指导（6.3.911）
AI开发平台MODELARTS-训练启动脚本说明和参数配置

训练启动脚本说明和参数配置本代码包中集成了不同模型的训练脚本，并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。若未完成，则执行脚本，自动完成数据预处理和权重转换的过程。若用户进行自定义数据集预处理以及权重转换，可通过编辑 1_preprocess_data.sh 、2_convert_mg_hf.sh 中的具体python指令运行。本代码中有许多环境变量的设置，在下面的指导步骤中，会展开进行详细的解释。若用户希望自定义参数进行训练，可直接编辑对应模型的训练脚本，可编辑参数以及详细介绍如下。以 llama2-70b 预训练为例：表1 模型训练脚本参数参数示例值参数说明 ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/llm_train/AscendSpeed/training_data/pretrain/alpaca.parquet 必须修改。训练时指定的输入数据路径。请根据实际规划修改。 ORIGINAL_HF_WEIGHT /home/ma-user/ws/llm_train/AscendSpeed/model/llama2-70B 必须修改。加载tokenizer与Hugging Face权重时，对应的存放地址。请根据实际规划修改。 MODEL_NAME llama2-70b 对应模型名称。 RUN_TYPE pretrain 表示训练类型。可选择值：[pretrain, sft, lora]。 DATA_TYPE [GeneralPretrainHandler, GeneralInstructionHandler] 示例值需要根据数据集的不同，选择其一。 GeneralPretrainHandler：使用预训练的alpaca数据集。 GeneralInstructionHandler：使用微调的alpaca数据集。 MBS 1 表示流水线并行中一个micro batch所处理的样本量。在流水线并行中，为了减少气泡时间，会将一个step的数据切分成多个micro batch。该值与TP和PP以及模型大小相关，可根据实际情况进行调整。 GBS 128 表示训练中所有机器一个step所处理的样本量。影响每一次训练迭代的时长。 TP 8 表示张量并行。 PP 8 表示流水线并行。一般此值与训练节点数相等，与权重转换时设置的值相等。 LR 2.5e-5 学习率设置。 MIN_LR 2.5e-6 最小学习率设置。 SEQ_LEN 4096 要处理的最大序列长度。 MAX_PE 8192 设置模型能够处理的最大序列长度。 SN 1200 必须修改。指定的输入数据集中数据的总数量。更换数据集时，需要修改。 EPOCH 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。 TRAIN_ITERS SN / GBS * EPOCH 非必填。表示训练step迭代次数，根据实际需要修改。 SEED 1234 随机种子数。每次数据采样时，保持一致。不同模型推荐的训练参数和计算规格要求如表2所示。规格与节点数中的1*节点 & 4*Ascend表示单机4卡，以此类推。表2 不同模型推荐的参数与NPU卡数设置序号支持模型支持模型参数量文本序列长度并行参数设置规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 2 llama2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 3 llama2-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 4 llama3 llama3-8b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 5 llama3-70b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 6 Qwen qwen-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 7 qwen-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 8 qwen-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 9 Qwen1.5 qwen1.5-7b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 10 qwen1.5-14b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 11 qwen1.5-32b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend 12 qwen1.5-72b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=4 4*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=8 8*节点 & 8*Ascend 13 Yi yi-6b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 14 yi-34b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=2 2*节点 & 8*Ascend 15 ChatGLMv3 glm3-6b SEQ_LEN=4096 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=4 PP(pipeline model parallel size)=1 1*节点 & 4*Ascend 16 Baichuan2 baichuan2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend SEQ_LEN=8192 TP(tensor model parallel size)=8 PP(pipeline model parallel size)=1 1*节点 & 8*Ascend 父主题：训练脚本说明

AI开发平台MODELARTS
AI开发平台MODELARTS-镜像方案说明:基础镜像地址

基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2312-aarch64-snt9b-20240824153350-cebb080 CANN：cann_8.0.rc3 PyTorch：2.1.0

AI开发平台MODELARTS
AI开发平台MODELARTS-镜像方案说明:基础镜像的使用

基础镜像的使用用户通过E CS 获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像、ECS中构建新镜像的方式（二选一）来部署训练环境。方案的区别如下：直接使用基础镜像方案：用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行install.sh文件，来安装依赖以及下载完整代码。 ECS中构建新镜像方案：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。如果用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。训练作业的资源池以及ECS都需要连通公网，否则会安装和下载失败。资源池打通公网配置请参见配置Standard专属资源池访问公网，ECS打通公网配置请参见ECS绑定弹性公网IP。

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:ModelLink微调数据集预处理参数说明

ModelLink微调数据集预处理参数说明微调包含SFT和LoRA微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data） --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。 GeneralInstructionHandler：用于sft、lora微调时的数据预处理过程中，会对数据集full_prompt中的user_prompt进行mask操作。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:ModelLink预训练数据集预处理参数说明

ModelLink预训练数据集预处理参数说明预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data）。 --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的文本数据集，用于预训练。 GeneralPretrainHandler：默认。用于预训练时的数据预处理过程中，将数据集根据key值进行简单的过滤。 --seq-length：要处理的最大seq length。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:LLama-Factory微调数据集预处理参数说明

LLama-Factory微调数据集预处理参数说明 ModelLink开源仓已经支持LLama-Factory格式的数据预处理，目前仅支持sft全参微调，lora微调。数据集预处理脚本参数说明如下： --input：原始数据集的存放路径。 --output-prefix：处理后的数据集保存路径+数据集名称（例如：moss-003-sft-data） --tokenizer-type：tokenizer的类型，可选项有['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为PretrainedFromHF。 --tokenizer-name-or-path：tokenizer的存放路径，与HF权重存放在一个文件夹下。 --handler-name：生成数据集的用途，这里是生成的指令数据集，用于微调。可选项有['AlpacaStyleInstructionHandler SharegptStyleInstructionHandler']。 AlpacaStyleInstructionHandler ：用于处理Alpaca风格的数据集。 SharegptStyleInstructionHandler：用于处理sharegpt风格的数据集。 --workers：设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval：是一个用于设置日志输出间隔的参数，表示输出日志的频率。在训练大规模模型时，可以通过设置这个参数来控制日志的输出。 --prompt-type：需要指定使用模型的template。已支持的系列模型可查看：文档更新内容。输出数据预处理结果路径：训练完成后，以 llama2-13b 为例，输出数据路径为：/home/ma-user/ws/llm_train/processed_for_input/llama2-13b/

AI开发平台MODELARTS
AI开发平台MODELARTS-训练的数据集预处理说明:用户自定义执行数据处理脚本修改参数说明

用户自定义执行数据处理脚本修改参数说明如果用户要自定义数据处理脚本并且单独执行，同样以 llama2 为例。方法一：用户可打开scripts/llama2/1_preprocess_data.sh脚本，将执行的python命令复制下来，修改环境变量的值，进入到 /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 路径中，再执行python命令。方法二：用户直接编辑scripts/llama2/1_preprocess_data.sh脚本，自定义环境变量的值，并在脚本的首行中添加 cd /home/ma-user/ws/llm_train/AscendSpeed/ModelLink 命令，随后运行该脚本。其中环境变量详细介绍如下：表1 数据预处理中的环境变量环境变量示例参数说明 RUN_TYPE pretrain、sft、lora 数据预处理区分：预训练场景下数据预处理，默认参数：pretrain 微调场景下数据预处理，默认：sft / lora ORIGINAL_TRAIN_DATA_PATH /home/ma-user/ws/training_data/${用户自定义的数据集路径和名称} 原始数据集的存放路径。 TOKENIZER_PATH /home/ma-user/ws/tokenizers/llama2-13b tokenizer的存放路径，与HF权重存放在一个文件夹下。请根据实际规划修改。 PRO CES SED_DATA_PREFIX /home/ma-user/ws/llm_train/processed_for_input/llama2-13b/data 处理后的数据集保存路径+数据集前缀 TOKENIZER_TYPE PretrainedFromHF 可选项有：['BertWordPieceLowerCase'，'BertWordPieceCase'，'GPT2BPETokenizer'，'PretrainedFromHF']，一般为 PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据，并打印log。

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:训练支持的模型列表

训练支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表及权重文件地址支持模型支持模型参数量权重文件获取地址 Llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-chat-hf Llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct Llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct/tree/main llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct/tree/main Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat yi-34b https://huggingface.co/01-ai/Yi-34B-Chat Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct Qwen2_VL（支持多模态数据集） qwen2_vl-2b https://huggingface.co/Qwen/Qwen2-VL-2B-Instruct/tree/main qwen2_vl-7b https://huggingface.co/Qwen/Qwen2-VL-7B-Instruct/tree/main qwen2_vl-72b https://huggingface.co/Qwen/Qwen2-VL-72B-Instruct Falcon2 falcon-11B https://huggingface.co/tiiuae/falcon-11B GLM-4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-场景介绍:方案概览

方案概览本文档利用训练框架LlamaFactory+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Lite Server上的不同训练阶段方案，包括指令监督微调、DPO偏好训练、RM奖励模型训练、PPO强化训练方案。 DPO(Direct Preference Optimization)：直接偏好优化方法，通过直接优化语言模型来实现对大模型输出的精确把控，不用进行强化学习，也可以准确判断和学习到使用者的偏好，最后，DPO算法还可以与其他优化算法相结合，进一步提高深度学习模型的性能。 RM奖励模型(Reward Model)：是强化学习过程中一个关键的组成部分。它的主要任务是根据给定的输入和反馈来预测奖励值，从而指导学习算法的方向，帮助强化学习算法更有效地优化策略 PPO强化学习(Proximal Policy Optimization)：是一种在强化学习中广泛使用的策略优化算法。它属于策略梯度方法的一种，旨在通过限制新策略和旧策略之间的差异来稳定训练过程。PPO通过引入一个称为“近端策略优化”的技巧来避免过大的策略更新，从而减少了训练过程中的不稳定性和样本复杂性。指令监督式微调(Self-training Fine-tuning)：是一种利用有标签数据进行模型训练的方法。它基于一个预先训练好的模型，通过调整模型的参数，使其能够更好地拟合特定任务的数据分布。与从头开始训练模型相比，监督式微调能够充分利用预训练模型的知识和特征表示，从而加速训练过程并提高模型的性能。训练阶段下有不同的训练策略，分为全参数训练、部分参数训练、LoRA、QLoRA，本文档主要支持全参数（Full）和LoRA、LoRA+。 LoRA(Low-Rank Adaptation)：这种策略主要针对如何在保持模型大部分参数固定的同时，通过引入少量可训练参数来调整模型以适应特定任务。 LoRA+(Efficient Low Rank Adaptation of Large Models)：延续了LoRA的精髓进一步提升了在复杂任务上对大模型进行微调的效率和性能，核心在于其独特的学习率比率（loraplus_lr_ratio）机制，适用于那些需要精确控制模型微调过程的场景，当前该策略仅支持qwen1.5-7B指令监督式微调。全参训练（Full）：这种策略主要对整个模型进行微调。这意味着在任务过程中，除了输出层外，模型的所有参数都将被调整以适应新的任务。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-准备镜像:基础镜像地址

基础镜像地址本教程中用到的训练的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址配套版本训练基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240727152329-0f2c29a CANN：cann_8.0.rc2 PyTorch：2.1.0

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:基础镜像的使用

基础镜像的使用用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像（二选一）、ECS中构建新镜像（二选一）的方式（二选一）来部署训练环境。方案的区别如下：使用基础镜像（二选一）：用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配，因此每次创建训练作业时，训练作业的启动命令中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。 ECS中构建新镜像（二选一）：在ECS中，通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatron-LM、MindSpeed、ModelLink源码，并将以上源码打包至镜像环境中。若用户希望修改源码，则需要使用新镜像创建容器，在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。注意：训练作业的资源池以及ECS都需要联通外网，否则会安装和下载失败。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备镜像:使用基础镜像（二选一）

使用基础镜像（二选一）通过ECS获取和上传基础镜像将镜像上传至SWR服务后，可创建训练作业，在“选择镜像”中选择SWR中基础镜像。由于基础镜像内需要安装固定版本依赖包，若直接使用基础镜像进行训练，每次创建训练作业时，训练作业的图4中都需要执行 install.sh 文件，来安装依赖以及下载完整代码。命令如下： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 创建训练作业后，会在节点机器中使用基础镜像创建docker容器，并在容器内进行分布式训练。而 install.sh 则会在容器内安装依赖以及下载完整的代码。当训练作业结束后，对应的容器也会同步销毁。图4 训练作业启动命令

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:模型软件包结构说明

模型软件包结构说明本教程需要使用到的AscendCloud-6.3.910中的AscendCloud-LLM-xxx.zip软件包和算子包AscendCloud-OPP，AscendCloud-LLM关键文件介绍如下。 |——AscendCloud-LLM |──llm_train # 模型训练代码包 |──AscendSpeed # 基于AscendSpeed的训练代码 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能补丁包 |──scripts/ # 训练需要的启动脚本 |──llama2 # llama2系列模型执行脚本的文件夹 |──llama3 # llama3系列模型执行脚本的文件夹 |──qwen # Qwen系列模型执行脚本的文件夹 |──qwen1.5 # Qwen1.5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |——src/ # 启动命令行封装脚本，在install.sh里面自动构建 |──llm_inference # 推理代码包 |──llm_tools # 推理工具

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:上传代码和权重文件到工作环境

上传代码和权重文件到工作环境使用root用户以SSH的方式登录Server。将AscendCloud代码包AscendCloud-xxx-xxx.zip上传到${workdir}目录下并解压缩，如：/home/ma-user/ws目录下，以下都以/home/ma-user/ws为例，请根据实际修改。 unzip AscendCloud-*.zip 上传tokenizers文件到工作目录中的/home/ma-user/ws/tokenizers/Llama2-{MODEL_TYPE}目录，如Llama2-70B。具体步骤如下：进入到${workdir}目录下，如：/home/ma-user/ws，创建tokenizers文件目录将权重和词表文件放置此处，以Llama2-70B为例。 cd /home/ma-user/ws mkdir -p tokenizers/Llama2-70B 多机情况下，只有在rank_0节点进行数据预处理，转换权重等工作，所以原始数据集和原始权重，包括保存结果路径，都应该在共享目录下。

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:工作目录介绍

工作目录介绍详细的工作目录参考如下，建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。 ${workdir}（例如/home/ma-user/ws ） |──llm_train #解压代码包后自动生成的代码目录，无需用户创建 |── AscendSpeed # 代码目录 |──ascendcloud_patch/ # 针对昇腾云平台适配的功能代码包 |──scripts/ # 各模型训练需要的启动脚本，训练脚本以分类的方式集中在scripts文件夹中。 # 自动生成数据目录结构 |── processed_for_input #目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── data # 预处理后数据 |── pretrain # 预训练加载的数据 |── finetune # 微调加载的数据 |──converted_weights # HuggingFace格式转换megatron格式后权重文件 |── saved_dir_for_output # 训练输出保存权重，目录结构会自动生成，无需用户创建 |── ${model_name} # 模型名称 |── logs # 训练过程中日志（loss、吞吐性能） |—— saved_models |── lora # lora微调输出权重 |── sft # 增量训练输出权重 |── pretrain # 预训练输出权重 |── tokenizers #tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── models #原始权重与tokenizer目录，需要用户手动创建，后续操作步骤中会提示 |── Llama2-70B |── training_data #原始数据目录，需要用户手动创建，后续操作步骤中会提示 |── train-00000-of-00001-a09b74b3ef9c3b56.parquet #原始数据文件 |── alpaca_gpt4_data.json #微调数据文件

AI开发平台MODELARTS
AI开发平台MODELARTS-准备代码:获取模型软件包

获取模型软件包本方案支持的模型对应的软件和依赖包获取地址如表1所示，模型列表、对应的开源权重获取地址如表2所示。表1 模型对应的软件包和依赖包获取地址代码包名称代码说明下载地址 AscendCloud-6.3.910-xxx.zip 说明：软件包名称中的xxx表示时间戳。包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.910 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。

AI开发平台MODELARTS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！