华为云用户手册

AI开发平台MODELARTS-预训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导（6.3.909）
AI开发平台MODELARTS-pipeline代码适配:模型推理适配

模型推理适配完成模型初始化后，您需要将onnx模型推理的代码等价替换为对应的mindir模型推理接口。以vae_encoder模型为例，在pipeline代码中查找vae_encoder推理调用的地方，然后修改为对应的MindSpore Lite版本的推理接口模型。使用MindSpore Lite Runtime接口替换onnx Runtime接口。 # pipeline_onnx_stable_diffusion_img2img_mslite.py … # onnx模型 # init_latents = self.vae_encoder(sample=image)[0] # ----------------修改点----------------- # mslite模型 init_latents = self.vae_encoder_ms(sample=image)[0] ... 替换内嵌模型。 # pipeline_onnx_stable_diffusion_img2img_mslite.py … # onnx模型 # image = np.concatenate([self.vae_decoder(latent_sample=latents[i : i + 1])[0] for i in range(latents.shape[0])]) # ----------------修改点----------------- # mslite模型 image = np.concatenate([self.vae_decoder_ms(latent_sample=latents[i : i + 1])[0] for i in range(latents.shape[0])]) ... 修改后的文件参考Gitee代码库中的如下两个文件： pipeline_onnx_stable_diffusion_img2img_mslite.py mslite_model_proxy.py

AI开发平台MODELARTS 应用迁移
AI开发平台MODELARTS-pipeline代码适配:修改代码依赖

修改代码依赖新建并进入/home_host/work/pipeline目录。 mkdir -p /home_host/work/pipeline cd /home_host/work/pipeline 将onnx pipeline依赖的图生图源码“pipeline_onnx_stable_diffusion_img2img.py”复制到该目录下，名称改为“pipeline_onnx_stable_diffusion_img2img_mslite.py”，以便与源文件名称区分。但是这样也会导致无法正确找到源码中相对路径下的依赖，需要将对于diffusers包内的相对路径修改为绝对路径的形式。图1 代码依赖修改前与修改后将推理代码“modelarts-ascend/examples/AIGC/stable_diffusion/onnx_pipeline.py”也复制一份到该目录，名称改为“mslite_pipeline.py”，迁移后的推理代码中的pipeline需要修改为从复制的onnx pipeline文件导入： # onnx_pipeline.py from pipeline_onnx_stable_diffusion_img2img_mslite import OnnxStableDiffusionImg2ImgPipeline

AI开发平台MODELARTS 应用迁移
AI开发平台MODELARTS-pipeline代码适配:运行pipeline代码

运行pipeline代码 pipeline代码如下： # mslite_pipeline.py import os import requests import torch import numpy as np from PIL import Image from io import BytesIO from pipeline_onnx_stable_diffusion_img2img_mslite import OnnxStableDiffusionImg2ImgPipeline def setup_seed(seed): torch.manual_seed(seed) torch.cuda.manual_seed_all(seed) np.random.seed(seed) torch.backends.cudnn.deterministic = True setup_seed(0) # 指定mindir和onnx模型路径。 mindir_dir = "/home_host/work/static_shape_convert/mindir_models" onnx_model_path = "/home_host/work/runwayml/onnx_models" os.environ['DEVICE_ID'] = "0" os.environ['TEXT_ENCODER_PATH'] = f"{mindir_dir}/text_encoder.mindir" os.environ['VAE_ENCODER_PATH'] = f"{mindir_dir}/vae_encoder.mindir" os.environ['UNET_PATH'] = f"{mindir_dir}/unet_graph.mindir" os.environ['VAE_DECODER_PATH'] = f"{mindir_dir}/vae_decoder.mindir" os.environ['SAFETY_CHECKER_PATH'] = f"{mindir_dir}/safety_checker.mindir" pipe = OnnxStableDiffusionImg2ImgPipeline.from_pretrained(onnx_model_path, torch_dtype=torch.float32).to("cpu") url = "https://raw.githubusercontent.com/CompVis/stable-diffusion/main/assets/stable-samples/img2img/sketch-mountains-input.jpg" response = requests.get(url, verify=False) init_image = Image.open(BytesIO(response.content)).convert("RGB") init_image = init_image.resize((512, 512)) prompt = "A fantasy landscape, trending on artstation" images = pipe(prompt=prompt, image=init_image, strength=0.75, guidance_scale=7.5).images images[0].save("fantasy_landscape_npu.png") 在运行pipeline时，默认的加速卡为0号卡，当机器有多人使用时，可能存在资源占用而无法正常运行的情况，可以通过环境变量指定加速卡ID，如指定5号卡进行执行。 # mslite_pipeline.py … os.environ['DEVICE_ID'] = "5" … 最后执行python脚本进行推理： # shell python mslite_pipeline.py 图2 执行推理脚本图3 MindSpore Lite pipeline输出的结果图片

AI开发平台MODELARTS 应用迁移
AI开发平台MODELARTS-LoRA微调训练:Step1 创建训练任务

Step1 创建训练任务创建训练作业，并自定义名称、描述等信息。选择自定义算法，启动方式自定义，以及选择上传的镜像。代码目录选择：OBS桶路径下的 llm_train/AscendSpeed 代码目录。图1 创建训练作业若镜像使用使用基础镜像（二选一）中的基础镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/install.sh; sh ./scripts/obs_pipeline.sh 若镜像使用E CS 中构建新镜像（二选一）构建的新镜像时，训练作业启动命令中输入： cd /home/ma-user/modelarts/user-job-dir/AscendSpeed; sh ./scripts/obs_pipeline.sh

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
AI开发平台MODELARTS-LoRA微调训练:Step2 配置数据输入和输出

Step2 配置数据输入和输出单击“增加训练输入”和“增加训练输出”，用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。在“输入”的输入框内设置变量：ORIGINAL_TRAIN_DATA_PATH、ORIGINAL_HF_WEIGHT。 ORIGINAL_TRAIN_DATA_PATH：训练时指定的输入数据集路径。 ORIGINAL_HF_WEIGHT：加载tokenizer与Hugging Face权重时，对应的存放地址。在“输出”的输入框内设置变量：OUTPUT_SAVE_DIR、HF_SAVE_DIR。 OUTPUT_SAVE_DIR：训练完成后指定的输出模型路径。 HF_SAVE_DIR：训练完成的权重文件自动转换为Hugging Face格式权重输出的路径（确保添加CONVERT_MG2HF环境变量并设置为True）。分别单击“输入”和“输出”的数据存储位置，如图所示，选择OBS桶中指定的目录。ORIGINAL_TRAIN_DATA_PATH中则直接选中数据集文件。 “输入”和“输出”中的获取方式全部选择为：环境变量。 “输出”中的预下载至本地目标选择：下载，此时输出路径中的数据则会下载至OBS中。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导（6.3.907）
AI开发平台MODELARTS-准备镜像:镜像地址

镜像地址本教程中用到的训练和推理的基础镜像地址和配套版本关系如下表所示，请提前了解。表1 基础容器镜像地址镜像用途镜像地址基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_3_ascend:pytorch_2.3.1-cann_8.0.rc3-py_3.10-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527 表2 模型镜像版本模型版本 CANN cann_8.0.rc3 驱动 23.0.6 PyTorch 2.3.1

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-准备镜像:步骤三启动容器镜像

步骤三启动容器镜像启动容器镜像前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。启动容器命令如下。 export work_dir="自定义挂载的工作目录" #容器内挂载的目录，例如/home/ma-user/ws export container_work_dir="自定义挂载到容器内的工作目录" export container_name="自定义容器名称" export image_name="镜像名称" docker run -itd \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --cpus 192 \ --memory 1000g \ --shm-size 200g \ --net=host \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ $image_name \ /bin/bash 参数说明： --name ${container_name} 容器名称，进入容器时会用到，此处可以自己定义一个容器名称，例如ascendspeed。 -v ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载/home/ma-user目录，此目录为ma-user用户家目录。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。 ${image_name} 为docker镜像的ID，在宿主机上可通过docker images查询得到。 --shm-size：表示共享内存，用于多进程间通信。由于需要转换较大内存的模型文件，因此大小要求200g及以上。通过容器名称进入容器中。启动容器时默认用户为ma-user用户。 docker exec -it ${container_name} bash 上传代码和数据到宿主机时使用的是root用户，此处需要执行如下命令统一文件属主为ma-user用户。 #统一文件属主为ma-user用户 sudo chown -R ma-user:ma-group ${container_work_dir} # ${container_work_dir}:/home/ma-user/ws 容器内挂载的目录 #例如：sudo chown -R ma-user:ma-group /home/ma-user/ws 使用ma-user用户安装依赖包。 #进入scripts目录换 cd /home/ma-user/ws/llm_train/AscendFactory #执行安装命令 sh install.sh modellink 在执行 install.sh 安装命令时，需要确认机器是否已连通网络。若无法连通网络或无法git clone下载代码，用户则需要找到已连通网络的机器（本章节以Linux系统机器为例）将下载完成的源码放置代码目录：AscendFactory/third-party下，命令如下 # 三方开源源码 git clone https://gitee.com/ascend/MindSpeed.git git clone https://github.com/huggingface/transformers.git git clone https://github.com/NVIDIA/Megatron-LM.git git clone https://gitee.com/ascend/ModelLink.git 或找有网络机器使用DockerFile构建镜像（可选）构造新镜像后使用新镜像。若要对ChatCLMv3、GLMv4系列模型进行训练时，需要修改 install.sh 脚本中的 transformers 的版本。由默认 transformers==4.46.1 修改为：transformers==4.44.2 为了避免因使用不同版本的 transformers 库进行训练和推理而导致冲突的问题，建议用户分别为训练和推理过程创建独立的容器环境。通过运行install.sh脚本，还会git clone下载Megatron-LM、MindSpeed、ModelLink源码（install.sh中会自动下载配套版本，如果手动下载源码还需修改版本）至llm_train/AscendFactory/third-party文件夹中。下载的源码文件结构如下： AscendFactory/third-party/ |──MindSpeed/ # MindSpeed昇腾大模型加速库 |──Megatron-LM/ # 适配昇腾的Megatron-LM训练框架 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意：该文件夹从Megatron-LM中复制得到 |——... |──transformers.patch |──llama-factory.patch

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-准备镜像:步骤一检查环境

步骤一检查环境 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS 准备工作
AI开发平台MODELARTS-moondream2基于Lite Server适配PyTorch NPU推理指导:Step4 下载原始模型包

Step4 下载原始模型包从HuggingFace官网下载moondream2模型包到本地，下载地址：https://huggingface.co/vikhyatk/moondream2/tree/2024-03-06。在宿主机上创建一个空目录/home/temp，将下载的模型包存放在宿主机/home/temp/moondream2目录下，修改目录权限后，复制到容器中。 mkdir /home/temp #创建一个空目录，将下载的模型包存放在宿主机/home/temp/moondream2目录下 chmod -R 777 moondream2 #修改moondream2目录权限 docker cp moondream2 moondream2:/home/ma-user/ #复制moondream2目录到容器中

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-moondream2基于Lite Server适配PyTorch NPU推理指导:Step1 准备环境

Step1 准备环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-moondream2基于Lite Server适配PyTorch NPU推理指导:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci1 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --shm-size 32g \ --net=bridge \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。通过容器名称进入容器中。 docker exec -it ${container_name} bash

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-训练场景和方案介绍:镜像版本

镜像版本本教程中用到基础镜像地址和配套版本关系如下表所示，请提前了解。表2 基础容器镜像地址配套软件版本镜像用途镜像地址配套获取方式 6.3.908版本基础镜像 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2312-aarch64-snt9b-20240824153350-cebb080 cann_8.0.rc3 pytorch_2.1.0 驱动23.0.6 从SWR拉取不同软件版本对应的基础镜像地址不同，请严格按照软件版本和镜像配套关系获取基础镜像。

AI开发平台MODELARTS SD1.5&SDXL Diffusers框架基于Lite Server适配PyTorch NPU训练指导（6.3.908）
AI开发平台MODELARTS-显存溢出错误:解决方法：

解决方法：通过npu-smi info查看是否有进程资源占用NPU，导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。可调整参数：TP张量并行（tensor-model-parallel-size）和PP流水线并行（pipeline-model-parallel-size），可以尝试增加 TP和PP的值，一般TP×PP≤NPU数量，并且要被整除，具体调整值可参照表2进行设置。

AI开发平台MODELARTS 常见错误原因和解决方法
AI开发平台MODELARTS-附录：训练常见问题:问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn

问题3：训练过程报错：ImportError: XXX not found in your environment: flash_attn 根因：昇腾环境暂时不支持flash_attn接口规避措施：修改dynamic_module_utils.py文件，将180-184行代码注释掉 vim /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/transformers/dynamic_module_utils.py

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
AI开发平台MODELARTS-附录：训练常见问题:问题1：在训练过程中遇到NPU out of memory

问题1：在训练过程中遇到NPU out of memory 解决方法：容器内执行以下命令，指定NPU内存分配策略的环境变量，开启动态内存分配，即在需要时动态分配内存，可以提高内存利用率，减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True 将yaml文件中的per_device_train_batch_size调小，重新训练如未解决则执行下一步。替换深度学习训练加速的工具或增加zero等级，可参考模型NPU卡数、梯度累积值取值表，如原使用Accelerator可替换为Deepspeed-ZeRO-1，Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推，重新训练如未解决则执行下一步。 - ZeRO-0 数据分布到不同的NPU - ZeRO-1 Optimizer States分布到不同的NPU - ZeRO-2 Optimizer States、Gradient分布到不同的NPU - ZeRO-3 Optimizer States、Gradient、Model Parameter分布到不同的NPU 增加卡数重新训练，未解决找相关人员定位。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
AI开发平台MODELARTS-附录：训练常见问题:问题4：Error waiting on exit barrier错误

问题4：Error waiting on exit barrier错误错误截图：报错原因：多线程退出各个节点间超时时间默认为300s，时间设置过短。解决措施：修改容器内torch/distributed/elastic/agent/server/api.py文件参数： vim /home/ma-user/anaconda3/envs/PyTorch-2.2.0/lib/python3.10/site-packages/torch/distributed/elastic/agent/server/api.py 修改def _exit_barrier(self)方法中的barrier_timeout参数，修改后如图1所示。 #修改前 barrier_timeout=self._exit_barrier_timeout #修改后 barrier_timeout=3000 图1 修改后的barrier_timeout参数

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
AI开发平台MODELARTS-附录：训练常见问题:问题5：训练完成使用vllm0.6.0框架推理失败：

问题5：训练完成使用vllm0.6.0框架推理失败：错误截图：报错原因：训练时transformers版本要求为4.45.0，训练完成后保存的tokenizer.json文件中的“merges”时保存的是拆开的列表不是字符串，导致推理异常解决措施，以下两种方法任选其一：更新transformes和tokenizers版本 GLM4-9B模型，容器内执行以下步骤： pip install transformers==4.43.2 其它模型，容器内执行以下步骤： pip install transformers==4.45.0 pip install tokenizers==0.20.0 使用原始hf权重的tokenizer.json覆盖保存的tokenizer.json即可，如llama3-8b_lora具体过程如下： # 进入模型tokenizer目录 cd /home/ma-user/ws/tokenizers/llama3-8b/ # 替换tokenizer.json文件 cp -f tokenizer.json /home/ma-user/ws/saves/rm/llama3-8b/lora/tokenizer.json

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.911）
AI开发平台MODELARTS-执行训练任务:步骤二修改训练yaml文件配置

步骤二修改训练yaml文件配置 LlamaFactroy配置文件为Yaml文件，启动训练前需修改Yaml配置文件，Yaml配置文件在代码目录下的{work_dir}/llm_train/LLaMAFactory/demo.yaml。修改详细步骤如下所示。选择训练阶段类型。指令监督微调,复制tune_yaml样例模板内容覆盖demo.yaml文件内容。 DPO偏好训练，复制dpo_yaml样例模板内容覆盖demo.yaml文件内容。 PPO强化训练，先进行RM奖励训练任务后，复制ppo_yaml样例模板内容覆盖demo.yaml内容。 RM奖励训练，复制rm_yaml样例模板内容覆盖demo.yaml文件内容。 1、DPO偏好训练、Reward奖励模型训练、PPO强化学习目前仅限制支持于llama3系列 2、PPO训练暂不支持 ZeRO-3存在通信问题，如llama3-70B使用ZeRO-3暂不支持训练策略类型全参full，配置如下： finetuning_type: full lora，如dpo仅支持此策略；配置如下： finetuning_type: lora lora_target: all lora+，目前仅支持qwen1.5-7B指令监督微调；配置如下： finetuning_type: lora lora_target: all loraplus_lr_ratio: 16.0 修改yaml文件(demo.yaml)的参数如表1所示。表1 修改重要参数参数示例值参数说明 model_name_or_path /home/ma-user/ws/tokenizers/Qwen2-72B 必须修改。加载tokenizer与Hugging Face权重时存放目录绝对或相对路径。请根据实际规划修改。 template qwen 必须修改。用于指定模板。如果设置为"qwen"，则使用Qwen模板进行训练，模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。 per_device_train_batch_size 1 指定每个设备的训练批次大小 gradient_accumulation_steps 8 可修改。指定梯度累积的步数，这可以增加批次大小而不增加内存消耗。可根据自己要求适配。取值可参考表1中梯度累积值列。 num_train_epochs 5 表示训练轮次，根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配 cutoff_len 4096 文本处理时的最大长度，此处为4096，用户可根据自己要求适配 dataset 指令监督微调/ppo：alpaca_en_demo rm/dpo:dpo_en_demo 多模态数据集(图像)：mllm_demo,identity 【可选】注册在dataset_info.json文件数据集名称。如选用定义数据请参考准备数据（可选）配置dataset_info.json文件，并将数据集存放于dataset_info.json同目录下。 dataset_dir /home/ma-user/ws/LLaMAFactory/LLaMA-Factory/data 【可选】dataset_info.json配置文件所属的绝对路径；如使用自定义数据集，yaml配置文件需添加此参数。是否选择加速深度学习训练框架Deepspeed，可参考表1选择不同的框架。是，选用ZeRO (Zero Redundancy Optimizer)优化器。 ZeRO-0，配置以下参数 deepspeed: examples/deepspeed/ds_z0_config.json ZeRO-1，配置以下参数，并复制ds_z1_config.json样例模板至工作目录/home/ma-user/LLaMAFactory/LLaMA-Factory/examples/deepspeed deepspeed: examples/deepspeed/ds_z1_config.json ZeRO-2，配置以下参数 deepspeed: examples/deepspeed/ds_z2_config.json ZeRO-2-Offload，配置以下参数 deepspeed: examples/deepspeed/ds_z2_offload_config.json ZeRO-3，配置以下参数 deepspeed: examples/deepspeed/ds_z3_config.json ZeRO-3-Offload，配置以下参数 deepspeed: examples/deepspeed/ds_z3_offload_config.json 否，默认选用Accelerate加速深度学习训练框架，注释掉deepspeed参数。是否开启NPU FlashAttention融合算子，具体约束详见NPU_Flash_Attn融合算子约束是，配置以下参数。 flash_attn: sdpa 否，配置以下参数关闭。 flash_attn: disabled 是否使用固定句长。是，配置以下参数 packing: true 否，默认使用动态句长，注释掉packing参数。选用数据精度格式bf16或fp16二者选一，两者区别可查看BF16和FP16说明。 bf16，配置以下参数。 bf16: true fp16，相比bf16还需配置loss scale参数，配置如下。设置fp16为True。 fp16: true 修改deepspeed的"loss_scale"参数，配置如下。修改ZeRO优化器配置文件，如ZeRO2命令如下。 cd /home/ma-user/LLaMAFactory/LLaMA-Factory/examples/deepspeed vim ds_z2_config.json 使用fp16容易出现数值溢出，因此配置loss scale建议配置4096或4096以上： "loss_scale": 4096, 是否使用自定义数据集。是，参考准备数据（可选），以指令监督微调数据集为例，配置以下参数：参考表1dataset_dir和dataset参数说明；如alpaca_gpt4_data.json数据集前缀则为alpaca_gpt4_data。 dataset: alpaca_gpt4_data dataset_dir: /home/ma-user/ws/llm_train/LLaMAFactory/LLaMA-Factory/data 否，使用代码包自带数据集，注释掉dataset_dir参数，配置参数如下。指令监督微调/PPO数据集 dataset: identity,alpaca_en_demo 多模态数据集，如qwen2_vl系列模型 dataset: mllm_demo,identity RM/DPO，目前仅支持llama3系列模型 dataset: dpo_en_demo 是否使用falcon-11b、qwen2_vl系列、glm4-9b模型。是，更新配置或命令。 falcon-11b，参考falcon-11B模型替换文件。 glm4-9b，参考glm4-9b模型修改文件内容。 qwen2_vl系列，数据集为多模态数据集，若前面步骤已配置请忽略。具体配置如下：数据集dataset配置： dataset: mllm_demo,identity 否，忽略此步骤，执行下一步。如需其他配置参数，可参考表1按照实际需求修改。

AI开发平台MODELARTS 主流开源大模型基于Lite Server适配LlamaFactory PyTorch NPU训练指导（6.3.910）
AI开发平台MODELARTS-ECS获取基础镜像:Step3 安装Docker

Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS 准备镜像
AI开发平台MODELARTS-准备权重:本地上传权重文件至SFS Turbo

本地上传权重文件至SFS Turbo 通过以下两种方式将下载到本地的模型文件上传至SFS Turbo中。方式一操作简单，但是数据传输速度比较慢，费时间。方式二操作相对方式一复杂一些，但是数据传输速度较快。方式一：将已下载的模型文件通过SSH直接上传至SFS Turbo中。具体步骤如下：进入到/mnt/sfs_turbo/目录下。创建目录“training_data”，将原始数据存放在/mnt/sfs_turbo/model目录下。通过拖拽文件的方式，上传文件。使用CloudShell或者其它SSH远程工具

AI开发平台MODELARTS
AI开发平台MODELARTS-场景介绍:操作流程

操作流程图1 操作原理图表2 操作任务流程说明阶段任务说明准备工作准备资源本教程案例是基于ModelArts Standard运行的，需要购买并开通ModelArts专属资源池和OBS桶。准备数据准备训练数据，可以用本案使用的数据集，也可以使用自己准备的数据集。准备权重准备所需的权重文件。准备代码准备AscendFactory训练代码。准备镜像准备训练模型适用的容器镜像。准备Notebook 本案例需要创建一个Notebook，以便能够通过它访问SFS Turbo服务。随后，通过Notebook将OBS中的数据上传至SFS Turbo，并对存储在SFS Turbo中的数据执行编辑操作。训练预训练/微调介绍如何进行预训练，包括训练数据处理、超参配置、创建训练任务及性能查看。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-场景介绍:支持的模型列表

支持的模型列表本方案支持以下模型的训练，如表1所示。表1 支持的模型列表序号支持模型支持模型参数量权重文件获取地址 1 llama2 llama2-7b https://huggingface.co/meta-llama/Llama-2-7b-chat-hf 2 llama2-13b https://huggingface.co/meta-llama/Llama-2-13b-chat-hf 3 llama2-70b https://huggingface.co/meta-llama/Llama-2-70b-hf https://huggingface.co/meta-llama/Llama-2-70b-chat-hf (推荐) 4 llama3 llama3-8b https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct 5 llama3-70b https://huggingface.co/meta-llama/Meta-Llama-3-70B-Instruct 6 Qwen qwen-7b https://huggingface.co/Qwen/Qwen-7B-Chat 7 qwen-14b https://huggingface.co/Qwen/Qwen-14B-Chat 8 qwen-72b https://huggingface.co/Qwen/Qwen-72B-Chat 9 Qwen1.5 qwen1.5-7b https://huggingface.co/Qwen/Qwen1.5-7B-Chat 10 qwen1.5-14b https://huggingface.co/Qwen/Qwen1.5-14B-Chat 11 qwen1.5-32b https://huggingface.co/Qwen/Qwen1.5-32B-Chat 12 qwen1.5-72b https://huggingface.co/Qwen/Qwen1.5-72B-Chat 13 Yi yi-6b https://huggingface.co/01-ai/Yi-6B-Chat 14 yi-34b https://huggingface.co/01-ai/Yi-34B-Chat 15 ChatGLMv3 glm3-6b https://huggingface.co/THUDM/chatglm3-6b 16 Baichuan2 baichuan2-13b https://huggingface.co/baichuan-inc/Baichuan2-13B-Chat 17 Qwen2 qwen2-0.5b https://huggingface.co/Qwen/Qwen2-0.5B-Instruct 18 qwen2-1.5b https://huggingface.co/Qwen/Qwen2-1.5B-Instruct 19 qwen2-7b https://huggingface.co/Qwen/Qwen2-7B-Instruct 20 qwen2-72b https://huggingface.co/Qwen/Qwen2-72B-Instruct 21 GLMv4 glm4-9b https://huggingface.co/THUDM/glm-4-9b-chat 说明： glm4-9b模型必须使用版本4b556ad4d70c38924cb8c120adbf21a0012de6ce 22 mistral mistral-7b https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2 23 mixtral mixtral-8x7b https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1 24 llama3.1 llama3.1-8b https://huggingface.co/meta-llama/Meta-Llama-3.1-8B-Instruct 25 llama3.1-70b https://huggingface.co/meta-llama/Meta-Llama-3.1-70B-Instruct 26 Qwen2.5 qwen2.5-0.5b https://huggingface.co/Qwen/Qwen2.5-0.5B-Instruct 27 qwen2.5-7b https://huggingface.co/Qwen/Qwen2.5-7B-Instruct 28 qwen2.5-14b https://huggingface.co/Qwen/Qwen2.5-14B-Instruct 29 qwen2.5-32b https://huggingface.co/Qwen/Qwen2.5-32B-Instruct 30 qwen2.5-72b https://huggingface.co/Qwen/Qwen2.5-72B-Instruct 31 llama3.2 llama3.2-1b https://huggingface.co/meta-llama/Llama-3.2-1B-Instruct 32 llama3.2-3b https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-场景介绍:方案概览

方案概览本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件，为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。本方案目前仅适用于部分企业客户，完成本方案的部署，需要先联系您所在企业的华为方技术支持。提示：本文档适用于OBS+SFS Turbo的数据存储方案，不适用于仅OBS存储方案。通过OBS 对象存储服务（Object Storage Service）与SFS Turbo文件系统联动，可以实现灵活数据管理、高性能读取等。

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-场景介绍:文档更新内容

文档更新内容 6.3.912版本相对于6.3.911版本新增如下内容：代码结构发生变化，统一了modellink和llama-factory的启动方式。继承911版本启动方式以外增加新的启动方式： ascendfactory-cli train xx.yaml model-name exp_name 相对于6.3.911版本仅是使用run_type来指定训练的类型，只能区分预训练、全参微调和lora微调但实际上预训练和sft是训练的不同阶段，全参、lora是训练参数设置方式。为了更加明确的区分不同策略，以及和llama-factory对齐，6.3.912版本调整以下参数：新增STAGE，表示训练的阶段，可以选择的参数包括: {pt，sft}。新增FINETUNING_TYPE，表示微调的策略，可以选择的参数包括：{full，lora} 删除RUN_TYPE 所以当前的组合情况为：项目 full lora pt（预训练） √ √ sft（指令微调） √ √

AI开发平台MODELARTS 主流开源大模型基于Standard+OBS+SFS适配ModelLink PyTorch NPU训练指导（6.3.912）
AI开发平台MODELARTS-MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910）:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录" export container_name="自定义容器名称" export image_name="镜像名称或ID" // 启动一个容器去运行镜像 docker run -itd --net=bridge \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=32g \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} \ /bin/bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下可存放项目所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。 --device=/dev/davinci0：挂载对应卡到容器，当需要挂载多卡，请依次添加多项该配置通过容器名称进入容器中。默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec -it ${container_name} bash

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910）:Step4 安装依赖和软件包

Step4 安装依赖和软件包 git clone和git lfs下载大模型可以参考如下操作。由于欧拉源上没有git-lfs包，所以需要从压缩包中解压使用，在浏览器中输入如下地址下载git-lfs压缩包并上传到容器的/home/ma-user目录下 https://github.com/git-lfs/git-lfs/releases/download/v3.2.0/git-lfs-linux-arm64-v3.2.0.tar.gz 或直接下载到容器，这样在容器中可以直接使用。 cd /home/ma-user wget https://github.com/git-lfs/git-lfs/releases/download/v3.2.0/git-lfs-linux-arm64-v3.2.0.tar.gz 进入容器，执行安装git lfs命令。 cd /home/ma-user tar -zxvf git-lfs-linux-arm64-v3.2.0.tar.gz cd git-lfs-3.2.0 sudo sh install.sh 设置git配置去掉ssl校验。 git config --global http.sslVerify false 从github拉取MiniCPM-V代码。 cd /home/ma-user git clone https://github.com/OpenBMB/MiniCPM-V.git cd /home/ma-user/MiniCPM-V git checkout ba27a162aa236e17036bb903 获取openbmb/MiniCPM-V-2模型。 cd /home/ma-user git clone https://huggingface.co/openbmb/MiniCPM-V-2 cd /home/ma-user/MiniCPM-V-2 git checkout ee00ff7ce36667e7df81cb2a0 安装MiniCPM-V2_0 Ascend软件包。将获取到的MiniCPM-V Ascend软件包AscendCloud-AIGC-*.zip文件上传到容器的/home/ma-user目录下。获取路径参见表2。解压AscendCloud-AIGC-*.zip文件，解压后将里面指定文件与对应MiniCPM-V文件进行替换。 cd /home/ma-user unzip AscendCloud-AIGC-*.zip -d ./AscendCloud cd AscendCloud/multimodal_algorithm/MiniCPM-V2_0/ dos2unix install.sh bash install.sh AscendCloud-AIGC-*.zip后面的*表示时间戳，请按照实际替换。 MiniCPM-V2_0 Ascend软件包内容如下： |---MiniCPM-V2_0/ --- infer.py 推理示例代码 --- install.sh 安装torch-npu适配修改及优化脚本 --- model_modify.patch 优化模型融合算子git patch文件 --- modify.patch 适配优化MiniCPM-V2.0代码git patch文件 --- README.md 适配文档基于官方代码commit id说明

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910）:Step6 MiniCPM-V2.0推理

Step6 MiniCPM-V2.0推理多轮对话请参考以下代码进行推理infer.py，此示例文件附于MiniCPM-V2_0 Ascend软件包内。 cd /home/ma-user/MiniCPM-V python infer.py # 执行python infer.py即可得到示例参考结果： =======First round answer====== The aircraft is an Airbus A380-Boeing 747. =======Second round answer====== The Airbus A380 is a large passenger jet designed for long-haul flights. It has four engines, making it one of the most powerful commercial aircraft ever built with an impressive capacity to carry up to 524 passengers in its standard configuration or even more than that depending on seating arrangements and cabin layouts. infer.py示例代码如下： import json from chat import MiniCPMVChat, img2base64 import torch_npu from torch_npu.contrib import transfer_to_npu model_type = "/home/ma-user/MiniCPM-V-2" # or openbmb/MiniCPM-V-2 chat_model = MiniCPMVChat(model_type) im_64 = img2base64('./assets/airplane.jpeg') # First round chat msgs = [{"role": "user", "content": "Tell me the model of this aircraft."}] inputs = {"image": im_64, "question": json.dumps(msgs)} answer = chat_model.chat(inputs) print("=======First round answer======") print(answer) # Second round chat # pass history context of multi-turn conversation msgs.append({"role": "assistant", "content": answer}) msgs.append({"role": "user", "content": "Introduce something about Airbus A380."}) inputs = {"image": im_64, "question": json.dumps(msgs)} answer = chat_model.chat(inputs) print("=======Second round answer======") print(answer)

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910）:Step1 准备环境

Step1 准备环境请参考Lite Server资源开通，购买Lite Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS MLLM多模态模型训练推理
AI开发平台MODELARTS-MiniCPM-V2.0推理及LoRA微调基于Lite Server适配PyTorch NPU指导（6.3.910）:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.910-xxx.zip软件包中的AscendCloud-AIGC-6.3.910-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.910 版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241112192643-c45ac6b 从SWR拉取。

AI开发平台MODELARTS MLLM多模态模型训练推理

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！