MLLM多模态模型训练推理-华为云

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:Step4 准备训练环境

Step4 准备训练环境获取LLaVA模型代码。 cd ${container_work_dir} unzip AscendCloud-6.3.912-xxx.zip unzip AscendCloud-AIGC-6.3.912-xxx.zip bash multimodal_algorithm/LLAVA/llava-train/5d8f1760c08b7dfba3ae97b71cbd4c6f17d12dbd/build.sh 安装优化插件 cd multimodal_algorithm/ascendcloud_multimodal_plugin pip install -e . 下载vicuna-13b-v1.5模型。下载地址：lmsys/vicuna-13b-v1.5 · Hugging Face 图1 下载vicuna-13b-v1.5模型

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:步骤二：启动镜像

步骤二：启动镜像获取基础镜像。建议使用官方提供的镜像。镜像地址{image_url}参见表2。 docker pull {image_url} 启动容器镜像。启动前请先按照参数说明修改${}中的参数。可以根据实际需要增加修改参数。训练默认使用单机8卡。 docker run -itd --net=host \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=32g \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_id} \ /bin/bash 参数说明： device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了8张卡davinci0~davinci7。 ${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统，work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size：共享内存大小。 ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_id}：镜像ID，通过docker images查看刚拉取的镜像ID。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。进入容器。需要将${container_name}替换为实际的容器名称。启动容器默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec -it ${container_name} bash

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:步骤五：开始训练

步骤五：开始训练进入解压后的源码包根目录。 cd ${container_work_dir}/LLaVA 修改训练脚本模型路径(--model_name_or_path 模型路径)。 vim ./scripts/v1_5/pretrain_new.sh 运行训练脚本，默认是单机8卡。 bash ./scripts/v1_5/pretrain_new.sh 训练完成后，权重文件保存checkpoints/llava-v1.5-13b-pretrain路径下，并输出模型训练精度和性能信息。

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:步骤三：获取代码并上传

步骤三：获取代码并上传上传代码AscendCloud-AIGC-6.3.912-xxx.zip到容器的工作目录中，包获取路径请参见表2。上传代码和权重到宿主机时使用的是root用户，此处需要执行如下命令统一文件属主为ma-user用户。 #统一文件属主为ma-user用户 sudo chown -R ma-user:ma-group ${container_work_dir} # ${container_work_dir}:/home/ma-user/ws 容器内挂载的目录 #例如：sudo chown -R ma-user:ma-group /home/ma-user/ws

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:步骤四：下载数据集

步骤四：下载数据集请用户自行下载GQA数据集，下载地址：images。将GQA数据集放于${container_work_dir}/LLaVA/playground/data/LLaVA-Pretrain目录下。下载blip_laion_cc_sbu_558k.json文件，并放于${container_work_dir}/LLaVA/playground/data/LLaVA-Pretrain目录下。

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:步骤一：检查环境

步骤一：检查环境请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买Server资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-LLaVA模型基于Lite Server适配PyTorch NPU预训练指导（6.3.912）:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳，以包名发布的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像包 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527 SWR上拉取。

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 export work_dir="自定义挂载的工作目录" export container_work_dir="自定义挂载到容器内的工作目录" export container_name="自定义容器名称" export image_name="镜像名称或ID" // 启动一个容器去运行镜像 docker run -itd --net=bridge \ --device=/dev/davinci0 \ --device=/dev/davinci1 \ --device=/dev/davinci2 \ --device=/dev/davinci3 \ --device=/dev/davinci4 \ --device=/dev/davinci5 \ --device=/dev/davinci6 \ --device=/dev/davinci7 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ --shm-size=32g \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ -v /var/log/npu/:/usr/slog \ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} \ /bin/bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。 --device=/dev/davinci0 ：挂载对应卡到容器，当需要挂载多卡，请依次添加多项该配置通过容器名称进入容器中。默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec -it -u ma-user ${container_name} bash

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step5 MiniCPM-V2.6微调前修改脚本

Step5 MiniCPM-V2.6微调前修改脚本使用/home/ma-user/MiniCPM-V/finetune/finetune_lora.sh官方脚本对MiniCPM-V 2.6进行lora微调。使用/home/ma-user/MiniCPM-V/finetune/finetune_ds.sh官方脚本对MiniCPM-V 2.6进行sft微调。微调脚本默认使用 transformers Trainer 和 DeepSpeed。在 ds_config_zero2.json 修改overlap_comm为false。 loss固定 pip install mindstudio-probe 在finetune.py脚本前添加 from msprobe.pytorch import seed_all seed_all(1234) npu 在finetune.py脚本前添加 import torch_npu from torch_npu.contrib import transfer_to_npu 下载插件包AscendCloud-AIGC-6.3.912-xxx.zip到${container_work_dir}并解压后得到multimodal_algorithm。 sudo chown -R ma-user:ma-group ${container_work_dir} unzip AscendCloud-AIGC-6.3.909-xxx.zip cd ${container_work_dir}/multimodal_algorithm/ascendcloud_multimodal_plugin pip install -e . # 在MiniCPM-V/finetune/finetune.py引入优化代码包 from ascendcloud_multimodal.train.models.minicpmv.minicpmv2_6 import ascend_modeling_minicpmv2_6

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step7 lora微调

Step7 lora微调 bash finetune_lora.sh 修改模型权重路径${model_path}，保持其余参数一致。脚本参数设置如下： #!/bin/bash GPUS_PER_NODE=8 NNODES=1 NODE_RANK=0 MASTER_ADDR=localhost MASTER_PORT=6001 export PYTORCH_NPU_ALLOC_CONF=expandable_segments:True MODEL=${model_path} # or openbmb/MiniCPM-V-2, openbmb/MiniCPM-Llama3-V-2_5 # ATTENTION: specify the path to your training data, which should be a json file consisting of a list of conversations. # See the section for finetuning in README for more information. DATA="coco2014_train.json" EVAL_DATA="coco2014_val.json" LLM_TYPE="qwen2" # if use openbmb/MiniCPM-V-2, please set LLM_TYPE=minicpm#if use openbmb/MiniCPM-Llama3-V-2_5, please set LLM_TYPE=llama3 MODEL_MAX_Length=2048 # if conduct multi-images sft, please set MODEL_MAX_Length=4096 MODEL_MAX_Length=2048 DISTRIBUTED_ARGS=" --nproc_per_node $GPUS_PER_NODE \ --nnodes $NNODES \ --node_rank $NODE_RANK \ --master_addr $MASTER_ADDR \ --master_port $MASTER_PORT " torchrun $DISTRIBUTED_ARGS finetune.py \ --model_name_or_path $MODEL \ --llm_type $LLM_TYPE \ --data_path $DATA \ --eval_data_path $EVAL_DATA \ --remove_unused_columns false \ --label_names "labels" \ --prediction_loss_only false \ --bf16 true \ --bf16_full_eval true \ --fp16 false \ --fp16_full_eval false \ --do_train \ --do_eval \ --num_train_epochs 1 \ --tune_vision true \ --tune_llm false \ --use_lora true \ --lora_target_modules "llm\..*layers\.\d+\.self_attn\.(q_proj|k_proj|v_proj|o_proj)" \ --model_max_length $MODEL_MAX_Length \ --max_slice_nums 9 \ --max_steps 1000 \ --eval_steps 10000 \ --output_dir output/output__lora \ --logging_dir output/output_lora \ --logging_strategy "steps" \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 1 \ --evaluation_strategy "steps" \ --save_strategy "steps" \ --save_steps 10000 \ --save_total_limit 10 \ --learning_rate 1e-6 \ --weight_decay 0.1 \ --adam_beta2 0.95 \ --warmup_ratio 0.01 \ --lr_scheduler_type "cosine" \ --logging_steps 1 \ --gradient_checkpointing true \ --deepspeed ds_config_zero2.json \ --report_to "tensorboard"

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step4 安装依赖和软件包

Step4 安装依赖和软件包从github拉取MiniCPM-V代码。 cd /home/ma-user git clone https://github.com/OpenBMB/MiniCPM-V.git cd /home/ma-user/MiniCPM-V git checkout c541f1044e7c0bb2ba48e3eb21daf070e90cd6a2 获取openbmb/MiniCPM-V-2_6模型。 https://huggingface.co/openbmb/MiniCPM-V-2_6 #手动下载模型权重放置在指定路径 sudo chown -R ma-user:ma-group ${container_work_dir} mkdir -p ${container_work_dir}/minicpm/MiniCPM-V-2_6/ cp -r MiniCPM-V-2_6 ${container_work_dir}/minicpm/MiniCPM-V-2_6/ 准备coco数据集。 cd MiniCPM-V/finetune/ # Download COCO images wget http://images.cocodataset.org/zips/train2014.zip && unzip train2014.zip wget http://images.cocodataset.org/zips/val2014.zip && unzip val2014.zip 制作数据集，参考官网下面链接data preparation章节。 MiniCPM-V/finetune/readme.md at main · OpenBMB/MiniCPM-V (github.com) 制成coco2014_train.json文件和coco2014_val.json放在MiniCPM-V/finetune/目录中。json文件示例如下。图1 json文件示例执行微调脚本前需要补充安装依赖包。 pip install accelerate pip install tensorboard pip install deepspeed==0.15.1 pip install peft pip install numpy==1.24.4 pip install transformers==4.40.0 pip install einops

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step1 准备环境

Step1 准备环境请参考Lite Server资源开通，购买Server资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU设备状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装固件和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:Step6 监督微调

Step6 监督微调 bash finetune_ds.sh 修改模型权重路径${model_path}，保持其余参数一致。脚本参数设置如下： #!/bin/bash GPUS_PER_NODE=8 NNODES=1 NODE_RANK=0 MASTER_ADDR=localhost MASTER_PORT=6001 MODEL=${model_path} # or openbmb/MiniCPM-V-2, openbmb/MiniCPM-Llama3-V-2_5 # ATTENTION: specify the path to your training data, which should be a json file consisting of a list of conversations.# See the section for finetuning in README for more information. DATA="coco2014_train.json" EVAL_DATA="coco2014_val.json" LLM_TYPE="qwen2" # if use openbmb/MiniCPM-V-2, please set LLM_TYPE=minicpm, if use openbmb/MiniCPM-Llama3-V-2_5, please set LLM_TYPE="llama3" MODEL_MAX_Length=2048 # if conduct multi-images sft, please set MODEL_MAX_Length=4096 DISTRIBUTED_ARGS=" --nproc_per_node $GPUS_PER_NODE \ --nnodes $NNODES \ --node_rank $NODE_RANK \ --master_addr $MASTER_ADDR \ --master_port $MASTER_PORT " torchrun $DISTRIBUTED_ARGS finetune.py \ --model_name_or_path $MODEL \ --llm_type $LLM_TYPE \ --data_path $DATA \ --eval_data_path $EVAL_DATA \ --remove_unused_columns false \ --label_names "labels" \ --prediction_loss_only false \ --bf16 true \ --bf16_full_eval true \ --fp16 false \ --fp16_full_eval false \ --do_train \ --do_eval \ --tune_vision true \ --tune_llm true \ --model_max_length $MODEL_MAX_Length \ --max_slice_nums 9 \ --max_steps 1000 \ --eval_steps 5000 \ --output_dir output/output_minicpmv26 \ --logging_dir output/output_minicpmv26 \ --logging_strategy "steps" \ --per_device_train_batch_size 1 \ --per_device_eval_batch_size 1 \ --gradient_accumulation_steps 1 \ --evaluation_strategy "steps" \ --save_strategy "steps" \ --save_steps 2000 \ --save_total_limit 10 \ --learning_rate 1e-6 \ --weight_decay 0.1 \ --adam_beta2 0.95 \ --warmup_ratio 0.01 \ --lr_scheduler_type "cosine" \ --logging_steps 1 \ --gradient_checkpointing true \ --deepspeed ds_config_zero2.json \ --report_to "tensorboard"

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-MiniCPM-V2.6基于Lite Server适配PyTorch NPU训练指导（6.3.912）:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-6.3.912-xxx.zip软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 说明：包名中的xxx表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E，在此路径中查找下载ModelArts 6.3.912版本。说明：如果上述软件获取路径打开后未显示相应的软件信息，说明您没有下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像西南-贵阳一： swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc3-py_3.9-hce_2.0.2409-aarch64-snt9b-20241213131522-aafe527 从SWR拉取。

AI开发平台MODELARTS MLLM多模态模型训练推理

AI开发平台MODELARTS-moondream2基于Lite Server适配PyTorch NPU推理指导:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci1 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --shm-size 32g \ --net=bridge \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。通过容器名称进入容器中。 docker exec -it ${container_name} bash

AI开发平台MODELARTS MLLM多模态模型训练推理

云服务器内容精选

MLLM多模态模型训练推理