AIGC文生图-华为云

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step4 下载原始模型包

Step4 下载原始模型包从HuggingFace官网下载moondream2模型包到本地，下载地址：https://huggingface.co/vikhyatk/moondream2/tree/2024-03-06。在宿主机上创建一个空目录/home/temp，将下载的模型包存放在宿主机/home/temp/moondream2目录下，修改目录权限后，拷贝到容器中。 mkdir /home/temp #创建一个空目录，将下载的模型包存放在宿主机/home/temp/moondream2目录下 chmod -R 777 moondream2 #修改moondream2目录权限 docker cp moondream2 moondream2:/home/ma-user/ #拷贝moondream2目录到容器中

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci1 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --shm-size 32g \ --net=bridge \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。通过容器名称进入容器中。 docker exec -it ${container_name} bash

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step1 准备环境

Step1 准备环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step1 检查环境

Step1 检查环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。购买DevServer资源时如果无可选资源规格，需要联系华为云技术支持申请开通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 SSH登录机器后，检查NPU卡状态。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动，或释放被挂载的NPU。检查是否安装docker。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step6 启动训练服务

Step6 启动训练服务执行如下命令运行训练脚本。 cd /home/ma-user/sdxl-train/user-job-dir/code sh diffusers_finetune_train.sh 训练执行脚本中配置了保存checkpoint的频率，每500steps保存一次，如果磁盘空间较小，这个值可以改大到5000，避免磁盘空间写满，导致训练失败终止。 checkpoint保存频率的修改命令如下： --checkpointing_steps=5000 训练执行成功如下图所示。图1 训练执行成功

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step3 构建镜像

Step3 构建镜像基于官方提供的基础镜像构建自定义镜像sdxl-train:0.0.1。参考如下命令编写Dockerfile文件。镜像地址{image_url}请参见表2。 FROM {image_url} RUN mkdir /home/ma-user/sdxl-train && mkdir /home/ma-user/sdxl-train/user-job-dir && mkdir /home/ma-user/sdxl-train/user-job-dir/code COPY --chown=ma-user:ma-group diffusers_finetune_train.sh /home/ma-user/sdxl-train/user-job-dir/code/diffusers_finetune_train.sh COPY --chown=ma-user:ma-group train_text_to_image_sdxl-0212.py /home/ma-user/sdxl-train/user-job-dir/code/train_text_to_image_sdxl-0212.py COPY --chown=ma-user:ma-group config.yaml /home/ma-user/sdxl-train/user-job-dir/code/config.yaml COPY --chown=ma-user:ma-group stable-diffusion-xl-base-1.0 /home/ma-user/sdxl-train/stable-diffusion-xl-base-1.0 COPY --chown=ma-user:ma-group vae-fp16-fix /home/ma-user/sdxl-train/vae-fp16-fix COPY --chown=ma-user:ma-group datasets /home/ma-user/sdxl-train/datasets RUN pip install accelerate datasets transformers diffusers RUN source /etc/bashrc && pip install deepspeed COPY --chown=ma-user:ma-group attention_processor.py /home/ma-user/anaconda3/envs/PyTorch-2.1.0/lib/python3.9/site-packages/diffusers/models/attention_processor.py

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step4 启动镜像

Step4 启动镜像启动容器镜像。启动前可以根据实际需要增加修改参数。 docker run -itd --name sdxl-train -v /sys/fs/cgroup:/sys/fs/cgroup:ro -v /etc/localtime:/etc/localtime -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi --shm-size 60g --device=/dev/davinci_manager --device=/dev/hisi_hdc --device=/dev/devmm_svm --device=/dev/davinci0 --device=/dev/davinci1 --device=/dev/davinci2 --device=/dev/davinci3 --device=/dev/davinci4 --device=/dev/davinci5 --device=/dev/davinci6 --device=/dev/davinci7 --security-opt seccomp=unconfined --network=bridge sdxl-train:0.0.1 bash 参数说明： --device=/dev/davinci0，...， --device=/dev/davinci7：挂载NPU设备，示例中挂载了8张卡davinci0~davinci7。 driver及npu-smi需同时挂载至容器。不要将多个容器绑到同一个NPU上，会导致后续的容器无法正常使用NPU功能。进入容器。默认使用ma-user用户，后续所有操作步骤都在ma-user用户下执行。 docker exec -it sdxl-train bash

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step2 下载代码包、依赖模型包和数据集

Step2 下载代码包、依赖模型包和数据集下载stable-diffusion-xl-base-1.0模型包并上传到宿主机上，官网下载地址：https://huggingface.co/stabilityai/stable-diffusion-xl-base-1.0/tree/main 下载vae-fp16-fix模型包并上传到宿主机上，官网下载地址：https://huggingface.co/madebyollin/sdxl-vae-fp16-fix/tree/main 下载开源数据集并上传到宿主机上，官网下载地址：https://huggingface.co/datasets/lambdalabs/pokemon-blip-captions/tree/main。用户也可以使用自己的数据集。下载SDXL插件代码包AscendCloud-3rdAIGC-6.3.905-xxx.zip文件，获取路径参见获取软件和镜像。本案例使用的是AscendCloud-3rdAIGC-6.3.905-xxx.zip文件中的ascendcloud-aigc-poc-sdxl-finetune.tar.gz代码包。解压后上传到宿主机上。依赖的插件代码包、模型包和数据集存放在宿主机上的本地目录结构如下，供参考。 [root@devserver-ei-cto-office-ae06cae7-tmp1216 docker_build]# ll total 192 -rw------- 1 root root 108286 May 6 16:56 attention_processor.py -rw------- 1 root root 430 May 8 09:31 config.yaml drwx------ 3 root root 4096 May 7 10:50 datasets -rw------- 1 root root 1356 May 8 16:30 diffusers_finetune_train.sh -rw------- 1 root root 1468 May 8 16:49 Dockerfile #需要用户参考Step3构建镜像步骤写Dockerfile文件 drwx------ 10 root root 4096 Apr 30 15:18 stable-diffusion-xl-base-1.0 -rw------- 1 root root 58048 May 8 17:48 train_text_to_image_sdxl-0212.py drwx------ 2 root root 4096 Apr 30 15:17 vae-fp16-fix

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:Step5 修改算法脚本

Step5 修改算法脚本进入容器后，修改启动脚本文件。 vi /home/ma-user/sdxl-train/user-job-dir/code/diffusers_finetune_train.sh 在第2行增加export MA_NUM_HOSTS=1 即可，如： #!/bin/bash export MA_NUM_HOSTS=1 if [[ $MA_NUM_HOSTS == 1 ]]; then

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-SDXL基于DevServer适配PyTorch NPU的Finetune高性能训练指导:获取软件和镜像

获取软件和镜像表2 获取软件和镜像分类名称获取路径插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的*表示具体的时间戳，以包名的实际时间为准。获取路径：Support-E 如果没有软件下载权限，请联系您所在企业的华为方技术支持下载获取。基础镜像包 swr.cn-southwest-2.myhuaweicloud.com/atelier/pytorch_2_1_ascend:pytorch_2.1.0-cann_8.0.rc2-py_3.9-hce_2.0.2312-aarch64-snt9b-20240528150158-b521cc0 SWR上拉取

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step4 下载原始模型包

Step4 下载原始模型包从HuggingFace官网下载moondream2模型包到本地，下载地址：https://huggingface.co/vikhyatk/moondream2/tree/2024-03-06。在宿主机上创建一个空目录/home/temp，将下载的模型包存放在宿主机/home/temp/moondream2目录下，修改目录权限后，拷贝到容器中。 mkdir /home/temp #创建一个空目录，将下载的模型包存放在宿主机/home/temp/moondream2目录下 chmod -R 777 moondream2 #修改moondream2目录权限 docker cp moondream2 moondream2:/home/ma-user/ #拷贝moondream2目录到容器中

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step3 启动容器镜像

Step3 启动容器镜像启动容器镜像。启动前请先按照参数说明修改${}中的参数。 docker run -itd \ --device=/dev/davinci1 \ --device=/dev/davinci_manager \ --device=/dev/devmm_svm \ --device=/dev/hisi_hdc \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /sys/fs/cgroup:/sys/fs/cgroup:ro \ -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \ --shm-size 32g \ --net=bridge \ -v ${work_dir}:${container_work_dir} \ --name ${container_name} \ ${image_name} bash 参数说明： -v ${work_dir}:${container_work_dir}：代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录，目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。容器不能挂载到/home/ma-user目录，此目录为ma-user用户家目录。如果容器挂载到/home/ma-user下，拉起容器时会与基础镜像冲突，导致基础镜像不可用。 driver及npu-smi需同时挂载至容器。 --name ${container_name}：容器名称，进入容器时会用到，此处可以自己定义一个容器名称。 ${image_name}：容器镜像的名称。通过容器名称进入容器中。 docker exec -it ${container_name} bash

AI开发平台MODELARTS AIGC文生图

AI开发平台MODELARTS-moondream2基于DevServer适配PyTorch NPU推理指导:Step1 准备环境

Step1 准备环境请参考DevServer资源开通，购买DevServer资源，并确保机器已开通，密码已获取，能通过SSH登录，不同机器之间网络互通。当容器需要提供服务给多个用户，或者多个用户共享使用该容器时，应限制容器访问Openstack的管理地址（169.254.169.254），以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。检查环境。 SSH登录机器后，检查NPU设备检查。运行如下命令，返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先正常安装NPU设备和驱动，或释放被挂载的NPU。检查docker是否安装。 docker -v #检查docker是否安装如尚未安装，运行以下命令安装docker。 yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发，用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值，如果为1，可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward 如果net.ipv4.ip_forward配置项的值不为1，执行以下命令配置IP转发。 sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf sysctl -p | grep net.ipv4.ip_forward

AI开发平台MODELARTS AIGC文生图

云服务器内容精选

AIGC文生图

7*24

备案

专业服务

退订

建议反馈

售前咨询热线