AI开发平台MODELARTS-已有镜像如何适配迁移至ModelArts训练平台
已有镜像如何适配迁移至ModelArts训练平台
- 为镜像增加训练管理的默认用户组ma-group,“gid = 100”。
如果已存在“gid = 100”用户组,可能会报错“groupadd: GID '100' already exists”。可通过命令“cat /etc/group | grep 100”查询是否已存在gid = 100用户组。
如果已存在“gid = 100”用户组,则该步骤跳过,下文Dockerfile中删除“RUN groupadd ma-group -g 100”命令。
- 为镜像增加训练管理的默认用户ma-user,“uid = 1000”。
如果已存在“uid = 1000”用户,可能会报错“useradd: UID 1000 is not unique”。可通过命令“cat /etc/passwd | grep 1000”查询是否已存在uid = 1000用户。
如果已存在“uid = 1000”用户,则该步骤跳过,下文Dockerfile中删除“RUN useradd -d /home/ma-user -m -u 1000 -g 100 -s /bin/bash ma-user”命令。
- 修改镜像中相关文件权限,使得ma-user,“uid = 1000”用户可读写。
您可以参考如下Dockerfile,修改已有镜像,使其符合新版训练管理自定义镜像的规范。
FROM {已有镜像} USER root # 如果已存在 gid = 100 用户组,则删除 groupadd 命令。 RUN groupadd ma-group -g 100 # 如果已存在 uid = 1000 用户,则删除 useradd 命令。 RUN useradd -m -d /home/ma-user -s /bin/bash -g 100 -u 1000 ma-user # 修改镜像中相关文件权限,使得 ma-user, uid = 1000 用户可读写。 RUN chown -R ma-user:100 {Python软件包路径} # 设置容器镜像预置环境变量。 # 请务必设置 PYTHONUNBUFFERED=1, 以免日志丢失。 ENV PYTHONUNBUFFERED=1 # 设置容器镜像默认用户与工作目录。 USER ma-user WORKDIR /home/ma-user
编写好Dockerfile后,通过执行如下所示命令进行新镜像构建。
docker build -f Dockerfile . -t {新镜像}
构建成功后将新镜像上传至SWR(参考如何登录并上传镜像到SWR)。
上述内容为关键代码样例,为了方便理解迁移过程,推荐您体验完整迁移案例:示例:从0到1制作自定义镜像并用于训练(PyTorch+CPU/GPU)。
- ModelArts开发环境_开发环境简介_开发环境怎么使用
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts模型训练_模型训练简介_如何训练模型
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts模型训练_创建训练作业_如何创建训练作业
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- ModelArts推理部署_模型_AI应用来源-华为云
- 华为云ModelArts_ModelArts开发_AI全流程开发
- ModelArts自定义镜像_自定义镜像简介_如何使用自定义镜像