AI开发平台MODELARTS-物理机环境配置:步骤4:安装docker环境

时间:2024-04-30 19:22:38

步骤4:安装docker环境

  1. 先执行“docker -v”检查机器是否已安装docker,若已安装,则可跳过此步骤。

    安装docker命令如下:
    yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64
    使用docker -v检查是否安装成功:
    图8 查看docker版本

  2. 配置IP转发,用于容器内的网络访问。执行下述命令查看net.ipv4.ip_forward配置项值,如果为1,可跳过此步骤。

    sysctl -p | grep net.ipv4.ip_forward
    如果不为1,进行配置:
    sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf 
    sysctl -p | grep net.ipv4.ip_forward

  3. 查看环境是否已安装并配置Ascend-docker-runtime:

    docker info |grep Runtime

    如果输出的runtime为“ascend”,则代表已安装配置好,可跳过此步骤。

    图9 Ascend-docker-runtime查询
    若未安装,则单击链接下载社区版Ascend Docker Runtime,该软件包是昇腾提供的docker插件,在docker run时可以自动挂载昇腾driver等路径到容器,无需在启动容器时手工指定--device参数。下载好后将包上传到服务器并进行安装。
    chmod 700 *.run
    ./Ascend-hdk-型号-npu-driver_版本号_linux-aarch64.run --install

    关于Ascend Docker Runtime的更多使用指导,请参考Ascend Docker Runtime用户指南

  4. 将新挂载的盘设置为docker容器使用路径。

    编辑“/etc/docker/daemon.json”文件内容,如果文件不存在则新建即可。
    vim /etc/docker/daemon.json

    增加如下两项配置,注意insecure-registries行末尾增加一个逗号,保持json格式正确。其中“data_root”代表docker数据存储路径,“default-shm-size”代表容器启动默认分配的共享内容大小,不配置时默认为64M,可以根据需要改大,避免分布式训练时共享内存不足导致训练失败。

    图10 docker配置

    保存后,执行如下命令重启docker使配置生效:
    systemctl daemon-reload && systemctl restart docker

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-1001.html