AI开发平台MODELARTS-基于训练作业启动PyTorch DDP训练示例:创建训练作业

时间:2024-01-04 11:05:15

创建训练作业

  • 使用PyTorch预置框架功能,通过mp.spawn命令启动

    启动方式选择预置框架/PyTorch,代码目录选择OBS桶的code文件夹所在路径,启动文件选择main.py文件。

    图1 创建训练作业

    当资源规格为单机多卡时,需要在创建训练作业时指定超参world_size和rank。若资源规格为多机时(训练作业计算节点个数大于 1)无需设置,world_size和rank超参由平台自动注入。

    图2 超参
  • 使用自定义镜像功能,通过torch.distributed.launch命令启动
    启动方式选择自定义,选择镜像,代码目录选择OBS桶的code文件夹所在路径,启动命令如下:
    bash ${MA_JOB_DIR}/code/torchlaunch.sh
    图3 创建训练作业
  • 使用自定义镜像功能,通过torch.distributed.run命令启动
    启动方式选择自定义,选择镜像,代码目录选择OBS桶的code文件夹所在路径,启动命令如下:
    bash ${MA_JOB_DIR}/code/torchrun.sh
    图4 创建训练作业
support.huaweicloud.com/develop-modelarts/modelarts-distributed-0011.html