AI开发平台ModelArts-远程GPU运行(Notebook2.0)

时间:2023-11-01 16:16:40

远程GPU运行(Notebook2.0)

通过Notebook调试、训练一个AI模型,推荐按照如下逻辑步骤组织notebook的代码:

步骤1. 将训练数据下载到notebook工作目录下(/home/ma-user/work/)或者其子目录中;

步骤2. 对下载后的数据预处理;

步骤3. 定义机器/深度学习模型;

步骤4. 使用训练数据对模型进行训练;

步骤5. 训练完毕后将模型文件保存在当前目录下的子目录中;

步骤6. 加载模型文件,进行推理。

创建Notebook的时候不分配GPU资源,只有需要运行一些计算密集型的代码(如上步骤4)时,实时地通过远程GPU运行。

  1. notebook编辑调试阶段,用户行为保持notebook原有行为一致;
  2. 编辑结束,需要运行代码段的时候,如步骤1所涉及的代码没有在调试阶段执行,可先将步骤1中所涉及的代码块执行(选中相应Cell,点击Run Selected Cells按钮);
  3. 点击GPU Training开关,所有代码Cell上端将显示一个tag标记,默认都是include,将步骤2-5中所有的Cell保持include标记,其他Cell(包括步骤1所有Cell)点击切换成skip标记(远端会依次执行include标记的代码段);
  4. 点击Submit按钮,选择计算实例规格后点击立即执行
  5. 2-5步骤中的代码段将会在拥有GPU资源的远端服务器执行,每个Cell的日志将会在Cell的下方实时输出,直到所有Cell执行完毕;
  6. 通过步骤5中生成的模型文件恢复模型,进行推理验证;
  7. 重复如上流程,调试模型。

使用限制

  • 通过远程GPU执行的代码块并不会在notebook中同时执行,如步骤6中的代码段依赖前面步骤的变量定义,需要在notebook中按需执行
  • 如果当前平台GPU资源紧缺,远程执行时可能会有资源排队等待延迟

support.huaweicloud.com/engineers-modelarts/modelarts_23_0329.html