AI开发平台MODELARTS-OOM导致训练作业失败:处理方法
时间:2025-05-28 16:58:36
处理方法
- 如果是正常的OOM,就需要修改一些超参,释放一些不需要的tensor。
- 修改网络参数,比如batch_size、hide_layer、cell_nums等。
- 释放一些不需要的tensor,使用过的,如下:
del tmp_tensor torch.cuda.empty_cache()
- 必现的问题,使用本地Pycharm远程连接Notebook调试超参。
- 如果还存在问题,可能需要提工单进行定位,甚至需要隔离节点修复。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0044.html