AI开发平台MODELARTS-显存溢出错误:解决方法:
时间:2025-04-09 09:16:18
解决方法:
- 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。
- 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加 TP和PP的值,一般TP×PP≤NPU数量,并且要被整除,具体调整值可参照表2进行设置。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_90957.html