AI开发平台ModelArts-GPU裸金属服务器更换NVIDIA驱动后执行nvidia-smi提示Failed to initialize NVML:处理方法

时间:2025-02-12 15:02:55

处理方法

执行命令:lsmod | grep nvidia,查看内核中是否残留旧版nvidia,显示如下:

nvidia_uvm            634880  8nvidia_drm             53248  0nvidia_modeset        790528  1 nvidia_drmnvidia              12312576  86 nvidia_modeset,nvidia_uvm

卸载nvidia相关模块

sudo rmmod nvidia_drmsudo rmmod nvidia_modesetsudo rmmod nvidia_uvm

最后卸载nvidia

sudo rmmod nvidia

如果遇到“rmmod: ERROR: Module nvidia is in use”,执行以下命令:

sudo lsof /dev/nvidia*

并再次验证:

lsmod | grep nvidia

再次执行“nvidia-smi”,显示成功,且是最新安装的NVIDIA驱动。

support.huaweicloud.com/trouble-modelarts/modelarts_13_0279.html