AI开发平台MODELARTS-GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败:原因分析

时间:2024-04-30 19:22:38

原因分析

经过对裸金属服务器排查,发现nvidia-drvier和cuda都已安装,并且正常运行。nvidia-fabricmanager服务可以使单节点GPU卡间互联,在多卡GPU机器上,出现这种问题可能是nvidia-fabricmanger异常导致。

  1. 执行以下命令,查看NVIDIA和CUDA的版本,以及nvidia-fabricmanager的状态。
    systemctl status nvidia-fabricmanager
  2. 发现nvidia-fabricmanager的服务为failed状态,尝试重新启动nvidia-fabricmanager失败,且提示以下信息:
    nvidia-fabricmanager.service failed because the control process exited with error code
  3. 通过命令查看nvidia-fabricmanager的版本,发现nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致。
    dpkg -l | grep nvidia-fabricmanager
  4. 卸载并重新安装正确版本的nvidia-fabricmanager,验证CUDA成功。
support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0105.html