AI开发平台MODELARTS-GPU A系列裸金属服务器使用CUDA cudaGetDeviceCount()提示CUDA initializat失败:处理方法

时间:2024-04-30 19:22:38

处理方法

  1. 查看nvidia-fabricmanager的版本,若nvidia-fabricmanager版本与当前NVIDIA驱动版本不一致则执行下述命令卸载nvidia-fabricmanager。
    dpkg -l | grep nvidia-fabricmanager
    # 若有nvidia-fabricmanager软件,将其卸载
    # 若无nvidia-fabricmanager软件,请跳过此命令
    sudo apt-get autoremove --purge nvidia-fabricmanager-版本
  2. 安装与NVIDIA驱动版本号相等的nvidia-fabricmanager(以515.105.01举例)。
    version=515.105.01
    main_version=$(echo $version | awk -F '.' '{print $1}')
    apt-get update
    apt-get -y install nvidia-fabricmanager-${main_version}=${version}-*
  3. 启动nvidia-fabricmanager,确保其服务状态为RUNNING。
    systemctl enable nvidia-fabricmanager
    systemctl start nvidia-fabricmanager
    systemctl status nvidia-fabricmanager
  4. 重新验证cuda状态, 输出为True。
    import torch
    print(torch.cuda.is_available())
support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0105.html