GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。 表1 GPU实例故障分类列表 是否可恢复故障 故障类型 相关文档 可恢复故障,可按照相关文档自行恢复 镜像配置问题 如何处理Nouveau驱动未禁用导致的问题 ECC错误 如何处理ECC ERROR:存在待隔离页问题 内核升级问题 如何处理升级内核后,驱动不可用问题 GPU掉卡问题 如何处理GPU掉卡问题 显卡ERR! 如何处理显卡ERR!问题 软件安装问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 驱动兼容性问题 如何处理驱动兼容性问题 Xid问题 如何处理可恢复的Xid故障问题 显卡被禁用 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 镜像问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 License问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 不可恢复故障,需联系技术支持处理 InfoROM错误 如何处理infoROM错误 ECC错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在S
RAM 的ECC错误(V100显卡) GPU掉卡 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 温度过高问题 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 驱动安装报错 如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” Xid报错 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断