弹性云服务器 ECS-GPU实例故障分类列表
GPU实例故障分类列表
GPU实例故障的分类列表如表1所示。
是否可恢复故障 |
故障类型 |
相关文档 |
---|---|---|
可恢复故障,可按照相关文档自行恢复 |
镜像配置问题 |
如何处理Nouveau驱动未禁用导致的问题 |
ECC错误 |
如何处理ECC ERROR:存在待隔离页问题 |
|
内核升级问题 |
如何处理升级内核后,驱动不可用问题 |
|
GPU掉卡问题 |
如何处理GPU掉卡问题 |
|
显卡ERR! |
如何处理显卡ERR!问题 |
|
软件安装问题 |
如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 |
|
驱动兼容性问题 |
如何处理驱动兼容性问题 |
|
Xid问题 |
如何处理可恢复的Xid故障问题 |
|
显卡被禁用 |
如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 |
|
镜像问题 |
如何处理用户使用场景与其选择的驱动、镜像不配套问题 |
|
License问题 |
如何处理用户安装了GRID驱动,但未购买、配置License问题 |
|
不可恢复故障,需联系技术支持处理 |
InfoROM错误 |
如何处理infoROM错误 |
ECC错误 |
如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 |
|
如何处理ECC ERROR:执行nvidia-smi存在S RAM 的ECC错误(V100显卡) |
||
GPU掉卡 |
如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff |
|
温度过高问题 |
如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 |
|
驱动安装报错 |
如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” |
|
Xid报错 |
如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 |