云服务器内容精选

  • GPU实例故障处理流程 GPU实例故障处理流程如图1所示,对应的操作方法如下: CES监控事件通知:配置GPU的CES监控后会产生故障事件通知。 故障信息收集:可使用GPU故障信息收集脚本一键收集,也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表:根据错误信息在故障分类列表中识别故障类型。 非硬件故障自恢复处理方法:这类问题可以根据指导自行排查恢复。 显卡故障诊断及处理方法:这类问题可以根据指导确认后联系技术支持。 联系技术支持人员:无法自恢复请提交工单联系技术支持人员获取帮助。 图1 GPU实例故障处理流程 父主题: GPU实例故障自诊断
  • GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。 表1 GPU实例故障分类列表 是否可恢复故障 故障类型 相关文档 可恢复故障,可按照相关文档自行恢复 镜像配置问题 如何处理Nouveau驱动未禁用导致的问题 ECC错误 如何处理ECC ERROR:存在待隔离页问题 内核升级问题 如何处理升级内核后,驱动不可用问题 GPU掉卡问题 如何处理GPU掉卡问题 显卡ERR! 如何处理显卡ERR!问题 软件安装问题 如何处理用户自行安装NVIDIA驱动、CUDA软件,安装过程出错问题 驱动兼容性问题 如何处理驱动兼容性问题 Xid问题 如何处理可恢复的Xid故障问题 显卡被禁用 如何处理用户的虚拟机报错:“由于该设备有问题,Windows已将其停止”问题 镜像问题 如何处理用户使用场景与其选择的驱动、镜像不配套问题 License问题 如何处理用户安装了GRID驱动,但未购买、配置License问题 不可恢复故障,需联系技术支持处理 InfoROM错误 如何处理infoROM错误 ECC错误 如何处理ECC ERROR:执行nvidia-smi -q存在double bit ecc error错误,并无待隔离页 如何处理ECC ERROR:执行nvidia-smi存在SRAM的ECC错误(V100显卡) GPU掉卡 如何处理GPU掉卡,执行lspci | grep -i nvidia命令找不到显卡或显卡显示rev ff 温度过高问题 如何处理GPU散热异常,执行nvidia-smi命令发现温度过高 驱动安装报错 如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'” Xid报错 如何处理GPU虚拟机故障,在message日志中发现存在Xid报错 父主题: GPU实例故障自诊断