弹性云服务器 ECS-如何处理GPU虚拟机故障,在message日志中发现存在Xid报错:问题原因

时间:2024-05-09 19:44:13

问题原因

XID

说明

32

Invalid or corrupted push buffer stream,推送缓冲区流无效或损坏

74

NVLINK Error. NVLink异常产生的XID,表明GPU硬件故障需要下线维修。

79

GPU has fallen off the bus。总线脱落,需要下线维修

详情可以参考NVIDIA的Xid描述文档:https://docs.nvidia.com/deploy/xid-errors/index.html

support.huaweicloud.com/trouble-ecs/ecs_trouble_1631.html