弹性云服务器 ECS-华为云

弹性云服务器 ECS-如何处理驱动兼容性问题:处理方法

处理方法查看云服务器的实例规格，确认用户使用的镜像信息。如果使用NVIDIA Tesla T4 GPU（例如，Pi2或G6规格），请参见T4 GPU设备显示异常进行处理。如果使用其他规格的 GPU云服务器，执行下一步。查看系统日志“/var/log/message”，是否存在驱动相关报错。如果存在报错“Failed to copy vbios to system memory”，可能是由于频繁加载/卸载驱动导致，建议开启驱动持久化模式，保持驱动处于加载状态。执行以下命令，开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令，打开并编辑“/etc/rc.local”文件。 vim /etc/rc.local 配置开机自启动，将命令“nvidia-smi -pm 1”写入“/etc/rc.local”文件中。按“Esc”，输入:wq保存并退出。执行以下命令，添加启动权限。 chmod +x /etc/rc.d/rc.local 若未查到相关报错，执行下一步。查看实例的Tesla驱动版本是否为510.xx.xx。是，该驱动版本与所用镜像可能存在兼容性问题，建议更换驱动版本，请参考安装GPU驱动。否，请执行下一步。如果仍未确认根因，请根据故障信息收集操作后联系技术支持处理。

弹性云服务器 ECS 非硬件故障自恢复处理方法

弹性云服务器 ECS-如何收集NVDIA日志

如何收集NVDIA日志收集NVDIA日志方法如下：登录弹性云服务器。在任意目录下执行以下命令。（如果是CCE场景，进入到/opt/cloud/cce/nvidia/bin目录后执行） sh nvidia-bug-report.sh 或 ./nvidia-bug-report.sh 执行完成后会在当前执行目录下生成nvidia-bug-report.log.gz，转储该日志。父主题：故障信息收集

弹性云服务器 ECS

弹性云服务器 ECS-GPU实例故障处理流程

GPU实例故障处理流程 GPU实例故障处理流程如图1所示，对应的操作方法如下： CES 监控事件通知：配置GPU的CES监控后会产生故障事件通知。故障信息收集：可使用GPU故障信息收集脚本一键收集，也可参考故障信息收集执行命令行收集。 GPU实例故障分类列表：根据错误信息在故障分类列表中识别故障类型。非硬件故障自恢复处理方法：这类问题可以根据指导自行排查恢复。显卡故障诊断及处理方法：这类问题可以根据指导确认后联系技术支持。联系技术支持人员：无法自恢复请提交工单联系技术支持人员获取帮助。图1 GPU实例故障处理流程父主题： GPU实例故障自诊断

弹性云服务器 ECS GPU实例故障自诊断

弹性云服务器 ECS-如何处理驱动安装报错“Unable to load the kernel module 'nvidia.ko'”:处理方法

处理方法执行以下命令，查看内核版本，检查内核版本是否一致。 rpm -qa | grep gcc #查看gcc版本 rpm -qa | grep kernel-devel #查看kernel-devel版本如果内核版本不一致，请重装驱动。如果内核版本一致，则执行下一步。查看dmesg日志，检查是否存在NVRM报错。如果报错“NVRM: fallen off the bus and is not responding to commands”，说明是总线脱落，请联系技术支持人员换卡。如果仍未确认问题，请根据故障信息收集收集GPU故障后联系技术支持处理。

弹性云服务器 ECS

弹性云服务器 ECS-如何查询XID报错信息

如何查询XID报错信息 XID消息是NVIDIA驱动程序向操作系统的内核日志或事件日志打印的错误报告，用于标识GPU错误事件，提供GPU硬件、NVIDIA软件或您应用程序中的错误类型、错误位置、错误代码等信息。查询XID报错信息方法如下：登录弹性云服务器。执行以下命令，查看是否存在xid相关报错，保存回显结果。 dmesg | grep -i xid 若检查项GPU节点上的XID异常为空，说明无XID消息。若检查项GPU节点上的XID异常不为空，您可按照GPU实例故障分类列表自助诊断并解决问题，或联系技术支持人员获取帮助。父主题：故障信息收集

弹性云服务器 ECS

弹性云服务器 ECS-如何查询内核信息

如何查询内核信息查询内核信息的方法如下：登录弹性云服务器。执行以下命令，查看内核版本。 uname -r 执行以下命令，查看安装驱动时的内核版本。 Ubuntu：find /lib/modules -name nvidia.ko CentOS：find /usr/lib/modules -name nvidia.ko 执行以下命令，查看gcc版本。 rpm -qa | grep gcc 执行以下命令，查看kernel-devel版本。 rpm -qa | grep kernel-devel 父主题：故障信息收集

弹性云服务器 ECS

弹性云服务器 ECS-如何处理GPU虚拟机故障，在message日志中发现存在Xid报错:问题原因

问题原因 XID 说明 32 Invalid or corrupted push buffer stream，推送缓冲区流无效或损坏 74 NVLINK Error. NVLink异常产生的XID，表明GPU硬件故障需要下线维修。 79 GPU has fallen off the bus。总线脱落，需要下线维修详情可以参考NVIDIA的Xid描述文档：https://docs.nvidia.com/deploy/xid-errors/index.html。

弹性云服务器 ECS 显卡故障诊断及处理方法

弹性云服务器 ECS-如何获取显卡ID

如何获取显卡ID Linux操作系统获取显卡ID的方法如下：登录弹性云服务器。在任意路径下执行nvidia-smi命令。（CCE集群场景为/opt/cloud/cce/nvidia/bin目录下） Windows操作系统获取显卡ID的方法如下：进入到C:\Program Files\NVIDIA Corporation\NVSMI路径。执行nvidia-smi命令。父主题：故障信息收集

弹性云服务器 ECS 故障信息收集

弹性云服务器 ECS-故障信息收集方法

故障信息收集方法用户可使用故障信息收集脚本一键收集所有信息或使用命令进行获取相应信息。故障信息一键收集脚本使用方法如下：故障信息一键收集脚本下载地址：https://hgcs-drivers-cn-north-4.obs.cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令，将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。使用命令获取信息请参考表1。表1 获取信息方法信息分类相关文档显卡基本信息如何获取显卡ID 如何查询显卡详细信息如何查询显卡在位信息显卡故障信息(Linux) 如何查询NVIDIA的错误信息如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVDIA日志镜像内核信息收集(Linux) 如何查询内核信息驱动安装信息收集(Linux) 如何收集驱动安装信息父主题：故障信息收集

弹性云服务器 ECS 故障信息收集

弹性云服务器 ECS-修订记录

修订记录发布日期修订记录 2024-05-09 新增GPU实例故障自诊断。 2024-05-07 新增错误的系统配置导致启动或远程登录失败。 2024-04-29 修改怎样配置Linux分析工具：atop和kdump。 2024-03-27 新增S CS I磁盘IO压力大时，在线并发扩容失败怎么办？。 2023-10-27 新增扩容云硬盘后使用growpart扩容分区失败怎么办？。 2023-08-22 修改GPU设备显示异常。 2023-06-01 新增Linux实例执行命令或启动服务时出现错误：Cannot allocate memory。 2023-05-30 新增内核参数kernel.unknown_nmi_panic配置错误导致Linux ECS实例异常重启。 2023-04-20 新增Linux实例IP地址丢失怎么办？。 2022-12-14 修改Linux云服务器如何进入单用户模式重置root密码。 2022-09-30 修改 Windows云服务器卡顿怎么办？ Linux云服务器卡顿怎么办？ 2022-08-19 新增T4 GPU设备显示异常。修改ping不通或丢包时如何进行链路测试？。 2021-11-12 修改ping不通或丢包时如何进行链路测试？。 2021-09-17 修改网站无法访问怎么办？。 2021-06-16 修改弹性云服务器访问中国大陆外网站时加载缓慢怎么办？，修改DNS使用的IP地址。 2020-04-26 新增 GPU驱动异常怎么办？ GPU驱动不可用 GPU设备显示异常修改优化故障案例分类，新增GPU驱动故障、SSH连接、多用户登录。 2020-02-17 新增 Windows云服务器如何配置多用户登录？（Windows 2008） 2020-01-19 修改 Linux云服务器如何进入单用户模式重置root密码，补充 EulerOS进入内核编辑模式的说明。怎样长时间保持SSH会话连接不断开？，修改示例。 2019-12-25 新增开启UseDNS导致SSH连接缓慢怎么办？ CentOS 7中/etc/rc.local开机启动脚本不生效怎么办？ 2019-11-30 修改防火墙设置 Linux云服务器怎样关闭防火墙、添加例外端口？ Ubuntu系列弹性云服务器如何安装图形化界面？ 2019-10-11 新增为什么操作系统实际版本与购买时镜像版本不一致？云服务器新内核启动失败如何设置使用第二内核启动 CentOS 7中修改fstab无法挂载怎么办？ NetworkManager在运行docker容器时占用大量内存怎么办？ Linux操作系统云服务器中buffer和cache占用内存怎么办？ /etc/passwd文件损坏导致云服务器登录失败怎么办？ Linux系统ping域名失败，提示Name or service not known Linux操作系统执行passwd命令重置密码失败提示：Authentication token manipulation error 2019-09-27 下线 2.7-Windows弹性云服务器安装VPN 3.8-CentOS 7.3弹性云服务器搭建VPN服务端和客户端修改怎样长时间保持SSH会话连接不断开？ 2019-09-10 新增 ping不通或丢包时如何进行链路测试？云服务器端口不通怎样排查？访问ECS实例上运行的网站卡顿，如何定位问题？云服务器带宽占用高怎么办？ Windows云服务器如何保持会话连接长时间不断开？ Linux云服务器怎样关闭防火墙、添加例外端口？ Linux操作系统云服务器磁盘分区提示空间不足怎么办？ Linux操作系统云服务器安装docker支持的操作系统版本修改/etc/security/limits.conf文件，重启后不生效怎么办？使用taskset命令让进程运行在指定CPU上修改 Windows云服务器如何配置多用户登录？（Windows 2012）申请多用户会话授权的license并激活云服务器 2019-08-16 新增 Inode节点耗尽导致无法创建新文件问题处理 Web访问超时系统日志打印：nf_conntrack:table full, dropping packet CentOS 7修改SSH默认端口后无法连接怎么办？ Linux云服务器VNC登录失败，提示信息：Permission denied Ubuntu操作系统如何设置默认启动内核怎样配置Linux分析工具：atop和kdump Linux启动sshd服务出现/var/empty/sshd无法访问的解决方案 Linux文件系统提示：Read-only file system 文件已经删除，但空间未释放怎么办？如何查看Windows云服务器的登录日志？修改弹性云服务器访问中国大陆外网站时加载缓慢怎么办？ 2019-07-26 修改 Windows云服务器如何配置多用户登录？（Windows 2012）远程桌面连接Windows云服务器云主机报错：由于协议错误会话中断远程桌面连接Windows云服务器云主机报错：无法验证此远程计算机的身份远程桌面链接Windows云服务器云主机报错：两台计算机无法在分配的时间内连接远程桌面链接Windows云服务器云主机报错：连接被拒绝未授权此用户远程桌面链接Windows云服务器云主机报错：您的连接已丢失

弹性云服务器 ECS

弹性云服务器 ECS-如何处理可恢复的Xid故障问题:问题原因

问题原因 Xid 说明 13 Graphics Engine Exception，非硬件故障，可能是指令错误等。 31 GPU memory page fault，非硬件故障，可能访问了非法地址等。 43 GPU stopped processing，非硬件故障，可能是自身软件错误。详情可以参考NVIDIA的Xid描述文档：https://docs.nvidia.com/deploy/xid-errors/index.html。

弹性云服务器 ECS

弹性云服务器 ECS-如何处理用户安装了GRID驱动，但未购买、配置License问题:处理方法

处理方法确认用户业务使用场景是否是做图形处理，用户使用的实例规格是否满足图形处理要求。用户是否安装GRID驱动，执行nvidia-smi命令查询回显是否正常。如果回显正常，且能查询到驱动版本，驱动版本是GRID驱动的版本，则说明已安装GRID驱动。用户是否购买了License，如果已购买License是否已经配置了License。如果用户未购买License，请参考GPU加速型实例安装GRID驱动购买License后再根据指导配置License。如果用户已购买过License，但是未配置License，请参考GPU加速型实例安装GRID驱动配置License服务器与License文件。

弹性云服务器 ECS

弹性云服务器 ECS-如何处理ECC ERROR：存在待隔离页问题:处理方法

处理方法方法一：执行以下命令，查看GPU使用情况并停掉所有占用GPU的进程。 nvidia-smi 执行以下命令，重置GPU。 nvidia-smi -r 执行以下命令，查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No，说明当前已无待隔离页。方法二：执行以下命令，重启服务器。 reboot 执行以下命令，查看是否存在待隔离页。 nvidia-smi -q -d PAGE_RETIREMENT 如果Pending Page Blacklist 为No，说明当前已无待隔离页。

弹性云服务器 ECS

弹性云服务器 ECS-故障信息收集方法

故障信息收集方法用户可使用故障信息收集脚本一键收集所有信息或使用命令进行获取相应信息。故障信息一键收集脚本使用方法如下：故障信息一键收集脚本下载地址：https://hgcs-drivers-cn-north-4.obs.cn-north-4.myhuaweicloud.com/release/script/diagnose_gpu.sh 执行bash diagnose_gpu.sh命令，将信息收集到信息文件diagnose_gpu_xxxxx.tar.gz进行自排查或工单联系技术支持。使用命令获取信息请参考表1。表1 获取信息方法信息分类相关文档显卡基本信息如何获取显卡ID 如何查询显卡详细信息如何查询显卡在位信息显卡故障信息(Linux) 如何查询NVIDIA的错误信息如何查询XID报错信息 NVIDIA日志收集(Linux) 如何收集NVDIA日志镜像内核信息收集(Linux) 如何查询内核信息驱动安装信息收集(Linux) 如何收集驱动安装信息如何获取显卡ID 如何查询显卡详细信息如何查询显卡在位信息如何查询NVIDIA的错误信息如何查询XID报错信息如何收集NVDIA日志如何查询内核信息如何收集驱动安装信息父主题： GPU实例故障自诊断

弹性云服务器 ECS

弹性云服务器 ECS-如何处理用户使用场景与其选择的驱动、镜像不配套问题:判断方式

判断方式确认用户业务使用场景。用户使用的镜像是否带驱动、是否已经自行安装驱动、驱动是否与使用场景匹配。如果用户使用的是异构发布的公共镜像，可通过镜像名称区分驱动类型与驱动版本。镜像名称中如带有with tesla字样，则选择该镜像会安装tesla驱动；如带有with grid字样，则选择该镜像会安装GRID驱动（不包括License）。如果用户使用的是私有镜像或其他镜像，可通过nvidia-smi命令查询是否安装了驱动以及确认驱动类型、驱动版本。如客户选择自行安装Tesla驱动，请务必告知客户确保Tesla驱动与CUDA软件的版本配套关系，可参考Tesla驱动及CUDA工具包获取方式。

弹性云服务器 ECS

云服务器内容精选

弹性云服务器 ECS

7*24

备案

专业服务

退订

建议反馈

售前咨询热线