云容器引擎 CCE-工作负载异常:GPU节点部署服务报错:建议方案
建议方案
节点安装了gpu-device-plugin插件后,nvidia-smi命令行工具在/opt/cloud/cce/nvidia/bin目录下。如果插件安装后,依然没有这个命令行工具,通常是由于nvidia驱动安装失败。请排查nvidia驱动是否下载成功。(在/opt/cloud/cce/nvidia目录下可以看到驱动文件)
如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。
nvidia驱动建议放在OBS桶里,并设置为公共读。