云容器引擎 CCE-工作负载异常:GPU节点部署服务报错:建议方案

时间:2023-11-01 16:18:15

建议方案

节点安装了gpu-device-plugin插件后,nvidia-smi命令行工具在/opt/cloud/cce/nvidia/bin目录下。如果插件安装后,依然没有这个命令行工具,通常是由于nvidia驱动安装失败。请排查nvidia驱动是否下载成功。(在/opt/cloud/cce/nvidia目录下可以看到驱动文件)

如果驱动地址填写错误,需要将插件卸载后重新安装,并配置正确的地址。

nvidia驱动建议放在OBS桶里,并设置为公共读。

support.huaweicloud.com/cce_faq/cce_faq_00109.html