-
监控GPU资源指标 - 云容器引擎 CCE
图1 访问Prometheus 单击“Status > Targets”,可以查看到Prometheus监控了哪些目标。 图2 查看监控目标 监控GPU指标 创建一个使用GPU的工作负载,等工作负载正常运行后,访问Prometheus,在“Graph”页面中,查看GPU指标。
-
GPU设备显示异常 - 弹性云服务器 ECS
图1 系统日志 执行以下命令,开启驱动持久化模式。 nvidia-smi -pm 1 执行以下命令,打开并编辑“/etc/rc.local”文件。
-
CCE推荐的GPU驱动版本列表 - 云容器引擎 CCE
GPU驱动支持列表 当前GPU驱动支持列表仅针对1.2.28及以上版本的GPU插件。 如果您需要安装最新版本的GPU驱动,请将您的GPU插件升级到最新版本。
-
GPU故障处理 - 云容器引擎 CCE
GPU故障处理 前提条件 如需将GPU事件同步上报至AOM,集群中需安装云原生日志采集插件,您可前往AOM服务查看GPU插件隔离事件。 GPU插件隔离事件 当GPU显卡出现异常时,系统会将出现问题的GPU设备进行隔离,详细事件如表1所示。
-
GPU驱动异常怎么办? - 弹性云服务器 ECS
方法2:查询云服务器安装的驱动版本:whereis nvidia 图1 查询安装的驱动版本 根据查询的驱动版本从NVIDIA官网下载驱动包(此处重新下载驱动包是为了执行卸载动作,且后续重新安装驱动时需要此安装包)。
-
GPU虚拟化概述 - 华为云UCS
GPU虚拟化概述 UCS On Premises GPU采用xGPU虚拟化技术,能够动态对GPU设备显存与算力进行划分,单个GPU卡最多虚拟化成20个GPU虚拟设备。
-
GPU驱动不可用 - 弹性云服务器 ECS
图1 GPU驱动不可用 可能原因 系统内核进行了升级,导致在新内核上,GPU驱动不可用。
-
GPU调度 - 云容器引擎 CCE
GPU调度 GPU节点驱动版本 使用Kubernetes默认GPU调度 GPU虚拟化 监控GPU资源指标 基于GPU监控指标的弹性伸缩实践 GPU故障处理 父主题: 调度
-
训练作业找不到GPU - AI开发平台ModelArts
若未进行添加配置则该编号对应的GPU不可用。 父主题: GPU相关问题
-
Serverless GPU使用介绍 - 函数工作流 FunctionGraph
Serverless GPU使用介绍 概述 应用场景 父主题: GPU函数管理
-
GPU实例故障处理流程 - 弹性云服务器 ECS
图1 GPU实例故障处理流程 父主题: GPU实例故障自诊断
-
通过节点池升级节点的GPU驱动版本 - 云容器引擎 CCE
通过节点池升级节点的GPU驱动版本 如果您使用的CUDA库无法与当前的NVIDIA驱动版本匹配,您需要升级节点的驱动版本才可以正常使用GPU节点。
-
创建GPU虚拟化应用 - 华为云UCS
在“容器配置>基本信息”中设置GPU配额: 显存:显存值单位为Mi,需为正整数,若配置的显存超过单张GPU卡的显存,将会出现无法调度状况。 算力:算力值单位为%,需为5的倍数,且最大不超过100。 图1 配置工作负载信息 配置其余信息,完成后单击“创建”。
-
监控GPU虚拟化资源 - 华为云UCS
选择“仪表盘”,在“集群视图”旁单击“切换视图”,切换为“XGPU视图”。 图1 仪表盘 查看xGPU视图。 父主题: GPU虚拟化
-
GPU实例故障分类列表 - 弹性云服务器 ECS
GPU实例故障分类列表 GPU实例故障的分类列表如表1所示。
-
准备GPU虚拟化资源 - 华为云UCS
图1 为虚拟化节点打标签 步骤二:安装插件 如果您的集群中已安装符合基础规划的插件,您可以跳过此步骤。 更改驱动版本后,需要重启节点才能生效。
-
如何避免非GPU/NPU负载调度到GPU/NPU节点? - 云容器引擎 CCE
示例中,为GPU/NPU节点添加accelerator=true:NoSchedule的污点。 图1 添加污点 创建GPU/NPU工作负载时,在高级配置中,手动添加容忍策略,容忍该污点。 图2 容忍策略 普通工作负载创建时,无需添加容忍策略。
-
GPU节点驱动版本 - 云容器引擎 CCE
GPU节点驱动版本 选择GPU节点驱动版本 CCE推荐的GPU驱动版本列表 手动更新GPU节点驱动版本 通过节点池升级节点的GPU驱动版本 父主题: GPU调度
-
基于GPU监控指标的弹性伸缩实践 - 云容器引擎 CCE
图5 HPA策略创建成功 父主题: GPU调度
-
GPU插件检查 - 云容器引擎 CCE
GPU插件检查 检查项内容 检查到本次升级涉及GPU插件,可能影响新建GPU节点时GPU驱动的安装。 解决方案 由于当前GPU插件的驱动配置由您自行配置,需要您验证两者的兼容性。建议您在测试环境验证安装升级目标版本的GPU插件,并配置当前GPU驱动后,测试创建节点是否正常使用。