云容器引擎 CCE-XGPU视图:指标说明

时间:2024-05-17 11:30:03

指标说明

图1 XGPU资源指标
表1 XGPU视图图表说明

图表名称

单位

说明

集群-XGPU设备显存使用率

百分比

集群的GPU虚拟化设备显存使用率

计算公式:集群中所有XGPU设备的显存使用量之和 / 集群显存总量

集群-XGPU设备算力使用率

百分比

集群的GPU虚拟化设备算力使用率

计算公式:集群中所有XGPU设备的算力使用量之和 / 集群算力总量

节点-XGPU设备显存使用率

百分比

每个节点的GPU虚拟化设备显存使用率

计算公式:节点上所有XGPU设备的显存使用量之和 / 节点显存总量

节点-XGPU设备算力使用率

百分比

每个节点的GPU虚拟化设备算力使用率

计算公式:节点上所有XGPU设备的算力使用量之和 / 节点算力总量

节点-XGPU设备数量

每个节点的GPU虚拟化设备数量

节点-XGPU设备显存分配量

字节

每个节点上的GPU虚拟化设备显存总量

GPU卡-XGPU设备显存使用率

百分比

每张GPU卡上的GPU虚拟化设备显存使用率

计算公式:显卡上所有XGPU设备的显存使用量之和 / 显卡显存总量

GPU卡-XGPU设备显存分配量

字节

每张GPU卡上的GPU虚拟化设备的显存总量

GPU卡-XGPU设备显存分配率

百分比

每张GPU卡上的GPU虚拟化设备的显存总量占这张GPU卡显存总量的比例

计算公式:显卡上所有XGPU设备能使用的显存上限之和 / 显卡显存总量

GPU卡-XGPU设备算力使用率

百分比

每张GPU卡的GPU虚拟化设备的算力使用率

计算公式:显卡上所有XGPU设备当前所使用的算力之和 / 显卡算力总量

GPU卡-XGPU设备数量

每张GPU卡的GPU虚拟涉笔的数量

GPU卡-调度策略

数字

  • 0为显存隔离算力共享模式
  • 1为显存算力隔离模式
  • 2为默认模式表示当前卡还没被用于XGPU设备分配

GPU卡-不健康的XGPU设备数量

每张GPU卡的不健康的GPU虚拟化设备的数量

容器显存分配量

字节

容器所能使用的显存上限

容器算力使用率

百分比

每个容器的算力使用率

计算公式:XGPU设备上容器算力使用量 / XGPU设备算力总量

容器显存使用量

字节

每个容器的显存使用量

容器显存使用率

百分比

每个容器的显存使用率

计算公式:XGPU设备上容器显存使用量 / XGPU设备显存总量

support.huaweicloud.com/usermanual-cce/cce_10_0760.html