云容器引擎 CCE-XGPU视图:指标清单

时间:2024-05-17 11:30:03

指标清单

XGPU视图使用的指标清单如下:
表2 XGPU指标说明

指标名称

类型

说明

xgpu_memory_total

Gauge

XGPU显存总量

xgpu_memory_used

Gauge

XGPU显存使用量

xgpu_core_percentage_total

Gauge

XGPU算力总量

xgpu_core_percentage_used

Gauge

XGPU算力使用率

gpu_schedule_policy

Gauge

GPU模式分成0、1、2三种,具体说明如下:

  • 0为显存隔离算力共享模式
  • 1为显存算力隔离模式
  • 2为默认模式表示当前卡还没被用于XGPU设备分配

xgpu_device_health

Gauge

XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。

support.huaweicloud.com/usermanual-cce/cce_10_0760.html