云容器引擎 CCE-XGPU视图:指标清单
指标清单
指标名称 |
类型 |
说明 |
---|---|---|
xgpu_memory_total |
Gauge |
XGPU显存总量 |
xgpu_memory_used |
Gauge |
XGPU显存使用量 |
xgpu_core_percentage_total |
Gauge |
XGPU算力总量 |
xgpu_core_percentage_used |
Gauge |
XGPU算力使用率 |
gpu_schedule_policy |
Gauge |
GPU模式分成0、1、2三种,具体说明如下:
|
xgpu_device_health |
Gauge |
XGPU设备的健康情况。当前虚拟化域侧并没有提供特定的接口来检查XGPU的健康情况,所以根据XGPU设备所在物理GPU设备的健康情况反推。0表示XGPU设备为健康状态,1表示为非健康状态。 |