AI开发平台MODELARTS-节点故障定位:故障说明和处理建议

时间:2024-05-16 10:24:58

故障说明和处理建议

图1 Lite池故障处理流程

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。

当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。

support.huaweicloud.com/usermanual-modelarts-lite/usermanual-modelarts-lite-0208.html