AI开发平台MODELARTS-如何定位和处理Cluster资源池节点故障:故障说明和处理建议
故障说明和处理建议

对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中。同时,节点故障指标默认会上报到 AOM ,您可在AOM配置告警通知。
当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。