AI开发平台MODELARTS-节点故障定位:故障说明和处理建议
故障说明和处理建议
对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondtition中。同时,节点故障指标默认会上报到AOM,您可在AOM配置告警通知。
当发生节点异常时,在故障初步分析阶段,您可先按表1识别是否为亚健康并自助进行处理,若不是,则为故障,请联系客户经理发起维修流程(若无客户经理可提交工单)。
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts计费说明_计费简介_ModelArts怎么计费
- ModelArts推理部署_服务_访问公网-华为云
- ModelArts分布式训练_分布式训练介绍_分布式调测
- ModelArts是什么_AI开发平台_ModelArts功能
- ModelArts模型训练_超参搜索简介_超参搜索算法
- 多媒体信息处理技术_媒体处理_数字媒体处理
- GaussDB告警_GaussDB数据库告警事件_高斯数据库告警事件_华为云
- 分布式云原生容器智能分析_华为云分布式云原生_华为云UCS容器智能分析
- 云原生是什么_华为云分布式云原生如何收费_分布式云原生价格