AI开发平台MODELARTS-如何通过训练日志定位问题
如何通过训练日志定位问题
在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。
ModelArts提供了训练作业失败定位与分析功能,如果训练作业运行失败,ModelArts会自动识别导致作业失败的原因,在训练日志界面上给出提示。提示包括三部分:失败的可能原因、推荐的解决方案以及对应的日志(底色标红部分)。
![点击放大](https://support.huaweicloud.com/develop-modelarts/figure/zh-cn_image_0000001399801638.png)
ModelArts会对部分常见训练错误给出分析建议,目前还不能识别所有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。
常见训练问题定位思路如下:
- 根据日志界面提示中提供的分析建议解决。
- 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
- 重建作业:建议重建作业进行重试,大概率能修复问题。
- 上一步不能解决问题时,可以尝试分析日志中提示的错误信息,定位并解决问题。
- 也可以前往ModelArts论坛中查看是否有同类问题。Ascend训练场景可以前往昇腾论坛查看或提问。
- 最后,如果以上均不能解决问题,可以提工单进行人工咨询。
- 如何进行日志采集和转储_日志平台_日志接入_日志转储
- ModelArts分布式训练_分布式训练介绍_分布式调测
- 日志监控与告警_日志告警规则_如何配置日志告警_日志分析_日志服务
- 如何实时查看日志_日志管理平台_日志服务-华为云
- 弹性负载均衡哪家好_使用访问日志定位异常后端服务器_弹性负载均衡ELB常见问题
- ModelArts推理部署_创建AI应用_自定义镜像规范-华为云
- 如何配置云日志告警_日志告警配置_云日志服务LTS-华为云
- 云日志服务是如何计费的_云日志服务_计费说明
- ModelArts推理部署_纳管Atlas 500_边缘服务-华为云
- ModelArts是什么_AI开发平台_ModelArts功能