医疗智能体 EIHEALTH-作业执行失败排查思路:场景2

时间:2024-05-21 10:12:41

场景2

作业投递后处于运行中,但是无日志打印,也没有任何符合预期的输出文件生成。

排查思路

  1. 首先需要用户自行确认一下投递的作业是否会在控制台打印日志,如果是有重定向日志输出到具体文件的话,此处无日志为正常现象。
  2. 子任务的事件中,确认作业子任务的实例是否有正常创建。
    图2 子任务的事件
  3. 查看实例的事件,查看实例是否有正常创建。
    图3 实例的事件

解决方法

  • 若子任务未正常创建,请联系服务技术支持解决。
  • 若子任务正常创建,但是实例未正常创建,可以通过事件信息分析,常见有以下问题场景和对应解决方案。
    • 0/4 nodes are available: XXX Insufficient cpu 或者 XXX Insufficient memory。该场景表示当前集群中无充足的计算资源,可以根据实际需要提前结束掉其他作业或notebook来释放资源,也可以进入系统资源页面购买新节点。
    • 0/4 nodes are available: XXX node(s) didn't match node selector。该场景表示当前集群中无计算资源满足标签要求,用户可以进入系统资源页面,选择节点,通过标签管理给节点添加标签。
    • 其他场景可以联系服务技术支持解决。
support.huaweicloud.com/usermanual-eihealth/eihealth_25_0083.html