AI开发平台MODELARTS-为什么资源充足还是在排队?

时间:2024-04-30 17:35:44

为什么资源充足还是在排队?

  • 如果是公共资源池,一般是由于其他用户占用资源导致,请耐心等待或根据训练作业一直在等待中(排队)?方法降低排队时间。
  • 如果是专属资源池,建议您进行以下排查:
    1. 排查专属资源池中是否存在其他作业(包括推理作业、训练作业、开发环境作业等)。

      可通过总览页面,快速判断是否有其他模块的作业或实例在运行中,并进入到相关作业或实例上,判断是否使用了专属资源池。如判断相关作业或实例可停止,则可以停止,释放出更多的资源。

      图1 总览
    2. 单击进入专属资源池详情页面,查看作业列表。

      观察队头是否有其他作业在排队,如果已有作业在排队,则新建的作业需要继续等待。

      图2 作业排队列表
    3. 如果通过排查计算,发现资源确实足够,则考虑可能由于资源碎片化导致的。

      例如,集群共2个节点,每个节点都空闲了4张卡,总剩余卡数为8张卡,但用户的作业要求为1节点8张卡,因此无法调度上。

support.huaweicloud.com/modelarts_faq/modelarts_05_3210.html