AI开发平台MODELARTS-创建训练作业时出现“实例挂卷失败”的事件:处理步骤

时间:2023-11-10 15:38:35

处理步骤

  1. 进入训练作业详情页,在左侧获取SFS Turbo的名称。
    图1 获取SFS Turbo的名称
  2. 登录弹性文件服务SFS控制台,在SFS Turbo列表找到训练作业挂载的SFS Turbo,单击名称进入详情页。获取VPC信息、安全组信息和endpoint信息。
    • VPC信息:SFS Turbo详情页的“虚拟私有云”
    • 安全组信息:SFS Turbo详情页的“安全组”
    • endpoint信息:SFS Turbo详情页的“共享路径”,去除“:/”即为sfs-turbo-endpoint。例如共享路径为“4ab556b5-d689-44f1-9302-24c09daxxxxc.sfsturbo.internal:/”,则sfs-turbo-endpoint为“4ab556b5-d689-44f1-9302-24c09daxxxxc.sfsturbo.internal”。
  3. 查看SFS Turbo的VPC网段是否满足如下2个条件。

    条件一:SFS Turbo网段不能与192.168.20.0/24重叠,否则会和专属资源池的网段发生冲突,因为专属资源池的默认网段为192.168.20.0/24。专属资源池实际使用的网段可以在资源池的详情页面查看“网络”获取。

    条件二:SFS Turbo网段不能与172网段重叠,否则会和容器网络发生冲突,因为容器网络使用的是172网段。

    • 若不满足条件,则修改SFS Turbo的VPC网段,推荐网段为10.X.X.X。具体操作请参见修改虚拟私有云网段
    • 若满足条件,则继续下一步。
  4. 查看SFS Turbo的VPC网段的安全组是否被限制了。
    在所选专属资源池中新建一个未挂载的SFS Turbo的训练作业,当训练作业处于“运行中”时,通过Cloud Shell功能登录训练作业worker-0实例,使用curl {sfs-turbo-endpoint}:{port}命令检查port是否正常打开,SFS Turbo所需要入方向的端口号为111、445、2049、2051、2052、20048,具体请参见创建文件系统的“安全组”参数。Cloud Shell功能的操作指导请参见使用CloudShell登录训练容器
    • 是,则修改安全组的配置,具体操作请参见修改安全组规则
    • 否,则继续下一步。
  5. 确认SFS Turbo是否存在异常。
    新建一个和SFS Turbo在同一个网段的ECS,用ECS去挂载SFS Turbo,如果挂载失败,则表示SFS Turbo异常。
    1. 是,联系SFS服务的技术支持处理。
    2. 否,联系ModelArts的技术支持处理。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0119.html