AI开发平台MODELARTS-日志提示“No space left on device”:原因分析

时间:2024-05-24 09:52:10

原因分析

出现该问题的可能原因如下。

  • 磁盘空间不足。
  • 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50G,只有默认的10GB,导致作业训练失败。
  • 实际存储空间足够,却依旧报错“No Space left on device”。

    同一目录下创建较多文件,为了加快文件检索速度,内核会创建一个索引表,短时间内创建较多文件时,会导致索引表达到上限,进而报错。

    触发条件和下面的因素有关:

    • 文件名越长,文件数量的上限越小。
    • blocksize越小,文件数量的上限越小。( blocksize,系统默认 4096B。总共有三种大小:1024B、2048B、4096B)
    • 创建文件越快,越容易触发。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0041.html