AI开发平台MODELARTS-常见的磁盘空间不足的问题和解决办法:原因分析

时间:2023-11-24 17:23:12

原因分析

出现该问题的可能原因如下:

  • 本地数据、文件保存将"/cache"目录空间用完。
  • 数据处理过程中对数据进行解压,导致数据大小膨胀,将"/cache"目录空间用完。
  • 数据未保存至/cache目录或者/home/ma-user/目录(/cache会软连接成/home/ma-user/),导致数据占满系统目录。系统目录仅支持系统功能基本运行,无法支持大数据存储。
  • 部分训练任务会在训练过程中生成checkpoint文件,并进行更新。如更新过程中,未删除历史的checkpoint文件,会导致/cache目录逐步被用完。
  • 实际存储空间足够,却依旧报错“No Space left on device”。可能触发操作系统的文件索引缓存问题,导致操作系统无法创建文件,造成用户磁盘占满。

    触发条件和下面的因素有关:

    • 文件名越长,文件数量的上限越小
    • blocksize越小,文件数量的上限越小。( blocksize,系统默认 4096B。总共有三种大小:1024B、2048B、4096B)
    • 创建文件越快,越容易触发(机制大概是:有一个缓存,这块大小和上面的1和2有关,目录下文件数量比较大时会启动,使用方式是边用边释放)
  • 程序运行过程中,产生了core文件,core文件占满了"/"根目录空间。
support.huaweicloud.com/trouble-modelarts/modelarts_trouble_0040.html