表1 不同场景所需服务及购买推荐 场景 OBS SFS SWR DEW ModelArts VPC ECS EVS 单机单卡 按需购买(并行文件系统) × 免费 免费 包月购买 免费 × 按需购买 单机多卡 × 包月购买 (HPC型500G) 免费 免费 包月购买 免费 包月购买
如果是在Notebook使用MoXing复制数据不成功,可以在Terminal界面中使用df -hT命令查看空间大小,排查是否因空间不足导致,可在创建Notebook时使用EVS挂载。 如果代码写作正确,仍然无法解决该问题,请提交工单,由专业工程师为您分析并解决问题。
类似开源数据集这样的远端文件上传,请参考支持上传远端文件; 在Notebook的使用中,可以快速查找实例,可以在同一个Notebook实例中切换镜像,方便用户灵活调整实例的AI引擎;可以切换节点运行规格,方便用户灵活调整规格资源;可以初期存储使用量较小时选择小存储,可以在创建完成后根据需要扩充EVS
由于资源池启用了开发环境,缩容后可能导致已经创建的使用EVS存储的Notebook不可用。 缩容操作可能影响到正在运行的业务,建议用户在业务空窗期进行缩容,或进入资源池详情页面查看资源池节点,在指定空闲的节点上进行删除来实现缩容。
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到
OOM导致训练作业失败 问题现象 因为OOM导致的训练作业失败,会有如下几种现象。 错误码返回137,如下图所示。 Modelarts Service Log Trainina end with return code: 137 Modelarts Service Log]handle
日志文件的大小达到限制 问题现象 ModelArts训练作业在运行过程中报错,提示日志文件的大小已达到限制: modelarts-pope: log length overflow(max:1073741824; already: 107341771; new:90), process
复制数据至容器中空间不足 问题现象 ModelArts训练作业运行时,日志中遇到如下报错,导致数据无法复制至容器中。 OSError:[Errno 28] No space left on device 原因分析 数据下载至容器的位置空间不足。 处理方法 请排查是否将数据下载至“/
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下
枚举类型,取值如下: EFS EVS vcpus Integer 参数解释:CPU核数。 取值范围:不涉及。 表5 AscendInfo 参数 参数类型 描述 npu Integer 参数解释:NPU数量。 取值范围:不涉及。
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的
停止Notebook实例时,EVS还会持续计费。如果要停止计费,需删除Notebook实例。 训练作业:停止训练作业。删除存储到OBS中的数据及OBS桶。 在线服务:停止在线服务。删除存储到OBS中的数据及OBS桶。 专属资源池:删除专属资源池。
devserver-dd50 1e0d95ad-5a9f-46e3-9ba6-c5f8fcxxxx 事件类型 事件类型具体参见表1。 超节点重部署 事件状态 待授权:问询中,等待您授权,授权后会进入已授权状态。
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完
Tensorflow多节点作业下载数据到/cache显示No space left 问题现象 创建训练作业,Tensorflow多节点作业下载数据到/cache显示:“No space left”。 原因分析 TensorFlow多节点任务会启动parameter server(简称
节点数据盘类型(可选) 单击“增加数据盘”,可以在创建Lite Server时挂载云上EVS数据盘。暂不支持挂载本地磁盘。 此处支持选择“节点数据盘类型”,并设置“大小”和数据盘“数量”。 数据盘大小取值范围在100GiB和32768GiB之间。
300</height> <depth>3</depth> </size> <segmented>1</segmented> <mask_source>obs://xianao/out/dataset-8153-Jmf5ylLjRmSacj9KevS
数据盘类型(可选) 单击“添加数据盘”,可以在创建Lite Server时挂载云上EVS数据盘。暂不支持挂载本地磁盘。 此处支持选择数据盘的类型,并设置大小和数据盘个数。数据盘大小取值范围在100GiB和32768之间。BMS或ECS类型的机器,数据盘个数上限是59块。
400 ModelArts.6331 The evs volume size ranges from {} GB to {} GB. EVS磁盘大小超限 请检查EVS磁盘大小。 400 ModelArts.6332 Incorrect parameter type.
节点数据盘类型(可选) 单击“增加数据盘”,可以在创建Lite Server时挂载云上EVS数据盘。暂不支持挂载本地磁盘。 此处支持选择“节点数据盘类型”,并设置“大小”和数据盘“数量”。 数据盘大小取值范围在100GiB和32768GiB之间。