Notebook Cache盘告警上报 创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。
Standard资源池功能介绍 资源池是一种集中管理和分配计算(CPU、内存)、存储(硬盘空间)、网络(带宽、IP地址)等资源的机制,实现资源的高效利用、灵活分配和动态管理。
300</height> <depth>3</depth> </size> <segmented>1</segmented> <mask_source>obs://xianao/out/dataset-8153-Jmf5ylLjRmSacj9KevS
ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GP相关问题 业务代码问题 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题
取值范围:可选值如下: SSD:超高IO硬盘 GPSSD:通用型SSD SAS:高IO硬盘 默认取值:不涉及。 size String 参数解释:磁盘大小,单位为Gi。 约束限制:不涉及。 取值范围:不涉及。 默认取值:不涉及。
在训练作业启动后,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来存储临时文件。“/cache”目录大小请参考训练环境中不同规格资源“/cache”目录的大小。 训练输出路径参数 建议设置一个空目录为训练输出路径。在训练代码中,您需要解析输出路径参数。
A050206 Runtime 其他 Kubelet硬盘只读。 “/mnt/paas/kubernetes/kubelet”目录为只读状态。 A050801 节点管理 节点运维 资源预留。 节点被标记为备机,并具有备机污点。 A050802 节点管理 节点运维 未知错误。
NT_KUBE_DISK_READONLY_CHECK Runtime 其他 Kubelet硬盘只读 以下目录只读: /mnt/paas/kubernetes/kubelet 发起维修流程。 NT_GPU_SMI_ECC_CHECK GPU 显存 GPU ECC错误。
/cache 否 裸机规格支持,挂载宿主机NVMe的硬盘。 /dev/shm 否 用于PyTorch引擎加速。 /usr/local/nvidia 是 宿主机的NV库。
建议linux服务器申请的时候,有足够大的内存(8G以上)以及足够大的硬盘(100G以上)。 docker和linux的文件交互命令如下: docker cp data/ 39c9ceedb1f6:/cache/ 数据准备完成后,启动训练的脚本,查看训练是否能够正常拉起。
CPU IO等待时间 ma_node_cpu_iowait_counter 从系统启动开始累计到当前时刻,硬盘IO等待时间 jiffies ≥0 NA NA NA 内存 物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比
CPU IO等待时间 ma_node_cpu_iowait_counter 从系统启动开始累计到当前时刻,硬盘IO等待时间 jiffies ≥0 NA NA NA 内存 物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比