Search_HUAWEI CLOUD

Notebook Cache盘告警上报 - AI开发平台ModelArts

Notebook Cache盘告警上报创建Notebook时，可以根据业务数据量的大小选择CPU、GPU或者Ascend资源，对GPU或Ascend类型的资源，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用Notebook进行AI开发调试 > 管理Notebook实例
Standard资源池功能介绍 - AI开发平台ModelArts

Standard资源池功能介绍资源池是一种集中管理和分配计算（CPU、内存）、存储（硬盘空间）、网络（带宽、IP地址）等资源的机制，实现资源的高效利用、灵活分配和动态管理。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > ModelArts Standard资源管理
从Manifest文件导入规范说明 - AI开发平台ModelArts

300</height> <depth>3</depth> </size> <segmented>1</segmented> <mask_source>obs://xianao/out/dataset-8153-Jmf5ylLjRmSacj9KevS

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 数据准备与处理 > 导入数据到ModelArts数据集 > 从OBS导入数据到ModelArts数据集
ModelArts训练中不同规格资源“/cache”目录的大小是多少？ - AI开发平台ModelArts

ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源，不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%，所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。

帮助中心 > AI开发平台ModelArts > 常见问题 > Standard模型训练
训练作业 - AI开发平台ModelArts
训练作业 - AI开发平台ModelArts

训练作业 OBS操作相关故障云上迁移适配故障硬盘限制故障外网访问限制权限问题 GP相关问题业务代码问题训练作业卡死训练作业运行失败专属资源池创建训练作业训练作业性能问题

 帮助中心 > AI开发平台ModelArts > 故障排除
查询资源规格列表 - AI开发平台ModelArts

取值范围：可选值如下： SSD：超高IO硬盘 GPSSD：通用型SSD SAS：高IO硬盘默认取值：不涉及。 size String 参数解释：磁盘大小，单位为Gi。约束限制：不涉及。取值范围：不涉及。默认取值：不涉及。

帮助中心 > AI开发平台ModelArts > API参考 > 资源管理
开发用于预置框架训练的代码 - AI开发平台ModelArts

在训练作业启动后，ModelArts会挂载硬盘至“/cache”目录，用户可以使用此目录来存储临时文件。“/cache”目录大小请参考训练环境中不同规格资源“/cache”目录的大小。训练输出路径参数建议设置一个空目录为训练输出路径。在训练代码中，您需要解析输出路径参数。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 准备模型训练代码
Standard资源池节点故障定位 - AI开发平台ModelArts

A050206 Runtime 其他 Kubelet硬盘只读。 “/mnt/paas/kubernetes/kubelet”目录为只读状态。 A050801 节点管理节点运维资源预留。节点被标记为备机，并具有备机污点。 A050802 节点管理节点运维未知错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > 资源池
如何定位和处理Cluster资源池节点故障 - AI开发平台ModelArts

NT_KUBE_DISK_READONLY_CHECK Runtime 其他 Kubelet硬盘只读以下目录只读： /mnt/paas/kubernetes/kubelet 发起维修流程。 NT_GPU_SMI_ECC_CHECK GPU 显存 GPU ECC错误。

帮助中心 > AI开发平台ModelArts > 故障排除 > Lite Cluster
开发用于自定义镜像训练的代码 - AI开发平台ModelArts

/cache 否裸机规格支持，挂载宿主机NVMe的硬盘。 /dev/shm 否用于PyTorch引擎加速。 /usr/local/nvidia 是宿主机的NV库。

帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > 使用ModelArts Standard训练模型 > 准备模型训练代码
在ModelArts Standard上运行多机多卡训练作业 - AI开发平台ModelArts

建议linux服务器申请的时候，有足够大的内存（8G以上）以及足够大的硬盘（100G以上）。 docker和linux的文件交互命令如下： docker cp data/ 39c9ceedb1f6:/cache/ 数据准备完成后，启动训练的脚本，查看训练是否能够正常拉起。

帮助中心 > AI开发平台ModelArts > 最佳实践 > Standard模型训练 > 基于ModelArts Standard运行训练作业
使用AOM查看Lite Cluster监控指标 - AI开发平台ModelArts

CPU IO等待时间 ma_node_cpu_iowait_counter 从系统启动开始累计到当前时刻，硬盘IO等待时间 jiffies ≥0 NA NA NA 内存物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比

 帮助中心 > AI开发平台ModelArts > ModelArts Lite Cluster用户指南 > Lite Cluster资源管理 > 监控Lite Cluster资源
在AOM控制台查看ModelArts所有监控指标 - AI开发平台ModelArts

CPU IO等待时间 ma_node_cpu_iowait_counter 从系统启动开始累计到当前时刻，硬盘IO等待时间 jiffies ≥0 NA NA NA 内存物理内存使用率 ma_node_memory_util 该指标用于统计测量对象已使用内存占申请物理内存总量的百分比

 帮助中心 > AI开发平台ModelArts > ModelArts Standard用户指南 > ModelArts Standard资源监控

总条数： 113

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消