Notebook Cache盘告警上报 创建Notebook时,可以根据业务数据量的大小选择CPU、GPU或者Ascend资源,对GPU或Ascend类型的资源,ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。 当前开发环境的Cache盘使用时
Standard资源池功能介绍 资源池是一种集中管理和分配计算(CPU、内存)、存储(硬盘空间)、网络(带宽、IP地址)等资源的机制,实现资源的高效利用、灵活分配和动态管理。 ModelArts Standard资源池提供了在使用ModelArts进行AI开发(包括创建Workflow
300</height> <depth>3</depth> </size> <segmented>1</segmented> <mask_source>obs://xianao/out/dataset-8153-Jmf5ylLjRmSacj9KevS
ModelArts训练中不同规格资源“/cache”目录的大小是多少? 在创建训练作业时可以根据训练作业的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是
训练作业 OBS操作相关故障 云上迁移适配故障 硬盘限制故障 外网访问限制 权限问题 GP相关问题 业务代码问题 训练作业卡死 训练作业运行失败 专属资源池创建训练作业 训练作业性能问题
查询资源规格列表 功能介绍 查询资源规格列表。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/resourceflavors
Standard资源池节点故障定位 节点故障定位 对于Standard资源池,ModelArts平台在识别到节点故障后,通过给K8S节点增加污点的方式(taint)将节点隔离避免新作业调度到该节点而受到影响,并且使本次作业不受污点影响。当前可识别的故障类型如下,可通过隔离码及对应检测方法定位故障
开发用于预置框架训练的代码 在使用ModelArts Standard平台进行算法开发时,开发者需要利用预置框架来构建和训练模型。然而,预置框架虽然提供了基础功能,但可能无法完全满足特定的业务需求,需要进行定制化开发。为了确保预置框架能够与具体的业务需求完美结合,开发者需要在使用预置框架创建算法之前
如何定位和处理Cluster资源池节点故障 故障说明和处理建议 图1 Lite池故障处理流程 对于ModelArts Lite资源池,每个节点会以DaemonSet方式部署node-agent组件,该组件会检测节点状态,并将检测结果写到K8S NodeCondition中。同时,节点故障指标默认会上报到
开发用于自定义镜像训练的代码 在使用 ModelArts Standard 进行模型训练时,平台提供了多种预置框架和算法,能够满足大部分用户的需求。然而,当预置框架和算法确实无法满足需求时,ModelArts Standard 提供了自定义镜像训练的功能,为用户提供了一个灵活的解决方案
在ModelArts Standard上运行多机多卡训练作业 操作流程 准备工作: 购买服务资源(VPC/SFS/OBS/SWR/ECS) 配置权限 创建专属资源池(打通VPC) ECS服务器挂载SFS Turbo存储 在ECS中设置ModelArts用户可读权限 安装和配置OBS
使用AOM查看Lite Cluster监控指标 ModelArts Lite Cluster会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况并上报到AOM,用户可直接在AOM上查看默认配置好的基础指标,也支持用户自定义一些指标项上报到AOM查看
在AOM控制台查看ModelArts所有监控指标 ModelArts会定期收集资源池中各节点的关键资源(GPU、NPU、CPU、Memory等)的使用情况以及开发环境、训练作业、推理服务的关键资源的使用情况,并上报到AOM,用户可直接在AOM上查看。 登录AOM控制台查看监控指标