使训练作业的创建更灵活、易用 提供实验管理能力,用户通常需要调整数据集、调整超参等进行多轮作业从而选择最理想的作业,模型训练支持统一管理多个训练作业,方便用户选择最优的模型 提供训练作业的事件信息(训练作业生命周期中的关键事件点)、训练日志(训练作业运行过程和异常信息)、资源监控(资源使用率数据)、Cloud
表2 HTTP方法 方法 说明 GET 请求服务器返回指定资源。 PUT 请求服务器更新指定资源。 POST 请求服务器新增资源或执行特殊操作。 DELETE 请求服务器删除指定资源,如删除对象等。 HEAD 请求服务器资源头部。 PATCH 请求服务器更新资源的部分内容。
它支持两种主要模式: 单机多卡数据并行(DataParallel, DP):在同一台服务器上使用多张GPU卡,通过数据并行的方式加速训练。适用于需要充分利用单台服务器多GPU资源的场景。
表3 config属性列表 参数 是否必选 参数类型 说明 worker_server_num 是 Integer 训练作业worker的个数。最大值请从查询作业资源规格接口返回的“max_num”值获取。 app_url 是 String 训练作业的代码目录。
GPU节点: 插件版本为2.0.0以下时,请执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi 插件版本为2.0.0及以上时,请执行以下命令: cd /usr/local/nvidia/bin && .
如何根据Cluster节点故障自动恢复业务 AI服务器单点硬件故障不可避免,在大规模算力使用场景下,资源池规模越大存在硬件故障的可能性越高。当发生硬件故障时可能会影响节点上服务的正常运行。
RTT includes network transit time and server execution time. RTT is a good measurement for NFS latency.
ModelArts Lite Server和ModelArts Lite Cluster使用的都是专属资源池。
worker_server_num 是 Integer 训练作业worker的个数,最大值请从查询作业资源规格接口获取。 app_url 是 String 训练作业的代码目录。如:“/usr/app/”。
如何在ModelArts的Notebook或Lite Server环境里查看CANN路径?
表1 适用计费项 计费项 说明 计算资源 ModelArts Standard专属资源池 ModelArts Lite Cluster资源池 ModelArts Lite Server资源池 包括vCPU、GPU和NPU。
worker_server_num 是 Integer 训练作业worker的个数,最大值请从查询作业资源规格接口获取。 app_url 是 String 训练作业的代码目录。如:“/usr/app/”。
{endpoint}/v1/{project_id}/services/{service_id}/app-auth-apis/{api_id} 响应示例 无 状态码 状态码 描述 204 No Content 401 Unauthorized 403 Forbidden 500 Server
如果首次登录,PuTTY会显示安全警告对话框,询问是否接受服务器的安全证书。单击“Accept”将证书保存到本地注册表中。 图6 询问是否接受服务器的安全证书 成功连接到云上Notebook实例。
403 Forbidden 服务器拒绝执行。 404 Not Found 服务器找不到请求的网页。 500 Internal Server Error 服务内部错误。
ModelArts Lite Server和Lite Cluster资源池不支持变更计费模式。 操作步骤 登录ModelArts控制台。
Deployment volcano-admission Webhook server端,负责Pod、Job等资源的校验和更改。
Deployment volcano-admission Webhook server端,负责Pod、Job等资源的校验和更改。
表3 config属性列表 参数 是否必选 参数类型 说明 worker_server_num 是 Integer 训练作业worker的个数。最大值请从查询作业资源规格接口获取。 app_url 是 String 训练作业的代码目录。如:“/usr/app/”。
(可选)本地服务器安装ModelArts SDK 介绍如何在本地安装ModelArts SDK。 (可选)Session鉴权 Session模块的主要作用是实现与公有云资源的鉴权,并初始化ModelArts SDK Client、OBS Client。