告警类型 事件 事件类型 系统事件 事件来源 弹性云服务器 监控范围 指定资源 监控对象 超节点内所有子节点。单击选择指定资源,搜索超节点名称,勾选所有,单击“确定”。 触发规则 自定义创建。 告警策略 勾选引用模板,在下拉列表框中选择第2.创建告警规则模板。步创建的告警模板。
Lite Server超节点管理 Lite Server超节点扩容和缩容 Lite Server超节点定期压测 开启超节点HCCL通信算子级重执行机制
Update Server rebootServer Delete Server deleteServer Read Server getServer Update Server syncServer Read Server listbyuserServer Read Server
图4 查看结果 父主题: Lite Server资源使用
图4 查看结果 父主题: Lite Server资源使用
表61 SSHResp 参数 参数类型 描述 key_pair_names Array of strings 参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 取值范围:不涉及。
表117 SSHResp 参数 参数类型 描述 key_pair_names Array of strings 参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 取值范围:不涉及。
切换DevServer服务器操作系统镜像 切换DevServer超节点服务器操作系统镜像 查询用户所有超节点实例详情 删除DevServer超节点实例 重启DevServer实例 启动DevServer超节点服务器 停止DevServer超节点服务器
ModelArts Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要
使用Server-Sent Events协议的方式访问在线服务 背景说明 Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。
表60 SSHResp 参数 参数类型 描述 key_pair_names Array of strings 参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 取值范围:不涉及。
支持在以下三个物理层级的通信域中配置重执行特性: L0:Server内通信域 L1:Server间通信域 L2:超节点间通信域 配置方法: 在运行训练任务前,在Server节点中执行以下命令。
确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。
表63 SSHResp 参数 参数类型 描述 key_pair_names Array of strings 参数解释:SSH密钥对名称,可以在云服务器控制台(ECS)“密钥对”页面创建和查看。 取值范围:不涉及。
使用Cloud Shell登录训练容器 使用场景 允许用户使用ModelArts控制台提供的Cloud Shell登录运行中的训练容器。 约束限制 仅专属资源池支持使用Cloud Shell,且训练作业必须处于“运行中”状态。
403 ModelArts.3555 Forbidden to access ECS. 无权访问ECS。 对ECS服务进行开通授权后重试。
在训练作业详情页面,单击“Cloud Shell”页签,登录训练容器。 连接成功后,Cloud Shell界面提示如下。 图1 Cloud Shell界面 当作业处于非运行状态或权限不足时会导致无法使用Cloud Shell,请根据提示定位原因即可。
如何在ModelArts的Notebook或Lite Server环境里查看CANN路径? 通过环境变量查询 CANN安装后通常会设置相应的环境变量。您可以通过查看这些环境变量来获取安装路径。最常用的环境变量是ASCEND_HOME_PATH。
400 Bad Request 401 Unauthorized 403 Forbidden 500 Server Internal Error 错误码 请参见错误码。 父主题: DevServer管理
400 Bad Request 401 Unauthorized 403 Forbidden 500 Server Internal Error 错误码 请参见错误码。 父主题: DevServer管理