检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Lite Server超节点管理 Lite Server超节点扩容 Lite Server超节点定期压测 开启超节点HCCL通信算子级重执行机制 授权修复Lite Server超节点
图4 查看结果 父主题: Lite Server资源使用
图4 查看结果 父主题: Lite Server资源使用
切换DevServer服务器操作系统镜像 切换DevServer超节点服务器操作系统镜像 查询用户所有超节点实例详情 删除DevServer超节点实例 重启DevServer实例 启动DevServer超节点服务器 停止DevServer超节点服务器
ModelArts Lite又分以下2种形态: ModelArts Lite Server提供不同型号的xPU裸金属服务器,您可以通过弹性公网IP进行访问,在给定的操作系统镜像上可以自行安装加速卡相关的驱动和其他软件,使用SFS或OBS进行数据存储和读取相关的操作,满足算法工程师进行日常训练的需要
使用Server-Sent Events协议的方式访问在线服务 背景说明 Server-Sent Events(SSE)是一种服务器向客户端推送数据的技术,它是一种基于HTTP的推送技术,服务器可以向客户端推送事件。
支持在以下三个物理层级的通信域中配置重执行特性: L0:Server内通信域 L1:Server间通信域 L2:超节点间通信域 配置方法: 在运行训练任务前,在Server节点中执行以下命令。
使用Cloud Shell登录训练容器 使用场景 允许用户使用ModelArts控制台提供的Cloud Shell登录运行中的训练容器。 约束限制 仅专属资源池支持使用Cloud Shell,且训练作业必须处于“运行中”状态。
确认对应的脚本、代码、流程在linux服务器上运行正常。 如果在linux服务器上运行就有问题,那么先调通以后再做容器镜像。 确认打入镜像的文件是否在正确的位置、是否有正确的权限。
403 ModelArts.3555 Forbidden to access ECS. 无权访问ECS。 对ECS服务进行开通授权后重试。
在训练作业详情页面,单击“Cloud Shell”页签,登录训练容器。 连接成功后,Cloud Shell界面提示如下。 图1 Cloud Shell界面 当作业处于非运行状态或权限不足时会导致无法使用Cloud Shell,请根据提示定位原因即可。
400 Bad Request 401 Unauthorized 403 Forbidden 500 Server Internal Error 错误码 请参见错误码。 父主题: DevServer管理
value" : "v3" }, { "key" : "k4", "value" : "v4" } ] } 响应示例 无 状态码 状态码 描述 200 响应体 400 Bad Request 401 Unauthorized 403 Forbidden 500 Server
k2", "value": "v2" }, { "key": "k3", "value": "v3" }, { "key": "k4", "value": "v4" } ] } 400 Bad Request 401 Unauthorized 403 Forbidden 500 Server
动态扩充云硬盘EVS容量 什么是动态扩容EVS 存储配置采用云硬盘EVS的Notebook实例, 存储盘是挂载至容器/home/ma-user/work/目录下, 可以在实例运行中的状态下,动态扩充存储盘容量,单次最大动态扩容100GB。 动态扩容EVS适用于哪些使用场景 在Notebook
用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 问题现象 当kernelgateway进程被结束后,出现如下报错,以及选不到Kernel。
报错“The VS Code Server failed to start”如何解决? 问题现象 解决方法 检查VS Code版本是否为1.78.2或更高版本,如果是,请查看Remote-SSH版本,如果低于v0.76.1,请升级Remote-SSH。
(可选)本地服务器安装ModelArts SDK 如果需要在个人PC或虚拟机上使用ModelArts SDK,则需要在本地环境中安装ModelArts SDK,安装后可直接调用ModelArts SDK轻松管理数据集、创建ModelArts训练作业及创建AI应用,并将其部署为在线服务
日志出现ECC错误,导致训练作业失败 问题现象 训练作业日志运行出现如下报错:RuntimeError: CUDA error: uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exiting now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。