检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
connection NetworkConnection object 当前网络与其他云服务的连通信息。
预置:可选择SWR服务上自有的或他人共享的镜像。 自定义:可直接填写镜像地址。 添加镜像密钥 如果本租户不具有预热镜像的权限(即非公开/非本租户私有/非他人共享的镜像),此时需要添加镜像密钥。在开启镜像密钥开关后,选择命名空间及对应密钥。
查询引擎规格列表 示例代码 在ModelArts notebook平台,Session鉴权无需输入鉴权参数。其它平台的Session鉴权请参见Session鉴权。 from modelarts.session import Session from modelarts.estimatorV2
ModelArts Lite-Server 面向云主机资源型用户,基于裸金属服务器进行封装,可以通过弹性公网IP直接访问操作服务器。 适用于已经自建AI开发平台,仅有算力需求的用户,提供高性价比的AI算力,并预装主流AI开发套件以及自研的加速插件。
connection NetworkConnection object 当前网络与其他云服务的连通信息。
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 exists Boolean APP是否存在。
插件依赖docker服务,请确保节点中已安装docker环境。Lite Server的公共OS镜像中均已安装Docker环境。用户自定义镜像中未安装Docker环境,可以参考物理机环境配置操作。 插件将占用节点的25317端口。 操作步骤 登录ModelArts管理控制台。
镜像保存时报错“The container size (xG) is greater than the threshold (25G)”如何解决? 问题现象 镜像保存时报错“The container size (30G) is greater than the threshold
管理Lite Cluster节点池 为帮助您更好地管理Kubernetes集群内的节点,ModelArts支持通过节点池来管理节点。一个节点池包含一个节点或多个节点,能通过节点池批量配置一组节点。 在资源池详情页,单击“节点池管理”页签,您可以创建、更新和删除节点池。 图1 节点池管理
connection NetworkConnection object 当前网络与其他云服务的连通信息。
通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表4 响应Body参数 参数 参数类型 描述 delete_success_list Array of strings 删除成功的模型id列表。
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完
查询数据集列表 分页查询用户的数据集列表。 list_datasets(session, dataset_type=None, dataset_name=None, offset=None, limit=None) 示例代码 示例一:查询数据集列表 from modelarts.session
上述代码如果使用cifar10数据集,则将数据集下载并解压后,上传至OBS桶中,文件目录结构如下: DDP |--- main.py |--- input_dir |------ cifar-10-batches-py |-------- data_batch_1 |-------
启动/停止/删除实例 启动/停止实例 由于运行中的Notebook将一直耗费资源,您可以通过停止操作,停止资源消耗。对于停止状态的Notebook,可通过启动操作重新使用Notebook。 登录ModelArts管理控制台,在左侧菜单栏中选择“开发空间 > Notebook”,进入
日志提示"write line error" 问题现象 在程序运行过程中,刷出大量错误日志“[ModelArts Service Log]modelarts-pipe: write line error”。并且问题是必现问题,每次运行到同一地方的时候,出现错误。 原因分析 出现该问题的可能原因如下
Notebook自定义镜像制作流程 图1 Notebook自定义镜像制作流程图(适用于场景一和场景二) 场景一:基于Notebook预置镜像或第三方镜像,在服务器上配置docker环境,编写Dockerfile后构建镜像并注册,具体案例参考在ECS上构建自定义镜像并在Notebook
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkpoint
docker save -o <tar文件名>.tar <镜像名称>:<标签> 示例: docker save -o my_image_v1.tar my_image:v1 将镜像上传至容器镜像服务SWR,用于后续训练作业。
开发者可以通过Workflow进行有向无环图(Directed Acyclic Graph,DAG)的开发,整个DAG的执行就是有序的任务执行模板,依次执行从数据标注、数据集版本发布、模型训练、模型注册到服务部署环节。