华为云用户手册

  • 插件简介 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。 Volcano提供了高性能任务调度引擎、高性能异构芯片管理、高性能任务运行管理等通用计算能力,通过接入AI、大数据、基因、渲染等诸多行业计算框架服务终端用户,最大支持1000Pod/s的调度并发数,轻松应对各种规模的工作负载,大大提高调度效率和资源利用率。 Volcano针对计算型应用提供了作业调度、作业管理、队列管理等多项功能,主要特性包括: 丰富的计算框架支持:通过CRD提供了批量计算任务的通用API,通过提供丰富的插件及作业生命周期高级管理,支持TensorFlow,MPI,Spark等计算框架容器化运行在Kubernetes上。 高级调度:面向批量计算、高性能计算场景提供丰富的高级调度能力,包括成组调度,优先级抢占、装箱、资源预留、任务拓扑关系等。 队列管理:支持分队列调度,提供队列优先级、多级队列等复杂任务调度能力。 目前Volcano项目已经在Github开源,项目开源地址:https://github.com/volcano-sh/volcano。
  • 版本记录 表2 Volcano调度器版本记录 插件版本 更新特性 1.16.8 优化超节点资源调度能力 支持Kubernetes v1.31 1.15.8 支持昇腾NPU双DIE亲和调度能力 1.15.6 新增基于应用资源画像的超卖能力 1.13.5 支持自定义资源按照节点优先级缩容 优化抢占与节点扩容联动能力 1.12.18 适配CCE v1.29集群 默认开启抢占功能 1.12.1 应用弹性扩缩容性能优化 1.11.9 优化NPU芯片rank table排序能力 支持应用弹性伸缩场景下的优先级调度 1.10.10 修复本地持久卷插件未计算预绑定到节点的pod的问题 1.10.7 修复本地持久卷插件未计算预绑定到节点的pod的问题 1.7.1 Volcano支持v1.25集群
  • 版本记录 表2 AI套件(Ascend NPU)版本记录 插件版本 更新特性 2.7.63 修复安全漏洞 2.7.42 支持Kubernetes v1.31 2.1.23 修复部分问题 2.1.22 修复了一些页面显示问题 支持查询超节点信息 支持上报显卡拓扑信息 修复了日志打印问题 2.1.5 适配CCE v1.29集群 新增静默故障码 1.2.15 支持v1.23集群 1.2.14 支持NPU监控 1.2.5 支持NPU驱动自动安装
  • 组件说明 表1 CCE AI套件(GPU)插件组件 容器组件 说明 资源类型 nvidia-driver-installer 为节点安装Nvidia GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用。 DaemonSet hce20-nvidia-driver-installer 为节点安装Nvidia GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS HCE 2.0)。 DaemonSet ubuntu22-nvidia-driver-installer 为节点安装Nvidia GPU驱动的工作负载,仅在安装场景占用资源,安装完成后无资源占用(用于适配OS Ubuntu22)。 DaemonSet nvidia-gpu-device-plugin 为容器提供Nvidia GPU异构算力的Kubernetes设备插件。 DaemonSet nvidia-operator 为集群提供Nvidia GPU节点管理能力。 Deployment dcgm-exporter 启用dcgm-exporter组件进行DCGM指标观测时安装,用于采集GPU指标。 DaemonSet
  • 版本记录 表2 AI套件(NVIDIA GPU)版本记录 插件版本 更新特性 2.7.63 修复安全漏洞 2.7.42 新增NVIDIA 535.216.03驱动,支持XGPU特性 2.6.4 更新GPU卡逻辑隔离逻辑 2.0.72 更新GPU卡逻辑隔离逻辑 2.0.48 修复安装驱动的问题 2.0.44 支持535版本Nvidia驱动 支持非root用户使用XGPU 优化启动逻辑 2.0.14 支持xGPU设备监控 支持nvidia.com/gpu与volcano.sh/gpu-* api兼容 1.2.29 适配OS Ubuntu22.04 GPU驱动目录自动挂载优化 1.2.24 节点池支持配置GPU驱动版本 支持GPU指标采集 1.2.20 设置插件别名为gpu 1.2.15 适配CCE v1.23集群
  • 验证插件 插件安装完成后,在GPU节点及调度了GPU资源的容器中执行nvidia-smi命令,验证GPU设备及驱动的可用性。 GPU节点: # 插件版本为2.0.0以下时,执行以下命令: cd /opt/cloud/cce/nvidia/bin && ./nvidia-smi # 插件版本为2.0.0及以上时,驱动安装路径更改,需执行以下命令: cd /usr/local/nvidia/bin && ./nvidia-smi 容器: cd /usr/local/nvidia/bin && ./nvidia-smi 若能正常返回GPU信息,说明设备可用,插件安装成功。
  • 默认安装插件 在创建专属资源池时,会按照资源池类型、作业类型,默认安装相应的插件。 表1 默认安装插件简介 插件名称 插件简介 节点故障检测(ModelArts Node Agent) Modelarts节点故障检测是一款监控集群节点异常事件的插件,以及对接第三方监控平台功能的组件。它是一个在每个节点上运行的守护程序,可从不同的守护进程中搜集节点问题。 AI套件(NVIDIA GPU) AI套件(NVIDIA GPU)插件是支持在容器中使用GPU显卡的设备管理插件,集群中使用GPU节点时必须安装本插件。 创建专属资源池时,仅实例规格类型选择“GPU”时自动安装。 AI套件(Ascend NPU) AI套件(Ascend NPU)是支持容器里使用huawei NPU设备的管理插件。 创建专属资源池时,仅实例规格类型选择“Ascend”时自动安装。 Volcano调度器 Volcano 是一个基于 Kubernetes 的批处理平台,提供了机器学习、深度学习、生物信息学、基因组学及其他大数据应用所需要而 Kubernetes 当下缺失的一系列特性。 创建专属资源池时,作业类型选择“训练作业”时自动安装。
  • 手动安装插件 可根据业务需求,选择性安装插件用于扩展资源池功能。 表2 手动安装插件简介 插件名称 插件简介 节点本地 域名 解析加速节点本地域名解析加速(NodeLocal DNSCache) NodeLocal DNSCache是运行在集群节点上的守护程序集,通过DNS缓存代理,提高集群DNS性能。 云原生日志采集插件 Log Collect是基于开源fluent-bit和opentelemetry构建的云原生日志、k8s事件采集插件。log-agent支持基于CRD的日志采集策略,可以根据您配置的策略规则,对集群中的容器标准输出日志、容器文件日志、节点日志及k8s事件日志进行采集与转发到LTS。同时支持上报k8s事件到 AOM ,用于配置事件告警,默认上报所有异常事件和部分正常事件。
  • 插件生命周期 表3 插件生命周期 状态 状态属性 说明 安装中 中间状态 插件正处于部署状态。 如遇到插件配置错误或资源不足所有实例均无法调度等情况,系统会在10分钟后将该插件置为“不可用”状态。 运行中 稳定状态 插件正常运行状态,所有插件实例均正常部署,插件可正常使用。 升级中 中间状态 插件正处于更新状态。 不可用 稳定状态 不可用,表示插件状态异常,插件不可使用。可单击状态查看失败原因。 删除中 中间状态 插件处于正在被删除的状态。 如果长时间处于该状态,则说明出现异常。
  • Step3 在TMS中根据资源类型查询ModelArts资源使用情况 登录TMS控制台,在资源标签页面根据资源类型和资源标签查询指定区域的资源任务。 区域:使用华为云的具体Region,区域概念请参见什么是区域、可用区?。 资源类型:ModelArts支持查询的资源类型如表1所示。 资源标签:不填写标签时,表示查询所有资源,无论此资源是否有配置标签。选择相应标签查询资源,用户可以通过多个标签组合查询资源使用情况。 表1 ModelArts的资源类型 资源类型 说明 ModelArts-Notebook ModelArts的开发环境Notebook对应的资源类型。 ModelArts-TrainingJob ModelArts的训练作业对应的资源类型。 ModelArts-RealtimeService ModelArts的推理在线服务对应的资源类型。 ModelArts-ResourcePool ModelArts的专属资源池对应的资源类型。 如您的组织已经设定ModelArts的相关标签策略,则需按照标签策略规则为资源添加标签。标签如果不符合标签策略的规则,则可能会导致资源创建失败,请联系组织管理员了解标签策略详情。
  • Step2 在ModelArts任务中添加标签 在ModelArts中创建Notebook、创建训练作业、创建推理在线服务时,对这些任务配置标签。 在ModelArts的Notebook中添加标签。 可以在创建Notebook页面添加标签,也可以在已经创建完成的Notebook详情页面的“标签”页签中添加标签。 在ModelArts的训练作业中添加标签。 可以在创建训练作业页面添加标签,也可以在已经创建完成的训练作业详情页面的“标签”页签中添加标签。 在ModelArts的在线服务中添加标签。 可以在创建在线服务页面添加标签,也可以在已经创建完成的在线服务详情页面的“标签”页签中添加标签。 在ModelArts的专属资源池中添加标签。 可以在创建ModelArts Standard专属资源池页面添加标签,也可以在已经创建的Standard专属资源池详情页面的“标签”页签中添加标签。 图1 添加标签 用户也可以在ModelArts任务中添加标签时,创建新的标签,直接输入标签键和标签值即可。此处创建的标签仅当前的项目Project可见。不同的项目中查看不到。
  • 创建Dashboards查看指标 打开“DashBoards”,单击“New”,选择“New Dashboards”。 在New Dashboards界面,单击“Add a new panel”。 在New dashboard /Edit Panel界面,填写如下参数。 Data source:已配置Grafana数据源; Metric:指标名称,可参考表1、表2、表3获取想要查询的指标; Labels:填写过滤该指标的标签,请参考表4。 图10 创建Dashboards查看指标
  • 准备工作 ModelArts提供了集群视图、节点视图、用户视图、任务视图和任务详细视图这5个模板,这些模板在Grafana官方文档可以搜索下载,您导入模板配置Dashboards时,可直接使用。 表1 模板下载地址 模板名称 下载地址 集群视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Cluster-View.json 节点视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Node-View.json 用户视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-User-View.json 任务视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Task-View.json 任务详细视图 https://cnnorth4-modelarts-sdk.obs.cn-north-4.myhuaweicloud.com/metrics/grafana/dashboards/ModelArts-Task-Detail-View.json
  • 操作步骤 将本地命令复制至E CS 服务器请参考如下方法: 在ECS桌面单击“复制粘贴”,使用快捷键“Ctrl+V”将命令粘贴至窗口中并单击“发送”,将复制的命令发送至命令行窗口,如下图所示。 图3 复制粘贴按钮 图4 粘贴并发送安装命令 登录弹性云服务器。根据需要选择登录方式,具体操作请参考登录弹性云服务器 。 执行如下命令安装libfontconfig1。 sudo apt-get install -y adduser libfontconfig1 回显如下代表执行成功: 执行如下命令下载Grafana安装包。 wget https://dl.grafana.com/oss/release/grafana_9.3.6_amd64.deb --no-check-certificate 下载完成: 执行如下命令安装Grafana。 sudo dpkg -i grafana_9.3.6_amd64.deb 执行命令启动Grafana。 sudo /bin/systemctl start grafana-server 在本地PC访问Grafana配置。 确保ECS绑定了弹性公网IP,且对应配置正确(入方向放开TCP协议的3000端口,出方向全部放通)。设置如下: 单击ECS服务器名称进入详情页,单击“安全组”页签,单击“配置规则”。 单击“入方向规则”,入方向放开TCP协议的3000端口,出方向默认全部放通。 在浏览器中输入“http://{弹性公网IP}:3000”,即可进行访问。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。
  • 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。 在Windows的“服务”中,找到Grafana,将其开启,如果已经开启,则直接进入4。 登录Grafana。 Grafana默认在本地的3000端口启动,打开链接http://localhost:3000,出现Grafana的登录界面。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。
  • Label相关指标介绍 表4 Label名字栏 指标对象 Label名字 Label描述 容器级别指标 modelarts_service 容器属于哪个服务,包含notebook,train和infer。 instance_name 容器所属pod的名字。 service_id 页面展示的实例或者job id。如开发环境为:cf55829e-9bd3-48fa-8071-7ae870dae93a, 训练作业为:9f322d5a-b1d2-4370-94df-5a87de27d36e node_ip 容器所属的节点IP值。 container_id 容器ID。 cid 集群ID。 container_name 容器名称。 project_id 用户所属的账号的project id。 user_id 提交作业的用户所属的账号的user id。 npu_id 昇腾卡的ID信息,比如davinci0(即将废弃)。 device_id 昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 pool_id 物理专属池对应的资源池id。 pool_name 物理专属池对应的资源池name。 logical_pool_id 逻辑子池的id。 logical_pool_name 逻辑子池的name。 gpu_uuid 容器使用的GPU的UUID。 gpu_index 容器使用的GPU的索引。 gpu_type 容器使用的GPU的型号。 account_name 训练、推理或开发环境任务创建者的账号名。 user_name 训练、推理或开发环境任务创建者的用户名。 task_creation_time 训练、推理或开发环境任务的创建时间。 task_name 训练、推理或开发环境任务的名称。 task_spec_code 训练、推理或开发环境任务的规格。 cluster_name CCE集群名称。 node级别指标 cid 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。 npu_id 昇腾卡的ID信息,比如davinci0(即将废弃)。 device_id 昇腾系列AI处理器的Physical ID。 device_type 昇腾系列AI处理器类型。 gpu_uuid 节点上GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name infiniband或RoCE网络网卡的设备名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。 filesystem NFS挂载的文件系统。 mount_point NFS的挂载点。 Diagnos cid GPU所在节点所属的CCE集群ID。 node_ip GPU所在节点的IP。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。 gpu_uuid GPU的UUID。 gpu_index 节点上GPU的索引。 gpu_type 节点上GPU的型号。 device_name 网络设备或磁盘设备的名称。 port IB网卡的端口号。 physical_state IB网卡每个端口的状态。 firmware_version IB网卡的固件版本。
  • 网络相关指标 表3 Diagnos(IB,仅专属池上会收集) 分类 名称 指标 指标含义 单位 取值范围 infiniband或RoCE网络 PortXmitData infiniband_port_xmit_data_total The total number of data octets, divided by 4, (counting in double words, 32 bits), transmitted on all VLs from the port. 计数值 自然数 PortRcvData infiniband_port_rcv_data_total The total number of data octets, divided by 4, (counting in double words, 32 bits), received on all VLs from the port. 计数值 自然数 SymbolErrorCounter infiniband_symbol_error_counter_total Total number of minor link errors detected on one or more physical lanes. 计数值 自然数 LinkErrorRecoveryCounter infiniband_link_error_recovery_counter_total Total number of times the Port Training state machine has successfully completed the link error recovery process. 计数值 自然数 PortRcvErrors infiniband_port_rcv_errors_total Total number of packets containing errors that were received on the port including: Local physical errors (ICRC, VCRC, LPCRC, and all physical errors that cause entry into the BAD PACKET or BAD PACKET DISCARD states of the packet receiver state machine) Malformed data packet errors (LVer, length, VL) Malformed link packet errors (operand, length, VL) Packets discarded due to buffer overrun (overflow) 计数值 自然数 LocalLinkIntegrityErrors infiniband_local_link_integrity_errors_total This counter indicates the number of retries initiated by a link transfer layer receiver. 计数值 自然数 PortRcvRemotePhysicalErrors infiniband_port_rcv_remote_physical_errors_total Total number of packets marked with the EBP delimiter received on the port. 计数值 自然数 PortRcvSwitchRelayErrors infiniband_port_rcv_switch_relay_errors_total Total number of packets received on the port that were discarded when they could not be forwarded by the switch relay for the following reasons: DLI D mapping VL mapping Looping (output port = input port) 计数值 自然数 PortXmitWait infiniband_port_transmit_wait_total The number of ticks during which the port had data to transmit but no data was sent during the entire tick (either because of insufficient credits or because of lack of arbitration). 计数值 自然数 PortXmitDiscards infiniband_port_xmit_discards_total Total number of outbound packets discarded by the port because the port is down or congested. 计数值 自然数
  • ModelArts Standard资源监控概述 为了满足用户对资源使用的监控诉求,ModelArts Standard提供了多种监控查看方式。 方式一:通过ModelArts Standard控制台查看 您在可通过ModelArts控制台的总览页或各模块资源监控页签查看监控指标。具体涉及以下几个方面: 通过ModelArts控制台的总览页查看,具体请参见通过ModelArts控制台查看监控指标。 Standard训练作业:用户在运行训练作业时,可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查看该推理服务的CPU、内存或GPU等资源使用统计信息和模型调用次数统计,具体参见查看推理服务详情章节。 方式二:通过AOM查看所有监控指标 ModelArts Standard上报的所有监控指标都保存在AOM中,当ModelArts控制台可以查看的指标不满足诉求时,用户可以通过AOM服务提供的指标消费和使用的能力来查看指标。设置指标阈值告警、告警上报等,都可以直接在AOM控制台操作。具体参见通过AOM控制台查看ModelArts所有监控指标。 方式三:通过Grafana查看所有监控指标 当AOM的监控模板不能满足用户诉求时,用户可以使用Grafana可视化工具来查看与分析监控指标。Grafana支持灵活而又复杂多样的监控视图和模板,为用户提供基于网页仪表面板的可视化监控效果,使用户更加直观地查看到实时资源使用情况。 将Grafana的数据源配置完成后,就可以通过Grafana查看AOM保存的所有ModelArts Standard的所有指标。具体参见使用Grafana查看AOM中的监控指标。 通过Grafana插件查看AOM中的监控指标的操作流程如下: 安装配置Grafana 安装配置Grafana有在Windows上安装配置Grafana、在Linux上安装配置Grafana和在Notebook上安装配置Grafana三种方式,请您根据实际情况选择。 配置Grafana数据源 配置仪表盘查看指标数据 父主题: ModelArts Standard资源监控
  • 操作步骤 登录 云审计 服务管理控制台。 在管理控制台左上角单击图标,选择区域。 在左侧导航栏中,单击“事件列表”,进入“事件列表”页面。 事件列表支持通过筛选来查询对应的操作事件。当前事件列表支持四个维度的组合查询,详细信息如下: 事件来源、资源类型和筛选类型。 在下拉框中选择查询条件。 其中筛选类型选择事件名称时,还需选择某个具体的事件名称。 选择资源ID时,还需输入某个具体的资源ID。 选择资源名称时,还需选择或手动输入某个具体的资源名称。 操作用户:在下拉框中选择某一具体的操作用户,此操作用户指用户级别,而非租户级别。 事件级别:可选项为“所有事件级别”、“normal”、“warning”、“incident”,只可选择其中一项。 时间范围:可选择查询最近七天内任意时间段的操作事件。 在需要查看的事件左侧,单击展开该事件的详细信息。 单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。
  • AI Gallery支持审计的关键操作列表 表6 AI Gallery支持审计的关键操作列表 操作名称 资源类型 事件名称 发布资产 ModelArts_Market create_content 修改资产信息 ModelArts_Market modify_content 发布资产新版本 ModelArts_Market add_version 订阅资产 ModelArts_Market subscription_content 收藏资产 ModelArts_Market star_content 取消收藏资产 ModelArts_Market cancel_star_content 点赞资产 ModelArts_Market like_content 取消点赞资产 ModelArts_Market cancel_like_content 发布实践 ModelArts_Market publish_activity 报名实践 ModelArts_Market regist_activity 修改个人资料 ModelArts_Market update_user
  • 资源管理支持审计的关键操作列表 表7 资源管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建资源池 PoolV2 CreatePoolV2 删除资源池 PoolV2 DeletePoolV2 更新资源池 PoolV2 UpdatePoolV2 创建网络 NetworksV1 CreateNetworksV1 删除网络 NetworksV1 DeleteNetworksV1 更新网络 NetworksV1 UpdateNetworksV1
  • 开发环境支持审计的关键操作列表 表2 开发环境支持审计的关键操作列表 操作名称 资源类型 事件名称 创建Notebook Notebook createNotebook 删除Notebook Notebook deleteNotebook 打开Notebook Notebook openNotebook 启动Notebook Notebook startNotebook 停止Notebook Notebook stopNotebook 更新Notebook Notebook updateNotebook 删除NotebookApp NotebookApp deleteNotebookApp 切换CodeLab规格 NotebookApp updateNotebookApp
  • 训练作业支持审计的关键操作列表 表3 训练作业支持审计的关键操作列表 操作名称 资源类型 事件名称 创建训练作业 ModelArtsTrainJob createModelArtsTrainJob 创建训练作业版本 ModelArtsTrainJob createModelArtsTrainVersion 停止训练作业 ModelArtsTrainJob stopModelArtsTrainVersion 更新训练作业描述 ModelArtsTrainJob updateModelArtsTrainDesc 删除训练作业版本 ModelArtsTrainJob deleteModelArtsTrainVersion 删除训练作业 ModelArtsTrainJob deleteModelArtsTrainJob 创建训练作业参数 ModelArtsTrainConfig createModelArtsTrainConfig 更新训练作业参数 ModelArtsTrainConfig updateModelArtsTrainConfig 删除训练作业参数 ModelArtsTrainConfig deleteModelArtsTrainConfig 创建可视化作业 ModelArtsTensorboardJob createModelArtsTensorboardJob 删除可视化作业 ModelArtsTensorboardJob deleteModelArtsTensorboardJob 更新可视化作业描述 ModelArtsTensorboardJob updateModelArtsTensorboardDesc 停止可视化作业 ModelArtsTensorboardJob stopModelArtsTensorboardJob 重启可视化作业 ModelArtsTensorboardJob restartModelArtsgTensorboardJob
  • 服务管理支持审计的关键操作列表 表5 服务管理支持审计的关键操作列表 操作名称 资源类型 事件名称 部署服务 service addService 删除服务 service deleteService 更新服务 service updateService 启停服务 service startOrStopService 启停边缘服务节点 service startOrStopNodesService 添加用户访问密钥 service addAkSk 删除用户访问密钥 service deleteAkSk 创建专属资源池 cluster createCluster 删除专属资源池 cluster deleteCluster 添加专属资源池节点 cluster addClusterNode 删除专属资源池节点 cluster deleteClusterNode 获取专属资源池创建结果 cluster createClusterResult
  • 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建数据集 dataset createDataset 删除数据集 dataset deleteDataset 更新数据集 dataset updateDataset 发布数据集版本 dataset publishDatasetVersion 删除数据集版本 dataset deleteDatasetVersion 同步数据源 dataset syncDataSource 导出数据集 dataset exportDataFromDataset 创建自动标注任务 dataset createAutoLabelingTask 创建自动分组任务 dataset createAutoGroupingTask 创建自动部署任务 dataset createAutoDeployTask 导入样本到数据集 dataset importSamplesToDataset 创建数据集标签 dataset createLabel 更新数据集标签 dataset updateLabel 删除数据集标签 dataset deleteLabel 删除数据集标签和对应的样本 dataset deleteLabelWithSamples 添加样本 dataset uploadSamples 删除样本 dataset deleteSamples 停止自动标注任务 dataset stopTask 创建团队标注任务 dataset createWorkforceTask 删除团队标注任务 dataset deleteWorkforceTask 启动团队标注验收的任务 dataset startWorkforceSamplingTask 通过/驳回/取消验收任务 dataset updateWorkforceSamplingTask 提交验收任务的样本评审意见 dataset acceptSamples 给样本添加标签 dataset updateSamples 发送邮件给团队标注任务的成员 dataset sendEmails 接口人启动团队标注任务 dataset startWorkforceTask 更新团队标注任务 dataset updateWorkforceTask 给团队标注样本添加标签 dataset updateWorkforceTaskSamples 团队标注审核 dataset reviewSamples 创建标注成员 workforce createWorker 更新标注成员 workforce updateWorker 删除标注成员 workforce deleteWorker 批量删除标注成员 workforce batchDeleteWorker 创建标注团队 workforce createWorkforce 更新标注团队 workforce updateWorkforce 删除标注团队 workforce deleteWorkforce 自动创建 IAM 委托 IAM createAgency 标注成员登录labelConsole标注平台 labelConsoleWorker workerLoginLabelConsole 标注成员登出labelConsole标注平台 labelConsoleWorker workerLogOutLabelConsole 标注成员修改labelConsole平台密码 labelConsoleWorker workerChangePassword 标注成员忘记labelConsole平台密码 labelConsoleWorker workerForgetPassword 标注成员通过url重置labelConsole标注密码 labelConsoleWorker workerResetPassword
  • 步骤三:添加对等连接路由 在打通VPC后,专属资源池中作业访问公网地址,默认不能转发到用户VPC的SNAT,需要在ModelArts为对等连接添加默认路由。 如果在步骤一:打通VPC未开启默认路由,需要提交工单联系技术支持在专属资源池VPC的路由中添加指向对等连接的默认路由。 如果在步骤一:打通VPC开启默认路由,在打通VPC时,会给ModelArts网络0.0.0.0/0路由作为默认路由,此时无需提交工单添加默认路由即可完成网络配置。
  • 场景介绍 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力。 驱动升级有两种升级方式:安全升级、强制升级。 安全升级:不影响正在运行的业务,开始升级后会先将节点进行隔离(不能再下发新的作业),待节点上的存量作业运行完成后再进行升级,因需要等待作业完成,故升级周期可能比较长。 强制升级:忽略资源池中正在运行的作业,直接进行驱动升级,可能会导致运行中作业失败,需谨慎选择。
  • 场景介绍 ModelArts含有许多“作业”类型(作业为统称,并非单指训练作业),其中有一部分是可以运行在Standard专属资源池上的,包括“训练”、“推理”服务及“开发环境”。 专属资源池提供了动态设置作业类型的功能,您可以在创建资源池时、创建完成后,对资源池支持的作业类型进行编辑(新增或减少)。当前支持的“作业类型”有“训练作业”、“推理服务”、“开发环境”,用户可按需自行选择。 设置某一作业类型后,即可在此专属资源池中下发此种类型的作业,没有设置的作业类型不能下发。 为了支持不同的作业类型,后台需要在专属资源池上进行不同的初始化操作,例如安装插件、设置网络环境等。其中部分操作需要占据资源池的资源,导致用户实际可用资源减少。因此建议用户按需设置,避免不必要的资源浪费。 更改已设置的作业类型可能会导致:开发环境实例被删除、正在运行的训练作业失败、正在运行的推理服务失败。
  • 场景介绍 当专属资源池创建完成,使用一段时间后,由于用户AI开发业务的变化,对于资源池资源量的需求可能会产生变化,面对这种场景,ModelArts Standard专属资源池提供了扩缩容功能,用户可以根据自己的需求动态调整资源池规模。 使用扩容功能时,可以增加资源池已有规格的实例数量。 使用缩容功能时,可以减少资源池已有规格的实例数量。 缩容操作可能影响到正在运行的业务,建议用户在业务空窗期进行缩容,或进入资源池详情页面查看资源池节点,在指定空闲的节点上进行删除来实现缩容。
  • 查看资源池插件 ModelArts提供多种类型的插件,通过添加插件选择性扩展资源池功能,以满足业务需求。 在资源池详情页,切换到“插件”页签。可以查看资源池已安装和未安装的插件信息。 安装插件:在未安装插件列表中,选择待安装的插件,单击“安装”,配置相关信息,单击“确定”。具体配置信息请见管理Standard专属资源池插件。 图12 安装插件 查看插件详情:单击插件名称,可查看插件详情,包括插件简介、组件列表等信息。 图13 插件详情
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全