华为云用户手册

  • 使用CCI集群,在容器内部执行systemctl命令,需要以特权模式(--privileged=true)来启动容器是否支持? 目前,CCI尚不支持特权模式。 特权容器主要场景是让容器共享、操作宿主机的设备,CCI是基于kata的hypervisor虚拟化级别隔离,所以宿主机的资源对容器完全隔离。 其他场景,推荐通过k8s原生SecurityContext中更细粒度的权限策略来控制,按需使用,保障客户容器运行环境安全可靠。 父主题: 容器工作负载类
  • 镜像、容器、工作负载的关系是什么? 镜像:容器镜像是一个特殊的文件系统,除了提供容器运行时所需的程序、库、资源、配置等文件外,还包含了一些为运行时准备的配置参数(如匿名卷、环境变量、用户等)。镜像不包含任何动态数据,其内容在构建之后也不会被改变。 容器:镜像(Image)和容器(Container)的关系,就像是面向对象程序设计中的类和实例一样,镜像是静态的定义,容器是镜像运行时的实体。容器可以被创建、启动、停止、删除、暂停等。 工作负载:工作负载是在 Kubernetes 上运行的应用程序。一个工作负载由一个或多个实例(Pod)组成,一个实例由一个或多个容器组成,每个容器都对应一个容器镜像。 镜像、容器、工作负载之间的关系请参见下图。 图1 镜像、容器、工作负载的关系 父主题: 基本概念类
  • 日志出现重复/丢失的原因 日志出现重复 原因一:日志文件转储,且转储文件仍被匹配到。 详细说明:如果配置日志路径文件名中有通配符,如配置为/tmp/*.log,当/tmp/test.log文件转储为/tmp/test.001.log后,因仍被通配规则匹配到,会被视为新文件,则会被重新采集。 日志出现丢失 原因一:日志文件的存在时间小于5秒。 详细说明:CCI感知日志文件的周期为5秒。日志文件从创建到被删除或重命名的时间小于5秒,则可能该日志文件不会被采集。 父主题: 日志采集类
  • 负载访问504问题定位思路 负载访问504问题一般是因为ELB实例绑定的Port到后端 CCI 负载Pod的安全组没有放通。查看CCI负载Pod使用的安全组,确保安全组规则放通ELB实例绑定的Port。 Pod绑定的安全组可以通过查看负载对应Network获得,调用Network接口,响应里面metadata.annotations中的network.alpha.kubernetes.io/default-security-group即为安全组ID,如下所示。 { "kind": "Network", "apiVersion": "networking.cci.io/v1beta1", "metadata": { "name": "namespace-test-dc1-default-network", "namespace": "namespace-test", "selfLink": "/apis/networking.cci.io/v1beta1/namespaces/namespace-test/networks/namespace-test-dc1-default-network", "uid": "6fb85414-af6b-11e8-b6ef-f898ef6c78b4", "resourceVersion": "5016899", "creationTimestamp": "2018-09-03T11:21:00Z", "annotations": { "network.alpha.kubernetes.io/project-id": "51bf52609f2a49c68bfda3398817b376", "network.alpha.kubernetes.io/default-security-group": "19c5d024-aed5-4856-b958-c0f65ce70855", "network.alpha.kubernetes.io/domain-id": "aadb43c0b14c4cafbccfff483d075987" }, "enable": true }, "spec": { "cidr": "192.168.244.0/23", "attachedVPC": "0d4080e5-546a-46c4-86fe-f3e26d685177", "networkType": "underlay_neutron", "physicalNetwork": "phy_net0", "networkID": "0022e356-f730-4226-802e-9cdaa6e7da17", "subnetID": "1ffd839d-e534-4fa8-a59d-42356335bf74", "availableZone": "cnnorth1a" }, "status": { "state": "Active" }} 进入网络控制台,根据上述操作中已获取的安全组ID,查找对应的安全组。 单击安全组名称,在安全组的入方向规则中增加如下规则。 UDP类型的公网访问,健康检查依赖ICMP规则,请注意添加。 父主题: 网络管理类
  • 如何解决Connection timed out问题? 问题现象: CCI实例创建正常,使用python django smtp服务发送邮件时,一直提示“[Errno 110] Connection timed out”错误。 问题原因: 客户仅购买了ELB服务未购买NAT网关服务,故只能从外部访问容器。购买NAT网关后,才可以从容器内部访问外部网络。 为了确保良好的网络安全环境,华为云对25端口对外发送做了限制。 解决方法: 方法一:使用NAT网关服务,该服务能够为VPC内的容器实例提供 网络地址转换 (Network Address Translation)服务,SNAT功能通过绑定弹性公网IP,实现私有IP向公有IP的转换,可实现VPC内的容器实例共享弹性公网IP访问Internet。详情请参见从容器访问公网。 方法二:联系技术人员,放通客户新申请的弹性公网IP的25端口。 父主题: 网络管理类
  • CCI是否支持负载均衡? CCI支持负载均衡,当前在CCI创建工作负载的访问设置页面中,内网访问(使用私网ELB访问)和公网访问中的配置都是负载均衡方式。 通常所说的负载均衡一般指的是公网负载均衡,CCI对接负载均衡服务。 通过CCI创建工作负载时,在设置访问设置的页面,可以根据需要选择内网访问和外网访问,然后配置负载均衡。 公网访问负载均衡,请参见公网访问。 内网访问负载均衡,请参见内网访问。 父主题: 网络管理类
  • CCI资源包中的核时怎么理解? 1 核*时 = 1 * 3600(核*秒) 1 核*时 :1核的CPU连续跑1个小时所用的资源量 1 核*秒: 1核的CPU连续跑1秒所用的资源量 案例一: 假设用户的Deployment是2.5核的,连续运行了2个小时,那么它所消耗的资源量为:2.5 * 2 = 5(核*时)= 5* 3600(核*秒)。 案例二: 假设当前是730核*时,那么最大可以1小时内运行一个730核的容器,也可以730小时内运行一个1核的容器。 详细信息您可以参考计费说明。 父主题: 基本概念类
  • 排查项一:查看端口是否冲突 按照使用kubectl配置好kubectl。 在页面上单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图1 查看失败的容器的名称 查看退出容器的错误日志。 kubectl logs $podName -n $namespace -c $containerName 此种问题有如下解决方法:重新创建工作负载,并配置正确的端口,确保端口不冲突。
  • 排查项二:用户自身业务BUG 请检查工作负载启动命令是否正确执行,或工作负载本身bug导致容器不断重启。 按照使用kubectl配置好kubectl。 在页面单击失败的工作负载,进入负载详情界面,查看Pod列表,获取Pod名字。 查看失败的容器的名称。 kubectl describe pod $name -n $namespace | grep "Error syncing pod failed to" 图2 查看失败的容器的名称 查看退出容器的错误日志。 kubectl logs $podName -n $namespace -c $containerName 根据日志提示修复工作负载本身的问题。 图3 容器启动命令配置不正确 此种问题的解决方案是:重新创建工作负载,并配置正确的启动命令。
  • 排查项四:命名空间的资源类型错误 请检查创建命名空间时选择的资源类型是否正确,通用计算型和GPU加速型支持X86镜像。 登录控制台,在页面上单击失败的工作负载,进入负载详情界面。 查看Pod列表,单击实例异常Pod所在行“操作”列的“查看日志”。 查看报错信息如下。 ERROR: exec failed: Exec format error ERROR: hyper send process inited event: error
  • 排查项一:kubectl创建工作负载时未指定imagePullSecret 以创建一个名为nginx的deployment为例,请排查yaml文件中是否存在imagePullSecrets字段(如下yaml示例中的加粗字段),表示pull镜像时的secret名称。 需要使用 容器镜像服务 的镜像时,参数值固定为imagepull-secret。 apiVersion: apps/v1kind: Deploymentmetadata: name: nginxspec: replicas: 1 selector: matchLabels: app: nginx strategy: type: RollingUpdate template: metadata: labels: app: nginx spec: containers: - image: nginx:alpine imagePullPolicy: Always name: nginx imagePullSecrets: - name: imagepull-secret
  • CCI如何配置DNS服务? 如果用户负载需要使用k8s内部域名解析,则需要安装coredns插件。此时pod的dnsPolicy需要设置为ClusterFirst。 在插件市场界面可以单击,将coredns插件安装在指定的namesapce下。 图1 创建插件 如果用户负载不需要k8s内部域名解析服务,但是需要使用域名解析服务,此时pod的dnsPolicy需要设置为Default。 除了以上两种配置方式用户还可以通过设置dnsPolicy为None使用自定义dns服务。yaml示例如下: apiVersion: v1kind: Podmetadata: namespace: default name: dns-examplespec: containers: - name: test image: nginx dnsPolicy: "None" dnsConfig: nameservers: - 1.2.3.4 searches: - ns1.svc.cluster-domain.example - my.dns.search.suffix options: - name: ndots value: "2" - name: edns0 父主题: 网络管理类
  • SDK列表及指导文档(通用版) API Explorer 能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 SDK中心 https://sdkcenter.developer.huaweicloud.com/zh-cn提供服务SDK依赖引入的方式。 表1 提供了各个云服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档进行配置。 表1 SDK列表 编程语言 github地址 指导文档 视频指导 JAVA huaweicloud-sdk-java-v3 Java SDK使用指导 Java SDK视频指导 PYTHON huaweicloud-sdk-python-v3 Python SDK使用指导 Python SDK视频指导 .NET huaweicloud-sdk-net-v3 .Net SDK使用指导 - GO huaweicloud-sdk-go-v3 Go SDK使用指导 -
  • 准备环境 在使用图像识别SDK时,各语言需要准备的环境 参照表1。 表1 开发环境 开发语言 准备项 说明 JAVA 安装JDK JAVA环境开发配置,支持 Java JDK 1.8 及以上版本,推荐通过Maven 安装依赖的方式使用JAVA版本SDK。 PYTHON 安装python python版本sdk支持python3.3及以上版本。 .NET 安装.NET .NET Standard 2.0 及其以上版本或C# 4.0 及其以上版本。 GO 安装go 支持 go 1.14 及以上版本。
  • 图像识别概述 图像识别(Image Recognition),是指利用计算机对图像进行分析和理解,以识别各种不同模式的目标和对象的技术,包括媒资图像标签,图像描述, 视频标签 ,图像高清抠图,名人识别,主体识别,翻拍识别,图像超分,图像标签等。 图像识别以开放API(Application Programming Interface,应用程序编程接口)的方式提供给用户,用户通过实时访问和调用API获取推理结果,帮助用户自动采集关键数据,打造智能化业务系统,提升业务效率。
  • 修改成员信息 团队中的成员,当其信息发生变化时,可以编辑其基本情况。 在“团队详情”区域,选择需修改的成员。 在成员所在行的“操作”列,单击“修改”。在弹出的对话框中,修改其“描述”或“角色”。 成员的“邮箱”无法修改,如果需要修改邮箱地址,建议先删除此成员,然后再基于新的邮箱地址添加新成员。 “角色”支持“Labeler”、“Reviewer”和“Team Manager”,“Team Manager”只能设置为一个人。
  • 支持分析指标及其说明 表1 分析指标列表 名称 说明 分析说明 分辨率 Resolution 图像分辨率。此处使用面积值作为统计值。 通过指标分析结果查看是否有偏移点。如果存在偏移点,可以对偏移点做resize操作或直接删除。 图片高宽比 Aspect Ratio 图像高宽比,即图片的高度/图片的宽度。 一般呈正态分布,一般用于比较训练集和真实场景数据集的差异。 图片亮度 Brightness 图片亮度,值越大代表观感上亮度越高。 一般呈正态分布,可根据分布中心判断数据集整体偏亮还是偏暗。可根据使用场景调整,比如使用场景是夜晚,图片整体应该偏暗。 图片饱和度 Saturation 图片的色彩饱和度,值越大表示图片整体色彩越容易分辨。 一般呈正态分布,一般用于比较训练集和真实场景数据集的差异。 清晰度 Clarity 图片清晰程度,使用拉普拉斯算子计算所得,值越大代表边缘越清晰,图片整体越清晰。 可根据使用场景判断清晰度是否满足需要。比如使用场景的数据采集来自高清摄像头,那么清晰度对应的需要高一些。可通过对数据集做锐化或模糊操作,添加噪声对清晰度做调整。 图像色彩的丰富程度 Colorfulness 横坐标:图像的色彩丰富程度,值越大代表色彩越丰富。 纵坐标:图片数量。 是观感上的色彩丰富程度,一般用于比较训练集和真实场景数据集的差异。 按单张图片中框的个数统计图片分布 Bounding Box Quantity 横坐标:单张图片中框的个数。 纵坐标:图片数量。 对模型而言一张图片的框个数越多越难检测,需要越多的这种数据用作训练。 按单张图片中框的面积标准差统计图片分布 Standard Deviation of Bounding Boxes Per Image 横坐标:单张图片中框的标准差。单张图片只有一个框时,标准差为0。标准差的值越大,表示图片中框大小不一程度越高。 纵坐标:图片数量。 对模型而言一张图中框如果比较多且大小不一,是比较难检测的,可以根据场景添加数据用作训练,或者实际使用没有这种场景可直接删除。 按高宽比统计框数量的分布 Aspect Ratio of Bounding Boxes 横坐标:目标框的高宽比。 纵坐标:框数量(统计所有图片中的框)。 一般呈泊松分布,但与使用场景强相关。多用于比较训练集和验证集的差异,如训练集都是长方形框的情况下,验证集如果是接近正方形的框会有比较大影响。 按面积占比统计框数量的分布 Area Ratio of Bounding Boxes 横坐标:目标框的面积占比,即目标框的面积占整个图片面积的比例,越大表示物体在图片中的占比越大。 纵坐标:框数量(统计所有图片中的框)。 主要判断模型中使用的anchor的分布,如果目标框普遍较大,anchor就可以选择较大。 按边缘化程度统计框数量的分布 Marginalization Value of Bounding Boxes 横坐标:边缘化程度,即目标框中心点距离图片中心点的距离占图片总距离的比值,值越大表示物体越靠近边缘。 纵坐标:框数量(统计所有图片中的框)。 一般呈正态分布。用于判断物体是否处于图片边缘,有一些只露出一部分的边缘物体,可根据需要添加数据集或不标注。 按堆叠度统计框数量的分布 Overlap Score of Bounding Boxes 横坐标:堆叠度,单个框被其他的框重叠的部分,取值范围为0~1,值越大表示被其他框覆盖的越多。 纵坐标:框数量(统计所有图片中的框)。 主要用于判断待检测物体的堆叠程度,堆叠物体一般对于检测难度较高,可根据实际使用需要添加数据集或不标注部分物体。 按亮度统计框数量的分布 Brightness of Bounding Boxes 横坐标:目标框的图片亮度,值越大表示越亮。 纵坐标:框数量(统计所有图片中的框)。 一般呈正态分布。主要用于判断待检测物体的亮度。在一些特殊场景中只有物体的部分亮度较暗,可以看是否满足要求。 按清晰度统计框数量的分布 Clarity of Bounding Boxes 横坐标:目标框的清晰度,值越大表示越清晰。 纵坐标:框数量(统计所有图片中的框)。 主要用于判断待检测物体是否存在模糊的情况。比如运动中的物体在采集中可能变得模糊,需要重新采集。
  • 背景信息 只有“物体检测”和“图像分类”的数据集支持数据特征分析。 只有发布后的数据集支持数据特征分析。发布后的Default格式数据集版本支持数据特征分析。 数据特征分析的数据范围,不同类型的数据集,选取范围不同: 在“物体检测”的数据集中,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。有标注后,发布版本,显示已标注的图片的数据特征。 在“图像分类”的数据集中,当已标注样本数为0时,发布版本后,数据特征页签版本置灰不可选,无法显示数据特征。有标注后,发布版本,显示全部的图片的数据特征。 数据集中的图片数量要达到一定量级才会具有意义,一般来说,需要有大约1000+的图片。 “图像分类”支持分析指标有:“分辨率”、“图片高宽比”、“图片亮度”、“图片饱和度”、“清晰度”和“图像色彩的丰富程度”。“物体检测”支持所有的分析指标。目前ModelArts支持的所有分析指标请参见支持分析指标及其说明。
  • 挂载EVS的Notebook实例 对于挂载EVS的Notebook实例,您可以执行以下操作将大文件下载到本地: 在Notebook中,新建一个“ipynb”文件,使用MoXing先将大文件从Notebook上传到OBS中,示例代码如下: 12 import moxing as moxmox.file.copy('/home/ma-user/work/obs_file.txt', 'obs://bucket_name/obs_file.txt') 其中“/home/ma-user/work/obs_file.txt”为文件在Notebook中的存储路径,“obs://bucket_name/obs_file.txt”为该文件上传到OBS的存储路径。 使用OBS或ModelArts SDK将OBS中的文件下载到本地。 方式一:使用OBS进行下载 使用OBS下载文件的操作指导:下载文件,可以将样例中的“obs_file.txt”下载到本地。如果您的数据较多,推荐OBS Browser+下载数据或文件夹。 方式二:使用ModelArts SDK进行下载 在您的本地环境下载并安装ModelArts SDK。 完成ModelArts SDK的Session鉴权。 将OBS中的文件下载到本地,详请参见从OBS下载数据。示例代码如下: 123 from modelarts.session import Sessionsession=Session(access_key='***',secret_key='***',project_id='***',region_name='***')session.download_data(bucket_path="/bucket_name/obs_file.txt",path="/home/user/obs_file.txt")
  • 带OBS存储的Notebook实例 对于使用OBS存储的Notebook实例,您可以使用OBS或ModelArts SDK将OBS中的文件下载到本地。 方式一:使用OBS进行下载 使用OBS下载文件的操作指导:下载文件,可以将OBS中的文件下载到本地。如果您的数据较多,推荐OBS Browser+下载数据或文件夹。 方式二:使用ModelArts SDK进行下载 在您的本地环境下载并安装ModelArts SDK。 完成ModelArts SDK的Session鉴权。 将OBS中的文件下载到本地,详请参见从OBS下载数据。示例代码如下: 123 from modelarts.session import Sessionsession=Session(access_key='***',secret_key='***',project_id='***',region_name='***')session.download_data(bucket_path="/bucket_name/obs_file.txt",path="/home/user/obs_file.txt")
  • 任务验收(管理员) 发起验收 当团队的成员已完成数据标注,数据集的创建者可发起验收,对标注结果进行抽验。只有当标注成员存在标注完成的数据时,才可以发起验收,否则发起验收按钮为灰色。 在“标注任务进展”页签中,针对需发起验收的任务,单击“发起验收”。 在弹出的对话框中,设置“抽样策略”,可设置为“按百分比”,也可以设置为“按数量”。设置好参数值后,单击“确定”启动验收。 “按百分比”:按待验收图片总数的一定比例进行抽样验收。 “按数量”:按一定数量进行抽样验收。 图4 发起验收 验收启动后,界面将展示实时验收报告,您可以在右侧选择“验收结果”(“通过”或“不通过”)。 当选择验收结果为“通过”时,需设置“验收评分”(分“A”、“B”、“C”、“D”四个选项,“A”表示最高分),如图6所示。当选择验收结果为“不通过”时,可以在文本框中写明驳回原因,如图7所示。 图5 查看实时验收报告 图6 设置验收结果为“通过” 图7 设置验收结果为“不通过” 继续验收 针对未完成验收的任务,可以继续验收。针对未发起过验收流程的任务,不支持“继续验收”,按钮为灰色。 在“标注任务进展”页签中,针对需继续验收的任务,单击“继续验收”。系统直接进入“实时验收报告”页面,您可以继续验收未验收的图片,设置其“验收结果”。 完成验收 在完成验收窗口,您可以查看本数据集的验收情况,如抽样文件数等,同时设置如下参数,然后进行验收。只有完成验收,标注信息才会同步到数据集的已标注页面中。 一旦标注数据完成验收,团队成员无法再修改标注信息,只有数据集创建者可修改。 表1 完成验收的参数设置 参数 说明 对已标注数据修改 不覆盖:针对同一个数据,不使用当前团队标注的结果覆盖已有数据。 覆盖:针对同一个数据,使用当前团队标注的结果覆盖已有数据。覆盖后无法恢复,请谨慎操作。 通过范围 全部:当前团队标注完成的所有数据。包含验收通过、未验收和验收不通过的。即本数据集的所有抽样文件数。 全部不通过:当前团队标注完成的所有数据不通过验收,即将所有标注数据驳回给标注人员。全部数据指验收通过、未验收和验收不通过的所有数据, 即本数据集的所有抽样文件数。 验收通过和未验收的数据:针对抽样文件中验收通过和未验收的数据,通过验收。验收不通过的数据将驳回给标注人员。 验收通过的数据:针对抽样文件中验收通过的数据,通过验收。未验收和验收不通过的数据将驳回给标注人员。 图8 完成验收
  • 添加文件 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。 在弹出的“添加文件”对话框中,选择上传文件。 选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。 图7 添加上传文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”的“标注对象列表”中。
  • 注意事项 在开始标注之前,需确保数据集对应的“实体标签”和“关系标签”已定义好。“关系标签”需设置对应的“起始实体”和“终止实体”。“关系标签”只能添加至其设置好的“起始实体”和“终止实体”之间。 例如,如图1所示,当两个文本都被标注为“地点”,那么针对这两个实体,无法添加本示例中的任意一个关系标签。当无法添加某个关系标签时,界面将显示一个红色的叉号,如图2所示。 图1 实体标签和关系标签的示例 图2 无法添加关系标签
  • 标注文本 数据集详情页中,展示了此数据集中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选中相应文本内容,在页面呈现的实体类型列表中选择实体名称,完成实体标注。 图3 实体标注 在完成多个实体标注后,鼠标左键依次单击起始实体和终止实体,在呈现的关系类型列表中选择一个对应的关系类型,完成关系标注。 图4 关系标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。 “文本三元组”类型的数据集,不支持在标注页面修改标签,需要进入“修改数据集”页面,修改“实体标签”和“关系标签”。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 在数据集详情页,单击“已标注”页签,在左侧文本列表中选中一行文本,右侧区域显示具体的标注信息。将鼠标移动至对应的实体标签或关系类型,单击鼠标右键,可删除此标注。单击鼠标左键,依次单击连接起始实体和终止实体,可增加关系类型,增加关系标注。 图5 在文本中修改标签 您也可以在单击页面下方的“删除当前项标签”按钮,删除选中文本对象中的所有标签。 图6 删除当前项标签
  • 删除文件 通过数据删除操作,可将需要丢弃的文件数据快速删除。 在“未标注”页面中,单击选中需要删除的文本,然后单击左上角“删除”,即可完成文本的删除操作。 在“已标注”页面中,选中待删除的文本,然后单击“删除”,删除单个文本。或者勾选“选择当前页”选中该页面所有文本,然后单击左上角“删除”,即可完成当前页所有文本的删除操作。 其中,被选中的文本,其背景将显示为蓝色。如果当前页面无选中文本时,“删除”按钮为灰色,无法执行删除操作。
  • 背景信息 目前只有“图像分类”和“物体检测”类型的数据集支持智能标注功能。 启动智能标注时,需数据集存在至少2种标签,且每种标签已标注的图片不少于5张。 启动智能标注时,必须存在未标注图片。 启动智能标注前,保证当前系统中不存在正在进行中的智能标注任务。 检查用于标注的图片数据,确保您的图片数据中,不存在RGBA四通道图片。如果存在四通道图片,智能标注任务将运行失败,因此,请从数据集中删除四通道图片后,再启动智能标注。
  • 规范要求 自定义镜像 中不能包含恶意代码。 基础镜像中的部分内容不能改变,包括“/bin”、“/sbin”、“/usr”、“/lib(64)”下的所有文件,“/etc”下的部分重要配置文件,以及“$HOME”下的ModelArts小工具。 不可以新增属主为“root”且权限包含“setuid”或“setgid”位的文件。 自定义镜像大小不能超过9.5GB。 日志文件输出,为保证日志内容可以正常显示,日志信息需要打印到标准输出。 自定义镜像的默认用户必须为“uid”为“1101”的用户。 自定义镜像可以基于ModelArts官方提供的基础镜像制作,基础镜像请参考基础镜像包概述。
  • 适用于Ascend芯片基础镜像 基础镜像地址 swr.cn-north-4.myhuaweicloud.com/modelarts-job-dev-image/mindspore-ascend910-cp37-euleros2.8-aarch64-training:1.3.0-3.3.0-romaswr.cn-north-4.myhuaweicloud.com/modelarts-job-dev-image/tensorflow-ascend910-cp37-euleros2.8-aarch64-training:1.15.0-3.3.0-roma 基础镜像包含的组件、工具如表7和表8所示 表7 组件列表 名称 说明 run_train.sh 可自动完成OBS代码路径下载至本地、Ascend HCCL RANK_TABLE_FILE v0.1 格式转 v1.0 格式、多卡训练进程拉起功能。 表8 工具列表 工具名称 说明 utils.sh 工具脚本。“run_train.sh”脚本依赖此脚本。 提供了SK解密,代码目录下载,日志文件上传等方法。 modelarts-downloader.py OBS下载脚本。“utils.sh”脚本依赖此脚本。
  • 版本对比 在“版本管理”页面中,针对当前训练作业的所有版本,或者使用过滤功能筛选后的版本,单击右侧“查看对比结果”,可查看训练版本之间的对比,包含“运行参数”、“F1值”、“召回率”、“精确率”、“准确率”。 使用预置算法创建的训练作业,才会显示其对应的“F1值”、“召回率”、“精确率”、“准确率”。针对使用常用框架、或自定义镜像创建的训练作业,请在您的训练脚本代码中定义好这些参数的输出,暂不支持在界面中查看。 图2 训练版本对比
共100000条