华为云用户手册

  • 配置访问权限 在您使用 ModelArts Pro 过程中,ModelArts Pro需要访问ModelArts服务的云资源,如果没有授权,相关功能将不能正常使用。因此,在使用ModelArts Pro之前,需要进行访问授权。ModelArts Pro当前仅支持使用委托授权。 如果已获得ModelArts委托授权,则可以直接进入ModelArts Pro控制台使用行业套件,无需再次配置访问权限。 如果未获得ModelArts委托授权和访问密钥(AK/SK)授权,当进入ModelArts Pro控制台的行业套件时,会弹出“访问授权”对话框。 在弹出的“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。 “用户名”为当前需要授权的用户名,保持默认值。 “委托”选择“modelarts_agency”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”。 图2 访问授权 如果未获得ModelArts委托授权,但是已获得访问密钥(AK/SK)授权,当进入ModelArts Pro控制台的行业套件时,在弹出的“访问授权”对话框中会提示删除密钥授权。 单击“访问授权”对话框上方的“删除”,删除旧的授权。 删除成功后,对话框中就没有删除密钥授权的提示了。 在“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。 “用户名”为当前需要授权的用户名,保持默认值。 “委托”选择“modelarts_agency”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”。
  • 申请套件 登录ModelArts Pro控制台,选择行业套件卡片并单击“申请公测”,在申请公测页面根据界面提示填写所需信息。 申请公测操作完成后,单击“前往我的公测”,进入“我的公测”页面。当“审批状态”显示为“审批通过”时,表示您已经获得了该行业套件的公测权限。 申请行业套件的公测权限后,在ModelArts Pro控制台选择行业套件卡片并单击“进入套件”,即可进入行业套件的控制台。 例如单击 自然语言处理 套件卡片的“进入套件”,即可进入自然语言处理套件的控制台。 图1 进入套件
  • 如何提升模型训练效果? 在模型构建过程中,您可能需要根据训练结果,不停的调整数据、训练参数或模型,以获得一个满意的模型。 更新模型时,可以通过如下几方面提升模型训练效果: 检查是否存在训练数据过少的情况,建议每个标签的样本数不少于100个,如果低于这个量级建议扩充。 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。 选择适当的学习率和训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
  • ModelArts与ModelArts Pro的区别 ModelArts是一站式AI开发管理平台,提供领先算法技术,保证AI应用开发的高效和推理结果的准确,同时减少人力投入。ModelArts致力于底层模型专业开发、调参等。 ModelArts Pro根据预置工作流生成指定场景模型,无需深究底层模型开发细节。ModelArts Pro致力于解决通用API局限性、AI算法开发门槛高等难题,提供行业AI定制化开发套件,沉淀行业知识,让开发者聚焦自身业务,底层依托ModelArts平台。 图1 功能架构
  • 部署服务后,调用API失败怎么办? 在ModelArts Pro使用预置工作流部署服务后,可通过调用API和SDK调用已部署的在线服务。如果调用API失败,可根据返回的错误码及错误信息解决问题,具体的错误码说明请见表1。 表1 API调用指导 行业套件 调用API方法 错误码 文字识别 套件 OCR_API参考 OCR错误码 自然语言处理套件 NLP_API参考 NLP错误码 视觉套件 Image_API参考 Image错误码
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《 对象存储服务 快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 视觉套件 使用视觉套件开发应用时,需要上传图片数据训练模型。 上传的数据集要求如表3所示。 表3 视觉套件数据集要求 工作流 数据集要求 零售商品识别工作流 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。 基于已设计好的商品标签准备图片数据。每个商品标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个商品标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”。 物体检测的标注文件需要满足PASCAL VOC格式。 零售商品工作流标注时需要勾勒出商品形状,必须使用多边形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。 更多详情请见准备数据。 热轧钢板表面缺陷检测工作流 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,且单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖所有标签的图片。 基于已设计好的热轧钢板表面缺陷标签准备图片数据。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”。 热轧钢板表面缺陷检测工作流标注时标注框包含缺陷即可,因此建议使用矩形标注框标注图片。如果标注框坐标超过图片,将无法识别该图片为已标注图片。 物体检测的标注文件需要满足PASCAL VOC格式。 更多详情请见准备数据。 云状识别工作流 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量,不能有损坏的图片。目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,云状识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。 示例如下所示,其中“cumulus”和“stratus”分别为标签名。 dataset-import-example ├─cumulus │ 10.jpg │ 11.jpg │ 12.jpg │ └─stratus 1.jpg 2.jpg 3.jpg 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。 示例如下所示,“import-dir-1”和“imort-dir-2”为导入子目录。 dataset-import-example ├─import-dir-1│ 10.jpg│ 10.txt │ 11.jpg │ 11.txt│ 12.jpg │ 12.txt└─import-dir-2 1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例,如1.txt文件内容如下所示: stratus 只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。 刹车盘识别工作流 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,刹车盘识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。 示例如下所示,其中“ventilation”和“physical”分别为标签名。 dataset-import-example ├─ventilation │ 10.jpg │ 11.jpg │ 12.jpg │ └─physical 1.jpg 2.jpg 3.jpg 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。 示例如下所示,“import-dir-1”和“imort-dir-2”为导入子目录。 dataset-import-example ├─import-dir-1│ 10.jpg│ 10.txt │ 11.jpg │ 11.txt│ 12.jpg │ 12.txt└─import-dir-2 1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例,如1.txt文件内容如下所示: ventilation 只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。 无监督车牌检测工作流 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP,单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 数据集样本数应大于100,用于测试的已标注数据应不少于20张,样本数达1万张以上性能更优。 为了准确率,建议数据集中标注数据占总数据量的10%,用于测试模型,其余90%无需标注。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 针对已标注数据,要求用户将标注对象和标注文件存储在同一目录,并且一一对应,如标注对象文件名为“IMG_20180919_114745.jpg”,那么标注文件的文件名应为“IMG_20180919_114745.xml”。 物体检测的标注文件需要满足PASCAL VOC格式。无监督车牌检测工作流标注时标注框需要包含车牌,必须使用矩形标注框。如果标注框坐标超过图片,将无法识别该图片为已标注图片。 更多详情请见准备数据。
  • 自然语言处理套件 自然语言处理套件使用开发应用时,需要上传文本数据用于模型训练。 数据集要求如表2所示。 表2 自然语言处理套件数据集要求 工作流 数据集要求 通用文本分类工作流 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。 华为通过不断的技术创新,来应对来自全球政治环境的挑战 科技,政治最近科技创业公司纷纷上市科创板 科技,经济 多语种文本分类工作流 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。 针对未标注数据,将待标注的内容放在一个文本文件内。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。 It feels very good, and the reaction speed is very fast. positiveI bought one three months ago and used it very well and decisively replaced the old phone. positiveHow can the power become hot even if the battery is not charged for a while? negativeThe headphones are great. Some subwoofers feel very tight in the ears and won’t fall off. positive 通用实体抽取工作流 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的实体标签准备文本数据。每个实体标签需要准备20个及以上数据,为了训练出效果较好的模型,建议每个实体标签准备100个以上的数据。 本工作流只支持上传未标注数据,将待标注的内容放在一个文本文件内。 txt文件编码保存为“UTF-8”格式: 打开txt文件。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。 csv文件编码保存为“UTF-8”格式: 右键单击csv文件,“打开方式”选择“记事本”。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。
  • 文字识别套件 文字识别套件当前提供了单模板工作流和多模板工作流,开发应用时需要上传模板图片,明确以哪张图片作为模板训练文字识别模型。 上传图片的要求如表1所示。 表1 文字识别套件数据集要求 工作流 数据集要求 单模板工作流 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。 多模板工作流 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 图片最大边不大于4096px,最小边不小于100px,且大小不超过4M。 训练分类器的数据集要求将图片放在一个目录里,并压缩成zip文件,文件大小不应大于10M。
  • 应用场景 特定行业下希望解决特定问题的场景。 文字识别套件 用户认证识别 识别证件中关键信息,节省人工录入,提升效率,降低用户实名认证成本,准确快速便捷。 快递单自动填写 识别图片中联系人信息并自动填写快递单,减少人工输入。 合同录入与审核 自动识别结构化信息与提取签名盖章区域,有助快速审核。 自然语言处理套件 通用文本分类场景。 智能问答 通过中文分词、短文本相似度、命名实体识别等自然语言处理相关技术,计算两个问题对的相似度,可解决问答、对话、语料挖掘、知识库构建等问题。 内容推荐 通过文本分类预测模型,精确匹配出语义相似的内容,快速构建内容推荐场景。 视觉套件 商品识别 无人超市构建商品视觉自动识别模型,无需扫码,AI自主结账。 气象智能预测 基于视频和图片数据,AI识别天气现象等气象要素,实现自动化智能预测场景。 HiLens套件 智慧园区 园区场景下,实现车牌识别、安全帽检测等功能。 智慧家庭 家庭检测、家居智能化场景下,实现手势识别、哭声检测等功能。 智慧商超 商店和超市场景下,实现VIP识别、客流量统计等功能。
  • 创建桶 桶是OBS中存储对象的容器,在上传对象前需要先创建桶。OBS提供多种使用方式,您可以根据使用习惯、业务场景选择不同的工具来创建桶。 表1 不同访问方式创建桶的方法 访问方式 创建桶方法 控制台 通过控制台创建桶 OBS Browser+ 通过OBS Browser+创建桶 obsutil 通过obsutil创建桶 SDK 使用SDK创建桶,具体参考各语言开发指南的创建桶章节 API 通过API创建桶
  • 上传对象 桶创建成功后,您可以通过以下多种方式将文件上传至桶,OBS最终将这些文件以对象的形式存储在桶中。 表2 不同访问方式上传对象的方法 访问方式 上传对象方法 控制台 通过控制台上传对象 OBS Browser+ 通过OBS Browser+上传对象 obsutil 通过obsutil上传对象 SDK 使用SDK上传对象,具体参考各语言开发指南的上传对象章节 API PUT上传、POST上传
  • 基本概念 参照字段为模板图片和待识别图片中的公共文字部分,所有需要识别的图片中都要包含参照字段,且位置必须固定。 套件提供了自动搜索参照字段和手动框选参照字段这两种模式。 自动搜索参照字段:未手动框选任何参照字段的情况下,默认激活自动搜索参照字段模式。 手动框选参照字段:若手动框选了任意参照字段,将激活手动框选模式。 当识别图片的场景比较单一时,即只有一种模板,且参照字段不容易与其他文字混淆时,可以使用自动参照字段来简化模板制作过程,否则建议手动框选,详细步骤请参见操作步骤。
  • 新增模板配置 默认进入“新增模板配置”页签。 图4 新增模板配置 单击添加多个模板,针对每个模板,选择模板类型,并且上传图片。 “上传图片”:单击“上传图片”区域,或鼠标直接拖拽图片至“上传图片”区域,上传本地一张图片作为模板,用于业务场景的文字结构化识别。 “修改模板名称”:单击图片右侧的,在弹出的输入框中输入新的模板名称,单击“确认”。 “删除模板”:单击图片右侧“删除”,在弹出的确认删除对话框中单击“确认”。 确认信息后,单击“下一步”,进入定义预处理步骤,对上传的模板图片进行自动旋转、去印章等预处理。
  • 工作流简介 功能介绍 支持用户自定义多个文字识别模板,通过模型训练,自动识别图片所需使用的模板,从而支持从大量不同板式图像中提取结构化信息。 适用场景 用户认证识别 识别证件中关键信息,节省人工录入,提升效率,降低用户实名认证成本,准确快速便捷。 快递单自动填写 识别图片中联系人信息并自动填写快递单,减少人工输入。 合同录入与审核 自动提取合同结构化信息,有助快速审核。 优势 解决手工录入投入大、效率低、语种多等问题,提升业务效率。 一键式部署,快速输出高精度结构化数据。 解决单据复杂、单据板式多、语种多问题,支持自定义多个图像板式,快速适配新板式,快速接入业务。 支持从多个不同板式图像中提取结构化信息。
  • 使用预置工作流开发应用流程 自然语言处理套件提供了通用文本分类工作流,您可以通过预置的工作流,自主上传训练数据,训练高精度的文本预测分类模型,适配不同行业场景的业务数据,快速获得定制服务。 图1 使用预置工作流开发应用 表1 使用预置工作流开发应用流程 流程 说明 详细指导 选择自然语言处理套件 根据您的实际使用需求选择自然语言处理套件。您也可以通过查看工作流定位所需使用的套件。 在ModelArts Pro控制台界面,单击“自然语言处理”套件卡片的“进入套件”,进入自然语言处理套件控制台。 新建应用 基于预置的工作流新建应用,填写应用基本信息和工作流。 新建应用 开发应用 通用文本分类工作流 根据工作流指引,开发文本分类服务,通过上传训练数据,训练生成文本预测分类模型,自主更新和调整模型精度,实现高精度的文本预测分类。 通用文本分类工作流 多语种文本分类工作流 根据工作流指引,开发非中文语种的文本分类服务,通过上传训练数据,训练生成文本预测分类模型,自主更新和调整模型精度,实现高精度的文本预测分类。 多语种文本分类工作流 通用实体抽取工作流 根据工作流指引,开发实体抽取服务,通过上传训练数据,训练生成文本实体抽取模型,自主更新和调整模型精度,实现高精度的文本中实体抽取。 通用实体抽取工作流
  • 导入数据集 在“数据选择”页面,单击“导入数据集”。 弹出“导入数据集”对话框。 “导入数据集”对话框会显示您在自然语言处理套件其他应用中已创建的文本数据集信息,包括“数据集名称”和“标注进度”。 单击数据集左侧的,可查看数据集的“创建时间”和“标签集”。 图2 导入数据集 勾选数据集,然后单击“确定”。 数据集导入后,“数据选择”页面右上角会显示“导入成功”。 导入勾选数据集后,在数据选择页面勾选当前应用开发所需的训练数据集。 由于模型训练过程需要有标签的数据,如果您上传的是已标注数据,上传后可查看标签解析。如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据-文本分类。 如果您上传的是未标注数据,您单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据-文本分类。
  • 新建数据集 在“数据选择”页面,单击“新建数据集”,右侧弹出“新建数据集”页面,根据数据存储位置和数据标注情况,按表1填写数据集基本信息,然后单击“确定”。 图1 新建数据集 表1 新建数据集参数说明 参数 说明 数据集名称 待新建的数据集名称。 描述 数据集简要描述。 数据集状态 上传的训练数据可以是已标注的数据,也可以是未标注的数据。 您可以根据自身业务选择“数据集状态”是“已标注数据集”还是“未标注数据集”。 数据集模板可在选择“数据集状态”后,单击下方的“文本分类已标注数据模板”或“文本分类未标注数据模板”,下载数据集模板至本地查看。 数据集输入位置 训练数据存储至OBS的位置。 单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 数据集输出位置 待新建的数据集存储至OBS的位置。 单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”和“文件夹”,然后单击“确定”。 说明: “数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”建议选择一个空目录。 新建数据集后,勾选当前应用开发所需的训练数据集。 由于模型训练过程需要有标签的数据,如果您上传的是已标注数据,上传后可查看标签解析。如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动修改标注数据,详细的操作指导请参考标注数据-文本分类。 如果您上传的是未标注数据,您单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据-文本分类。
  • 训练模型 图1 模型训练 在“模型训练”页面,勾选模型训练所使用的“预训练模型”,并配置训练参数,开始训练模型。 预训练模型 当前服务提供预置预训练模型“高精版”、“均衡版”、“基础版”,在“预训练模型”列表中可查看“模型精度”、“推理速度”、“训练速度”和模型“简介”。 参数配置 在“参数配置”填写“学习率”和“训练轮次”。 “学习率”用来控制模型的学习速度,范围为(0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 确认信息后,单击“开始训练”。 模型训练一般需要运行一段时间,等模型训练完成后,“模型训练”页面下方显示训练详情。
  • 前提条件 使用ModelArts Pro服务请根据如何使用ModelArts Pro罗列的要求,提前完成准备工作。 保证华为云帐号不欠费。在ModelArts Pro控制台开发应用时,会占用OBS资源,需要收取一定费用,收费规则请参见对象存储服务OBS。 如果您的帐号是 IAM 帐号,在新建应用前,请先使用管理员帐号为IAM用户授予文字识别服务(Optical Character Recognition,简称OCR)操作权限权,详细操作请见给IAM用户授权。
  • 详细评估 在“模型评估”页面,您可以搜索查看测试集中数据模型预测结果。 “详细评估”左侧在搜索框中搜索标签,右侧显示正确标签所对应样本的正确标签和预测标签,您可以对比正确标签和预测标签,判断当前模型对该样本的预测是否正确。 例如搜索框内输入标签“1”,下方会显示正确标签为“1”的样本中,预测正确的样本数在验证集中的占比。右侧显示正确标签为“1”的样本信息,包括样本的正确标签和预测标签。 图2 详细评估
  • 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。 表格数据集暂不支持切换版本。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于文本修改 在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。 基于标签修改 在数据集详情页,单击“已标注”页签,在图片列表右侧,显示全部标签的信息。 批量修改:在“全部标签”区域中,单击操作列的编辑图标,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。 批量删除:在“全部标签”区域中,单击操作列的删除图标,在弹出对话框中,可选择“仅删除标签”或“删除标签及仅包含此标签的标注对象”,然后单击“确定”。
  • 添加文件 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。 选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。 “模式”:选择“文本和标注合并”或“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。 “文本与标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。 “多标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。 图6 添加文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”或“已标注”的文本列表中。
  • 标注文本 数据集详情页中,展示了此数据集中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图2 文本分类标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。
  • 使用预置工作流开发应用流程 视觉套件提供了预置工作流,您可以通过预置的工作流,自主上传训练数据,构建和升级高精度识别模型。 图1 使用预置工作流开发应用 表1 使用预置工作流开发应用流程 流程 说明 详细指导 选择视觉套件 根据您的实际使用需求选择视觉套件。您也可以通过查看工作流定位所需使用的套件。 在ModelArts Pro控制台界面,单击“视觉套件”卡片的“进入套件”,进入视觉套件控制台。 新建应用 基于预置的工作流新建应用,填写应用基本信息和工作流。 新建应用 开发应用 零售商品识别工作流 根据工作流指引,开发商品识别服务,通过上传训练数据,训练生成商品识别模型,自主更新和调整模型精度,实现高精度的商品识别功能。 零售商品识别工作流 热轧钢板表面缺陷检测工作流 根据工作流指引,开发热轧钢板表面缺陷检测服务,通过上传训练数据,训练生成缺陷识别模型,自主更新和调整模型精度,实现高精度的热轧钢板表面缺陷识别功能。 热轧钢板表面缺陷检测工作流 云状识别工作流 根据工作流指引,开发云状识别服务,通过上传训练数据,训练生成云状识别模型,自主更新和调整模型精度,实现高精度的云状识别功能。 云状识别工作流 刹车盘识别工作流 根据工作流指引,开发刹车盘类型识别服务,通过上传训练数据,训练生成刹车盘类型识别模型,自主更新和调整模型精度,实现高精度的刹车盘类型识别功能。 刹车盘识别工作流 无监督车牌检测工作流 根据工作流指引,开发无监督车牌检测服务,通过上传训练数据,训练生成车牌检测模型,自主更新和调整模型精度,实现高精度的车牌检测功能。 无监督车牌检测工作流 第二相面积含量测定工作流 根据工作流指引,开发第二相面积含量测定服务,通过上传训练数据,训练生成模型,自主更新和调整模型精度,实现高精度的第二相面积含量测定功能。 第二相面积含量测定工作流
  • 前提条件 使用ModelArts Pro服务请根据如何使用ModelArts Pro罗列的要求,提前完成准备工作。 保证华为云帐号不欠费。在ModelArts Pro控制台开发应用时,会占用OBS资源,需要收取一定费用,收费规则请参见对象存储服务OBS。 如果您的帐号是IAM帐号,在新建应用前,请先使用管理员帐号为IAM用户授予文字识别服务(Optical Character Recognition,简称OCR)操作权限权,详细操作请见给IAM用户授权。
  • 评估模型 在“模型评估”页面,您可以针对当前版本的模型进行模型评估,查看评估参数对比和详细评估,也可以模拟在线测试。 图1 模型评估 模型评估 “模型评估”下侧显示当前模型的版本、标签数量、验证集数量。 评估参数对比 “评估参数对比”下方显示当前模型的评估参数值,包括“精准率”、“召回率”、“F1值”。您可以在上方单击选择“评估范围”,单击“添加对比版本”。 详细评估 “详细评估”下方显示各个标签下的样品数量比例,单击各标签,右侧可查看该标签识别错误的图片。
  • 自动标注数据 在“数据标注”页面,会显示自动标注的进度,如果自动标注完成,标注进度为100%。 图1 自动标注完成。 标注完成后,您可以单击“标注结果确认”中的“前往确认”,进入标注概览页。 在标注概览页单击右上方的“开始标注”,进入手动标注数据页面,针对“已标注”的数据进行核对和检查,详情请见标注数据-物体检测。针对标注错误的数据修改标注。 由于零售商品工作流标注数据时需要勾勒出商品形状,必须使用多边形标注框标注数据。
  • 导入数据集 在“数据选择”页面,单击“导入数据集”。 弹出“导入数据集”对话框。 “导入数据集”对话框会显示您在零售商品识别工作流创建的其他应用中已使用的数据集信息,包括“数据集名称”和“标注进度”。 图4 导入数据集 勾选数据集,然后单击“确定”。 数据集导入后,“数据选择”页面右上角会显示“数据集导入成功”。 导入勾选数据集后,在数据选择页面勾选当前应用开发所需的训练数据集。 由于模型训练过程需要有标签的数据,针对已上传的数据集: 手动添加或修改标签 单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据-物体检测。 由于零售商品工作流标注数据时需要勾勒出商品形状,必须使用多边形标注框标注数据。 自动标注数据 单击“下一步”,创建SKU后,自动标注数据。
共100000条