华为云用户手册

  • 训练模型 图1 模型训练 在“模型训练”页面配置训练参数,开始训练模型。 在“参数配置”填写“学习率”、“训练轮次”和“分批训练样本数”。 “学习率”用来控制模型的学习速度,范围为(0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 “分批训练样本数”又叫批尺寸(Batch Size),指一次训练所抓取的数据样本数量,影响训练速度及模型优化效果。 确认信息后,单击“开始训练”。 模型训练一般需要运行一段时间,等模型训练完成后,“模型训练”页面下方显示训练详情。
  • 上传数据至OBS 使用 ModelArts Pro 进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《 对象存储服务 快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 训练模型 图1 模型训练 在“模型训练”页面,勾选模型训练所使用的“预训练模型”,并配置训练参数,开始训练模型。 预训练模型 当前服务提供预置预训练模型“高精版”、“均衡版”、“基础版”,在“预训练模型”列表中可查看“模型精度”、“推理速度”、“训练速度”和模型“简介”。 参数配置 在“参数配置”填写“学习率”、“训练轮次”和“语种”。 “学习率”用来控制模型的学习速度,范围为(0,1]。 “训练轮次”指模型训练中遍历数据集的次数。 “语种”指文本数据的语言种类。 确认信息后,单击“开始训练”。 模型训练一般需要运行一段时间,等模型训练完成后,“模型训练”页面下方显示训练详情。
  • 数据集要求 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 txt文件编码保存为“UTF-8”格式: 打开txt文件。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。 csv文件编码保存为“UTF-8”格式: 右键单击csv文件,“打开方式”选择“记事本”。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 文本数据至少包含2个及以上的标签。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 多语种文本分类工作流仅支持对单语种的文本分类,当前支持文本分类的语种包括英语、法语、德语、西班牙语、葡萄牙语、阿拉伯语等。暂不支持对同一文本中含多语种的文本进行分类训练。 针对未标注数据,将待标注的内容放在一个文本文件内。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。 It feels very good, and the reaction speed is very fast. positiveI bought one three months ago and used it very well and decisively replaced the old phone. positiveHow can the power become hot even if the battery is not charged for a while? negativeThe headphones are great. Some subwoofers feel very tight in the ears and won’t fall off. positive
  • 详细评估 在“模型评估”页面,您可以搜索查看测试集中数据模型预测结果。 “详细评估”左侧在搜索框中搜索标签,右侧显示正确标签所对应样本的正确标签和预测标签,您可以对比正确标签和预测标签,判断当前模型对该样本的预测是否正确。 例如搜索框内输入标签“1”,下方会显示正确标签为“1”的样本中,预测正确的样本数在验证集中的占比。右侧显示正确标签为“1”的样本信息,包括样本的正确标签和预测标签。 图2 详细评估
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量:不能有损坏的图片;目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,刹车盘识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。 示例如下所示,其中“ventilation”和“physical”分别为标签名。 dataset-import-example ├─ventilation │ 10.jpg │ 11.jpg │ 12.jpg │ └─physical 1.jpg 2.jpg 3.jpg 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。 示例如下所示,“import-dir-1”和“imort-dir-2”为导入子目录。 dataset-import-example ├─import-dir-1│ 10.jpg│ 10.txt │ 11.jpg │ 11.txt│ 12.jpg │ 12.txt└─import-dir-2 1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例,如1.txt文件内容如下所示: ventilation 只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 数据集要求 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。 txt文件编码保存为“UTF-8”格式: 打开txt文件。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。 csv文件编码保存为“UTF-8”格式: 右键单击csv文件,“打开方式”选择“记事本”。 单击左上角的“文件”,选择“另存为”。 “编码”选择“UTF-8”格式。 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流。 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。 例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。 华为通过不断的技术创新,来应对来自全球政治环境的挑战 科技,政治最近科技创业公司纷纷上市科创板 科技,经济
  • 数据集要求 文件名规范,不能有中文,不能有+、空格、制表符。 保证图片质量,不能有损坏的图片。目前支持的格式包括JPG、JPEG、PNG、BMP。 不要把明显不同的多个任务数据放在同一个数据集内。 为了保证模型的预测准确度,训练样本跟真实使用场景尽量相似。 为保证模型的泛化能力,数据集尽量覆盖可能出现的各种场景。 每一类数据尽量多,尽量均衡。每个分类标签需要准备20个数据以上,为了训练出效果较好的模型,建议每个分类标签准备200个以上的数据。 针对未标注数据,要求将图片放在一个目录里,示例如下所示。 ├─dataset-import-example │ IMG_20180919_114732.jpg │ IMG_20180919_114745.jpg │ IMG_20180919_114945.jpg 如果导入位置为OBS,用户需具备此OBS路径的读取权限。 只支持JPG、JPEG、PNG、BMP格式的图片。 针对已标注数据,云状识别工作流仅支持一张图片识别单个标签,支持如下两种数据格式。 相同标签的图片放在一个目录里,并且目录名字即为标签名。当存在多层目录时,则以最后一层目录为标签名。 示例如下所示,其中“cumulus”和“stratus”分别为标签名。 dataset-import-example ├─cumulus │ 10.jpg │ 11.jpg │ 12.jpg │ └─stratus 1.jpg 2.jpg 3.jpg 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签,优先级高于第一种格式。 示例如下所示,“import-dir-1”和“imort-dir-2”为导入子目录。 dataset-import-example ├─import-dir-1│ 10.jpg│ 10.txt │ 11.jpg │ 11.txt│ 12.jpg │ 12.txt└─import-dir-2 1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例,如1.txt文件内容如下所示: stratus 只支持JPG、JPEG、PNG、BMP格式的图片。单张图片大小不能超过5MB,且单次上传的图片总大小不能超过8MB。
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 上传数据至OBS 使用ModelArts Pro进行应用开发时,您需要将数据上传至OBS桶中。 首先需要获取访问OBS权限,在未进行委托授权之前,无法使用此功能。您需要提前获得OBS授权,详情请见配置访问权限。 已创建用于存储数据的OBS桶及文件夹,且数据存储的OBS桶与ModelArts Pro在同一区域(目前仅支持华为-北京四),详情请见创建OBS桶。 上传数据至OBS,OBS上传数据的详细操作请参见《对象存储服务快速入门》。 您在创建OBS桶时,需保证您的OBS桶与ModelArts Pro在同一个区域。 建议根据业务情况及使用习惯,选择OBS使用方法。 如果您的数据量较小(小于100MB)或数据文件较少(少于100个),建议您使用控制台上传数据。控制台上传无需工具下载或多余配置,在少量数据上传时,更加便捷高效。 如果您的数据量较大或数据文件较多,建议选择OBS Browser+或obsutil工具上传。OBS Browser+是一个比较常用的图形化工具,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务较好的选择。 如果您的业务环境需要通过API或SDK执行数据上传操作,或者您习惯于使用API和SDK,推荐选择OBS的API或SDK方法创建桶和上传对象。 上述说明仅罗列OBS常用的使用方式和工具,更多OBS工具说明,请参见《OBS工具指南》。
  • 导入数据集 在“数据选择”页面,单击“导入数据集”。 弹出“导入数据集”对话框。 “导入数据集”对话框会显示您在刹车盘工作流创建的其他应用中已使用的数据集信息,包括“数据集名称”和“标注进度”。 图4 导入数据集 勾选数据集,然后单击“确定”。 数据集导入后,“数据选择”页面右上角会显示“数据集导入成功”。 导入勾选数据集后,在数据选择页面勾选当前应用开发所需的训练数据集。 由于模型训练过程需要有标签的数据,针对已上传的数据集,手动添加或修改标签。 单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据-图像分类。
  • 操作步骤 在“服务部署”页面,按表1填写服务的相关参数,然后单击“部署”。 图1 服务部署 表1 服务部署参数说明 参数 说明 服务名称 待部署的服务名称,单击可修改服务默认服务名称。 描述 待部署服务的简要说明。 资源池 用于服务部署的资源池和资源类型,可选“公共资源池”和“专属资源池”。 “公共资源池”:提供公共的大规模计算集群,资源按作业隔离。您可以按需选择不同的资源类型。 “专属资源池”:提供独享的计算资源,不与其他用户共享,更加高效。使用专属资源池需要在ModelArts创建专属资源池,详情请见资源池。 计算节点规格 请根据界面提示选择需要使用的规格。 计算节点个数 设置当前版本模型的实例个数。如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。请根据实际编码情况选择计算模式。 服务自动停止 设置服务自动停止的时间,在线服务运行状态在所选的时间点后自动停止,同时在线服务也停止计费。 部署成功后,页面显示“服务部署成功”,您可以单击“查看应用监控”,进入“应用监控”页面,监控应用的相关信息,详情请见监控应用。
  • 评估模型 在“模型评估”页面,您可以针对当前版本的模型进行模型评估,查看评估参数对比和详细评估,也可以模拟在线测试。 图1 评估模型 模型评估 “模型评估”下侧显示当前模型的版本、验证集数量。 评估参数对比 “评估参数对比”下方显示当前模型的评估参数值,包括“精准率”、“召回率”、“F1值”。您可以在上方单击选择“评估范围”,单击“添加对比版本”。 详细评估 “详细评估”下方显示各个标签下正确率,即对应标签下预测正确的样本数占该标签下样本总数比例,单击各标签,右侧可查看该标签识别错误的图片。
  • 模型如何提升效果 检查是否存在训练数据过少的情况,建议每个类别的图片量不少于100个,如果低于这个量级建议扩充。 检查不同标签的样本数是否均衡,建议不同标签的样本数量级相同,并尽量接近,如果有的类别数据量很高,有的类别数据量较低,会影响模型整体的识别效果。 如果分割效果不好,建议检测图片标注,标注质量的好坏直接影响模型训练图像分割效果的好坏。 根据数据量选择适当的学习率和训练轮次。 通过详细评估中的错误识别示例,有针对性地扩充训练数据。
  • 工作流简介 功能介绍 支持构建 文字识别 模板,识别单个板式图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 适用场景 用户认证识别 识别证件中关键信息,节省人工录入,提升效率,降低用户实名认证成本,准确快速便捷。 快递单自动填写 识别图片中联系人信息并自动填写快递单,减少人工输入。 合同录入与审核 自动识别结构化信息与提取签名盖章区域,有助快速审核。 优势 解决手工录入投入大、效率低、语种多等问题,提升业务效率。 一键式部署,快速输出高精度结构化数据。
  • 基本概念 参照字段为模板图片和待识别图片中的公共文字部分,所有需要识别的图片中都要包含参照字段,且位置必须固定。 套件提供了自动搜索参照字段和手动框选参照字段这两种模式。 自动搜索参照字段:未手动框选任何参照字段的情况下,默认激活自动搜索参照字段模式。 手动框选参照字段:若手动框选了任意参照字段,将激活手动框选模式。 当识别图片的场景比较单一时,即只有一种模板,且参照字段不容易与其他文字混淆时,可以使用自动参照字段来简化模板制作过程,否则建议手动框选,详细步骤请参见操作步骤。
  • 前提条件 使用ModelArts Pro服务请根据如何使用ModelArts Pro罗列的要求,提前完成准备工作。 保证华为云帐号不欠费。在ModelArts Pro控制台开发应用时,会占用OBS资源,需要收取一定费用,收费规则请参见对象存储服务OBS。 如果您的帐号是 IAM 帐号,在新建应用前,请先使用管理员帐号为IAM用户授予文字识别服务(Optical Character Recognition,简称OCR)操作权限权,详细操作请见给IAM用户授权。
  • 使用预置工作流开发应用流程 文字识别套件提供了单模板工作流和多模板工作流,您可以通过预置的工作流,自主构建文字识别模板,识别模板图片中的文字,提供高精度的文字识别模型,保证结构化信息提取精度。 图1 使用预置工作流开发应用 表1 使用预置工作流开发应用流程 流程 说明 详细指导 选择文字识别套件 根据您的实际使用需求选择文字识别套件。您也可以通过查看工作流定位所需使用的套件。 在ModelArts Pro控制台界面,单击“文字识别”套件卡片的“进入套件”,进入文字识别套件控制台。 新建应用 基于已选择的工作流新建应用,填写应用基本信息、选择工作流。 新建应用 开发应用 通用单模板工作流 根据工作流指引,创建单模板服务,通过模板训练文字识别模型,实现单模板图像的文字信息结构化提取。 创建单模板 多模板分类工作流 根据工作流指引,创建多模板服务,通过多模板训练模板分类器和文字识别模型,实现多模板图像的文字信息结构化提取。 创建多模板 调用API和SDK 部署服务后,支持通过调用API和SDK调用当前模板服务。 调用API和SDK
  • 授权配置 如果已获得ModelArts委托授权,则可以直接进入ModelArts Pro控制台使用行业套件,无需再次配置访问权限。 如果未获得ModelArts委托授权和访问密钥(AK/SK)授权,当进入ModelArts Pro控制台的行业套件时,会弹出“访问授权”对话框。 在弹出的“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。 “用户名”为当前需要授权的用户名,保持默认值。 “委托”单击“自动创建”,选择“modelarts_agency”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”。 图1 访问授权 如果未获得ModelArts委托授权,但是已获得访问密钥(AK/SK)授权,当进入ModelArts Pro控制台的行业套件时,在弹出的“访问授权”对话框中会提示删除密钥授权。 图2 访问授权 单击“访问授权”对话框上方的“删除”,删除旧的授权。 删除成功后,对话框中就没有删除密钥授权的提示了。 在“访问授权”对话框填写授权信息,然后单击“同意授权”,完成访问授权的配置。 “用户名”为当前需要授权的用户名,保持默认值。 “委托”选择“modelarts_agency”。 勾选“我已经详细阅读并同意《ModelArts服务声明》”。
  • 数据库基本操作 创建数据库用户。 默认只有创建集群时生成的管理员用户可以访问初始数据库。要向其他用户授予访问权限,必须创建新的用户帐户。 1 CREATE USER joe WITH PASSWORD 'password'; 当结果显示为如下信息,则表示创建成功。 1 CREATE USER 上面,创建了一个用户名为joe,密码用户自定义。 新创建的用户帐户默认具有所有数据库的登录权限和创建表、视图、索引等的权限及对这些自己所建对象的操作权限。更多信息请参见用户。 创建数据库。 1 CREATE DATABASE mytpcds; 有关数据库管理的更多操作指导,请参考创建和管理数据库。 (可选)创建schema。 schema又称作模式。通过schema,允许多个用户使用同一数据库而不相互干扰。 执行如下命令来创建一个schema。 1 CREATE SCHEMA myschema; 当结果显示如下信息,则表示成功创建一个名为myschema的schema。 1 CREATE SCHEMA schema创建成功后,就可以在该schema下创建对象了。但是,请确保在创建对象前使用如下两种方式之一将对象创建到对应的schema下。 先将数据库的search_path设成对应schema,然后再创建对象。 12 SET SEARCH_PATH TO myschema;CREATE TABLE mytable (firstcol int); 在创建对象时指定由“模式名称+对象名称”组成的完整对象名称,中间由符号“.”隔开。例如: 1 CREATE TABLE myschema.mytable (firstcol int); 如果在创建对象时不指定schema,则会将对象创建在当前的schema下。查询当前schema的办法为: 12345 show search_path; search_path---------------- "$user",public(1 row) 创建完mytpcds数据库后,就可以按如下方法退出gaussdb数据库。 1 \q 有关schema的更多信息请参考创建和管理schema。 创建表。 创建一个名称为mytable,只有一列的表。字段名为firstcol,字段类型为integer。 1 CREATE TABLE mytable (firstcol int); 未使用“DISTRIBUTE BY”指定分布列时,系统默认会使用第一个符合分布列数据类型要求的列为分布列,且给出提示。系统返回信息以“CREATE TABLE”结束,表示创建表成功。 12 NOTICE: The 'DISTRIBUTE BY' clause is not specified. Using 'firstcol' as the distribution column by default.HINT: Please use 'DISTRIBUTE BY' clause to specify suitable data distribution column. PG_TABLES系统表包含集群中所有表的有关信息。通过SELECT 命令可以在此系统表中查看表的属性。 1 SELECT * FROM PG_TABLES WHERE TABLENAME = 'mytable'; 向表中插入数据: 1 INSERT INTO mytable values (100); INSERT 命令可向数据库表插入各个行。要进行标准的批量加载,请参阅关于OBS并行导入。 查看表中数据: 12345 SELECT * from mytable; firstcol ---------- 100(1 row) 默认情况下,新的数据库对象是创建在“public”模式下的,例如刚刚新建的表。关于模式的更多信息请参考创建和管理schema。 关于创建表的更多信息请参见创建表。 除了创建的表以外,数据库还包含很多系统表。这些系统表包含集群安装信息以及 GaussDB (DWS)上运行的各种查询和进程的信息。可以通过查询系统表来收集有关数据库的信息。请参见查看系统表。 GaussDB(DWS)支持行列混合存储,为各种复杂场景下的交互分析提供更好的查询性能,关于存储模型的选择,请参考规划存储模型。
  • 创建表 执行如下命令创建表。 123456789 CREATE TABLE customer_t1( c_customer_sk integer, c_customer_id char(5), c_first_name char(6), c_last_name char(8))with (orientation = column,compression=middle)distribute by hash (c_last_name); 当结果显示为如下信息,则表示创建成功。 1 CREATE TABLE 其中c_customer_sk 、c_customer_id、c_first_name和c_last_name是表的字段名,integer、char(5)、char(6)和char(8)分别是这四字段名称的类型。
  • 列存表 数据按列进行存储,即一列所有数据是连续存储的。单列查询IO小,比行存表占用更少的存储空间。适合数据批量插入、更新较少和以查询为主统计分析类的场景。列存表不适合点查询。 1 2 3 4 5 6 7 8 910 CREATE TABLE customer_t2( state_ID CHAR(2), state_NAME VARCHAR2(40), area_ID NUMBER)WITH (ORIENTATION = COLUMN);--删除表DROP TABLE customer_t2;
  • 定时任务管理 创建测试表: 1 CREATE TABLE test(id int, time date); 当结果显示为如下信息,则表示创建成功。 1 CREATE TABLE 创建自定义存储过程: 123456789 CREATE OR REPLACE PROCEDURE PRC_JOB_1()ASN_NUM integer :=1;BEGINFOR I IN 1..1000 LOOPINSERT INTO test VALUES(I,SYSDATE);END LOOP;END;/ 当结果显示为如下信息,则表示创建成功。 1 CREATE PROCEDURE 创建任务: 新创建的任务(未指定job_id)表示每隔1分钟执行一次存储过程PRC_JOB_1。 12345 call dbms_job.submit('call public.prc_job_1(); ', sysdate, 'interval ''1 minute''', :a);job-----1(1 row) 指定job_id创建任务 12345 call dbms_job.isubmit(2,'call public.prc_job_1(); ', sysdate, 'interval ''1 minute''');isubmit---------(1 row) 通过视图查看当前用户已创建的任务信息 12345 select job,dbname,start_date,last_date,this_date,next_date,broken,status,interval,failures,what from user_jobs;job | dbname | start_date | last_date | this_date | next_date | broken | status | interval | failures | what-----+--------+---------------------+----------------------------+----------------------------+---------------------+--------+--------+---------------------+----------+---------------------------1 | gaussdb | 2017-07-18 11:38:03 | 2017-07-18 13:53:03.607838 | 2017-07-18 13:53:03.607838 | 2017-07-18 13:54:03 | n | s | interval '1 minute' | 0 | call public.prc_job_1();(1 row) 停止任务 12345 call dbms_job.broken(1,true);broken--------(1 row) 启动任务 12345 call dbms_job.broken(1,false);broken--------(1 row) 修改任务属性 修改JOB的Next_date参数信息 --修改Job1的Next_date为1小时以后开始执行。 12345 call dbms_job.next_date(1, sysdate+1.0/24);next_date-----------(1 row) 修改JOB的Interval参数信息 --修改Job1的Interval为每隔1小时执行一次。 12345 call dbms_job.interval(1,'sysdate + 1.0/24');interval----------(1 row) 修改JOB的What参数信息 --修改Job1的What为执行SQL语句“insert into public.test values(333, sysdate+5);”。 12345 call dbms_job.what(1,'insert into public.test values(333, sysdate+5);');what------(1 row) 同时修改JOB的Next_date、Interval、What等多个参数信息 12345 call dbms_job.change(1, 'call public.prc_job_1();', sysdate, 'interval ''1 minute''');change--------(1 row) 删除JOB 12345 call dbms_job.remove(1);remove--------(1 row) JOB的权限控制 当创建一个JOB时,该JOB会和创建该JOB的数据库和用户绑定(即:pg_job系统视图新增的JOB记录中的dbname和log_user)。 如果当前用户是DBA用户、系统管理员、该JOB的创建用户(即:pg_job中的log_user),那么该用户有权限通过高级包接口remove、change、next_data、what、interval删除或修改JOB的参数信息。否则,会提示当前用户没有权限操作该JOB。 如果当前数据库是该JOB创建所属的数据库(即:为pg_job系统视图中的dbname),那么连接到当前数据库上可以通过高级包接口remove、change、next_data、what、interval删除或修改JOB的参数信息。 当删除JOB所属的数据库(即:为pg_job系统视图中的dbname)时,系统会关联删除该数据库从属的JOB记录。 当删除JOB所属的用户(即:为pg_job系统视图中的log_user)时,系统会关联删除该用户从属的JOB记录。
  • 背景信息 当客户在使用数据库过程中,如果白天执行一些耗时比较长的任务(例如:统计数据汇总之类或从其他数据库同步数据的任务),会对正常的业务有性能影响,所以客户经常选择在晚上执行,无形中增加了客户的工作量。因此数据库兼容Oracle数据库中定时任务的功能,可以由客户创建定时任务,当任务时间点到达后可以自动触发任务的执行,从而可以减少客户运维的工作量。 数据库兼容Oracle定时任务功能主要通过DBMS.JOB高级包提供的接口,可以实现定时任务的创建、任务到期自动执行、任务删除、修改任务属性(包括:任务id、任务的关闭开启、任务的触发时间、触发时间间隔、任务内容等)。 实时数仓(单机部署)暂不支持定时任务功能。
  • 操作步骤 创建一个新的数据库db_tpcds。 1 CREATE DATABASE db_tpcds; 当结果显示如下信息,则表示创建成功。 1 CREATE DATABASE 正如背景信息中所说,创建数据库时默认拷贝模板数据库template1。template1的编码格式为SQL_ASCII。对于这种编码格式,在创建数据库对象时,如果对象名中含有多字节字符(例如中文),超过数据库对象名长度限制(63字节)的时候,系统会从最后一个字节(而不是字符)截断,可能造成出现半个字符的情况。 针对这种情况,请遵循以下条件: 保证数据对象的名称不超过限定长度。 不要使用多字节字符做为对象名。 如果出现因为误操作导致在多字节字符的中间截断进而无法删除数据库对象的现象,请使用截断前的数据库对象名进行删除操作,或将该对象从各个数据库节点的相应系统表中依次删掉。 您也可以通过指示CREATE DATABASE使用template0取代template1进行拷贝,在复制tmplate0时指定新的编码和区域设置。例如使用utf-8编码集做为数据库的默认存储编码集(server_encoding)。详细请参见CREATE DATABASE的语法指导。 通过“show server_encoding”命令可以查看当前数据库存储编码。 数据库名称遵循SQL标识符的一般规则。当前用户自动成为此新数据库的所有者。 如果一个数据库系统用于承载相互独立的用户和项目,建议把它们放在不同的数据库里。 如果项目或者用户是相互关联的,并且可以相互使用对方的资源,则应该把它们放在同一个数据库里,但可以规划在不同的Schema中。Schema只是一个纯粹的逻辑结构,某个Schema的访问权限由三权分立的 “表1 默认的用户权限”控制。 查看数据库 使用\l元命令查看数据库系统的数据库列表。 1 \l 使用以下命令通过系统表pg_database查询数据库列表: 1 SELECT datname FROM pg_database; 修改数据库 用户可以使用ALTER DATABASE命令修改数据库属性(比如:owner、名称和默认的配置属性)。 使用以下命令为数据库设置默认的模式搜索路径: 1 ALTER DATABASE db_tpcds SET search_path TO pa_catalog,public; 使用以下命令为数据库重新命名: 1 ALTER DATABASE db_tpcds RENAME TO human_tpcds; 删除数据库 用户可以使用DROP DATABASE命令删除数据库。这个命令删除了数据库中的系统目录,并且删除了带有数据的磁盘上的数据库目录。用户必须是数据库的owner或者系统管理员才能删除数据库。当有人连接数据库时,删除操作会失败。删除数据库时请先连接到其他的数据库。 使用如下命令删除数据库: 1 DROP DATABASE human_tpcds;
  • 背景信息 初始时,GaussDB(DWS)包含两个模板数据库template0、template1,以及一个默认的用户数据库gaussdb。 CREATE DATABASE实际上通过拷贝模板数据库来创建新数据库。默认情况下,拷贝template1。请避免使用客户端或其他手段连接及操作两个模板数据库。 GaussDB(DWS)允许创建的数据库总数目上限为128个。 数据库系统中会有多个数据库,但是客户端程序一次只能连接一个数据库。也不能在不同的数据库之间相互查询。一个数据库集群中存在多个数据库时,需要通过-d参数指定相应的数据库实例进行连接。
共100000条