华为云用户手册

  • 关于数据集版本 针对刚创建的数据集(未发布前),无数据集版本信息,必须执行发布操作后,才能应用于模型开发或训练。 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据及标注信息。 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifest文件格式的数据集。可用于导入数据或难例筛选操作。 表格数据集暂不支持切换版本。
  • 数据集发布后,相关文件的目录结构说明 由于数据集是基于OBS目录管理的,发布为新版本后,对应的数据集输出位置,也将基于新版本生成目录。 以图像分类为例,数据集发布后,对应OBS路径下生成,其相关文件的目录如下所示。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- VersionMame2 ... |-- ... 以物体检测为例,如果数据集导入的是Manifest文件,在数据集发布后,其相关文件的目录结构如下。 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotation |-- file1.xml |-- VersionMame2 ... |-- ... 以视频标注为例,在数据集发布后,标注结果将标注结果文件(XML)存放在数据集输出目录下。 1 2 3 4 5 6 7 8 91011121314 |-- user-specified-output-path |-- DatasetName-datasetId |-- annotation |-- VersionMame1 |-- VersionMame1.manifest |-- annotations |-- images |-- videoName1 |-- videoName1.timestamp.xml |-- videoName2 |-- videoName2.timestamp.xml |-- VersionMame2 ... |-- ... 视频标注的关键帧存在数据集的输入目录下。 |-- user-specified-input-path |-- images |-- videoName1 |-- videoName1.timestamp.jpg |-- videoName2 |-- videoName2.timestamp.jpg
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成音频删除操作。 如果勾选了“同时删除源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 添加音频 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加音频,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加音频”。 在弹出的“添加音频”对话框中,单击“添加音频”。 选择本地环境中需要上传的音频,仅支持WAV格式音频文件,单个音频文件不能超过4MB,且单次上传的音频文件总大小不能超过8MB。 在添加音频对话框中,单击“确定”,完成添加音频的操作。 您添加的音频将自动呈现在“未标注”的音频列表中。且音频将自动存储至此“数据集输入位置”对应的OBS目录中。
  • 添加音频 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加音频,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加音频”。 在弹出的“添加音频”对话框中,单击“添加音频”。 选择本地环境中需要上传的音频,仅支持WAV格式音频文件,单个音频文件不能超过4MB,且单次上传的音频文件总大小不能超过8MB。 在添加音频对话框中,单击“确定”,完成添加音频的操作。 您添加的音频将自动呈现在“未标注”的音频列表中。且音频将自动存储至此“数据集输入位置”对应的OBS目录中。
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成音频删除操作。 如果勾选了“同时删除源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 基于音频修改 在数据标注页面,单击“已标注”页签,然后在音频列表中选中待修改的音频(选择一个或多个)。在右侧标签信息区域中对标签进行修改。 修改标签:在“选中文件标签”区域中,单击操作列的编辑图标,然后在文本框中输入正确的标签名,然后单击确定图标完成修改。 删除标签:在“选中文件标签”区域中,单击操作列的删除图标删除该标签。 基于标签修改 在数据标注页面,单击“标签管理”页签,在标签管理页,显示全部标签的信息。 图2 全部标签的信息
  • 添加音频 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加音频,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加音频”。 在弹出的“添加音频”对话框中,单击“添加音频”。 选择本地环境中需要上传的音频,仅支持WAV格式音频文件,单个音频文件不能超过4MB,且单次上传的音频文件总大小不能超过8MB。 在添加音频对话框中,单击“确定”,完成添加音频的操作。 您添加的音频将自动呈现在“未标注”的音频列表中。且音频将自动存储至此“数据集输入位置”对应的OBS目录中。
  • 标注音频 数据集详情页中,展示了此数据集中“未标注”和“已标注”的音频,默认显示“未标注”的音频列表。单击音频左侧,即可进行音频的试听。 在“未标注”页签,勾选需进行标注的音频。 手工点选:在音频列表中,单击音频,当右上角出现蓝色勾选框时,表示已勾选。可勾选同类别的多个音频,一起添加标签。 批量选中:如果音频列表的当前页,所有音频属于一种类型,可以在列表的右上角单击“选择当前页”,则当前页面所有的音频将选中。 添加标签。 在右侧的“标签”区域中,单击“标签”下侧的文本框中设置标签。 方式一(已存在标签):单击“标签”下方的文本框,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中选择已有的标签名称,然后单击“确定”。 方式二(新增标签):在“标签”下方的文本框中,在快捷键下拉列表中选择快捷键,然后在标签文本输入框中输入新的标签名称,然后单击“确定”。 选中的音频将被自动移动至“已标注”页签,且在“未标注”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、各标签对应的音频数量。 快捷键的使用说明:为标签指定快捷键后,当您选择一段音频后,在键盘中按一下快捷键,即可为此音频增加为此快捷键对应的标签。例如“aa”标签对应的快捷键是“1”,在数据标注过程中,选中1个或多个文件,按“1”,界面将提示是否需要将此文件标注为“aa”标签,单击确认即可完成标注。 快捷键对应的是标签,1个标签对应1个快捷键。不同的标签,不能指定为同一个快捷键。快捷键的使用,可以大大提升标注效率。 图1 添加音频标签
  • 删除音频 通过数据删除操作,可将需要丢弃的音频数据快速删除。 在“未标注”或“已标注”页面中,选中需要删除的音频,或者选择“选择当前页”选中该页面所有音频,然后单击左上角“删除音频”,在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成音频删除操作。 其中,被选中的音频,其右上角将显示为勾选状态。如果当前页面无选中音频时,“删除音频”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除源文件”,删除音频操作是将删除对应OBS目录下存储的音频。此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 语音分割 { "source":"s3://path/to/audio1.wav", "usage":"TRAIN", "annotation":[ { "type":"modelarts/audio_segmentation", "property":{ "@modelarts:start_time":"00:01:10.123", "@modelarts:end_time":"00:01:15.456", "@modelarts:source":"Tom", "@modelarts:content":"How are you?" }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type":"modelarts/audio_segmentation", "property":{ "@modelarts:start_time":"00:01:22.754", "@modelarts:end_time":"00:01:24.145", "@modelarts:source":"Jerry", "@modelarts:content":"I'm fine, thank you." }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" } ]} “source”、“usage”、“annotation”等参数说明与图像分类一致,详细说明请参见表1。 “property”的参数解释如表10所示。 表10 “property”参数说明 参数名 数据类型 描述 @modelarts:start_time String 声音的起始时间,格式为“hh:mm:ss.SSS”。 其中“hh”表示小时,“mm”表示分钟,“ss”表示秒,“SSS”表示毫秒。 @modelarts:end_time String 声音的结束时间,格式为“hh:mm:ss.SSS”。 其中“hh”表示小时,“mm”表示分钟,“ss”表示秒,“SSS”表示毫秒。 @modelarts:source String 声音来源。 @modelarts:content String 声音内容。
  • 图像分类 1 2 3 4 5 6 7 8 910111213141516171819202122232425262728 { "source":"s3://path/to/image1.jpg", "usage":"TRAIN", "hard":"true", "hard-coefficient":0.8, "id":"0162005993f8065ef47eefb59d1e4970", "annotation": [ { "type": "modelarts/image_classification", "name": "cat", "property": { "color":"white", "kind":"Persian cat" }, "hard":"true", "hard-coefficient":0.8, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type": "modelarts/image_classification", "name":"animal", "annotated-by":"modelarts/active-learning", "confidence": 0.8, "creation-time":"2019-01-23 11:30:30" }], "inference-loc":"/path/to/inference-output"} 表1 字段说明 字段 是否必选 说明 source 是 被标注对象的URI。数据来源的类型及示例请参考表2。 usage 否 默认为空,取值范围: TRAIN:指明该对象用于训练。 EVAL:指明该对象用于评估。 TEST:指明该对象用于测试。 INFERENCE:指明该对象用于推理。 如果没有给出该字段,则使用者自行决定如何使用该对象。 id 否 此参数为系统导出的样本id,导入时可以不用填写。 annotation 否 如果不设置,则表示未标注对象。annotation值为一个对象列表,详细参数请参见表3。 inference-loc 否 当此文件由推理服务生成时会有该字段,表示推理输出的结果文件位置。 表2 数据来源类型 类型 示例 OBS “source”:“s3://path-to-jpg” Content “source”:“content://I love machine learning” 表3 annotation对象说明 字段 是否必选 说明 type 是 标签类型。取值范围为: image_classification:图像分类 text_classification:文本分类 text_entity:文本命名实体 object_detection:对象检测 audio_classification:声音分类 audio_content:声音内容 audio_segmentation:声音起止点 name 是/否 对于分类是必选字段,对于其他类型为可选字段,本示例为图片分类名称。 id 是/否 标签ID。对于三元组是必选字段,对于其他类型为可选字段。三元组的实体标签ID格式为“E+数字”,比如“E1”、“E2”,三元组的关系标签ID格式为“R+数字”,例如“R1”、“R2”。 property 否 包含对标注的属性,例如本示例中猫有两个属性,颜色(color)和品种(kind)。 hard 否 表示是否是难例。“True”表示该标注是难例,“False”表示该标注不是难例。 annotated-by 否 默认为“human”,表示人工标注。 human creation-time 否 创建该标注的时间。是用户写入标注的时间,不是Manifest生成时间。 confidence 否 表示机器标注的置信度。范围为0~1。
  • 文本分类 { "source": "content://I like this product ", "id":"XGDVGS", "annotation": [ { "type": "modelarts/text_classification", "name": " positive", "annotated-by": "human", "creation-time": "2019-01-23 11:30:30" } ]} content字段是指被标注的文本(UTF-8编码,可以是中文),其他参数解释与图像分类相同,请参见表1。
  • 声音分类 {"source":"s3://path/to/pets.wav", "annotation": [ { "type": "modelarts/audio_classification", "name":"cat", "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" } ]} “source”、“usage”、“annotation”等参数说明与图像分类一致,详细说明请参见表1。
  • 语音内容 { "source":"s3://path/to/audio1.wav", "annotation":[ { "type":"modelarts/audio_content", "property":{ "@modelarts:content":"Today is a good day." }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" } ]} “source”、“usage”、“annotation”等参数说明与图像分类一致,详细说明请参见表1。 “property”中的“@modelarts:content”参数,数据类型为“String”,表示语音内容。
  • 文本命名实体 { "source":"content://Michael Jordan is the most famous basketball player in the world.", "usage":"TRAIN", "annotation":[ { "type":"modelarts/text_entity", "name":"Person", "property":{ "@modelarts:start_index":0, "@modelarts:end_index":14 }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type":"modelarts/text_entity", "name":"Category", "property":{ "@modelarts:start_index":34, "@modelarts:end_index":44 }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" } ]} “source”、“usage”、“annotation”等参数说明与图像分类一致,详细说明请参见表1。 其中,property的参数解释如表6所示。例如,当“"source":"content://Michael Jordan"”时,如果要提取“Michael”,则对应的“start_index”为“0”,“end_index”为“7”。 表6 property参数说明 参数名 数据类型 说明 @modelarts:start_index Integer 文本的起始位置,值从0开始,包括start_index所指的字符。 @modelarts:end_index Integer 文本的结束位置,但不包括end_index所指的字符。
  • 文本三元组 { "source":"content://"Three Body" is a series of long science fiction novels created by Liu Cix.", "usage":"TRAIN", "annotation":[ { "type":"modelarts/text_entity", "name":"Person", "id":"E1", "property":{ "@modelarts:start_index":67, "@modelarts:end_index":74 }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type":"modelarts/text_entity", "name":"Book", "id":"E2", "property":{ "@modelarts:start_index":0, "@modelarts:end_index":12 }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type":"modelarts/text_triplet", "name":"Author", "id":"R1", "property":{ "@modelarts:from":"E1", "@modelarts:to":"E2" }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" }, { "type":"modelarts/text_triplet", "name":"Works", "id":"R2", "property":{ "@modelarts:from":"E2", "@modelarts:to":"E1" }, "annotated-by":"human", "creation-time":"2019-01-23 11:30:30" } ]}
  • 修改标注 当数据完成标注后,您还可以进入“已标注”页签,对已标注的数据进行修改。 在数据集详情页,单击“已标注”页签,在右侧标签信息区域中对文本信息进行修改。 基于文本修改 在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 手工点选删除:在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。在页面右侧,单击文本标签上方的删除单个标签。 基于标签修改 在数据集详情页,单击“标签管理”页签,标签管理页显示全部标签的信息。 修改:在标签管理页,单击操作列的“修改”,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。 删除:在标签管理页,单击操作列的“删除”,单击“确定”完成删除。 删除后的标签无法恢复,请谨慎操作。
  • 添加文件 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,选择上传文件。 选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。 图5 添加文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”的文本列表中。
  • 标注文本 数据集详情页中,展示了此数据集中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,在右侧标签集下显示的文本内容中选中需要标注的部分,然后选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图1 命名实体标注 单击页面下方“保存当前页”完成文本标注。
  • 删除图片 通过数据删除操作,可将需要丢弃的图片数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者选择“选择当前页”选中该页面所有图片,然后单击左上角“删除图片”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成图片删除操作。 其中,被选中的图片,其左上角将显示为勾选状态。如果当前页面无选中图片时,“删除图片”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除源文件”,删除图片操作将删除对应OBS目录下存储的图片,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于图片修改 在数据集详情页面,单击“已标注”页签,然后在图片列表中选中待修改的图片,单击图片跳转到标注页面,在右侧“当前文件标签”区域中对图片信息进行修改。 修改标签:“标注”区域中,单击编辑图标,在文本框中输入正确的标签名,然后单击确定图标完成修改。也可以单击标签,在图片标注区域,调整标注框的位置和大小,完成调整后,单击其他标签即可保存修改。 删除标签:在“标注”区域中,单击删除图标即可删除此图片中的标签。 标签删除后,单击页面左上角的“返回数据标注预览”离开标注页面,在弹出对话框中保存标注。图标的标签全部删除后,该图片会重新回到“未标注”页签。 图3 编辑物体检测标签 基于标签修改 在数据标注页面,单击“标签管理”页签,即可显示全部标签的信息显示全部标签的信息。 修改标签:单击操作列的“修改”按钮,然后在弹出的对话框中输入修改后的标签名,然后单击“确定”完成修改。修改后,之前添加了此标签的图片,都将被标注为新的标签名称。 删除标签:单击操作列的“删除”按钮,在弹出的对话框中,根据界面提示选择删除对象,然后单击“确定”。 删除后的标签无法再恢复,请谨慎操作。
  • 添加图片 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加图片,用于数据标注。 在数据集详情页面,单击“全部”或“未标注”页签,然后单击左上角“添加图片”。 在弹出的“添加图片”对话框中,单击“添加图片”。 选择本地环境中需要上传的图片,可以一次性选择多张图片。支持JPG、JPEG、PNG、BMP四种格式图片,单张图片大小不能超过5MB,单次上传的图片总大小不能超过8MB。 图片选择完成后,“添加图片”对话框将显示上传图片的缩略图以及图片大小。 图4 添加图片 在添加图片对话框中,单击“确定”,完成添加图片的操作。 您添加的图片将自动呈现在“未标注”的图片列表中。且图片将自动存储至此“数据集输入位置”对应的OBS目录中。
  • 筛选数据 在数据概览页中,默认展示数据集的概览情况。在界面左上方,单击“开始标注”,进入数据集的详细数据页面,默认展示数据集中全部数据。在“全部”、“未标注”或“已标注”页签下,您可以在筛选条件区域,添加筛选条件,快速过滤出您想要查看的数据。 支持的筛选条件如下所示,您可以设置一个或多个选项进行筛选。 难例集:难例或非难例。 标签:您可以选择全部标签,或者基于您指定的标签,选中其中一个或多个。 样本创建时间:1个月内、1天内或自定义,如果选择自定义,可以在时间框中指定明确时间范围。 文件名或目录:根据文件名称或者文件存储目录筛选。 标注人:选择执行标注操作的帐号名称。 样本属性:表示自动分组生成的属性。只有启用了自动分组任务后才可使用此筛选条件。 数据属性:暂不支持。 图1 筛选条件
  • 同步数据源 ModelArts会自动从数据集输入位置同步数据至数据集详情页,包含数据及标注信息。 对于图像分类数据集,同步数据源操作会以同级目录下的同名“txt”文件作为对应图像的标签。 对于物体检测、图像分割数据集,则以同级目录下的同名“xml”文件作为对应图像的标签。 为了快速获取OBS桶中最新数据,可在数据集详情页的“全部”或“未标注”页签中,单击“同步数据源”,快速将通过OBS上传的数据添加到数据集中。
  • 标注图片(手工标注) 数据集详情页中,展示了此数据集中“未标注”和“已标注”的图片,默认显示“全部”的图片列表。 在“未标注”页签图片列表中,单击图片,自动跳转到标注页面。在标注页面,常用按钮的使用可参见表2。 在页面左侧工具栏选择合适的标注图形,系统默认的标注图形为矩形。本示例使用矩形工具进行标注。 页面左侧可以选择多种形状对图片进行标注。标注第一张图片时,一旦选择其中一种,其他所有图片都需要使用此形状进行标注。 表1 支持的标注框 图标 使用说明 矩形。鼠标单击标注对象左上角边缘位置,界面将出现矩形框,移动鼠标使得矩形框覆盖标注对象,然后单击完成标注。 多边形。在标注对象所在范围内,鼠标左键单击完成一个点的标注,沿着物体的形状边缘,通过鼠标指定多个点,最终单击到第一个点的位置,由所有的点组成一个多边形形状。使得需标注的对象在此标注框内。 圆形。在标注对象中,选择物体的中心点位置,单击鼠标确定圆心,然后移动鼠标,使得圆形框覆盖标注对象,然后再单击鼠标完成标注。 直线。在标注对象中,选择物体的起始点,单击鼠标确定直线的起始点,然后使得直线覆盖标注对象,然后再单击鼠标完成标注。 虚线。在标注对象中,选择物体的起始点,单击鼠标确定虚线的起始点,然后使得虚线覆盖标注对象,然后再单击鼠标完成标注。 点。单击图片中的物体所在位置,即可完成点的标注。 在弹出的添加标签文本框中,直接输入新的标签名,在文本框前面选中标签颜色,然后单击“添加”。如果已存在标签,从下拉列表中选择已有的标签,单击“添加”。 逐步标注图片中所有物体所在位置,一张图片可添加多个标签。完成一张图片标注后,可单击图片下方图片列表,快速选中其他未标注的图片,然后在标注页面中执行标注操作。 图2 添加物体检测标签 单击页面上方“返回数据标注预览”查看标注信息,在弹框中单击“确定”保存当前标注并离开标注页面。 选中的图片被自动移动至“已标注”页签,且在“未标注”和“全部”页签中,标签的信息也将随着标注步骤进行更新,如增加的标签名称、标签对应的图片数量。 表2 标注界面的常用按钮 按钮图标 功能说明 撤销上一个操作。 重做上一个操作。 放大图片。 缩小图片。 删除当前图片中的所有标注框。 显示或隐藏标注框。只有在已标注图片中可使用此操作。 拖动,可将标注好的框拖动至其他位置,也可以选择框的边缘,更改框的大小。 复位,与上方拖动为同组操作,当执行了拖动后,可以单击复位按钮快速将标注框恢复为拖动前的形状和位置。 全屏显示标注的图片。
  • 添加文件 除了数据集输入位置自动同步的数据外,您还可以在ModelArts界面中,直接添加文件,用于数据标注。 在数据集详情页面,单击“未标注”页签,然后单击左上角“添加文件”。 在弹出的“添加文件”对话框中,根据需上传文件的基本情况,完成设置后选择上传文件。 选择本地环境中需要上传的文件,可以一次性选择多个文件。文件格式只支持“txt”或“csv”,且一次上传文件的总大小不能超过8MB。“文本与标签分割符”与“多标签分割符”不能选同一个。 “模式”:选择“文本和标注合并”或“文本和标注分离”模式。界面中已给出示例,请参考示例判断需添加的文件属于哪一种模式。 “文本与标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。 “多标签分隔符”:可设置为“Tab键”、“空格”、“分号”、“逗号”或“其他”。选择“其他”时,可以在右侧文本框中输入对应的分隔符。 图5 添加文件 在添加文件对话框中,单击“上传文件”,完成添加文件的操作。您添加的文件内容将自动呈现在“未标注”或“已标注”的文本列表中。
  • 修改标注 当数据完成标注后,您还可以进入已标注页签,对已标注的数据进行修改。 基于文本修改 在数据集详情页,单击“已标注”页签,然后在文本列表中选中待修改的文本。 在文本列表中,单击文本,当文本背景变为蓝色时,表示已选择。当文本有多个标签时,可以单击文本标签上方的删除单个标签。 基于标签修改 在数据集详情页,单击“标签管理”页签,标签管理页显示全部标签的信息。 修改:在标签管理页,单击操作列的“修改”,然后在文本框中修改标签名称,选择标签颜色,单击“确定”完成修改。 删除:在标签管理页,单击操作列的“删除”,单击“确定”完成删除。 删除后的标签无法恢复,请谨慎操作。
  • 标注文本 数据集详情页中,展示了此数据集中“未标注”和“已标注”的文本,默认显示“未标注”的文本列表。 在“未标注”页签文本列表中,页面左侧罗列“标注对象列表”。在列表中单击需标注的文本对象,选择右侧“标签集”中的标签进行标注。一个标注对象可添加多个标签。 以此类推,不断选中标注对象,并为其添加标签。 图1 文本分类标注 当所有的标注对象都已完成标注,单击页面下方“保存当前页”完成“未标注”列表的文本标注。
  • 删除图片 通过数据删除操作,可将需要丢弃的图片数据快速删除。 在“全部”、“未标注”或“已标注”页面中,依次选中需要删除的图片,或者选择“选择当前页”选中该页面所有图片,然后单击左上角“删除图片”。在弹出的对话框中,根据实际情况选择是否勾选“同时删除源文件”,确认信息无误后,单击“确定”完成图片删除操作。 其中,被选中的图片,其左上角将显示为勾选状态。如果当前页面无选中图片时,“删除图片”按钮为灰色,无法执行删除操作。 如果勾选了“同时删除源文件”,删除图片操作将删除对应OBS目录下存储的图片,此操作可能会影响已使用此源文件的其他数据集或数据集版本,有可能导致展示异常或训练/推理异常。删除后,数据将无法恢复,请谨慎操作。
共100000条