AI开发平台ModelArts-创建数据集(旧版):文本(文本分类、命名实体、文本三元组)

时间:2023-11-01 16:16:40

文本(文本分类、命名实体、文本三元组)

图5 文本分类、命名实体、文本三元组类型数据集的参数
表2 数据集的详细参数

参数名称

说明

数据集输入位置

选择数据集输入位置的OBS路径。

说明:

文本分类数据只能在执行导入数据操作时识别已标注数据,在此处创建数据集时不能识别已标注数据,建议此处的OBS设置为一个空目录,创建完数据集后再导入已标注数据,导入操作的数据格式要求请参见从OBS目录导入的规范说明

数据集输出位置

选择数据集输出位置的OBS路径。

说明:

“数据集输出位置”不能与“数据集输入位置”为同一路径,且不能是“数据集输入位置”的子目录。“数据集输出位置”最好选择一个空目录。

添加标签集(文本分类、命名实体)

  • 设置标签名称:在标签名称文本框中,输入标签名称。标签名称只能是中文、字母、数字、下划线或中划线组成的合法字符串。长度为1~32字符。
  • 添加标签:单击“添加标签”可增加多个标签。
  • 设置标签颜色:在每个标签右侧的标签颜色区域下,可在色板中选择颜色,或者直接输入十六进制颜色码进行设置。

添加标签集(文本三元组)

针对“文本三元组”类型的数据集,需要设置实体标签和关系标签。

  • 实体标签:需设置标签名以及标签颜色。可在颜色区域右侧单击加号增加多个标签。
  • 关系标签:关系标签为两个实体之间的关系。需设置起始实体和终止实体,您需要先添加至少2个实体标签后,再添加关系标签。

启用团队标注

选择是否启用团队标注。

启用团队标注功能,需填写对应的团队标注任务“名称”“类型”,同时选择对应的“标注团队”及参与标注的“团队成员”。参数详细介绍请参见创建团队标注任务

在启用“团队标注”前,需确保您已经在“标注团队”管理页面,添加相应的团队以及成员。如果没有标注团队,可直接从界面链接跳转至“标注团队”页面,添加您的团队并为其添加成员。详细指导请参见团队标注简介

启用团队标注功能的数据集,在创建完成后,可以在“标注类型”中看到“团队标注”的标识。

support.huaweicloud.com/engineers-modelarts/modelarts_23_0004.html