企业级AI应用开发专业套件 MODELARTS PRO-自然语言处理套件(使用文本分类工作流开发应用):步骤3:选择数据

时间:2024-04-03 15:32:07

步骤3:选择数据

  1. 在应用开发的“数据选择”页面,单击“新建数据集”

    右侧弹出“新建数据集”页面。

  2. 表4填写数据集基本信息,然后单击“确定”
    图6 新建数据集
    表4 新建数据集参数说明

    参数

    说明

    推荐填写

    数据集名称

    待新建的数据集名称。支持输入中英文、数字、下划线及中划线。

    本样例填写“test”

    描述

    数据集简要描述。

    -

    数据集状态

    上传的训练数据可以是已标注的数据,也可以是未标注的数据。

    您可以根据自身业务选择“数据集状态”“已标注数据集”还是“未标注数据集”

    数据集模板可在选择“数据集状态”后,单击下方的“文本分类已标注数据模板”“文本分类未标注数据模板”,下载数据集模板至本地查看。

    本样例使用已标注的数据集,所以选择“已标注数据集”

    如果您想手动修改标签,可单击数据集操作列的“标注”,进入数据集概览页单击右上角的“开始标注”,在“数据标注”页面手动标注数据,详细的操作指导请参考标注数据

    数据集输入位置

    训练数据存储至OBS的位置。

    单击“数据集输入位置”右侧输入框,在弹出的“数据集输入位置”对话框中,选择“OBS桶”“文件夹”,然后单击“确定”

    选择步骤1:准备数据中提前上传数据集的OBS路径“mapro-nlp/data-in”

    数据集输出位置

    待新建的数据集存储至OBS的位置。

    单击“数据集输出位置”右侧的“修改”,在弹出的“数据集输出位置”对话框中,选择“OBS桶”“文件夹”,然后单击“确定”

    选择步骤1:准备数据中提前创建好的输出数据集的OBS路径“mapro-nlp/data-out”

  3. 勾选已上传的数据集。

    服务进行标签解析,统计训练数据集中各个标签的样本数。

    您可以选择打开“合并标签”开关,将样本数量较少的标签在模型训练中进行合并,以达到更优训练效果。

    图7 数据选择
  4. 单击右下角“下一步”

    进入应用开发的“模型训练”页面。

support.huaweicloud.com/qs-modelartspro/modelartspro_04_0005.html