企业级AI应用开发专业套件 ModelArts Pro-准备数据:数据集要求

时间:2023-11-01 16:18:44

数据集要求

  • 文件格式要求为txt或者csv,且编码格式为“UTF-8”格式,文件大小不能超过8MB。
    • txt文件编码保存为“UTF-8”格式:
      1. 打开txt文件。
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
    • csv文件编码保存为“UTF-8”格式:
      1. 右键单击csv文件,“打开方式”选择“记事本”
      2. 单击左上角的“文件”,选择“另存为”
      3. “编码”选择“UTF-8”格式。
  • 以换行符作为分隔符,每行数据代表一个样本数据,单个样本不能有分行显示,不支持换行。
  • 基于已设计好的分类标签准备文本数据。每个分类标签需要准备5个及以上数据,为了训练出效果较好的模型,建议每个分类标签准备100个以上的数据。
  • 针对未标注数据,将待标注的内容放在一个文本文件内,通用文本分类工作流仅支持中文文本内容的分类,其他语种的文本分类请使用多语种文本分类工作流
  • 针对已标注数据,文本分类的标注对象和标签在一个文本文件内,标注对象与标签之间,采用Tab键分隔,多个标签之间采用英文逗号分隔。
    例如,文本文件的内容如下所示。标注对象与标注内容之间采用Tab键分隔。
    华为通过不断的技术创新,来应对来自全球政治环境的挑战    科技,政治最近科技创业公司纷纷上市科创板    科技,经济
support.huaweicloud.com/usermanual-modelartspro/modelartspro_01_0108.html