检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
获取源数据 常用数据来源 常用数据来源(以pdf、word为例): 网页:互联网中存在大量的网页数据,数据规模较大,且覆盖范围较广,可以通过爬虫工具进行爬取。但是网页数据可能会包含干扰信息,且格式容易错乱,需要进行精细的加工和筛选工作。 对话:有助于提升模型的对话能力。
可以给数据集添加行业、语言和自定义信息。 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据集版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。
扩展信息包括“数据集属性”与“数据集版权”: 数据集属性。可以给数据集添加行业、语言和自定义信息。 数据集版权。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。
具体功能如下: 图1 数据流程 表1 各类数据支持的操作 数据类型 数据获取 数据加工 数据合成 数据标注 数据配比 数据评估 数据发布 文本类 √ √ √ √ √ √ √ 图片类 √ √ - √ √ √ √ 视频类 √ √ - √ √ √ √ 音频类 √ √ - √ - - √
获取源数据 常用数据集类型 微调数据集为问答数据,分成通用数据集(语言理解、编程能力、数学能力、逻辑推理等)和行业数据集(如法律、医疗、金融等)。
使用数据工程构建数据集 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台 加工数据集 发布数据集 数据集格式转换 数据工程常见报错与解决方案
数据加工:数据加工旨在通过使用数据集加工算子对数据进行预处理操作,针对不同类型的数据集,平台设计了专用的加工算子,以确保数据符合模型训练的标准和业务需求。 数据合成:数据合成利用预置或自定义的数据指令对原始数据集进行处理,并根据设定的轮数生成新的数据。
预处理数据 根据不同场景,写出上传数据到平台前,数据涉及到的预处理操作步骤。
预处理数据 根据3.2.1-获取源数据中描述的方法,可以获得通用和行业的微调数据集,与业界的微调数据格式相同,需要将文本处理为JSONL格式,其中的每一行文本为一个JSON字符串,至少包含两个json key分别表示问题和回答,对应key为 context 和 target,system
查询数据血缘 功能介绍 客户通过obs导入原始数据集,可基于该obs路径查询所有基于该路径创建的原始数据集及后续的血缘信息。
数据保护技术 盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。
同时推理接口中特征数量需要与训练数据中的特征数保持一致。一组特征数据填写完成后再填写剩余待预测数据,格式详见请求示例。 取值范围: 输入数据中的一组数据。 默认取值: 预测大模型在训练完成后,可以在训练日志页面,“模型训练”日志节点中获取推理api所用的示例数据。
一组特征数据填写完成后再填写剩余待预测数据,格式详见请求示例。 取值范围: 输入数据中的一组数据。 默认取值: 预测大模型在训练完成后,可以在训练日志页面,“模型训练”日志节点中获取推理api所用的示例数据。填写请求Body时可以参考该示例填写。
评估数据集 数据评估介绍 数据评估旨在通过对数据集进行系统的质量检查,评估其数据质量和代表性等多个维度,发现潜在问题并加以解决。
加工数据集 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据加工、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。
评估数据集 数据评估介绍 数据评估旨在通过对数据集进行系统的质量检查,评估其数据质量和代表性等多个维度,发现潜在问题并加以解决。
加工数据集 数据加工介绍 ModelArts Studio大模型开发平台提供数据加工功能,涵盖了数据加工、数据合成和数据标注关键操作,旨在确保原始数据符合业务需求和模型训练的标准,是数据工程中的核心环节。
数据工程接口 查询数据血缘 数据集彻底删除 父主题: API
不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。
使用数据工程构建预测大模型数据集 预测大模型支持接入的数据集类型 盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。