盘古大模型 PANGULARGEMODELS-使用数据工程构建NLP大模型数据集:NLP大模型支持接入的数据集类型

时间:2025-06-06 14:26:16

NLP大模型支持接入的数据集类型

盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求

表1 训练NLP大模型数据集类型要求

基模型

训练场景

数据集类型

数据集内容

文件格式

NLP

预训练

文本

预训练文本

jsonl

微调

文本

单轮问答

jsonl、csv

文本

多轮问答

jsonl

文本

单轮问答(人设)

jsonl、csv

文本

多轮问答(人设)

jsonl

强化学习(RFT)

文本

单轮问答

jsonl

强化学习(DPO)

文本

偏好优化DPO

jsonl

support.huaweicloud.com/usermanual-pangulm/pangulm_04_0165.html