如果数据集json文件不是sharegpt格式,而是常见的如下格式,则需要执行convert_to_sharegpt.py 文件将数据集转换为share gpt格式。
{
"prefix": "AAA"
"input": "BBB",
"output": "CCC"
}
执行convert_to_sharegpt.py 文件。
python convert_to_sharegpt.py \
--input_file_path data_test.json \
--out_file_name ./data_for_sharegpt.json \
--prefix_name instruction \
--input_name input \
--output_name output \
--code_type utf-8
其中:
- input_file_path:预训练json文件地址。
- out_file_name:输出的sharegpt格式文件地址。
- prefix_name:预训练json文件的前缀字段名称,例如:您是一个xxx专家,您需要回答下面问题。prefix_name可设置为None,此时预训练数据集只有input和output两段输入。
- input_name:预训练json文件的指令输入字段名称,例如:请问苹果是什么颜色。
- output_name output:预训练json文件的output字段名称,例如:苹果是红色的。
- code_type:预训练json文件编码,默认utf-8。
当转换为sharegpt格式时,prefix和input会拼接成一段文字,作为human字段,提出问题,而output字段会作为gpt字段,做出回答。