如果数据集json文件不是sharegpt格式,而是常见的如下格式,则需要执行convert_to_sharegpt.py文件将数据集转换为share gpt格式。
{
"prefix": "AAA"
"input": "BBB",
"output": "CCC"
}
执行convert_to_sharegpt.py文件。
python convert_to_sharegpt.py \
--input_file_path data_test.json \
--out_file_name ./data_for_sharegpt.json \
--prefix_name instruction \
--input_name input \
--output_name output \
--code_type utf-8
参数解释如表1所示。
当转换为sharegpt格式时,prefix和input会拼接成一段文字,作为human字段,提出问题,而output字段会作为gpt字段,做出回答。
表1 数据集转换为sharegpt格式阶段(可选)
py文件名称 |
配置项 |
取值类型 |
配置说明 |
convert_to_sharegpt.py |
--input_file_path |
str |
预训练json文件地址。 |
--out_file_name |
int |
输出的sharegpt格式文件地址。 |
--prefix_name |
str |
预训练json文件的前缀字段名称,例如:您是一个xxx专家,您需要回答下面问题。prefix_name可设置为None,此时预训练数据集只有input和output两段输入。 |
--input_name |
str |
预训练json文件的指令输入字段名称,例如:请问苹果是什么颜色。 |
--output_name |
str |
预训练json文件的output字段名称,例如:苹果是红色的。 |
--code_type |
str |
预训练json文件编码,默认utf-8。 |