AI开发平台MODELARTS-预训练数据处理:自定义数据

时间:2024-05-16 12:45:47

自定义数据

如果是用户自己准备的数据集,可以使用Ascendspeed代码仓中的转换工具将json格式数据集转换为训练中使用的.idx + .bin格式。

#示例:
#1.将准备好的json格式数据集存放于/home/ma-user/ws/training_data/pretrain目录下: 如data.json
#2.运行转换脚本
cd /home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink/  

#加载ascendspeed及megatron模型,xxx-Ascend请根据实际目录替换
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/AscendSpeed
export PYTHONPATH=$PYTHONPATH:/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ModelLink
python ./tools/preprocess_data.py \
 --input {work_dir}/training_data/pretrain/data.json \
 --tokenizer-name-or-path {work_dir}/tokenizers/GLM3-6B \
 --output-prefix {work_dir}/processed_for_ma_input/GLM3-6B/data/pretrain/alpaca \
 --workers 4 \
 --tokenizer-type PretrainedFromHF \
 --append-eod \
 --seq-length 4096 \
 --tokenizer-not-use-fast 
#3.执行完成后在 datasets文件夹中可以得到 data_text_document.idx 与data_text_document.bin 两个文件
support.huaweicloud.com/bestpractice-modelarts/modelarts_10_1677.html