AI开发平台MODELARTS-ChatGLM系列模型基于Standard的的全参微调训练:Step2 准备训练数据

时间:2024-04-30 18:09:29

Step2 准备训练数据

ChatGLM-6B-finetune训练使用的是ADGEN数据集,可以从Tsinghua Cloud下载。下载数据集之后,请参考以下要求创建OBS桶中的文件夹,并上传数据到OBS桶中,用于后续的算法微调训练。

OBS文件夹目录要求如下:

{chatglm-mindspore-ma}          # OBS对象桶,用户可以自定义名称,例如:chatglm-mindspore-ma
     -{data}                    # OBS文件夹,用于存放训练输入数据,用户可以自定义名称,例如:data
            -{AdvertiseGen}     # OBS文件夹,用于存放训练输入数据,用户可以自定义名称,例如:AdvertiseGen
                - train.json    # 训练数据集
                - dev.json      # 评估数据集
     -{OBS文件夹}               #训练输出路径,用于存放训练生成的模型文件等,用户可以自定义名称,例如:output
     -{OBS文件夹}               #作业日志路径,用于存放训练日志,用户可以自定义名称,例如:log 

本文档中使用的是开源数据集,主要用于跑通流程和体验,客户的实际业务开展需要根据数据集格式要求匹配自己的业务数据来做精细的调参。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0153.html