AI开发平台MODELARTS-LLaMA系列(MindSpore)模型基于Standard的全参数微调训练:Step2 准备训练数据

时间:2024-04-30 18:09:31

Step2 准备训练数据

以Llama-7B为例,全量微调训练使用的是开源的wiki2048数据集。下载数据集之后,需要将开源数据集转化为MindSpore可以读取的数据格式,然后上传到OBS桶中,用于后续的算法训练。

  1. 下载WikiText2数据集到用户本地电脑,并转化数据集格式为MindSpore可以读取的数据格式(xxx.mindrecord.db和xxx.mindrecord),具体操作请参见文档
  2. 请参考以下要求创建OBS桶中的文件夹,并上传数据到OBS桶中,用于后续的算法微调训练。

    OBS文件夹目录要求如下:

    {OBS桶}                             # OBS对象桶,用户可以自定义名称,例如:llm-mindspore-ma
          -{OBS文件夹}                  # OBS文件夹,用于存放训练输入数据,用户可以自定义名称,例如:wiki2048
              - wiki2048.mindrecord.db  # 训练数据集
              - wiki2048.mindrecord     # 训练数据集
           -{OBS文件夹}                 #训练输出路径,用于存放训练生成的模型文件等,用户可以自定义名称,例如:output
           -{OBS文件夹}                 #作业日志路径,用于存放训练日志,用户可以自定义名称,例如:log           

本文档中使用的是开源数据集,主要用于跑通流程和体验,客户的实际业务开展需要根据数据集格式要求匹配自己的业务数据来做精细的调参。

support.huaweicloud.com/bestpractice-modelarts/modelarts_10_0155.html