AI开发平台MODELARTS-LLaMA系列模型基于ModelArts的全参数微调训练:Step2 准备训练数据

时间：2024-01-26 16:03:13

AI开发平台MODELARTS

Step2 准备训练数据

以Llama-7B为例，全量微调训练使用的是开源的wiki2048数据集。下载数据集之后，需要将开源数据集转化为MindSpore可以读取的数据格式，然后上传到OBS桶中，用于后续的算法训练。

下载WikiText2数据集到用户本地电脑，并转化数据集格式为MindSpore可以读取的数据格式（xxx.mindrecord.db和xxx.mindrecord），具体操作请参见文档。

请参考以下要求创建OBS桶中的文件夹，并上传数据到OBS桶中，用于后续的算法微调训练。

OBS文件夹目录要求如下：

{OBS桶}                             # OBS对象桶，用户可以自定义名称，例如：llm-mindspore-ma
      -{OBS文件夹}                  # OBS文件夹，用于存放训练输入数据，用户可以自定义名称，例如：wiki2048
          - wiki2048.mindrecord.db  # 训练数据集
          - wiki2048.mindrecord     # 训练数据集
       -{OBS文件夹}                 #训练输出路径，用于存放训练生成的模型文件等，用户可以自定义名称，例如：output
       -{OBS文件夹}                 #作业日志路径，用于存放训练日志，用户可以自定义名称，例如：log

上一篇：AI开发平台MODELARTS-使用自定义算法构建模型（手写数字识别）:Step6 预测结果

下一篇：AI开发平台MODELARTS-同样功能的PyTorch Pipeline，因为指导要求适配onnx pipeline，两个pipeline本身功能就有差别，如何适配？