AI开发平台MODELARTS-准备数据:数据集下载
时间:2025-04-09 09:16:21
数据集下载
本教程使用Alpaca数据集,数据集的介绍及下载链接如下。
Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令数据可以用来对语言模型进行指令调优,使语言模型更好地遵循指令。
- 预训练使用的Alpaca数据集下载:https://huggingface.co/datasets/tatsu-lab/alpaca/resolve/main/data/train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。
- SFT和LoRA微调使用的Alpaca数据集下载:https://huggingface.co/datasets/QingyiSi/Alpaca-CoT/blob/main/alpacaGPT4/alpaca_gpt4_data.json,数据大小:43.6 MB。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_911104.html