AI开发平台MODELARTS-数据说明:支持数据简介
时间:2025-06-24 10:36:34
支持数据简介
MindSpeed-LLM、Llama-Factory框架常用数据集格式:
- alpaca格式
- sharegpt格式
- moss格式(仅支持MindSpeed-LLM)

本教程样例数据集下载链接如下:
- 预训练(MindSpeed-LLM):train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。
- 微调:alpaca_gpt4_data.json,数据大小:43.6 MB。
- 强化学习(VeRL),数据集分为train和test两种,示例截图如下:
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_590522.html