AI开发平台MODELARTS-准备数据:上传数据到指定目录
时间:2025-04-09 09:16:12
上传数据到指定目录
将下载的原始数据存放在/home/ma-user/ws/training_data目录下。具体步骤如下:
- 进入到/home/ma-user/ws/目录下。
- 创建目录“training_data”,并将原始数据放置在此处。
mkdir training_data
数据存放参考目录结构如下:
${workdir}(例如/home/ma-user/ws ) |── training_data |── train-00000-of-00001-a09b74b3ef9c3b56.parquet # 训练原始数据集 |── alpaca_gpt4_data.json # 微调数据文件

多机情况下,只有在rank_0节点进行数据预处理,转换权重等工作,所以原始数据集和原始权重,包括保存结果路径,都应该在共享目录下。
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_91105.html