AI开发平台MODELARTS-执行训练任务(推荐):Step2 配置数据输入和输出
Step2 配置数据输入和输出
单击“增加训练输入”和“增加训练输出”,用于配置训练作业开始时需要输入数据的路径和训练结束后输出数据的路径。
输入指定的目录在训练开始时,平台会自动将指定的OBS路径下的文件copy到容器内
输出指定的目录在训练过程中,平台会自动将容器内的文件copy到指定的OBS路径下
- 在“输入”框内设置超参配置:dataset、processed_data_dir、user_converted_ckpt_path、model_name_or_path根据实际要求选择,示例如下。
- 是,设置以下超参
- processed_data_dir:已处理好数据路径目录
- 否,使用原始数据集,设置以下超参
- dataset:训练时指定的输入原始数据集路径。
输入权重词表超参:是否使用已转换Megatron格式权重或训练输出结果权重目录;
- 是,设置以下超参
- user_converted_ckpt_path:已转换Megatron格式权重目录或训练输出结果权重目录,一般搭配断点续训或增量训练。详见断点续训和故障快恢说明
- model_name_or_path:加载tokenizer与Hugging Face权重对应存放目录地址。
- 否,设置以下超参
- model_name_or_path:加载tokenizer与Hugging Face权重对应的存放地址
- 是,设置以下超参
- 在“输出”的输入框内设置超参:output_dir、hf_save_dir,根据实际要求选择,示例如下;
- output_dir:训练完成后指定的输出模型路径。
- hf_save_dir:训练完成的权重文件自动转换为Hugging Face格式权重输出的路径(确保convert_mg2hf_at_last设置为True,默认为True)。
- 分别单击“输入”和“输出”的数据存储位置,如图所示,选择OBS桶中指定的目录。超参:dataset中则直接选中数据集文件,超参:processed_data_dir则需选中存放已处理好数据集的目录文件夹。
- “输入”和“输出”中的获取方式全部选择为:超参。
- “输出”中的预下载至本地目标选择:下载,此时输出路径中的数据则会下载至OBS中。