AI开发平台MODELARTS-准备代码:工作目录介绍

时间:2025-04-15 14:55:24

工作目录介绍

详细的工作目录参考如下,建议参考以下要求设置工作目录。训练脚本以分类的方式集中在scripts文件夹中。
${workdir}(例如/home/ma-user/ws )
|──llm_train                                  # 模型训练代码包
    |──AscendFactory
       |──config/                             # 配置文件
          |──deepspeed/                       
          |──modellink_performance_cfgs.yaml  # 性能训练配置yaml文件
          |──modellink_accuracy_cfgs.yaml     # 精度训练配置yaml文件
          |──modellink_performance_baseline.yaml # 性能基线训练文件
          |──modellink_accuracy_baseline.yaml    # 精度基线训练文件
       |──data.tgz                  #样例数据压缩包
       |──intall.sh                 # 需要的依赖包
       |──scripts_modellink/        # modelLink兼容旧版本启动方式目录
          |──llama3                 # llama3系列模型执行脚本的文件夹
          |──qwen2.5                # Qwen2.5系列模型执行脚本的文件夹
          |── ...
          |── dev_pipeline.sh       # 系列模型共同调用的多功能的脚本
       |──third-party/              # patch包
       |──src/acs_train_solution/   # 训练运行包
          |──ascendcloud_patch/     # patch补丁包
          |──benchmark/             #工具包,存放数据集及基线数据
             |──trainer.py          # 训练启动脚本
             |──performance.py      # benchmark训练性能比较启动脚本
             |──accuracy.py         # benchmark训练精度启动脚本
     |──model/Qwen2-7B/             # 权重词表文件目录,如Qwen2-7B 
     |──training_data               # 原始数据目录
        |──alpaca_gpt4_data.json    # 微调数据
        |──train-00000-of-00001-a09b74b3ef9c3b56.parquet #预训练数据 
     |──{output_dir} #{OUTPUT_SAVE_DIR}或yaml文件{output_dir}参数设置值
         # 自动生成数据目录结构
        |── preprocessed_data
        |──converted_hf2mg_weight_TP${TP}PP${PP}
        |──checkpoint    # 训练完成生成目录Qwen2-7B,自动生成
support.huaweicloud.com/bestpractice-modelarts/modelarts_llm_train_5901004.html
提示

您即将访问非华为云网站,请注意账号财产安全