云服务器内容精选

  • 支持数据简介 MindSpeed-LLM、Llama-Factory框架常用数据集格式: alpaca格式 sharegpt格式 moss格式(仅支持MindSpeed-LLM) 本教程样例Alpaca数据集下载链接如下: 预训练(MindSpeed-LLM):train-00000-of-00001-a09b74b3ef9c3b56.parquet,数据大小:24M左右。 微调:alpaca_gpt4_data.json,数据大小:43.6 MB。
  • 模型最小卡数配置 不同模型推荐的训练参数和计算规格要求如表1所示,目前仅提供微调(SFT)及训练(PT)阶段卡数配置。一般Snt9B规格为单节点8卡,Snt9B23规格为单机8卡=16*DIE,其中1*DIE等效于Snt9B中的1卡,Snt9B23规格实际训练过程中设置并行策略时2*DIE为最小单位。 * 表格中“-”代表不支持,规格与卡数中的 4*Ascend表示4卡在Snt9B中表示4卡,Snt9B23表示4*DIE,以此类推。 表1 模型最小卡数配置 支持模型参数量 训练策略类型 序列长度SEQ_LEN MindSpeed-LLM规格卡数/DIE Llama-Factory规格卡数/DIE Snt9B Snt9B23 Snt9B Snt9B23 llama3.1-8b full 4096/8192 4*Ascend 8*Ascend lora 4*Ascend 1*Ascend 2*Ascend llama3.1-70b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend llama3.2-1b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 1*Ascend llama3.2-3b full 4096/8192 2*Ascend 4*Ascend lora 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2-1.5b full/lora 4096/8192 1*Ascend 2*Ascend - qwen2-7b full 4096 4*Ascend 1*Ascend 2*Ascend lora 4*Ascend 8*Ascend full 8192 8*Ascend 1*Ascend 2*Ascend lora 8*Ascend 8*Ascend qwen2-72b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend qwen2.5-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend qwen2.5-7b full 4096 4*Ascend 8*Ascend lora 2*Ascend 1*Ascend 2*Ascend full 8192 8*Ascend 8*Ascend lora 2*Ascend 1*Ascend 2*Ascend qwen2.5-14b full 4096 8*Ascend 8*Ascend lora 4*Ascend 4*Ascend full 8192 8*Ascend 16*Ascend lora 8*Ascend 4*Ascend qwen2.5-32b full 4096 16*Ascend 32*Ascend lora 16*Ascend 8*Ascend full 8192 16*Ascend 32*Ascend lora 16*Ascend 16*Ascend qwen2.5-72b full 4096 32*Ascend 64*Ascend lora 16*Ascend 32*Ascend full 8192 64*Ascend 64*Ascend lora 16*Ascend 32*Ascend qwen2vl-2b full 4096/8192 - 2*Ascend lora 4096/8192 - 1*Ascend qwen2vl-7b full 4096/8192 - 8*Ascend lora 4096/8192 - 1*Ascend 2*Ascend qwen2vl-72b full 1024 - 32*Ascend lora 1024 - 16*Ascend qwen2_5_vl-7b full 4096/8192 - 8*Ascend lora 4096/8192 - 1*Ascend 2*Ascend qwen2_5_vl-72b full 4096 - 32*Ascend lora 4096 - 16*Ascend glm4-9b full 4096/8192 8*Ascend 8*Ascend lora 4096/8192 2*Ascend 1*Ascend 2*Ascend mixtral-8x7b full 4096/8192 16*Ascend - DeepSeek-V3/R1 full 4096 512*Ascend - lora 64*Ascend - 1. LLama-Factory使用的zero并行会将优化器、梯度、权重在多卡上切分,因此集群规模的大小会影响最佳配置与性能。 2. 当mindspeed-llm上开启分布式优化器并行时,优化器参数会在集群所有机器上切分共享,因此最优配置会和卡数相关。 3. 当前benchmark是综合考虑了最小可运行卡数和最优性能平衡情况下测试出的配置,实际情况中可以根据集群规模大小和性能取舍进行参数调整。
  • 不同点 断点续训:可指定加载训练过程中生成的权重,如MindSpeed-LLM:${user_converted_ckpt_path},Llama-Factory:${resume_from_checkpoint}参数 故障快恢:默认加载最后一次间隔生成权重,如MindSpeed-LLM中${output_dir}/saved_checkpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。 MindSpeed-LLM有以下几点需要注意: lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。 |──${saved_checkpoints} |──iter_0000010 |──iter_0000020 |——latest_checkpointed_iteration.txt 示例,latest_checkpointed_iteration.txt文件内容:20 同时开启故障快恢和断点续训时需满足以下条件: 如果用户指定${user_converted_ckpt_path} 因故障快恢读取权重的优先级最高则训练过程的权重保存路径${output_dir}/saved_checkpoints(加载故障快恢路径) 必须为空,否则此参数无效断点续训失效。 如果就是使用最新的训练权重进行断点续训(暂停+启动场景),那么可以同时指定train_auto_resume =1和 ${user_converted_ckpt_path}训练过程的权重保存路径,加载路径一致。