云服务器内容精选

  • MindSpeed-MM支持的模型和关键特性 表5 MindSpeed-MM支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-MM 并行优化 (TP、TP-SP、VPP、PP、CP) Megatron 分布式优化器 Megatron重计算 训练方法 (PT、SFT) LoRA微调 多模态 Qwen2.5 VL系列 Qwen2.5-VL-3B TP、TP-SP、PP、CP ✅ ✅ PT、full微调 ❌ Qwen2.5-VL-7B TP、TP-SP、PP、CP ✅ ✅ PT、full微调 ❌ InternVL3 系列 InternVL3-8B TP、TP-SP、VPP、PP、CP ✅ ✅ PT、full微调 ❌
  • MindSpeed-RL支持的模型和关键特性 表4 MindSpeed-RL支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-RL 强化学习算法 (GRPO、DAPO、PPO) vllm推理后端版本 训练后端Megatron 长序列并行 LLM Qwen2.5系列 Qwen2.5-1.5B GRPO 0.9.1 ✅ ✅ Qwen2.5-7B GRPO 0.9.1 ✅ ✅ Qwen2.5-32B GRPO 0.9.1 ✅ ✅ Qwen3系列 Qwen3-32B GRPO 0.9.1 ✅ ✅ Qwen3-30B-A3B GRPO 0.9.1 ✅ ❌ 多模态 Qwen2.5 VL系列 Qwen2.5-VL-3B GRPO 0.9.1 ✅ ✅ Qwen2.5-VL-7B GRPO 0.9.1 ✅ ✅
  • VeRL支持的模型和关键特性 表3 VeRL支持的模型和关键特性 模型类型 模型系列 模型名称 VeRL 强化学习算法 (GRPO、DAPO、PPO) vllm推理后端版本 训练后端 (FSDP、MindSpeed) one-step-off特性 多轮对话Agent训练特性 LoRA微调 序列长度(NA表示32k以上未在正式版本中经过测试) LLM Qwen2.5系列 Qwen2.5-7B GRPO 0.9.1 FSDP ❌ ❌ ❌ NA Qwen2.5-32B GRPO、DAPO、PPO 0.9.1 FSDP ❌ ❌ ❌ 32k Qwen2.5-72B GRPO、DAPO 0.9.1 FSDP、MindSpeed ❌ ❌ ❌ 32k Qwen3系列 Qwen3-8B GRPO、PPO 0.9.1 FSDP、MindSpeed ✅ ❌ ✅(只支持FSDP) 32k Qwen3-14B GRPO、DAPO、PPO 0.9.1 FSDP ❌ ❌ ❌ NA Qwen3-32B GRPO、DAPO、PPO 0.9.1 FSDP、MindSpeed ❌ ❌ ❌ 32k Qwen3-30B-A3B GRPO、DAPO 0.9.1 MindSpeed ❌ ✅ ❌ 32k 多模态 Qwen2.5 VL系列 Qwen2.5-VL-3B GRPO 0.9.1 FSDP ❌ ❌ ❌ NA Qwen2.5-VL-7B GRPO、DAPO、PPO 0.9.1 FSDP ❌ ❌ ❌ 32k Qwen2.5-VL-32B GRPO、DAPO、PPO 0.9.1 FSDP ❌ ❌ ❌ NA Qwen2.5-VL-72B GRPO、DAPO 0.9.1 FSDP ❌ ❌ ❌ 32k
  • MindSpeed-LLM支持的模型和关键特性 表2 MindSpeed-LLM支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-LLM PT、full微调 LoRA微调 多样本pack微调 Flash attention SPTD并行 (张量并行、流水线并行、虚拟流水并行、序列并行) 长序列并行 (Ascend Ring Attention 长序列并行、Ulysses 长序列并行、混合长序列并行) 序列长度(NA表示32k以上未在正式版本中经过测试) MOE并行 (MOE 专家并行、MOE 重排通信优化) LLM DeepSeek系列 DeepSeek-R1-671B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ DeepSeek-V3-671B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ DeepSeek-V2-Lite 16B ✅ ❌ ✅ ✅ ✅ ✅ NA ✅ Qwen2 系列 Qwen2-0.5B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-1.5B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-7B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-72B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2.5 系列 Qwen2.5-0.5B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-1.5B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-7B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-14B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-32B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-72B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3系列 Qwen3-0.6B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-1.7B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-4B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-8B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen3-14B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-32B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-30B-A3B ✅ ❌ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-235b-A22B ✅ ❌ ✅ ✅ ✅ ✅ NA ✅ Llama系列 Llama3.1 -8B/70B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Llama3.2 -1B/3B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ glm系列 glm-4-9b-chat ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Mixtral系列 Mixtral-8x7B-Instruct-v0.1 ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ 支持多种显存优化特性,包括参数副本、分布式优化器、swap attention、重计算、Norm重计算; 支持梯度reduce通算掩盖、Recompute in advance、权重all-gather通算掩盖、MC2、CoC等通信优化。
  • LlamaFactory支持的模型和关键特性 表1 LlamaFactory支持的模型和关键特性 模型类型 模型系列 模型名称 LlamaFactory 训练方法(PT、SFT、DPO) 长序列并行 (Ring Attention、Ulysses) 序列长度(NA表示32k以上未在正式版本中经过测试) DeepSeed ZeRo并行 FlashAttention LLM DeepSeek系列 DeepSeek-R1-671B ❌ ✅ NA ❌ ❌ DeepSeek-V3-671B ❌ ✅ NA ❌ ❌ DeepSeek-V2-Lite 16B ❌ ✅ NA ❌ ❌ Qwen2系列 Qwen2-0.5B PT、SFT ✅ NA ✅ ✅ Qwen2-1.5B ❌ ✅ NA ❌ ❌ Qwen2-7B PT、SFT ✅ NA ✅ ✅ Qwen2-72B PT、SFT ✅ NA ✅ ✅ Qwen2.5系列 Qwen2.5-0.5B PT、SFT ✅ NA ✅ ✅ Qwen2.5-1.5B ❌ ✅ NA ❌ ❌ Qwen2.5-7B PT、SFT ✅ NA ✅ ✅ Qwen2.5-14B PT、SFT、DPO ✅ NA ✅ ✅ Qwen2.5-32B PT、SFT ✅ NA ✅ ✅ Qwen2.5-72B PT、SFT、DPO ✅ NA ✅ ✅ Qwen3系列 Qwen3-0.6B PT、SFT ✅ NA ✅ ✅ Qwen3-1.7B PT、SFT ✅ NA ✅ ✅ Qwen3-4B PT、SFT ✅ NA ✅ ✅ Qwen3-8B PT、SFT ✅ Full SFT:32k ✅ ✅ Qwen3-14B PT、SFT ✅ NA ✅ ✅ Qwen3-32B PT、SFT ✅ NA ✅ ✅ Llama系列 Llama3.1 -8B/70B PT、SFT ✅ NA ✅ ✅ Llama3.2 -1B/3B PT、SFT ✅ NA ✅ ✅ glm系列 glm-4-9b-chat PT、SFT ✅ NA ✅ ✅ Mixtral系列 Mixtral-8x7B-Instruct-v0.1 ❌ ✅ NA ❌ ❌ 多模态 Qwen2 VL系列 Qwen2-VL-2B PT、SFT ✅ NA ✅ ✅ Qwen2-VL-7B PT、SFT ✅ NA ✅ ✅ Qwen2-VL-72B PT、SFT ✅ NA ✅ ✅ Qwen2.5 VL系列 Qwen2.5-VL-3B PT、SFT ✅ NA ✅ ✅ Qwen2.5-VL-7B PT、SFT、DPO ✅ Full SFT:32k ✅ ✅ Qwen2.5-VL-32B PT、SFT ✅ Full SFT:32k ✅ ✅ Qwen2.5-VL-72B PT、SFT ✅ NA ✅ ✅ Gemma系列 Gemma3-27b PT、SFT ✅ NA ✅ ✅
  • 模型最小卡数配置 不同模型推荐的训练参数和计算规格要求如下表所示,目前仅提供微调(SFT)及训练(PT)阶段卡数配置。一般Snt9b规格为单节点8卡,Snt9b23规格为单机8卡=16*DIE,其中1*DIE等效于Snt9b中的1卡,Snt9b23规格实际训练过程中设置并行策略时2*DIE为最小单位;以下配置仅参考,一般小于8卡使用8卡训练,用户可基于卡数配置浮动调动。 表格中“-”代表不支持,规格与卡数中的 4*Ascend在Snt9b中表示4卡,Snt9b23表示4*DIE,以此类推。 表1 模型最小卡数配置 支持模型参数量 训练策略类型 序列长度SEQ_LEN MindSpeed-LLM规格卡数/DIE Llama-Factory规格卡数/DIE VeRL规格卡数/DIE MindSpeed-RL规格卡数/DIE MindSpeed-MM规格卡数/DIE Snt9b Snt9b23 Snt9b Snt9b23 Snt9b Snt9b23 Snt9b Snt9b23 Snt9b Snt9b23 llama3.1-8b full 4096/8192 4*Ascend 8*Ascend - - - - - - lora 4*Ascend 1*Ascend 2*Ascend - - - - - - llama3.1-70b full 4096 32*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - full 8192 64*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - llama3.2-1b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 1*Ascend - - - - - - llama3.2-3b full 4096/8192 2*Ascend 4*Ascend - - - - - - lora 1*Ascend 2*Ascend 1*Ascend 2*Ascend - - - - - - qwen2-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend - - - - - - qwen2-1.5b full/lora 4096/8192 1*Ascend 2*Ascend - - - - - - - qwen2-7b full 4096 4*Ascend 1*Ascend 2*Ascend - - - - - - lora 4*Ascend 8*Ascend - - - - - - full 8192 8*Ascend 1*Ascend 2*Ascend - - - - - - lora 8*Ascend 8*Ascend - - - - - - qwen2-72b full 4096 32*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - full 8192 64*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - qwen2.5-0.5b full/lora 4096/8192 1*Ascend 2*Ascend 1*Ascend 2*Ascend - - - - - - qwen2.5- 1.5b full/lora 4096/8192 1*Ascend 2*Ascend - - - 8*Ascend - - qwen2.5-7b full 4096 4*Ascend 8*Ascend 8*Ascend 8*Ascend 8*Ascend 8*Ascend - - lora 2*Ascend 1*Ascend 2*Ascend - - grpo - - - - - - 8*Ascend - - full 8192 8*Ascend 8*Ascend 8*Ascend 8*Ascend 8*Ascend 8*Ascend - - lora 2*Ascend 1*Ascend 2*Ascend - - full 32768 8*Ascend - - - - - - - - qwen2.5-14b full 4096 8*Ascend 8*Ascend 8*Ascend 8*Ascend - - - - lora 4*Ascend 4*Ascend - - - - full 8192 8*Ascend 16*Ascend 8*Ascend 8*Ascend - - - - lora 8*Ascend 4*Ascend - - - - qwen2.5-32b full 4096 16*Ascend 16*Ascend 16*Ascend 16*Ascend 16*Ascend 16*Ascend - - lora 16*Ascend 8*Ascend - - grpo - - - - 16*Ascend 16*Ascend - - dapo - - - - 16*Ascend - - - - ppo - - - - 16*Ascend - - - - full 8192 16*Ascend 32*Ascend 16*Ascend 16*Ascend 16*Ascend 16*Ascend - - lora 16*Ascend 16*Ascend - - full 32768 32*Ascend - - - - - - - - qwen2.5-72b full 4096 32*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - full 8192 64*Ascend 64*Ascend - - - - - - lora 16*Ascend 32*Ascend - - - - - - full 32768 64*Ascend - - - - - - - - qwen2vl-2b full 4096/8192 - 2*Ascend - - - - - - lora 4096/8192 - 1*Ascend - - - - - - qwen2vl-7b full 4096/8192 - 8*Ascend - - - - - - lora 4096/8192 - 1*Ascend 2*Ascend - - - - - - qwen2vl-72b full 1024 - 32*Ascend - - - - - - lora 1024 - 16*Ascend - - - - - - qwen2.5_vl-3b full 1024 - - - - - - 8*Ascend qwen2.5_vl-7b full 1024/4096/8192 - 8*Ascend 8*Ascend 8*Ascend - - 8*Ascend lora 4096 - 1*Ascend 2*Ascend - - - - grpo 4096 - - - - 8*Ascend - - - - - dapo 4096 - - - - 8*Ascend - - - - - ppo 4096 - - - - 8*Ascend - - - - - qwen2.5_vl-32b full 4096 - 32*Ascend 16*Ascend - - - - 8192 - 16*Ascend - - - - - - lora 4096/8192 - 16*Ascend - - - - - - grpo 4096 - - 16*Ascend - - - - dapo 4096 - - 16*Ascend - - - - ppo 4096 - - 16*Ascend - - - - qwen2.5_vl-72b full 4096/8192 - 64*Ascend - - - - - - lora 4096/8192 - 32*Ascend - - - - - - qwen3-0.6b full/lora 4096/8192 8*Ascend 8*Ascend - - - - - - qwen3-1.7b full/lora 4096/8192 8*Ascend 8*Ascend - - - - - - qwen3-4b full/lora 4096/8192 8*Ascend 8*Ascend - - - - - - qwen3-8b full/lora 4096/8192 8*Ascend 8*Ascend 8*Ascend - - - - grpo 4096 - - 8*Ascend - - - - qwen3-14b full/lora 4096/8192 8*Ascend 8*Ascend - - - - - - dapo 4096 - - 8*Ascend - - - - qwen3-32b full 4096 16*Ascend 32*Ascend 16*Ascend - - - - 8192 16*Ascend 32*Ascend - - - - - - lora 4096 8*Ascend 8*Ascend - - - - - - 8192 8*Ascend 16*Ascend - - - - - - dapo 4096 - - - - 16*Ascend - - - - grpo 4096 - - - - 16*Ascend - - - - ppo 4096 - - - - 16*Ascend - - - - qwen3_moe-30B_A3B full 4096 16*Ascend 32*Ascend - - - - - - 8192 32*Ascend 64*Ascend - - - - - - lora 4096/8192 16*Ascend 32*Ascend - - - - - - qwen3_moe-235B_A22B full 4096 256*Ascend 512*Ascend - - - - - - lora 4096 128*Ascend 256*Ascend - - - - - - glm4-9b full 4096/8192 8*Ascend 8*Ascend - - - - - - lora 4096/8192 2*Ascend 1*Ascend 2*Ascend - - - - - - mixtral-8x7b full 4096/8192 16*Ascend - - - - - - - DeepSeek-V3/R1 full 4096 512*Ascend - - - - - - - lora 64*Ascend - - - - - - - gemma3-27b full 4096 - 16*Ascend - - - - - - 8192 - 48*Ascend - - - - - - lora 4096/8192 - 16*Ascend - - - - - - InternVL3-8b full 4096 - - - - - - 8*Ascend LLama-Factory使用的zero并行会将优化器、梯度、权重在多卡上切分,因此集群规模的大小会影响最佳配置与性能。 当Mindspeed-llm上开启分布式优化器并行时,优化器参数会在集群所有机器上切分共享,因此最优配置会和卡数相关。 当前benchmark是综合考虑了最小可运行卡数和最优性能平衡情况下测试出的配置,实际情况中可以根据集群规模大小和性能取舍进行参数调整。
  • MindSpeed-MM支持的模型和关键特性 表5 MindSpeed-MM支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-MM 并行优化 (TP、TP-SP、VPP、PP、CP) Megatron 分布式优化器 Megatron重计算 训练方法 (PT、SFT) LoRA微调 多模态 Qwen2.5 VL系列 Qwen2.5-VL-7B TP、TP-SP、PP、CP ✅ ✅ PT、full微调 ❌
  • MindSpeed-RL支持的模型和关键特性 表4 MindSpeed-RL支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-RL 强化学习算法 (GRPO、DAPO、PPO) vllm推理后端版本 训练后端Megatron 长序列并行 LLM Qwen2.5系列 Qwen2.5-1.5B GRPO 0.9.1 ✅ ✅ Qwen2.5-7B GRPO 0.9.1 ✅ ✅ Qwen2.5-32B GRPO 0.9.1 ✅ ✅ Qwen3系列 Qwen3-32B GRPO 0.9.1 ✅ ✅ Qwen3-30B-A3B GRPO 0.9.1 ✅ ❌ 多模态 Qwen2.5 VL系列 Qwen2.5-VL-3B GRPO 0.9.1 ✅ ✅ Qwen2.5-VL-7B GRPO 0.9.1 ✅ ✅
  • VeRL支持的模型和关键特性 表3 VeRL支持的模型和关键特性 模型类型 模型系列 模型名称 VeRL 强化学习算法 (GRPO、DAPO、PPO) sglang推理后端 vllm推理后端版本 训练后端 (FSDP、Megatron-LM) 序列长度(NA表示32k以上未在正式版本中经过测试) LLM Qwen2.5系列 Qwen2.5-7B GRPO ❌ 0.9.1 FSDP NA Qwen2.5-32B GRPO、DAPO、PPO ❌ 0.9.1 FSDP NA Qwen2.5-72B GRPO、DAPO ❌ 0.9.1 FSDP、Megatron-LM 32k Qwen3系列 Qwen3-8B GRPO ❌ 0.9.1 FSDP、Megatron-LM 32k Qwen3-14B GRPO、DAPO、PPO ❌ 0.9.1 FSDP NA Qwen3-32B GRPO、DAPO、PPO ❌ 0.9.1 FSDP、Megatron-LM 32k Qwen3-30B-A3B GRPO、DAPO ❌ 0.9.1 Megatron-LM 32k 多模态 Qwen2.5 VL系列 Qwen2.5-VL-3B GRPO ❌ 0.9.1 FSDP NA Qwen2.5-VL-7B GRPO、DAPO、PPO ❌ 0.9.1 FSDP 32k Qwen2.5-VL-32B GRPO、DAPO、PPO ❌ 0.9.1 FSDP NA Qwen2.5-VL-72B GRPO、DAPO ❌ 0.9.1 FSDP NA
  • MindSpeed-LLM支持的模型和关键特性 表2 MindSpeed-LLM支持的模型和关键特性 模型类型 模型系列 模型名称 MindSpeed-LLM PT、full微调 LoRA微调 多样本pack微调 Flash attention SPTD并行 (张量并行、流水线并行、虚拟流水并行、序列并行) 长序列并行 (Ascend Ring Attention 长序列并行、Ulysses 长序列并行、混合长序列并行) 序列长度(NA表示32k以上未在正式版本中经过测试) MOE并行 (MOE 专家并行、MOE 重排通信优化) LLM DeepSeek系列 DeepSeek-R1-671B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ DeepSeek-V3-671B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ DeepSeek-V2-Lite 16B ✅ ❌ ✅ ✅ ✅ ✅ NA ✅ Qwen2 系列 Qwen2-0.5B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-1.5B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-7B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2-72B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen2.5 系列 Qwen2.5-0.5B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-1.5B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-7B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-14B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-32B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen2.5-72B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3系列 Qwen3-0.6B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-1.7B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-4B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-8B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Qwen3-14B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-32B ✅ ✅ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-30B-A3B ✅ ❌ ✅ ✅ ✅ ✅ 32k ✅ Qwen3-235b-A22B ✅ ❌ ✅ ✅ ✅ ✅ NA ✅ Llama系列 Llama3.1 -8B/70B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Llama3.2 -1B/3B ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ glm系列 glm-4-9b-chat ✅ ✅ ✅ ✅ ✅ ✅ NA ✅ Mixtral系列 Mixtral-8x7B-Instruct-v0.1 ✅ ✅ ✅ ✅ ✅ ✅ NA ✅
  • LlamaFactory支持的模型和关键特性 表1 LlamaFactory支持的模型和关键特性 模型类型 模型系列 模型名称 LlamaFactory 训练方法(PT、SFT、DPO) 长序列并行 (Ring Attention、Ulysses) 序列长度(NA表示32k以上未在正式版本中经过测试) DeepSeed ZeRo并行 FlashAttention LLM DeepSeek系列 DeepSeek-R1-671B ❌ ✅ NA ❌ ❌ DeepSeek-V3-671B ❌ ✅ NA ❌ ❌ DeepSeek-V2-Lite 16B ❌ ✅ NA ❌ ❌ Qwen2系列 Qwen2-0.5B PT、SFT ✅ NA ✅ ✅ Qwen2-1.5B ❌ ✅ NA ❌ ❌ Qwen2-7B PT、SFT ✅ NA ✅ ✅ Qwen2-72B PT、SFT ✅ NA ✅ ✅ Qwen2.5系列 Qwen2.5-0.5B PT、SFT ✅ NA ✅ ✅ Qwen2.5-1.5B ❌ ✅ NA ❌ ❌ Qwen2.5-7B PT、SFT ✅ NA ✅ ✅ Qwen2.5-14B PT、SFT、DPO ✅ NA ✅ ✅ Qwen2.5-32B PT、SFT ✅ NA ✅ ✅ Qwen2.5-72B PT、SFT、DPO ✅ NA ✅ ✅ Qwen3系列 Qwen3-0.6B PT、SFT ✅ NA ✅ ✅ Qwen3-1.7B PT、SFT ✅ NA ✅ ✅ Qwen3-4B PT、SFT ✅ NA ✅ ✅ Qwen3-8B PT、SFT ✅ Full SFT:32k ✅ ✅ Qwen3-14B PT、SFT ✅ NA ✅ ✅ Qwen3-32B PT、SFT ✅ NA ✅ ✅ Qwen3-30B-A3B PT、SFT ✅ NA ✅ ✅ Qwen3-235b-A22B PT、SFT ✅ NA ✅ ✅ Llama系列 Llama3.1 -8B/70B PT、SFT ✅ NA ✅ ✅ Llama3.2 -1B/3B PT、SFT ✅ NA ✅ ✅ glm系列 glm-4-9b-chat PT、SFT ✅ NA ✅ ✅ Mixtral系列 Mixtral-8x7B-Instruct-v0.1 ❌ ✅ NA ❌ ❌ 多模态 Qwen2 VL系列 Qwen2-VL-2B PT、SFT ✅ NA ✅ ✅ Qwen2-VL-7B PT、SFT ✅ NA ✅ ✅ Qwen2-VL-72B PT、SFT ✅ NA ✅ ✅ Qwen2.5 VL系列 Qwen2.5-VL-3B PT、SFT ✅ NA ✅ ✅ Qwen2.5-VL-7B PT、SFT、DPO ✅ Full SFT:32k ✅ ✅ Qwen2.5-VL-32B PT、SFT ✅ Full SFT:32k ✅ ✅ Qwen2.5-VL-72B PT、SFT ✅ NA ✅ ✅ Gemma系列 Gemma3-27b PT、SFT ✅ NA ✅ ✅
  • VeRL框架介绍 VeRL是一个灵活、高效且被广泛使用的强化学习(RL)训练库,当前后训练的事实标准框架。VeRL是论文 HybridFlow: A Flexible and Efficient RLHF Framework 的开源实现。 VeRL的灵活性和易用性体现在以下几个方面: 支持多样化的强化学习算法扩展:VeRL采用混合编程模型,结合了单一控制器和多控制器的优势,能够灵活表示和高效执行复杂的后训练数据流。用户只需几行代码即可构建强化学习数据流,例如 PPO、GRPO 等。 与现有大语言模型基础设施无缝集成:VeRL通过模块化 API 解耦计算和数据依赖,支持与 PyTorch FSDP、Megatron-LM、vLLM 等现有大语言模型框架无缝集成,且用户可以轻松扩展到其他训练和推理框架。 灵活的设备映射和并行性:VeRL支持将模型放置到不同 GPU 集合上,以实现高效的资源利用和跨不同集群规模的可扩展性。 与热门 HuggingFace 模型的及时集成:VeRL支持多种流行的 LLM 模型,包括 DeepSeek、Qwen、Llama 等。 VeRL的高效性体现在以下几个方面: 最高效的吞吐量:VeRL集成了最先进的 LLM 训练和推理引擎,并实现了最先进的强化学习(RL)吞吐量。 使用 3D-HybridEngine 实现高效的 Actor 模型分片:消除内存冗余,并显著减少训练和生成阶段转换期间的通信开销。
  • LLaMa-Factory框架介绍 LLaMa-Factory是开源社区中一个非常活跃的大模型训练框架,它的主打特点是简单易用,通过命令行或者WebUI界面可以轻松微调数百种大模型,包括大语言和多模态模型。LLaMa-Factory的底层是基于Transformers+DeepSpeed构建,对开源模型就有非常好的兼容性。 优点: 使用简单,内置了许多开源模型、训练方式、数据集,包含了训练、评测和推理部署多个流程。 兼容HuggingFace社区开源模型,可以开箱即用。 缺点: 使用zero并行,当前在大参数和长序列场景性能差。 数据是边读取边训练,在大数据集上断点续训dataloader会是瓶颈。
  • AscendFactory介绍 AscendFactory是华为云推出的分布式训练框架,当前支持开源的MindSpeed-LLM(原ModelLink)、Llama-Factory、VeRL、MindSpeed-RL和MindSpeed-MM五种训练框架作为后端,提供统一的训练API接口和自动化配置方式,具有配置简单、开箱性能优、预制主流模型、支持多框架等特性。 表1 AscendFactory适配训练阶段和策略 训练框架 预训练(PT)/中期训练 后训练-微调(SFT) 后训练-强化学习 Full LoRA Llama-Factory √ √ √ √ MindSpeed-LLM √ √ √ x VeRL x x x √ MindSpeed-RL x x x √ MindSpeed-MM √ √ x x
  • MindSpeed-LLM框架介绍 MindSpeed LLM是基于昇腾生态的大语言模型分布式训练框架,旨在为华为 昇腾芯片 生态合作伙伴提供端到端的大语言模型训练方案,包含分布式预训练、分布式指令微调以及对应的开发工具链,如:数据预处理、权重转换、在线推理、基线评估。 优点: 作为昇腾计算主打的训练框架,在性能上做了极致的优化,特别在大参数、大集群和MOE类型模型的训练性能突出; 兼容Megatron-LM框架,对于Megatron客户可以平滑迁移。 缺点: 因Megatron框架与HuggingFace开源模型架构不兼容,新模型适配门槛高,适配周期在2周左右; 输入数据集与开源格式不兼容,需要提前做一次转换; 权重文件格式与开源格式不兼容,需要来回转换。