AI开发平台MODELARTS-超节点亲和组实例数配置:场景描述
场景描述
大模型训练中通常会采取多种并行策略,通过分布式计算来提高模型的训练效率和扩展性。其中模型并行中的allreduce通信以及MoE专家并行中的alltoall通信对卡间的互联带宽要求非常高,受限于硬件的组网,这些通信开销较大的阶段往往成为限制训练性能的瓶颈。
昇腾新一代硬件Snt9b23,使用HC CS 总线将多个计算节点的NPU互联进行大带宽互联组成超节点,超节点内的这种全互联的组网形态称为“超平面”,可以极大地提升AI任务的通信效率。基于超节点硬件,模型可以更大范围地调整模型并行或MoE专家并行等并行策略的参数,以利于更大的带宽加速训练过程。
ModelArts在这个基础上,推出了超节点亲和特性,它是一种调度策略,通过对AI训练任务进行编排分组来匹配计算资源的硬件组网形态,以充分利用超节点的高带宽和低延迟特性,提升模型训练执行效率。算法工程师只需通过简单配置即可轻松使用超节点硬件。