Algorithm Powers Innovation

算法驱动创新

Algorithm Powers Innovation

算法驱动创新

算法创新Lab助力昇腾云实现万卡级算力集群突破

  构建性能稳定的万卡级算力集群,是全球公认的顶尖技术挑战。华为昇腾云已率先取得重要突破——其万卡级算力集群实现了接近“永不罢工”的稳定性表现:

  ● 训练可用度高达98%:全年365天中,有超过358天可随时启动训练任务,几乎不因故障中断,维护响应及时高效;
  ● 万卡线性度超95%:
使用1000张算力卡的训练效率,较100张提升9.5倍以上,资源利用率极高;
  ● 秒级恢复、分钟级诊断:
无论训练还是推理,一旦发生故障,可在几秒钟内恢复运行,并在几分钟内精准定位问题来源,显著降低运维成本。

什么是线性度?为何如此重要?

  华为云算法创新Lab专家彭文指出,线性度指标,是指随着算力卡数量增加,训练效率是否能成比例提升。理想状态下,算力翻倍、训练速度也翻倍;若提升幅度远低于预期,则说明存在资源浪费或系统瓶颈。例如:若算力卡数量增加2倍,训练速度也能接近2倍,说明线性度高;若仅提升1.2倍,则说明通信、调度或硬件架构存在问题,限制了整体效率。

算法创新Lab专家揭示线性度下降四大根源

  算法创新Lab专家黄鹏飞在探索如何优化大规模集群的线性度过程中,基于Pangu Ultra MoE 718B模型的训练数据进行了深入建模分析,发现在集群规模扩展过程中,以下四个因素会显著影响线性度表现:
  ● 训练规模的扩展往往通过增大数据并行(DP)维度得以实现。网络拥塞加剧、DP通信时间拉长导致线性度下降。
  ● 由于专家选择存在动态性,导致路由专家计算和EP All2Allv通信部分存在不均衡,并不断在流水线中累积,引发PP并行域卡间的互相等待。该问题在训练规模扩大时会进一步加剧。
  ● CloudMatrix 384架构下,可能出现同一DP通信域横跨两个超节点,且两个超节点中的卡数不相同的情况,传统集合通信算法性能急剧劣化。
  ● 随训练集群规模扩大,故障与亚健康频率上升,导致线性度动态下滑。需要低成本测量与高效运维工具,应对由于系统不稳定性或亚健康状态对训练业务的影响程度及时间跨度。

四项关键技术,破解线性度难题

  针对上述问题,华为云算法创新Lab联合2012网络技术实验室等多个团队,提出四项关键技术,实现Pangu训练线性度提升。总体方案如下图所示:

 

 

  ● TACO(拓扑感知的协同编排技术):就像给算力卡“排兵布阵”,根据硬件连接结构(比如网络拓扑)智能分配任务,避免“通信堵车”。
  ● NSF(网络级网存算融合技术):把网络传输、数据存储和计算能力“打包优化”,让数据在算力卡之间流动更顺畅,减少等待时间。
  ● NB(拓扑感知的层次化集合通信技术):针对大规模集群设计“分层通信策略”,比如让同一区域的算力卡先快速协作,再跨区域同步,提升整体通信效率。
  ● AICT(无侵入通信跨层测量与诊断技术):不干扰正常训练的前提下,实时“监控”通信链路,快速发现哪里“卡顿”并修复,确保数据传输稳定。
  通过这四项技术,华为让Pangu大模型的训练线性度(即效率随算力卡增加的提升比例)明显提高。

理论建模与性能仿真

  为了验证理论模型的有效性,算法创新Lab主导构建了线性度仿真系统,对大模型训练过程中的耗时进行拆解,并对四项关键技术进行建模分析。
  部分实验及理论分析结果显示,训练Pangu Ultra 135B稠密模型时,4K卡A2集群相比256卡基线,线性度为96%。训练Pangu Ultra MoE 718B稀疏模型时,8K卡A2集群相比512卡基线,线性度95.05%;4K卡CloudMatrix集群相比256卡基线,线性度96.48%。
  华为昇腾通过对万卡级算力集群的深度优化,不仅攻克了多项世界级技术难题,也为大模型的大规模训练与推理提供了坚实基础。未来,算法创新Lab将持续推动AI基础设施向更高效率、更强稳定的方向演进。

  完整技术报告地址:
  千亿稀疏模型训练线性度优化技术报告