Algorithm Powers Innovation

算法驱动创新

Algorithm Powers Innovation

算法驱动创新

算法创新Lab助力解决华为云xDeepServe中负载均衡挑战难题

       团队设计的动态expert调度与自动负载均衡技术研究成果发表于论文《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》。

 

  专为超大规模模型而生的推理引擎架构 —— xDeepServe,首次将 MoE专家模型解耦执行、专家调度、负载均衡、故障恢复 全部系统化落地于超节点级算力集群之上!通过xDeepServe架构创新,单卡最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。

 

核心亮点

  • Transformerless架构:将 Attention、MoE、FFN 分离执行,极致并行
  • 动态 expert 调度 + 自动负载平衡:不再畏惧模型巨无霸
  • 高弹性容错系统:节点挂了?照样平稳推理
  • 在 CloudMatrix384 上实现超大模型稳定部署,迈出 MoE 工业化关键一步!

 

  这不仅是一次系统设计的升级,更是我们对大模型基础设施“底座”构建能力的一次全面实战检验。技术细节详见论文:《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》

 

 

  欢迎关注、交流、转发——AI infra新范式:超节点基础设施 x LLM 工程体系化落地的技术力量。