Algorithm Powers Innovation
算法驱动创新
Algorithm Powers Innovation
算法驱动创新
团队设计的动态expert调度与自动负载均衡技术研究成果发表于论文《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》。
专为超大规模模型而生的推理引擎架构 —— xDeepServe,首次将 MoE专家模型解耦执行、专家调度、负载均衡、故障恢复 全部系统化落地于超节点级算力集群之上!通过xDeepServe架构创新,单卡最高可实现2400TPS、50msTPOT的超高吞吐、低时延的性能,超过业界水平。
核心亮点
- Transformerless架构:将 Attention、MoE、FFN 分离执行,极致并行
- 动态 expert 调度 + 自动负载平衡:不再畏惧模型巨无霸
- 高弹性容错系统:节点挂了?照样平稳推理
- 在 CloudMatrix384 上实现超大模型稳定部署,迈出 MoE 工业化关键一步!
这不仅是一次系统设计的升级,更是我们对大模型基础设施“底座”构建能力的一次全面实战检验。技术细节详见论文:《xDeepServe: Model-as-a-Service on Huawei CloudMatrix384》

欢迎关注、交流、转发——AI infra新范式:超节点基础设施 x LLM 工程体系化落地的技术力量。