华为云基于 CloudMatrix384 超级集群,推出新一代大模型服务系统 xDeepServe,首次实现千卡级 MoE(Mixture of Experts) 模型的高效、可靠推理。它如何在数百 NPU 上实现 2400 tokens/s/chip 的吞吐与 50ms TPOT(每输出 token 时延) 的极致性能?
对此,公众号「机智流」 基于xDeepServe论文,对xDeepServe进行了深入介绍。
「机智流」原文链接:聊聊大模型推理系统之华为云 xDeepServe:千卡级超节点规模下如何实现 50ms 时延的 LLM 推理?
xDeepServe论文链接:xDeepServe: Model-as-a-Service on Huawei CloudMatrix384