云存储_news_paper_hopp

主页
关于我们
新闻动态
研究领域
合作交流
招聘
科研力量

主页
关于我们
新闻动态
研究领域
合作交流
招聘
科研力量

聊聊大模型推理系统之华为云 xDeepServe：千卡级超节点规模下如何实现 50ms 时延的 LLM 推理？

华为云基于 CloudMatrix384 超级集群，推出新一代大模型服务系统 xDeepServe，首次实现千卡级 MoE（Mixture of Experts） 模型的高效、可靠推理。它如何在数百 NPU 上实现 2400 tokens/s/chip 的吞吐与 50ms TPOT（每输出 token 时延） 的极致性能？

对此，公众号「机智流」 基于xDeepServe论文，对xDeepServe进行了深入介绍。

「机智流」原文链接：聊聊大模型推理系统之华为云 xDeepServe：千卡级超节点规模下如何实现 50ms 时延的 LLM 推理？

xDeepServe论文链接：xDeepServe: Model-as-a-Service on Huawei CloudMatrix384

Data Grows As Ever, Storage Lasts For Ever

Data Grows As Ever, Storage Lasts For Ever