通过自研分布式推理架构,极大提升了大规模 LLM 推理任务的吞吐和弹性扩展能力,为华为云 AI 能力提供坚实的基础设施底座。
目前,XDS 后端推理引擎 flowserve 已在 CloudMatrix384 超节点集群成功部署,全面支撑华为云 MaaS 业务的百亿 Token 级推理服务需求,显著提升推理时延和系统稳定性。
通过自研分布式推理架构,极大提升了大规模 LLM 推理任务的吞吐和弹性扩展能力,为华为云 AI 能力提供坚实的基础设施底座。
目前,XDS 后端推理引擎 flowserve 已在 CloudMatrix384 超节点集群成功部署,全面支撑华为云 MaaS 业务的百亿 Token 级推理服务需求,显著提升推理时延和系统稳定性。