弹性内存存储 EMS

弹性内存存储 EMS

为什么选择华为云弹性内存存储EMS

降低时延

降低时延

  • 复用主机内存DRAM中的KV Cache,无需重新计算,降低推理时延

提升吞吐

提升吞吐

  • 复用主机内存DRAM中的KV Cache,无需重新计算,节省算力提升推理吞吐量

节省资源

节省资源

  • KV Cache缓存至主机内存DRAM,HBM容量倍级扩展

EMS的典型应用场景

场景介绍

DeepSeek等LLM智能对话场景

优势

· EMS缓存多轮对话的历史KV Cache,历史KV Cache命中时无需重新做推理计算,通过以存代算,可提升推理吞吐,节省AI推理算力资源


· EMS采用半托管融合部署,EMS数据面部署在AI节点本地,高效纳管AI节点空闲内存资源,提供加速服务、降低存储成本


您可能感兴趣的产品

您可能感兴趣的产品