弹性内存存储 EMS-华为云

弹性内存存储 EMS

弹性内存存储 EMS

AI大模型推理应用爆发式增长，弹性内存存储EMS通过缓存历史KV Cache，以存代算，提升推理吞吐量、节省AI推理算力资源、降低推理时延迟。

AI大模型推理应用爆发式增长，弹性内存存储EMS通过缓存历史KV Cache，以存代算，提升推理吞吐量、节省AI推理算力资源、降低推理时延迟。

提升吞吐

复用主机内存DRAM中的KV Cache，无需重新计算，节省算力提升推理吞吐量

降低时延

复用主机内存DRAM中的KV Cache，无需重新计算，降低推理时延

节省资源

KV Cache缓存至主机内存DRAM，HBM容量倍级扩展

为什么选择华为云弹性内存存储EMS

降低时延

复用主机内存DRAM中的KV Cache，无需重新计算，降低推理时延

提升吞吐

复用主机内存DRAM中的KV Cache，无需重新计算，节省算力提升推理吞吐量

节省资源

KV Cache缓存至主机内存DRAM，HBM容量倍级扩展

EMS的典型应用场景

场景介绍

DeepSeek等LLM智能对话场景

优势

· EMS缓存多轮对话的历史KV Cache，历史KV Cache命中时无需重新做推理计算，通过以存代算，可提升推理吞吐，节省AI推理算力资源

· EMS采用半托管融合部署，EMS数据面部署在AI节点本地，高效纳管AI节点空闲内存资源，提供加速服务、降低存储成本

搭配使用

AI开发平台ModelArts

云容器引擎 CCE

您可能感兴趣的产品

您可能感兴趣的产品

高性能弹性文件服务 SFS Turbo

提供按需扩展的高性能文件存储

AI开发平台ModelArts

快速创建和部署模型，管理全周期AI工作流，助力千行百业智能升级

云容器引擎 CCE

简化云上自动化容器运行环境搭建