检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
什么是弹性内存存储 弹性内存存储(Elastic Memory Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史K
Ems存储相关接口 获取Context Caching对象 健康检查
提高推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、对象存储服务 OBS。 图1 LLM大语言模型推理
EMS以存代算技术 采用异步保存和读取策略,以减少加载和保存KV缓存的时间。 利用多级缓存和分布式缓存架构,通过更大容量的存储介质提供充足的缓存空间。 通过自动感知调度器中的任务队列信息,实现多层次存储介质间的缓存调度,以提高访问效率。
部署类问题 EMS内存池需要占用AI节点多少DRAM内存 在执行主机配置脚本的过程中,无返回信息怎么办
Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。 激活凭证 您可以在EMS控制台创建激活凭证,您需要使用激活凭证激活EMS后才能正常使用EMS内存缓存功能。
集群管理 部署EMS 激活EMS 升级EMS 卸载EMS
EMS通过构建“显存-内存-存储”三级缓存体系,实现历史KVCache动态分层存储,突破显存瓶颈,实现显存扩展;通过缓存推理历史KVCache,实现以存代算,提升LLM推理服务的吞吐性能,降低推理资源成本;同时缩短LLM推理首Token输出时延,改善用户对话体验。 分布式共享内存池,提升缓存命中率
“数据源配置”的“类型”选择“节点文件路径”或者“容器文件路径”,“添加采集路径”请参考表5“采集路径”列进行配置。“添加采集路径”时可配置一个或多个文件路径,请注意不要遗漏。 表6 挂载方式和数据源类型对应表 文件挂载方式 数据源配置对应的类型 hostpath 节点文件路径 容器内挂载 容器文件路径 “允许文件多次采集”选择开启。
还原系统大页配置 在每台主机节点上,进入4复制“ems_config.sh”的文件目录,运行bash ems_config.sh rollback。 功能说明:在安装EMS时,运行主机配置脚本会在会将内核参数配置文件“/etc/sysctl.conf”备份至“/etc/sysctl_ems_bak”目录。运行bash
常见问题 EMS初始化失败如何定位? ContextCaching接口超时时间如何设置?
ContextCaching相关接口 注册KVCache 同步保存KVCache 异步保存KVCache 同步加载KVCache 异步加载KVCache 检查异步IO状态 获取异步IO结果
计费说明 计费模式 EMS支持按需付费(后付费)计费方式。 按需付费(后付费)即先使用后付费的付费方式。您在华为云账户先充值,系统每小时统计前一小时的实际使用量并进行结算,从账户余额中扣除实际消费金额。 详细的服务资费费率标准请提工单咨询。 计费项 计费项为安装EMS业务集群节点使用的时长。
修订记录 发布日期 修订记录 2025-6-30 第一次发布测试版。 2025-8-30 第一次发布V1接口测试版
凭证管理 创建凭证
安全 责任共担 身份认证与访问控制 数据保护技术 认证证书
socket目录"/mnt/paas/kubernetes/kubelet/ems",通过增加负载配置文件hostPath项,将目录映射到推理/训练容器目录:"/dev/shm/ems";同时推理/训练容器内,运行服务的用户能够读写该文件夹及其文件。 从Python官网下载并安装合适的Python版本。 推荐使用的Python
支持访问Context Caching特性(大模型推理过程中计算产生的KV Cache缓存)相关读写接口。 / 其他使用前须知 请确认您已阅读弹性内存存储(Elastic Memory Service,EMS)的产品文档。
异常处理 获取错误码 获取详细信息
申请公测 通过华为云Console页面申请EMS公测,并创建激活凭证。 操作步骤 登录EMS管理控制台。 单击“申请公测”,进入申请公测页面。 在公测申请页面,请根据实际情况填写企业规模、研发人员比例、应用场景、业务当前阶段、业务描述等申请信息。 勾选“同意《公测试用服务协议》”,单击“申请公测”。