检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
产品优势 EMS内存存储具有以下优势: 半托管融合部署,降低成本 EMS数据面部署在AI服务器上,采用融合部署,统一纳管AI服务器上空闲的DRAM内存资源,复用DRAM内存资源,提供推理加速服务,降低推理KVCache存储成本。 分级缓存,提升推理吞吐,优化推理时延 EMS通过构
Service,EMS)是一种以DRAM内存(动态随机存取存储器)为主要存储介质的云基础设施服务,为LLM推理提供缓存和推理加速。EMS实现AI服务器的分布式内存池化管理,将LLM推理场景下多轮对话及公共前缀等历史KVCache缓存到EMS内存存储中,通过以存代算,减少了冗余计算,提升推
文将占用约4.5MB * 2048 = 10GB的AI服务器显存空间。 然而,AI服务器通常只能提供几十GB的显存容量,其中一部分还要用于存储模型参数,仅剩余部分空间用于KVCache缓存。例如:使用8张64GB的AI服务器部署GPT3模型,系统显存总容量为512GB(8 * 6
针对AI推理场景面临的痛点问题,华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。LLM在线推理场景示意图如图1所示。 由于AI服务器显存内存墙瓶颈,EMS利用AI集群的空闲内存构建分布式内存池,实现显存容量的扩展,突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、
户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮
初始化 EMS存储初始化 环境变量
异常处理 获取错误码 获取详细信息
ContextCaching相关接口 同步保存KVCache 异步保存KVCache 同步加载KVCache 异步加载KVCache
与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic
概念类问题 什么是KVCache
控制台使用类问题 为什么需要激活凭证
Ems存储相关接口 获取Context Caching对象 健康检查
常见问题 EMS初始化失败如何定位? ContextCaching接口超时时间如何设置?
收集日志 日志接入 日志授权
部署类问题 EMS内存池需要占用AI节点多少DRAM内存 在执行主机配置脚本的过程中,无返回信息怎么办
安全 责任共担 身份认证与访问控制 数据保护技术 认证证书
基本概念 EMS基本概念 区域和可用区
凭证管理 创建凭证
集群管理 部署EMS 激活EMS 升级EMS 卸载EMS
区域和可用区 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用