检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“亚太-曼谷”或“亚太-新加坡”等区域。
与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic
名称”是否正确。 “虚拟私有云”和“子网”选择租户CCE集群所在的VPC和子网,其余参数请根据实际情况进行配置。配置完成后单击“立即购买”。 规格确认无误,单击“提交”,任务提交成功。 参数信息配置有误,需要修改,单击“上一步”,修改参数,然后单击“提交”。 表1 Region与对应终端节点服务名称
SDK接口概览 表1总结了EMS Python SDK支持的接口及功能描述,每个接口的详细介绍和示例代码请前往接口详情页查看。 SDK API概览 表1 Python SDK API概览 接口名 方法 功能描述 初始化 Ems.init 初始化EMS客户端。 获取ContextCaching对象
认证证书 合规证书 华为云服务及平台通过了多项国内外权威机构(ISO/SOC/PCI等)的安全合规认证,用户可自行申请下载合规资质证书。 图1 合规证书下载 资源中心 华为云还提供以下资源来帮助用户满足合规性要求,具体请查看资源中心。 图2 资源中心 销售许可证&软件著作权证书
面提供的REST风格的API接口进行请求。 EMS服务管理面的接口支持认证请求,需要用户从华为云统一身份认证服务 IAM获取正确的鉴权信息才能访问成功。关于IAM鉴权信息的详细介绍及获取方式,请参见认证鉴权。 访问控制 EMS默认资源隔离,IAM用户在EMS服务控制台创建的资源仅
通过EMS,华为云将传统的“计算-存储”分离的两层云架构升级为“计算-内存-存储”的三层云架构,其中新增的“内存层”即为弹性内存存储。这种新型的三层云架构能有效解决存力痛点,从而具有高资源弹性、高资源利用率和高性能等优势。具体来说,EMS通过以下方式解决AI时代的存力问题: 提升数据
使用前须知 本文介绍EMS SDK的版本变更,并提供版本兼容性说明,以及其他使用前须知。 变更及兼容性说明 如表1所示,本节将为您展示EMS SDK的版本变更情况。 表1 Python SDK版本变更及兼容性说明 版本 变更类型 说明 25.4.T7 初始公测版本 支持访问Context
服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)
创建一个新实例。(该步骤可选,如果开启,EMS的指标同样也会上报到客户的AOM中)。 选择启用 “监控数据上报至第三方监控平台”,请联系EMS技术支持提供“数据上报地址”,这会将本CCE集群的指标也上报到EMS的AOM中,以便EMS的运维人员监控指标。 “认证方式”选择“Bearer
华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的云安全挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。
表1列出了弹性内存存储服务EMS提供的常用功能特性。 表1 EMS功能概览 功能名称 功能描述 创建凭证 使用EMS前,需要先创建凭证,用于激活EMS。 部署EMS 在已创建的CCE集群的节点上部署EMS,以提供内存服务。 激活EMS 使用已创建的凭证激活EMS后,才能正常使用EMS。 使用EMS 您的推理框架(如:vLLM)可以通过集成EMS
升级EMS 当客户需要使用EMS新版本时,需要执行升级操作更新EMS后台系统。系统通过Helm的滚动升级能力进行升级, 一次升级一个节点。 前提条件 客户已经下载了新版本的Helm包。 升级前检查,所有的EMS进程均正常(参考部署后检查),如果不正常,请联系EMS技术支持。 请注
划分成大页后,普通页的内存会相应减少,需要合理规划上层推理进程的内存占用。 建议设置为DRAM容量值的一半 hugePages.requestsMemory ems-server所需的最小大页数,如果主机上大页设置为500G,则配置为500Gi 建议设置为DRAM容量值的一半 hugePages