云服务器内容精选

  • EMS内存池需要占用AI节点多少D RAM 内存 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源,同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。AI推理场景受限于显存瓶颈,DRAM内存富余较多,建议分配一半DRAM内存给EMS的KVCache内存池,EMS内存池空间越大,有利于提高KVCache缓存命中率,提升推理吞吐。 父主题: 部署类问题
  • EMS使用须知 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级、节点重启、发生异常导致故障等场景下会导致内存缓存丢失,需要上层业务按缓存未命中进行处理。 为提高内存缓存性能,EMS内存缓存集群必须部署在同一AZ。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源;同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接 云日志 服务 LTS、 应用运维管理 AOM 等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。
  • 产品功能 表1列出了弹性内存存储服务EMS提供的常用功能特性。 表1 EMS功能概览 功能名称 功能描述 创建凭证 使用EMS前,需要先创建凭证,用于激活EMS。 部署EMS 在已创建的CCE集群的节点上部署EMS,以提供内存服务。 激活EMS 使用已创建的凭证激活EMS后,才能正常使用EMS。 使用EMS 您的推理框架(如:vLLM)可以通过集成EMS SDK方式访问EMS弹性内存存储服务,以实现推理KVCache缓存及后续访问命中。 升级EMS 如果您的EMS软件版本较低,可以执行EMS升级。 收集运维指标 在CCE集群上安装监控插件,将CCE集群上部署的EMS监控数据上报至AOM实例,便于您随时监控业务。 配置告警规则 在CCE集群上配置告警规则,出现EMS告警时,能够及时通知您处理告警。 收集日志 通过将EMS日志规则配置到云日志服务 LTS,您可以获取EMS的相关操作日志,从而帮助您定位问题。 卸载EMS 如果您的业务不再使用EMS,可以卸载EMS。 激活凭证将作为软件license关联您的EMS软件使用计费,请您妥善保管激活凭证,避免泄露。
  • 产品优势 EMS内存存储具有以下优势: 半托管融合部署,降低成本 EMS数据面部署在AI服务器上,采用融合部署,统一纳管AI服务器上空闲的DRAM内存资源,复用DRAM内存资源,提供推理加速服务,降低推理KVCache存储成本。 分级缓存,提升推理吞吐,优化推理时延 EMS通过构建“显存-内存-存储”三级缓存体系,实现历史KVCache动态分层存储,突破显存瓶颈,实现显存扩展;通过缓存推理历史KVCache,实现以存代算,提升LLM推理服务的吞吐性能,降低推理资源成本;同时缩短LLM推理首Token输出时延,改善用户对话体验。 分布式共享内存池,提升缓存命中率 EMS将AI服务器上空闲的DRAM内存构建成分布式内存池,突破单机内存瓶颈,提升缓存空间,同时使得节点间能够进行高效的数据共享,支持亲和调度,提升缓存命中率,满足大规模分布式推理需求。 兼容主流推理框架,满足多样化访问 EMS提供SDK,供各种推理框架集成,兼容vLLM等开源框架及其他企业自研的LLM框架,适配LLM推理环节中对内存Cache的多样化访问需求。
  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“亚太-曼谷”或“亚太-新加坡”等区域。 在非洲地区有业务的用户,可以选择“南非-约翰内斯堡”区域。 在欧洲地区有业务的用户,可以选择“欧洲-巴黎”区域。 资源的价格 不同区域的资源价格可能有差异。
  • 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • EMS基本概念 KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。 激活凭证 您可以在EMS控制台创建激活凭证,您需要使用激活凭证激活EMS后才能正常使用EMS内存缓存功能。 父主题: 基本概念
  • 以存代算产生的背景 在AI推理过程中,Transformer模型接收用户的问题输入,并通过迭代方式生成相应的回答。每个Transformer层由自注意力模块和前馈网络模块组成。 在自注意力模块中,上下文词元(token)与模型参数结合,生成中间数据K(键)和V(值),并进行注意力计算。为避免在迭代生成过程中重复计算KV,生成的KV中间数据被存储在AI服务器的显存中,形成KV缓存。每个词元的KV缓存大小取决于模型的维度、层数以及数据精度,计算公式为:单个词元的KV缓存大小 = 模型维度 * 模型层数 * 数据精度 * 2。例如:GPT3模型的数据维度和层数分别为12288和96,在双字节精度下,单个词元的KV缓存大小为12288 * 96 * 2 * 2字节 = 4.5MB。 在推理过程中,每个推理请求所需的KV缓存大小与上下文长度成线性关系。例如:在GPT3模型的推理中,长度为2048的上下文将占用约4.5MB * 2048 = 10GB的AI服务器显存空间。 然而,AI服务器通常只能提供几十GB的显存容量,其中一部分还要用于存储模型参数,仅剩余部分空间用于KVCache缓存。例如:使用8张64GB的AI服务器部署GPT3模型,系统显存总容量为512GB(8 * 64GB),其中350GB用于模型参数,剩余162GB仅能支持16个(162GB / 10GB)2048上下文长度的推理请求缓存KV值。 因此,AI服务器能够同时处理的请求数量受限于显存容量。 综上所述,Transformer模型推理中存在严重的AI显存内存墙问题。为解决这一问题,EMS通过以存代算技术加速AI推理。
  • 以存代算原理 在Transformer模型的推理过程中,由于AI服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)所示。这种重复计算不仅浪费了计算资源,还增加了推理成本。 为了减少成本并提升推理性能,EMS服务引入了以存代算技术CachedAttention,如图1 中的(b)所示。该技术利用EMS中的大容量分布式内存池来存储和复用多轮对话中产生的KVCache缓存,而不是直接丢弃它们。具体操作是,将一个会话对应的历史KV缓存保存到EMS中,当该对话重新激活时,再从EMS中加载并复用这些KV缓存,从而避免了重复计算。 图1 多轮对话中使用 EMS 通过以存代算技术,EMS有效地避免了多轮对话中的重复计算,显著降低了首字时延,提高了推理预填充阶段(Prefill阶段)的吞吐量,并降低了端到端的推理成本。
  • 计费公式 计费按照每小时计算,每小时内每个集群会按照00:05,00:10…,01:00时刻每隔5分钟采集在对应时间点上正常工作的节点数,称为打点数。 1个小时内的总打点数为12次采集的打点数之和。1小时内的总费用计算如下: 总费用=每小时每节点费用*Floor(总打点数/12) Floor()函数为向下取整函数。Floor(25/12)=2 计费示例一: 一个8节点的EMS集群从15:33开始运行,到16:00时对15:33-16:00 这段时间的费用开始计费。则一共有6个时间点(15:35,15:40,15:45,…,16:00),每个时间点有8个打点,所以总费用为Floor(6*8/12)*每小时每节点费用=4*每小时每节点费用 计费示例二: 一个8节点的EMS集群从15:08开始运行,到16:20的时候集群节点数扩展到16个节点,到17:21的时候集群节点数缩减到4个节点持续运行到17:41以后。则15:08-16:00,16:00-17:00,17:00-17:41三个小时各自的费用如下: 15:08-16:00:一共有11个时间点,每个时间点有8个节点,费用为Floor(11*8/12)*每小时每节点费用=7*每小时每节点费用 16:00-17:00:一共有12个时间点,16:05,16:10,16:15等3个时间点每个有8个节点,16:20到17:00等9个时间点有16个节点,费用为Floor((3*8+9*16)/12)*每小时每节点费用=14*每小时每节点费用 17:00-17:41:一共有8个时间点,17:05,17:10,17:15,17:20等4个时间点每个有16个节点,17:25,17:30,17:35,17:40等4个时间点每个有4个节点,费用为Floor((4*16+4*4)/12)*每小时每节点费用=6*每小时每节点费用
  • 与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic Volume Service,EVS) EMS使用云硬盘作为Zookeeper数据持久化存储。 部署EMS数据集群 VPC终端节点 (VPC Endpoint,VPCEP) 通过VPC终端节点进行EMS激活和集群管理。 激活EMS 应用运维管理 (Application Operations Management,AOM) EMS将监控指标、告警等采集到应用运维管理平台,便于您随时监控业务。 收集运维指标 云日志服务(Log Tank Service,LTS) EMS将运行日志转储到云日志服务,您可以获取EMS的相关操作日志,从而帮助您定位问题。 日志收集
  • 产品架构 EMS产品架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理面。请参考图1 EMS产品架构。 图1 EMS产品架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该SDK主要应用于大语言模型的推理,通过分布式内存池提升处理效率并降低成本。 分布式内存池负责跨节点的内存空间管理、数据负载均衡等任务,通过空间池化提供内存缓存共享访问。内存池当前采用融合部署方式,即利用AI服务器中的DRAM,将DRAM内存池化以实现分布式共享,并进行本地亲和调度和访问。 EMS管理面负责EMS服务的部署、监控、升级及运维管理等功能,通过华为云的云原生基础设施为用户提供一站式的云上运维解决方案。
  • LLM大语言模型推理 需求和挑战 随着LLM推理的飞速发展,LLM推理需求急速增加,LLM推理包含多种任务,如:多轮对话交互、信息检索和文本生成(包括代码)等。 LLM推理场景的需求和主要挑战如下: 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。 解决方案 针对AI推理场景面临的痛点问题,华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。LLM在线推理场景示意图如图1所示。 由于AI服务器显存内存墙瓶颈,EMS利用AI集群的空闲内存构建分布式内存池,实现显存容量的扩展,突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、公共前缀等场景下的历史KVCache缓存在EMS中,LLM推理时直接复用EMS缓存中的历史KVCache,无需重新计算历史KVCache,通过以存代算,降低了推理首Token时延(Time To First Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、 对象存储服务 OBS。 图1 LLM大语言模型推理
  • 身份认证与访问控制 IAM 身份认证 用户访问EMS服务控制台时,其本质是通过EMS服务管理面提供的REST风格的API接口进行请求。 EMS服务管理面的接口支持认证请求,需要用户从华为云 统一身份认证 服务 IAM获取正确的鉴权信息才能访问成功。关于IAM鉴权信息的详细介绍及获取方式,请参见认证鉴权。 访问控制 EMS默认资源隔离,IAM用户在EMS服务控制台创建的资源仅能被该IAM账号的管理员及其子用户访问。 父主题: 安全
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全