云服务器内容精选
-
DWR权限 默认情况下,管理员创建的 IAM 用户没有任何权限,需要将其加入用户组,并给用户组授予策略或角色,才能使得用户组中的用户获得对应的权限,这一过程称为授权。授权后,用户就可以基于被授予的权限对云服务进行操作。 DWR部署时通过物理区域划分,为项目级服务。授权范围选择“指定企业项目资源”(用户组和用户授权时可选)或“指定区域项目资源”(用户组授权时可选)时,访问DWR,需要先切换至指定企业项目资源所在的区域或指定区域项目资源所在的区域。 权限根据授权精细程度分为角色和策略。 角色:IAM最初提供的一种根据用户的工作职能定义权限的粗粒度授权机制。该机制以服务为粒度,提供有限的服务相关角色用于授权。由于华为云各服务之间存在业务依赖关系,因此给用户授予角色时,可能需要一并授予依赖的其他角色,才能正确完成业务。角色并不能满足用户对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。例如:针对DWR服务,管理员能够控制IAM用户仅能对某一类云服务器资源进行指定的管理操作。多数细粒度策略以API接口为粒度进行权限拆分。 如表1所示,包括了DWR的所有系统权限。 表1 DWR系统权限 系统角色/策略名称 描述 类别 Tenant Administrator 拥有该权限的用户拥有除IAM外,其他所有服务的所有执行权限。 系统角色 DWR FullAccess 管理员权限,拥有该权限的用户可以操作并使用所有操作。 系统策略 DWR ReadOnlyAccess 只读权限,拥有该权限的用户仅能查看DWR服务数据。 系统策略 DWR操作与资源权限关系列出了DWR常用操作与系统权限的授权关系,您可以参照该表选择合适的系统权限。 表2 DWR操作与资源权限关系 操作 DWR FullAccess DWR ReadOnlyAccess 查询工作流实例详情 √ √ 查询工作流详情 √ √ 查询华为云系统算子 √ √ 查询公共算子 √ √ 查询用户第三方算子 √ √ 查询第三方算子服务协议是否同意 √ √ 获取DWR工作流是否开通授权 √ √ 更新工作流参数 √ x 更新用户第三方算子 √ x 恢复的工作流实例 √ x DWR工作流开通授权 √ x 同意第三方算子服务协议 √ x 列举工作流 √ √ 列举华为云系统算子 √ √ 列举公共算子 √ √ 列举用户第三方算子 √ √ 禁用用户第三方算子 √ x 创建工作流 √ x 删除工作流 √ x 删除用户第三方算子 √ x 创建用户第三方算子 √ x 执行工作流 √ x
-
什么是数据工坊 数据工坊(Data Workroom,DWR)是一款近数据处理服务,通过易用的数据处理工作流编排和开放生态的数据处理算子,能够在云上实现图像、视频、文档、图片等数据处理业务。 如图1所示,DWR主要对外提供开放的算子库和数据处理引擎。 算子库包含由DWR提供的华为自有算子和第三方开发者提供的第三方算子。 华为自有算子的能力源是华为云数据处理相关的云服务,如 媒体处理 MPC、图像识别Image等,DWR将云服务提供的各种数据处理能力通过函数生成算子集成在算子库中。 第三方算子是基于DWR的算子注册能力,由第三方开发者创建,专业人员审核发布的公共算子,您也可以将自己创建的算子发布为第三方算子,开放给所有华为云用户使用。 数据处理引擎的核心是DWR提供的工作流图形化编排能力,用户可以通过图形化的界面,将任意算子编排到工作流中。通过事件触发器或API驱动,DWR将根据您定义的工作流自动进行数据处理。 图1 DWR架构示意图
-
使用限制 当前仅支持OBS对象桶,不支持并行文件系统。 当前仅支持创建串行的工作流。 一个事件触发器仅支持关联一个工作流,一个工作流可同时被多个事件触发器关联。 当前暂不支持创建重名工作流,即使工作流被删除后,也不能再创建与之重名的工作流。 同一桶内的触发器名称不允许重复。 工作流及工作流中使用的FunctionGraph、数据处理服务、 消息通知 服务、OBS桶等均需要在相同区域的默认项目下。 细粒度授权不支持企业项目。 一个桶支持绑定10个事件触发器。 当前发布算子功能仅支持IAM主账号。
-
与其他服务的关系 DWR数据处理的数据源是华为 云存储 服务,DWR提供的华为云自有算子是通过函数生成,且能力源是华为云数据处理相关的云服务。因此,DWR与其他服务的关系如表1所示。 表1 DWR与其他云服务的关系 服务类别 服务名称 交互关系 存储服务 对象存储服务 (Object Storage Service,OBS) OBS作为DWR数据处理的数据源,当上传至OBS或存储在OBS的数据产生的事件满足触发器规则时,DWR将自动启动关联的工作流进行数据处理。 函数服务 函数工作流 (FunctionGraph) DWR中由华为云提供的自有算子均是利用数据处理服务的API,通过FunctionGraph封装而成。 数据处理服务 媒体处理(Media Processing Center,MPC) DWR提供的视频解析、抽帧截图、媒资转码等算子,依赖MPC提供的相应能力。 图像识别(Image Recognition) DWR提供的图像标签算子,依赖Image Recognition提供的相应能力。 视频分析服务(Video Analysis Service,VAS) DWR提供的视频 内容审核 算子,依赖VAS提供的相应能力。 ...... DWR会根据华为云数据处理服务的能力,不断提供新的算子,此处不再穷举。 图1 DWR与函数工作流及数据处理服务的关系
-
计费说明 算子费用主要由三部分组成:OBS API调用费、FunctionGraph函数及函数工作流费、算子费。 表1 计费项 计费项 说明 OBS API调用费 算子请求OBS API的调用费。 通过算子对数据进行处理,都会涉及到对OBS API的调用,每调用一次API都计算一次请求次数。对象存储服务OBS会根据调用API的请求次数进行费用收取,收取详情参见OBS请求费用说明。 FunctionGraph函数及函数工作流费 算子使用FunctionGraph函数工作流的资源费用。 通过算子对数据进行处理,会使用到函数工作流的资源,比如算子执行时长,函数工作流会根据资源使用情况进行收费,收费详情参见函数工作流计费说明。 算子费 算子本身的费用。 第三方算子在发布之前需要先在云商店上架,云商店上算子的收费标准由算子发布者决定。 自营算子由算子云服务提供方决定收费标准。例如使用 人脸识别 算子,该算子由 人脸识别服务 FRS提供,会根据人脸识别接口调用次数进行收费。 查询算子的云服务提供方参见表华为算子一览,各个云服务的计费规则请查看该服务的“计费说明”章节。
-
计费示例 以下示例中出现的费用价格仅供参考,实际价格请以控制台显示为准。 假设某用户于2025年6月3日11:36:00创建了一个知识仓实例,该知识仓实例的CU规格为2xlarge,CU数量为3个,假设2xlarge的单价为0.3元/个/小时,那么截止2025年6月3日14:00:00,该知识仓实例的计费如下: 2xlarge规格的计费单价 * CU数量 * 使用时长 = 0.3元/个/小时 * 3个 * 2.4小时 = 2.16元 按需计费模式,使用时长不足一小时的根据实际使用时长计费,24分钟换算为小时,为0.4小时,因此本示例中实际使用时长为2.4小时。
-
应用场景 未来几年时间,数据量将会呈数倍增长趋势,海量数据的快速处理是企业数据变现的核心诉求。DWR提供的高效、开放、易用的近数据处理能力,让视频处理、图片审核、文档压缩、灾难防治、数据搜索和推荐、办公协同、基因测序等场景的海量数据快速产生价值。 DWR的应用场景包括但不限于以下典型场景。 表1 DWR典型应用场景 应用场景 场景下支持的能力 视频 视频解析、媒资转码、抽帧截图、添加水印、转封装、审核等 图片 缩略、添加水印、转封装、文字审核、 图像审核 、人脸识别等 文档 解压、预览等 基因 文件个数统计、模糊搜索、压缩、容量监控通知等 医疗 数据从存储网关到OBS、AI分析、影像筛查等 监控 视频截帧、图片压缩、图片转存、车牌识别、人脸识别、RTMP直存OBS等
-
数据处理方式对比 传统线下处理方式:硬件为用户自建IDC,软件为自研或集成商的数据处理软件,通过数据处理软件完成数据处理。 传统云上处理方式:使用云上存储服务和数据处理服务,数据写入存储服务后,再调用数据处理服务接口实现数据处理。 云上近数据处理方式:使用云上存储服务和DWR的近数据处理能力,数据写入存储服务后,自动触发DWR编排的工作流完成数据处理。 表1 数据处理方式对比 对比项 传统线下处理 传统云上处理 云上近数据处理 成本 软硬件自建自维,成本高 资源按需购买,自建或使用云上服务,成本较低 资源按需购买,开放算子库,成本低 效率 独立组件无优化,效率低 端到端垂直优化,数据处理路径长,效率较高 端到端垂直优化,算子下推路径短,效率高 复杂度 业务流程复杂,复杂度高 业务流程复杂,复杂度高 图形化编排工具,一站式运维平台,复杂度低
-
EMS内存池需要占用AI节点多少D RAM 内存 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源,同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。AI推理场景受限于显存瓶颈,DRAM内存富余较多,建议分配一半DRAM内存给EMS的KVCache内存池,EMS内存池空间越大,有利于提高KVCache缓存命中率,提升推理吞吐。 父主题: EMS部署类问题
-
以存代算原理 在Transformer模型的推理过程中,由于AI服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)所示。这种重复计算不仅浪费了计算资源,还增加了推理成本。 为了减少成本并提升推理性能,EMS服务引入了以存代算技术CachedAttention,如图1 中的(b)所示。该技术利用EMS中的大容量分布式内存池来存储和复用多轮对话中产生的KVCache缓存,而不是直接丢弃它们。具体操作是,将一个会话对应的历史KV缓存保存到EMS中,当该对话重新激活时,再从EMS中加载并复用这些KV缓存,从而避免了重复计算。 图1 多轮对话中使用 EMS 通过以存代算技术,EMS有效地避免了多轮对话中的重复计算,显著降低了首字时延,提高了推理预填充阶段的吞吐量,并降低了端到端的推理成本。
-
以存代算产生的背景 在AI推理过程中,Transformer模型接收用户的问题输入,并通过迭代方式生成相应的回答。每个Transformer层由自注意力模块和前馈网络模块组成。 在自注意力模块中,上下文词元(token)与模型参数结合,生成中间数据K(键)和V(值),并进行注意力计算。为避免在迭代生成过程中重复计算KV,生成的KV中间数据被存储在AI服务器的显存中,形成KV缓存。每个词元的KV缓存大小取决于模型的维度、层数以及数据精度,计算公式为:单个词元的KV缓存大小 = 模型维度 * 模型层数 * 数据精度 * 2。例如:GPT3模型的数据维度和层数分别为12288和96,在双字节精度下,单个词元的KV缓存大小为12288 * 96 * 2 * 2字节 = 4.5MB。 在推理过程中,每个推理请求所需的KV缓存大小与上下文长度成线性关系。例如:在GPT3模型的推理中,长度为2048的上下文将占用约4.5MB * 2048 = 10GB的AI服务器显存空间。 然而,AI服务器通常只能提供几十GB的显存容量,其中一部分还要用于存储模型参数,仅剩余部分空间用于KVCache缓存。例如:使用8张64GB的AI服务器部署GPT3模型,系统显存总容量为512GB(8 * 64GB),其中350GB用于模型参数,剩余162GB仅能支持16个(162GB / 10GB)2048上下文长度的推理请求缓存KV值。 因此,AI服务器能够同时处理的请求数量受限于显存容量。 综上所述,Transformer模型推理中存在严重的AI内存墙问题。为解决这一问题,EMS通过以存代算技术加速AI推理。
-
EMS使用须知 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级、节点重启、发生异常导致故障等场景下会导致内存缓存丢失,需要上层业务按缓存未命中进行处理。 为提高内存缓存性能,EMS内存缓存集群必须部署在同一AZ。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源;同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接 云日志 服务 LTS、 应用运维管理 AOM 等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。
-
与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic Volume Service,EVS) EMS使用云硬盘作为Zookeeper数据持久化存储。 部署EMS数据集群 VPC终端节点 (VPC Endpoint,VPCEP) 通过VPC终端节点进行EMS激活和集群管理。 激活EMS 应用运维管理 (Application Operations Management,AOM) EMS将监控指标、告警等采集到应用运维管理平台,便于您随时监控业务。 收集运维指标 云日志服务(Log Tank Service,LTS) EMS将运行日志转储到云日志服务,您可以获取EMS的相关操作日志,从而帮助您定位问题。 日志收集
-
产品架构 EMS产品架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理面。请参考图1 EMS产品架构。 图1 EMS产品架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该SDK主要应用于大语言模型的推理,通过分布式内存池提升处理效率并降低成本。 分布式内存池负责跨节点的内存空间管理、数据负载均衡等任务,通过空间池化提供内存缓存共享访问。内存池当前采用融合部署方式,即利用AI服务器中的DRAM(动态随机存取存储器),将DRAM内存池化以实现分布式共享,并进行本地亲和地调度和访问。 EMS管理面负责EMS服务的部署、监控、升级及运维管理等功能,通过华为云的云原生基础设施为用户提供一站式的云上运维解决方案。
-
产品功能 表1列出了弹性内存存储服务EMS提供的常用功能特性。 表1 EMS功能概览 功能名称 功能描述 创建凭证 使用EMS前,需要先创建凭证,用于激活EMS。 部署EMS 在已创建的CCE集群的节点上部署EMS,以提供内存服务。 激活EMS 使用已创建的凭证激活EMS后,才能正常使用EMS。 使用EMS 您的推理框架(如:vLLM)可以通过集成EMS SDK方式访问EMS弹性内存存储服务,以实现推理KVCache缓存及后续访问命中。 升级EMS 如果您的EMS软件版本较低,可以执行EMS升级。 收集运维指标 在CCE集群上安装监控插件,将CCE集群上部署的EMS监控数据上报至AOM实例,便于您随时监控业务。 配置告警 在CCE集群上配置告警规则,出现EMS告警时,能够及时通知您处理告警。 收集日志 通过将EMS日志规则配置到云日志服务 LTS,您可以获取EMS的相关操作日志,从而帮助您定位问题。 卸载EMS 如果您的业务不再使用EMS,可以卸载EMS。 激活凭证将作为软件license关联您的EMS软件使用计费,请您妥善保管激活凭证,避免泄露。