华为云用户手册

  • 注意事项 本功能仅适用于“业务类型”为“全站加速”的 域名 ,且对应的资源在CDN节点不缓存,即对应资源的缓存“规则配置”中“缓存过期时间”设置为“0”、“缓存过期时间来源”为“CDN”且开启强制缓存,详见下图。 本功能目前处于公测期,暂不收费。 可设置的最大超时时间是300秒,超过设置的时间没有消息传递,将关闭连接。 后台有特殊配置的域名,暂不支持配置WebSocket。 WebSocket协议和配置HTTP/2功能不兼容,请勿同时开启,否则会造成域名访问异常。
  • 操作步骤 登录CDN控制台。 在左侧菜单栏中,选择“域名管理”。 在域名列表中,单击需要修改的域名或域名所在行的“设置”,进入域名配置页面。 选择“高级配置”页签。 在“WebSocket配置”模块,单击“编辑”,系统弹出“WebSocket配置”对话框。 图1 WebSocket配置 打开“状态”开关,设置合适的超时时间(即请求建立连接后会话保持时间,在设置的时间内无通讯请求将断开连接,支持的取值范围为1~300秒),单击“确定”完成配置。
  • 高级配置 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 配置项 场景说明 HTTP header配置(跨域请求) 当您的网站需要自定义HTTP响应头取值时,可以在此项中进行配置。 配置自定义错误页面 当您需要给客户端返回自定义的错误页面时,您需要配置此项。 配置智能压缩 如果您想要压缩您网站的静态资源,缩小传输文件的大小,提升传输效率,减少带宽消耗,您需要开启智能压缩。 配置WebSocket协议 如果您开通了全站加速,有弹幕聊天、协同会话、行情播报、体育实况更新、在线教育和物联网等场景,需要实现长时间双向传输数据,可以通过配置WebSocket协议来实现。 配置请求限速 配置请求限速,将用户请求速度限制在指定范围内,一定程度上减少突发高带宽风险,节省成本。 配置用量封顶 如果您想给域名配置流量或带宽上限,当用量达到阈值时暂停 CDN加速 ,以减少因流量盗刷或攻击带来的高额账单,可以配置用量封顶功能。
  • HTTPS配置 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 功能 说明 SCM委托授权 选择配置SCM证书时,需要开启SCM委托授权。 配置HTTPS证书 添加证书,实现HTTPS安全加速。 HTTPS证书要求 介绍了不同的机构颁发证书的拼接、上传顺序。 HTTPS证书格式转换 CDN仅支持PEM格式的证书,其它格式需要转换为PEM格式才可以使用。 配置TLS版本 您可以根据业务需求开启或关闭相应的TLS版本。 强制跳转 如果您需要将客户端到CDN节点的请求强制跳转为HTTP/HTTPS,您需要配置强制跳转。 配置HSTS 配置HSTS后,将强制客户端(如浏览器)使用 HTTPS 协议访问服务器,提升访问安全性。 配置HTTP/2 介绍了HTTP/2的背景信息和优势,有助于您决定是否开启此项配置。 配置O CS P Stapling 开启此项配置后,CDN将预先缓存在线证书的结果并返回给客户端,浏览器无需再次查询,从而减少用户验证时间。 配置QUIC协议 配置QUIC协议,提高了传输的安全性,减少传输和连接时的延时,避免网络拥塞。 配置客户端证书 通过配置客户端证书,实现客户端与CDN节点的双向证书认证,提高网站通信安全性。
  • 缓存配置 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 配置项 场景说明 配置节点缓存规则 如果您想合理的配置不同资源的缓存过期时间和优先级,有效提升缓存命中率,降低回源率,您需要设置缓存规则。 配置浏览器缓存过期时间 您可以配置浏览器缓存过期时间,当终端用户请求资源时,如果浏览器有缓存,直接返回给用户,降低回源率。 配置状态码缓存时间 如果您需要将源站返回的错误状态码缓存到CDN节点,用户再次请求时由CDN直接响应给用户错误码,您可以配置状态码缓存时间,减小回源概率,减轻源站压力。 配置访问URL重写 当用户请求URL与CDN节点缓存资源的URL不一致时,可以通过访问URL重写功能重定向到目标URL。 配置域名共享缓存组 如果不同域名对应相同的资源,您可以配置共享缓存组,将一个域名设置为主域名,组内其他域名共享该域名的缓存,以提高缓存命中率。
  • 访问控制 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 配置项 场景说明 配置防盗链 当您的网站需要对访问者身份进行识别和过滤,从而限制访问来源时,可以在此项中进行配置。 配置IP黑/白名单 当您的网站需要对用户请求IP地址进行过滤,从而限制访问来源时,可以在此项中进行配置。 配置User-Agent黑白名单 当您的网站需要对用户请求使用的代理过滤,从而限制访问来源时,可以在此项中进行配置。 区域访问控制 如果您因为业务需求,需要限制某些地理位置的用户访问,可以通过区域访问控制功能实现。 URL鉴权配置 当您需要保护用户站点资源,防止资源被用户恶意下载盗用时,可以在此项中进行配置。 配置远程鉴权 当您想要CDN将用户请求转发到指定的鉴权服务器来完成鉴权,从而防止资源被用户恶意下载盗用时,可以在此项中进行配置。 配置IP访问限频 如果您想要通过限制单IP的单URL每秒访问单个节点的次数,实现CC攻击防御及防恶意盗刷防护,可以通过配置IP访问限频实现。
  • 基本配置 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 配置项 场景说明 修改域名源站配置 当您的源站IP、域名发生变化,源站信息配置错误时,可以在此项配置中配置相关源站信息。 修改回源HOST 如果CDN回源时访问的站点域名不是您的加速域名(CDN默认回源HOST为加速域名),您需要设置回源HOST。 修改业务类型 如果您的业务有变,当前CDN加速域名的业务类型已经无法匹配您的需求时,您可以修改业务类型。 修改服务范围 如果您的用户所在地域发生改变,您可以修改加速域名的服务范围,匹配当前业务。 配置客户端用IPv6协议访问CDN节点 如果您需要以IPv6协议访问CDN,您需要开启此项配置。
  • 回源配置 配置此项内容时需要加速域名处于“已开启”或“配置中”状态,并且未被CDN锁定、禁用。 配置项 场景说明 修改回源协议 如果您需要指定CDN回源时的请求协议,您需要配置回源方式。 配置回源SNI 如果源站IP绑定了多个域名,当CDN节点以HTTPS协议访问源站时,您可以设置回源SNI,指定CDN节点需要访问的域名。 回源URL改写 如果您的回源请求URL与源站URL不匹配,您可以改写回源URL,提高回源请求URL与源站的匹配度,提升回源命中率。 配置高级回源 如果您需要根据不同的资源类型或路径回源到不同源站,可以通过高级回源配置实现。 配置Range回源 当您需要设置Range回源以提升大文件的分发效率时,可以在此项配置中开启Range回源功能开关。 回源跟随 如果您的源站地址因业务需求做了302 /301重定向,您不希望CDN直接返回302 /301跳转地址给用户,而是向重定向地址发起请求,将用户所需资源缓存至节点并返回给用户时,可以在此项配置中开启回源跟随功能开关。 回源是否校验ETag 如果您的源站资源未改变,该资源缓存到期后不希望CDN回源获取资源,以达到节约源站带宽的目的,您需要配置回源是否校验ETag。 配置回源请求头 如果您想要改写用户回源请求URL的头部信息,需要设置回源请求头。 修改回源超时时间 如果您需要根据源站特性和业务场景调整回源超时时间,您需要配置此项。 动态加速回源模式 如果您想动态内容回源请求时根据权重(默认是择优回源)回源,您需要设置动态加速回源模式。
  • 复制配置 配置此项内容时需要被复制配置加速域名处于已开启、已停用或审核未通过状态。 配置项 场景说明 复制配置到存量域名 如果您想要复制某个加速域名的配置到其它加速域名,可以使用CDN的复制到存量域名功能,以达到快速、批量修改域名配置的目的。 复制配置到新添加域名 该功能将已有域名的配置复制给一个或多个新添加的域名,如此,就不需要为新添加的域名单独设置各个配置项,可以更快速的完成域名添加和个性化配置。
  • EMS内存池需要占用AI节点多少D RAM 内存 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源,同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。AI推理场景受限于显存瓶颈,DRAM内存富余较多,建议分配一半DRAM内存给EMS的KVCache内存池,EMS内存池空间越大,有利于提高KVCache缓存命中率,提升推理吞吐。 父主题: 部署类问题
  • EMS使用须知 EMS提供的是内存缓存,不是持久化存储,在EMS镜像重启/升级、节点重启、发生异常导致故障等场景下会导致内存缓存丢失,需要上层业务按缓存未命中进行处理。 为提高内存缓存性能,EMS内存缓存集群必须部署在同一AZ。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像运行需要占用AI节点的vCPU、内存等资源;同时EMS用于保存推理KVCache需要额外占用AI节点的内存资源。 EMS数据面镜像部署在用户的CCE容器集群上,EMS镜像的日志、监控、告警需要对接 云日志 服务 LTS、 应用运维管理 AOM 等运维监控平台,并需要通过委托授权等方式将EMS镜像日志、监控等数据同步给EMS服务。
  • 产品功能 表1列出了弹性内存存储服务EMS提供的常用功能特性。 表1 EMS功能概览 功能名称 功能描述 创建凭证 使用EMS前,需要先创建凭证,用于激活EMS。 部署EMS 在已创建的CCE集群的节点上部署EMS,以提供内存服务。 激活EMS 使用已创建的凭证激活EMS后,才能正常使用EMS。 使用EMS 您的推理框架(如:vLLM)可以通过集成EMS SDK方式访问EMS弹性内存存储服务,以实现推理KVCache缓存及后续访问命中。 升级EMS 如果您的EMS软件版本较低,可以执行EMS升级。 收集运维指标 在CCE集群上安装监控插件,将CCE集群上部署的EMS监控数据上报至AOM实例,便于您随时监控业务。 配置告警规则 在CCE集群上配置告警规则,出现EMS告警时,能够及时通知您处理告警。 收集日志 通过将EMS日志规则配置到云日志服务 LTS,您可以获取EMS的相关操作日志,从而帮助您定位问题。 卸载EMS 如果您的业务不再使用EMS,可以卸载EMS。 激活凭证将作为软件license关联您的EMS软件使用计费,请您妥善保管激活凭证,避免泄露。
  • 产品优势 EMS内存存储具有以下优势: 半托管融合部署,降低成本 EMS数据面部署在AI服务器上,采用融合部署,统一纳管AI服务器上空闲的DRAM内存资源,复用DRAM内存资源,提供推理加速服务,降低推理KVCache存储成本。 分级缓存,提升推理吞吐,优化推理时延 EMS通过构建“显存-内存-存储”三级缓存体系,实现历史KVCache动态分层存储,突破显存瓶颈,实现显存扩展;通过缓存推理历史KVCache,实现以存代算,提升LLM推理服务的吞吐性能,降低推理资源成本;同时缩短LLM推理首Token输出时延,改善用户对话体验。 分布式共享内存池,提升缓存命中率 EMS将AI服务器上空闲的DRAM内存构建成分布式内存池,突破单机内存瓶颈,提升缓存空间,同时使得节点间能够进行高效的数据共享,支持亲和调度,提升缓存命中率,满足大规模分布式推理需求。 兼容主流推理框架,满足多样化访问 EMS提供SDK,供各种推理框架集成,兼容vLLM等开源框架及其他企业自研的LLM框架,适配LLM推理环节中对内存Cache的多样化访问需求。
  • 如何选择区域? 选择区域时,您需要考虑以下几个因素: 地理位置 一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“亚太-曼谷”或“亚太-新加坡”等区域。 在非洲地区有业务的用户,可以选择“南非-约翰内斯堡”区域。 在欧洲地区有业务的用户,可以选择“欧洲-巴黎”区域。 资源的价格 不同区域的资源价格可能有差异。
  • 什么是区域、可用区? 我们用区域和可用区来描述数据中心的位置,您可以在特定的区域、可用区创建资源。 区域(Region):从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用云服务的Region;专属Region指只承载同一类业务或只面向特定租户提供业务服务的专用Region。 可用区(AZ,Availability Zone):一个AZ是一个或多个物理数据中心的集合,有独立的风火水电,AZ内逻辑上再将计算、网络、存储等资源划分成多个集群。一个Region中的多个AZ间通过高速光纤相连,以满足用户跨AZ构建高可用性系统的需求。 图1阐明了区域和可用区之间的关系。 图1 区域和可用区 目前,华为云已在全球多个地域开放云服务,您可以根据需求选择适合自己的区域和可用区。更多信息请参见华为云全球站点。
  • EMS基本概念 KVCache KVCache(Key-Value Cache)是用于加速大型语言模型(如Transformer模型)推理过程的技术,KVCache通过缓存Attention机制中的Key和Value矩阵(K和V),以避免在生成新token时重复计算历史序列的中间结果,减少冗余计算,从而显著提升推理效率。 LLM推理 LLM(Large Language Model)推理服务旨在为大规模语言模型(LLM)的推理任务提供高效、低延迟的在线服务能力。EMS通过KVCache缓存、多级缓存、分布式内存池化以及智能亲和调度等技术,加速推理速度并降低资源消耗。 激活凭证 您可以在EMS控制台创建激活凭证,您需要使用激活凭证激活EMS后才能正常使用EMS内存缓存功能。 父主题: 基本概念
  • 以存代算原理 在Transformer模型的推理过程中,由于AI服务器的显存容量限制,现有的推理系统无法在AI服务器的显存中持续保存多轮对话的KVCache缓存。为了应对这一问题,系统通常会丢弃已处理对话的KV缓存,以腾出显存空间来服务新的请求。然而,当这些被丢弃的KV缓存对应的对话再次出现时,系统必须重新计算这些KV缓存,如图1 中的(a)所示。这种重复计算不仅浪费了计算资源,还增加了推理成本。 为了减少成本并提升推理性能,EMS服务引入了以存代算技术CachedAttention,如图1 中的(b)所示。该技术利用EMS中的大容量分布式内存池来存储和复用多轮对话中产生的KVCache缓存,而不是直接丢弃它们。具体操作是,将一个会话对应的历史KV缓存保存到EMS中,当该对话重新激活时,再从EMS中加载并复用这些KV缓存,从而避免了重复计算。 图1 多轮对话中使用 EMS 通过以存代算技术,EMS有效地避免了多轮对话中的重复计算,显著降低了首字时延,提高了推理预填充阶段(Prefill阶段)的吞吐量,并降低了端到端的推理成本。
  • 以存代算产生的背景 在AI推理过程中,Transformer模型接收用户的问题输入,并通过迭代方式生成相应的回答。每个Transformer层由自注意力模块和前馈网络模块组成。 在自注意力模块中,上下文词元(token)与模型参数结合,生成中间数据K(键)和V(值),并进行注意力计算。为避免在迭代生成过程中重复计算KV,生成的KV中间数据被存储在AI服务器的显存中,形成KV缓存。每个词元的KV缓存大小取决于模型的维度、层数以及数据精度,计算公式为:单个词元的KV缓存大小 = 模型维度 * 模型层数 * 数据精度 * 2。例如:GPT3模型的数据维度和层数分别为12288和96,在双字节精度下,单个词元的KV缓存大小为12288 * 96 * 2 * 2字节 = 4.5MB。 在推理过程中,每个推理请求所需的KV缓存大小与上下文长度成线性关系。例如:在GPT3模型的推理中,长度为2048的上下文将占用约4.5MB * 2048 = 10GB的AI服务器显存空间。 然而,AI服务器通常只能提供几十GB的显存容量,其中一部分还要用于存储模型参数,仅剩余部分空间用于KVCache缓存。例如:使用8张64GB的AI服务器部署GPT3模型,系统显存总容量为512GB(8 * 64GB),其中350GB用于模型参数,剩余162GB仅能支持16个(162GB / 10GB)2048上下文长度的推理请求缓存KV值。 因此,AI服务器能够同时处理的请求数量受限于显存容量。 综上所述,Transformer模型推理中存在严重的AI显存内存墙问题。为解决这一问题,EMS通过以存代算技术加速AI推理。
  • 计费公式 计费按照每小时计算,每小时内每个集群会按照00:05,00:10…,01:00时刻每隔5分钟采集在对应时间点上正常工作的节点数,称为打点数。 1个小时内的总打点数为12次采集的打点数之和。1小时内的总费用计算如下: 总费用=每小时每节点费用*Floor(总打点数/12) Floor()函数为向下取整函数。Floor(25/12)=2 计费示例一: 一个8节点的EMS集群从15:33开始运行,到16:00时对15:33-16:00 这段时间的费用开始计费。则一共有6个时间点(15:35,15:40,15:45,…,16:00),每个时间点有8个打点,所以总费用为Floor(6*8/12)*每小时每节点费用=4*每小时每节点费用 计费示例二: 一个8节点的EMS集群从15:08开始运行,到16:20的时候集群节点数扩展到16个节点,到17:21的时候集群节点数缩减到4个节点持续运行到17:41以后。则15:08-16:00,16:00-17:00,17:00-17:41三个小时各自的费用如下: 15:08-16:00:一共有11个时间点,每个时间点有8个节点,费用为Floor(11*8/12)*每小时每节点费用=7*每小时每节点费用 16:00-17:00:一共有12个时间点,16:05,16:10,16:15等3个时间点每个有8个节点,16:20到17:00等9个时间点有16个节点,费用为Floor((3*8+9*16)/12)*每小时每节点费用=14*每小时每节点费用 17:00-17:41:一共有8个时间点,17:05,17:10,17:15,17:20等4个时间点每个有16个节点,17:25,17:30,17:35,17:40等4个时间点每个有4个节点,费用为Floor((4*16+4*4)/12)*每小时每节点费用=6*每小时每节点费用
  • 与其他服务的关系 图1 EMS与其他服务的关系 表1 EMS与其他服务的关系 服务名称 EMS服务与其他服务的关系 主要交互功能 云容器引擎 (Cloud Container Engine,CCE) EMS数据面镜像基于CCE云容器引擎服务进行安装部署。 部署EMS数据集群 云硬盘(Elastic Volume Service,EVS) EMS使用云硬盘作为Zookeeper数据持久化存储。 部署EMS数据集群 VPC终端节点 (VPC Endpoint,VPCEP) 通过VPC终端节点进行EMS激活和集群管理。 激活EMS 应用运维管理 (Application Operations Management,AOM) EMS将监控指标、告警等采集到应用运维管理平台,便于您随时监控业务。 收集运维指标 云日志服务(Log Tank Service,LTS) EMS将运行日志转储到云日志服务,您可以获取EMS的相关操作日志,从而帮助您定位问题。 日志收集
  • 产品架构 EMS产品架构主要由三部分组成:领域专用服务SDK、分布式内存池和管理面。请参考图1 EMS产品架构。 图1 EMS产品架构 领域专用服务SDK包含一系列面向不同AI应用场景的插件和接口服务SDK,提供业务系统接入、业务数据布局和近数据处理等功能,实现业务请求的内存加速。目前,该SDK主要应用于大语言模型的推理,通过分布式内存池提升处理效率并降低成本。 分布式内存池负责跨节点的内存空间管理、数据负载均衡等任务,通过空间池化提供内存缓存共享访问。内存池当前采用融合部署方式,即利用AI服务器中的DRAM,将DRAM内存池化以实现分布式共享,并进行本地亲和调度和访问。 EMS管理面负责EMS服务的部署、监控、升级及运维管理等功能,通过华为云的云原生基础设施为用户提供一站式的云上运维解决方案。
  • LLM大语言模型推理 需求和挑战 随着LLM推理的飞速发展,LLM推理需求急速增加,LLM推理包含多种任务,如:多轮对话交互、信息检索和文本生成(包括代码)等。 LLM推理场景的需求和主要挑战如下: 保持连贯性:受限于显存容量原因,多轮交互使智能助手很容易“忘记”对话中更早的部分或重复自己说过的话。 推理吞吐性能低:LLM在线推理需要满足大量消费者用户同时使用,受限于AI显存内存墙瓶颈,单卡推理吞吐性能低,大量用户并发访问时时延高,导致用户需要部署大量AI推理算力资源,推理吞吐资源成本高。 推理延迟高:在大模型推理过程中,从输入指令到模型产生预测并输出内容的时间过高,严重影响用户体验,尤其是和智能助手进行多轮对话时。 解决方案 针对AI推理场景面临的痛点问题,华为云通过EMS加速推理业务,提升推理业务吞吐,降低推理时延,降低推理资源部署成本。LLM在线推理场景示意图如图1所示。 由于AI服务器显存内存墙瓶颈,EMS利用AI集群的空闲内存构建分布式内存池,实现显存容量的扩展,突破单机内存的瓶颈。通过EMS将LLM推理中的多轮对话、公共前缀等场景下的历史KVCache缓存在EMS中,LLM推理时直接复用EMS缓存中的历史KVCache,无需重新计算历史KVCache,通过以存代算,降低了推理首Token时延(Time To First Token,TTFT),同时也节省了推理算力,提高推理吞吐,加速了大模型推理服务的效率。 建议搭配服务 AI开发平台 ModelArts、云容器引擎 CCE、高性能弹性文件服务 SFS Turbo、 对象存储服务 OBS。 图1 LLM大语言模型推理
  • 身份认证与访问控制 IAM 身份认证 用户访问EMS服务控制台时,其本质是通过EMS服务管理面提供的REST风格的API接口进行请求。 EMS服务管理面的接口支持认证请求,需要用户从华为云 统一身份认证 服务 IAM获取正确的鉴权信息才能访问成功。关于IAM鉴权信息的详细介绍及获取方式,请参见认证鉴权。 访问控制 EMS默认资源隔离,IAM用户在EMS服务控制台创建的资源仅能被该IAM账号的管理员及其子用户访问。 父主题: 安全
  • 责任共担 华为云秉承“将公司对网络和业务安全性保障的责任置于公司的商业利益之上”。针对层出不穷的 云安全 挑战和无孔不入的云安全威胁与攻击,华为云在遵从法律法规业界标准的基础上,以安全生态圈为护城河,依托华为独有的软硬件优势,构建面向不同区域和行业的完善云服务安全保障体系。 安全性是华为云与您的共同责任,如图1所示。 华为云:负责云服务自身的安全,提供安全的云。华为云的安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部的安全,安全地使用云。华为云租户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、 虚拟主机 和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮书》详细介绍华为云安全性的构建思路与措施,包括云安全战略、责任共担模型、合规与隐私、安全组织与人员、基础设施安全、租户服务与租户安全、工程安全、运维运营安全、生态安全。 图1 华为云安全责任共担模型 父主题: 安全
  • 与MaaS服务对接 登录ModelArts Studio 平台,本文以部署华东二的DeepSeek-R1-Distill-Qwen-32B-4K为例。 图8 ModelArts Studio 在ModelArts Studio左侧导航栏中,选择“在线推理”进入“预置服务”服务列表,选择“免费服务”。 图9 免费服务 领取免费调用额度。在免费服务列表,选择所需的服务,单击右侧操作列的“领取额度”。当领取置灰时,表示该服务的免费额度已领取。 图10 领取额度 成功领取后,在免费服务列表,选择所需的服务,单击“调用说明”,在调用弹窗中接口类型选择“OpenAI SDK”获取API地址和模型名称。 图11 调用说明 免费服务中单个模型提供200万token推理额度,额度消耗完后可开通使用商用级别的推理 API服务 (仅限贵阳一),或前往我的服务部署为我的服务后付费使用。 图12 商用服务 图13 调用说明 在调用MaaS部署的模型服务时,需要填写API Key用于接口的鉴权认证。在左侧导航栏,单击“API Key管理”(最多可创建30个密钥。每个密钥仅在创建时显示一次,请确保妥善保存。如果密钥丢失,无法找回,需要重新创建API Key以获取新的访问密钥)。 图14 API Key管理 在“API Key管理”页面,单击右上角“创建API Key”,填写标签(自定义API Key的标签,标签具有唯一性,不可重复。仅支持大小写英文字母、数字、下划线、中划线,长度范围为1~100个字符)和描述(自定义API Key的描述,长度范围为1~100个字符)信息后,单击“确定”。标签和描述信息在创建完成后,不支持修改。注意复制并保存,以便后续步骤使用。 图15 创建API Key
    AI
  • 创建rf_admin_trust委托(可选) 当您首次使用华为云时注册的账号,则无需执行该准备工作,如果您使用的是IAM用户账户,请确认您是否在admin用户组中,如果您不在admin组中,则需要为您的账号授予相关权限,并完成以下准备工作。 进入华为云官网,打开控制台管理界面,鼠标移动至个人账号处,打开“统一身份认证”菜单。 图1 控制台管理界面 图2 统一身份认证菜单 进入“委托”菜单,搜索“rf_admin_trust”委托。 图3 委托列表 如果委托存在,则不用执行接下来的创建委托的步骤 如果委托不存在时执行接下来的步骤创建委托 单击步骤2界面中的“创建委托”按钮,在委托名称中输入“rf_admin_trust”,委托类型选择“云服务”,选择“ RFS ”,单击“下一步”。 图4 创建委托 在搜索框中输入“Tenant Administrator”权限,并勾选搜索结果,单击“下一步”。 图5 选择策略 选择“所有资源”,并单击“下一步”完成配置。 图6 设置授权范围 “委托”列表中出现“rf_admin_trust”委托则创建成功。 图7 委托列表
    AI
  • 使用步骤 完成数字人智能交互服务订单:访问费用中心支付自动创建好的数字人智能交互服务订单。 图1 支付订单 登录Dify平台:访问云服务器控制台,选择部署的云服务器,获取云服务器公网IP,浏览器访问地址http://{公网IP}登录Dify平台,邮箱默认:super@dify.com,密码默认:admin1234。 图2 公网IP 图2 登录Dify平台 重置Dify用户密码。 图4 编辑账户 图5 重置密码 上传知识库文档:依次单击“知识库”,“默认知识库”;单击“添加文件”并上传文件,然后单击“下一步”进行创建。。 图6 默认知识库 图6 添加文件 图7 上传文件 确认知识库参数并保存:如图所示检查红框内的参数,完成后单击“保存并处理”,创建成功状态为“启用”。 图9 确认参数 图9 状态启用 测试并发布工作流:在创建工作流并点单击“预览”按钮,在弹出的聊天框输入问题进行测试;之后在右上角单击“发布”按钮,再单击“发布”,即可完成工作流发布。 图11 离线内容测试 图12 联网搜索测试 图12 发布工作流 获取API密钥(API Key):访问工作流,单击左侧导航栏的“访问API”,单击右上角的“API密钥”,复制“API密钥”。 图14 访问API 图14 复制密钥 访问MetaStudio智能交互:访问MetaStudio控制台,进入MetaStudio工作台,在MetaStudio工作台进入“智能交互”。 图16 MetaStudio控制台 图16 MetaStudio工作台 配置并发布智能交互数字人:按图中所示依次填写配置,完成后单击右上角的“发布”。 第三方应用:第三方大脑(大模型) 应用名称:自定义 APPID:自定义 APPKEY:步骤10中获取的Dify API KEY 第三方语言模型地址(Dify IP地址从步骤2获取):http://{Dify IP地址}:8000/digital-human 流式响应:开启(流式响应必须开启,否则影响交互响应速度) 多轮对话语境理解能力:固定为1(方案已在后端自动实现多轮对话能力,此处必须固定为1即可,大于1会影响方案正常使用) 图18 配置智能交互 使用智能交互数字人:获取发布链接和激活码,访问链接填写激活码即可使用智能数字人交互服务。 图19 链接和激活码
    AI
  • 安全组规则修改(可选) 安全组实际是网络流量访问策略,包括网络流量入方向规则和出方向规则,通过这些规则为安全组内具有相同保护需求并且相互信任的云服务器、云容器、云数据库等实例提供安全保护。 如果您的实例关联的安全组策略无法满足使用需求,比如需要添加、修改、删除某个TCP端口,请参考以下内容进行修改。 添加安全组规则:根据业务使用需求需要开放某个TCP端口,请参考添加安全组规则添加入方向规则,打开指定的TCP端口。 修改安全组规则:安全组规则设置不当会造成严重的安全隐患。您可以参考修改安全组规则,来修改安全组中不合理的规则,保证云服务器等实例的网络安全。 删除安全组规则:当安全组规则入方向、出方向源地址/目的地址有变化时,或者不需要开放某个端口时,您可以参考删除安全组规则进行安全组规则删除。
    AI
  • 方案架构 该解决方案基于MetaStudio,ModelArts Studio以及弹性云服务器 ECS帮助您快速部署数字人交互服务。 图1 方案架构图 该解决方案将会部署如下资源: 创建一个弹性公网IP EIP并关联弹性云服务器,提供访问公网和被公网访问能力。 创建一台弹性云服务器,用于搭建Dify-LLM应用开发平台和用于知识库优化的Embedding,Reranker模型。 创建一个安全组,通过配置安全组规则,为云服务器提供安全防护。 创建一个数字内容生产线 MetaStudio 智能交互。 开通ModelArts Studio大模型即服务平台用于大模型在线推理服务
    AI
  • 操作步骤 登录华为云解决方案实践,选择“数字人交互智能问答解决方案”,单击“一键部署”,跳转至解决方案创建资源栈界面。 图1 解决方案主页 在选择模板界面中,单击“下一步”。 图2 选择模板 在配置参数界面中,参考“表1 参数填写说明”完成自定义参数填写,部分参数会自动默认填充参数值。如需修改请在参数配置页面删除文本框内的默认值后填写新的参数值,所有参数填写完成后方可单击“下一步”。 图3 配置参数 表1 参数填写说明 参数名称 类型 是否可选 参数解释 默认值 llm_name string 必填 大模型名称,从MaaS控制台获取,具体参考与MaaS服务对接。 DeepSeek-V3 llm_url string 必填 大模型服务地址,从MaaS控制台获取,默认为MaaS商用服务的url,使用前需要去MaaS服务上开通对应模型的tokens付费服务,具体参考与MaaS服务对接。 https://api.modelarts-maas.com/v1 llm_api_key string 必填 大模型服务API Key,从MaaS控制台获取,具体参考与MaaS服务对接。 空 access_key string 必填 访问密钥ID(AK),识别访问用户的身份,取值范围:20,仅支持大写字母和数字,用于订购数字内容生产线 MetaStudio 智能交互服务。详见如何获取访问密钥AK/SK。 空 secret_key string 必填 秘密访问密钥(SK),对请求数据进行签名验证,取值范围:40,仅支持大小写字母和数字,用于订购数字内容生产线 MetaStudio 智能交互服务。详见如何获取访问密钥AK/SK。 空 vpc_name string 必填 虚拟私有云名称,该模板使用新建VPC,不允许重名。取值范围:1-54个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。。 digital-human-interaction security_group_name string 必填 安全组名称,该模板新建安全组,安全组规则请参考安全组规则修改(可选)进行配置。取值范围:1-64个字符,支持数字、字母、中文、_(下划线)、-(中划线)、.(点)。 digital-human-interaction ecs_name string 必填 云服务器实例名称,不支持重名。取值范围:1-64个字符,支持中文、英文字母、数字、_(下划线)、-(中划线)、.(点)。 digital-human-interaction ecs_flavor string 必填 云服务器实例规格,支持弹性云服务器 ECS及华为云Flexus 云服务器X实例。Flexus 云服务器X实例规格ID命名规则为x1.?u.?g,例如2vCPUs4GiB规格ID为x1.2u.4g,具体华为云Flexus 云服务器X实例规格请参考控制台。弹性云服务器 ECS规格信息具体请参考官网弹性云服务器规格清单。 kx1.40u.40g ecs_password string 必填 云服务器密码,长度为8-26位,密码至少必须包含大写字母、小写字母、数字和特殊字符(!@$%^-_=+[{}]:,./?)中的三种。修改密码,请参考重置云服务器密码登录ECS控制台修改密码。管理员账户默认root。 空 system_disk_size number 必填 云服务器系统盘大小,磁盘类型默认为高IO,单位:GB,取值范围为40-1,024,不支持缩盘。 100 bandwidth_size number 必填 弹性公网带宽大小,该模板计费方式为按流量计费。单位:Mbit/s,取值范围:1-300Mbit/s。 300 ecs_charging_mode string 必填 云服务器计费模式,默认自动扣费,可选值为:postPaid(按需计费)、prePaid(包年包月)。 postPaid ecs_charging_unit string 必填 云服务器订购周期类型,仅当charging_mode为prePaid(包年/包月)生效,此时该参数为必填参数。取值范围:month(月),year(年)。 month ecs_charging_period number 必填 云服务器订购周期,仅当charging_mode为prePaid(包年/包月)生效,此时该参数为必填参数。取值范围:charging_unit=month(周期类型为月)时,取值为1-9;charging_unit=year(周期类型为年)时,取值为1-3。 1 metastudio_charging_unit string 必填 数字内容生产线 MetaStudio智能交互服务订购周期类型。取值范围:month(月),year(年)。 month metastudio_charging_period number 必填 数字内容生产线 MetaStudio智能交互服务订购周期。取值范围:metastudio_charging_unit=month(周期类型为月)时,取值为1-9;metastudio_charging_unit=year(周期类型为年)时,取值为1-3 1 (可选,如果使用华为主账号或admin用户组下的IAM子账户可不选委托)在资源设置界面中,在权限委托下拉框中选择“rf_admin_trust”委托,单击“下一步”。 图4 资源栈设置 在配置确认界面中,确认填写参数并单击“创建执行计划”。 图5 配置确认 在弹出的创建执行计划框中,自定义填写执行计划名称,单击“确定”。 图6 创建执行计划 单击“部署”,并且在弹出的执行计划确认框中单击“执行”。 图7 执行计划 图8 执行计划确认 (可选)如果计费模式选择“包年包月”,在余额不充足的情况下(所需总费用请参考表2)请及时登录费用中心,手动完成待支付订单的费用支付。 待“事件”中出现“Apply required resource success”,堆栈部署成功,表示顺利完成资源的下发和部署。堆栈部署成功后,脚本开始执行,耐心等待10分钟左右(受网络波动影响)。 图9 部署完成
共100000条