华为云用户手册

  • 单机实例 表1 Redis 4.0/5.0/6.0/7.0 单机实例产品规格 内存规格 (GB) 实例可使用内存 (GB) 最大连接数(默认/最大可配) (个) 基准/最大带宽 (Mbit/s) 参考性能 (QPS) 产品规格编码(对应API的spec_code) 0.125 0.125 10,000/10,000 40/40 x86:100,000 Arm:80,000 x86:redis.single.xu1.tiny.128 Arm:redis.single.au1.tiny.128 0.25 0.25 10,000/10,000 80/80 x86:100,000 Arm:80,000 x86:redis.single.xu1.tiny.256 Arm:redis.single.au1.tiny.256 0.5 0.5 10,000/10,000 80/80 x86:100,000 Arm:80,000 x86:redis.single.xu1.tiny.512 Arm:redis.single.au1.tiny.512 1 1 10,000/50,000 80/80 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.1 Arm:redis.single.au1.large.1 2 2 10,000/50,000 128/128 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.2 Arm:redis.single.au1.large.2 4 4 10,000/50,000 192/192 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.4 Arm:redis.single.au1.large.4 8 8 10,000/50,000 192/192 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.8 Arm:redis.single.au1.large.8 16 16 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.16 Arm:redis.single.au1.large.16 24 24 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.24 Arm:redis.single.au1.large.24 32 32 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.32 Arm:redis.single.au1.large.32 48 48 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.48 Arm:redis.single.au1.large.48 64 64 10,000/50,000 384/384 x86:100,000 Arm:80,000 x86:redis.single.xu1.large.64 Arm:redis.single.au1.large.64
  • 主备实例 主备实例默认为2副本(包含1个主节点和1个备节点),支持设置副本数。 同一个内存规格,x86主备实例、Arm主备实例、主备不同副本数实例有如下差异: 可使用内存、连接数上限、基准/最大带宽、QPS:都一样。 产品规格编码(实例规格名称):表2中仅列出了默认副本数为2的实例规格名称,如果是其他副本个数,名称中相应修改副本数量,例如,8G规格的x86架构主备实例,主备2副本的名称为redis.ha.xu1.large.r2.8,3副本为redis.ha.xu1.large.r3.8,以此类推。 占用IP个数:占用的IP个数=主节点个数*副本个数。例如: 主备2副本实例,占用IP个数=1*2=2; 主备3副本实例,占用IP个数=1*3=3。 表2 Redis 4.0/5.0/6.0/7.0 主备实例产品规格 内存规格 (GB) 实例可使用内存 (GB) 最大连接数(默认/最大可配) (个) 基准/最大带宽 (Mbit/s) 参考性能 (QPS) 产品规格编码(对应API的spec_code) 0.125 0.125 10,000/10,000 40/40 x86:100,000 Arm:80,000 x86:redis.ha.xu1.tiny.r2.128 Arm:redis.ha.au1.tiny.r2.128 0.25 0.25 10,000/10,000 80/80 x86:100,000 Arm:80,000 x86:redis.ha.xu1.tiny.r2.256 Arm:redis.ha.au1.tiny.r2.256 0.5 0.5 10,000/10,000 80/80 x86:100,000 Arm:80,000 x86:redis.ha.xu1.tiny.r2.512 Arm:redis.ha.au1.tiny.r2.512 1 1 10,000/50,000 80/80 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.1 Arm:redis.ha.au1.large.r2.1 2 2 10,000/50,000 128/128 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.2 Arm:redis.ha.au1.large.r2.2 4 4 10,000/50,000 192/192 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.4 Arm:redis.ha.au1.large.r2.4 8 8 10,000/50,000 192/192 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.8 Arm:redis.ha.au1.large.r2.8 16 16 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.16 Arm:redis.ha.au1.large.r2.16 24 24 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.24 Arm:redis.ha.au1.large.r2.24 32 32 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.32 Arm:redis.ha.au1.large.r2.32 48 48 10,000/50,000 256/256 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.48 Arm:redis.ha.au1.large.r2.48 64 64 10,000/50,000 384/384 x86:100,000 Arm:80,000 x86:redis.ha.xu1.large.r2.64 Arm:redis.ha.au1.large.r2.64
  • Redis产品类型差异 D CS 在创建实例时,Redis可选择“版本号”、“实例类型”。 DCS Redis 3.0已下线,暂停售卖,建议使用Redis 4.0及以上版本。 Redis 7.0目前为白名单开放,如有需要请联系客服。 由于Redis不同版本的底层架构不一样,在创建Redis实例时,确定Redis版本后,将不能修改,如Redis 4.0暂不支持升级到Redis 5.0或者Redis 6.0。如果需要由低版本升级到高版本,建议重新购买高版本实例,然后进行数据迁移。 版本号 Redis版本号有3.0,4.0,5.0,6.0,7.0,它们的区别如表1。更多Redis特性,请参考Redis开源版本特性说明。 表1 不同版本支持的特性、性能差异说明 比较项 Redis 3.0(已停售) Redis 4.0/5.0/6.0/7.0基础版 Redis 6.0企业版 兼容开源版本 DCS Redis 3.0兼容开源Redis 3.x,具体请参考如何查询Redis实例的原生版本 DCS Redis 4.0/5.0/6.0/7.0基础版分别兼容开源Redis 4.x、Redis 5.x、Redis 6.x、Redis 7.x,具体请参考如何查询Redis实例的原生版本 DCS Redis 6.0企业版兼容开源Redis 6.x,具体请参考如何查询Redis实例的原生版本 创建实例耗时 3~15分钟,集群约10~30分钟 约8秒 5~15分钟 QPS 单分片约10万QPS x86架构:单分片QPS约10万/秒 Arm架构:单分片QPS约8万/秒 企业版高性能型:单分片QPS约40万/秒 企业版存储型:单分片QPS约7万/秒 域名 连接 支持VPC内使用域名连接 支持VPC内使用域名连接 支持VPC内使用域名连接 可视化数据管理 不支持 提供Web CLI访问Redis,管理数据 提供Web CLI访问Redis,管理数据 实例类型 支持单机、主备、Proxy集群 Redis 4.0/5.0/6.0:支持单机、主备、读写分离、Proxy集群、Cluster集群 Redis 7.0:目前仅支持单机、主备、Cluster集群 主备 扩容/缩容 支持在线扩容和缩容 支持在线扩容和缩容 支持在线扩容和缩容 备份恢复 主备和Proxy集群实例支持 主备、Proxy集群、Cluster集群和读写分离实例支持 主备实例支持 实例类型 Redis实例类型分为单机、主备、Proxy集群、Cluster集群和读写分离,它们的架构与应用场景,请参考DCS实例类型。 父主题: 产品版本和规格差异
  • 变更实例 表2 变更实例约束与限制 限制项 约束与限制 变更Redis实例规格/类型 建议在业务低峰期变更实例,业务高峰期变更实例可能会失败。 副本数变更和容量变更不支持同时进行,需分开两次执行变更。 删除副本时,每次操作仅支持删除一个副本。 更多变更实例规格/类型的限制与须知请参考:变更DCS实例规格。 调整DCS实例带宽 企业版Redis暂不支持调整带宽。 只有在运行中的实例支持调整带宽,如果是变更中、故障中、重启中等其他状态下的实例不支持调整实例带宽。 带宽的调整范围在实例基准带宽到最大可调整的带宽之间,通常在实例节点所在物理机资源充足的前提下,实例可调整的单分片最大带宽为2048 Mbit/s。 变更DCS集群实例为多可用区 仅副本数≥2的单可用区集群实例支持该功能,其他场景均不支持变更实例可用区。 升级Proxy集群实例可用区须知: 迁移可用区过程中会有秒级业务中断,建议在业务低峰时进行变更。 请确保您的客户端应用具备重连机制和处理异常的能力,否则在迁移可用区后有可能需要重启客户端应用。 升级Cluster集群实例可用区须知: 迁移可用区过程不会影响主节点,业务不会中断,但是性能会略有下降,建议在业务低峰时进行。 迁移可用区过程会导致部分副本连接中断,需确保您的客户端应用具备重连机制和处理异常的能力。
  • 数据迁移 表3 数据迁移约束与限制 限制项 约束与限制 迁移版本 迁移实例时,目标端创建的实例版本不能低于源端Redis版本,将高版本Redis实例数据迁移到低版本Redis实例可能会迁移失败。 在线迁移 通过DCS控制台在线迁移Redis实例,必须满足源端Redis和目标Redis网络相通、源端Redis放通SYNC和PSYNC命令两个前提。 在线迁移不支持公网方式直接迁移。 源端仅支持Redis 3.0及3.0以上的Redis版本。 建议在业务低峰期执行在线迁移,否则可能导致源端实例CPU瞬时冲高,时延增大。 交换源Redis和目标Redis连接地址(交换IP) 当源实例和目标实例必须都为DCS Redis实例,在执行全量+增量方式的在线迁移后,支持通过控制台交换源Redis和目标Redis的IP和域名地址。 企业版实例不支持交换IP。 Cluster集群实例不支持交换IP。
  • Redis实例 表1 Redis实例约束与限制 限制项 约束与限制 实例版本 DCS目前支持的Redis版本为:Redis 3.0(已停售)、Redis 4.0、Redis 5.0、Redis 6.0和Redis 7.0。 Redis实例创建后,不支持直接升级实例版本,可以通过数据迁移的方式将低版本实例中的数据迁移到高版本。 数据安全 Redis 3.0和Redis 6.0企业版:通过配置安全组访问规则控制,不支持白名单功能。 Redis 4.0及以上版本基础版:通过IP白名单控制,不支持安全组。 Redis 6.0基础版和Redis 7.0:支持开启SSL链路加密传输,其他版本暂不支持。 数据持久化 单机实例:不支持数据持久化。 主备、读写分离和集群实例(单副本集群除外):默认支持数据持久化。 读写分离 读写分离实例:默认为从服务端实现的读写分离。 Cluster集群、主备实例:支持从客户端实现读写分离,需要用户在客户端做配置。 其他实例暂不支持读写分离。 备份数据 单机实例不支持控制台自动或手动备份数据外,其他实例类型支持。 修改实例虚拟私有云和子网 实例创建后,不支持修改实例的虚拟私有云和子网。
  • 与开源Memcached差异 表2 DCS与自建开源Memcached的差异说明 比较项 开源Memcached DCS Memcached 服务搭建 从自行准备服务器资源到Memcached搭建,需要0.5~2天。 5~15分钟完成创建。 安全 自行保证网络与服务器的安全。 使用华为云虚拟私有云与安全组,确保网络安全。 主备与集群多副本、定时备份,确保数据高可靠。 性能 - 单节点达10万QPS(Query Per Second)。 监控 提供简单的信息统计。 提供30余项监控指标,并支持用户自定义监控阈值和告警策略。 指标类型丰富 常见的外部业务监控和统计:命令数、并发操作数、连接数、客户端数、拒绝连接数等。 常见的资源占用监控和统计:cpu占用率、物理内存占用、网络输入/输出流量等。 常见的关键内部监控和统计:键个数、键过期个数、容量占用量、pubsub通道个数、pubsub模式个数、keyspace命中、keyspace错过。 自定义监控阈值及告警 提供基于各项监控制定阈值告警,支持客户自定义,便于及时发现业务异常。 备份恢复 不支持。 提供定时与手动备份数据能力。 支持控制台一键恢复数据。 可视化维护 不具备,需要自行开发。 web控制台可视化维护。 可在线修改配置参数。 可扩展性 需要中断服务。首先为服务器调整运行内存,然后调整Memcached内存配置并重启操作系统与服务。 提供在线不断服务的扩容能力。 规格可根据实际需要,在DCS支持的规格范围内进行扩容或者缩容。 易运维 人工运维。 完善的运维服务配套,7*24小时监控与运维保障。 持久化 不支持。 主备实例支持持久化。
  • 与开源Redis差异 表1 DCS与自建开源Redis的差异说明 比较项 开源Redis DCS Redis 服务搭建 从自行准备服务器资源到Redis搭建,需要0.5~2天。 Redis 6.0企业版:5~15分钟完成创建。 Redis 4.0及以上基础版版本:15~60秒完成创建。 版本 - 深度参与开源社区,及时支持最新Redis的版本。目前支持Redis 3.0(已停售)、Redis 4.0、Redis 5.0、Redis 6.0和Redis 7.0版本。 安全 自行保证网络与服务器的安全。 使用华为云虚拟私有云与安全组,确保网络安全。 主备与集群多副本、定时备份,确保数据高可靠。 性能 - x86架构Redis单分片达10万QPS(Query Per Second),Arm架构Redis单分片达8万QPS。 Redis 6.0企业版高性能型单节点QPS约40万/秒,存储型单节点QPS约7万/秒。 监控 提供简单的信息统计。 提供30余项监控指标,并支持用户自定义监控阈值和告警策略。 指标类型丰富 常见的外部业务监控和统计:命令数、并发操作数、连接数、客户端数、拒绝连接数等。 常见的资源占用监控和统计:cpu占用率、物理内存占用、网络输入/输出流量等。 常见的关键内部监控和统计:键个数、键过期个数、容量占用量、pubsub通道个数、pubsub模式个数、keyspace命中、keyspace错过。 自定义监控阈值及告警 提供基于各项监控制定阈值告警,支持客户自定义,便于及时发现业务异常。 备份恢复 支持。 提供定时与手动备份数据能力,支持备份文件下载到本地。 支持控制台一键恢复数据。 可视化维护缓存参数 不具备,需要自行开发。 web控制台可视化维护。 可在线修改配置参数。 支持在web控制台连接并操作数据。 可扩展性 需要中断服务。首先为服务器调整运行内存,然后调整Redis内存配置并重启操作系统与服务。 提供不中断服务的在线扩容或缩容能力。 规格可根据实际需要,在DCS支持的规格范围内进行扩容或者缩容。 易运维 人工运维。 完善的运维服务配套,7*24小时监控与运维保障。
  • 配置说明 Redis Proxy集群实例,支持通过将参数backend-master-only默认值yes修改为no,开启Proxy集群实例读写分离。修改配置参数的方式请参考配置实例参数。 Redis Cluster集群实例,使用cluster nodes查询所有主备节点,客户端连接备节点,并在节点上做配置,开启备节点只读访问,从而实现读写分离。 查询集群节点命令如下: redis-cli -h {redis_address} -p {redis_port} -a {redis_password} cluster nodes 从节点配置只读模式,请参考READONLY命令。 Redis 4.0及以上基础版版本主备实例,在控制台的实例详情信息页面,域名区分可读写域名和只读域名,分别对应主节点和备节点,在客户端增加用户读写请求判断,如果是写请求,则将请求发送给读写域名,如果是读请求,则将请求发送给只读域名。 读写分离实例,默认为从服务端侧实现的读写分离,通过Proxy节点识别用户读写请求,如果是写请求,则转发给主节点,如果是读请求,则转发给备节点,不需要用户在客户端做任何配置。
  • DCS实例支持公网访问吗? Redis 3.0实例 目前只有Redis 3.0版本密码模式的实例支持公网访问,且可选择是否通过SSL方式来访问DCS缓存实例。建议使用前先下载CA证书,并使用CA证书来验证DCS缓存实例的证书,以确保缓存数据的安全。具体可参考公网连接Redis实例。 Redis 4.0及以上版本实例 Redis 4.0及以上版本的实例,暂不支持直接绑定公网,开启密码访问模式的单机、主备、读写分离、Proxy集群实例支持通过ELB实现公网访问,开启公网访问的操作,请参考开启Redis公网访问并获取公网访问地址。 Cluster集群实例不支持公网访问。 Memcached实例 暂不支持公网访问,您必须通过同一虚拟私有云下的弹性云服务器来访问缓存实例,以确保缓存数据的安全。如果您在应用开发调试阶段,可以通过ssh代理方式,实现本地环境访问实例。具体操作参考使用SSH隧道代理机制实现公网访问DCS实例。 父主题: 客户端和网络连接
  • RESP3协议 在Redis 6.0中,推出了下一代Redis协议-RESP3,相比于RESP2协议,增加了一部分新的数据类型。 Null:空值,替代RESP2中的*-1、$-1 Array:有序集合 Simple string:节省空间的安全字符串(非二进制) Blob string:二进制格式的安全字符串 Simple error:节省空间的安全错误码/错误信息(非二进制) Blob Error:二进制格式的安全错误码/错误信息 Boolean:True/False,布尔类型 Number:有符号的64位整数 Big Number:大数字类型 Double:浮点数 Verbatim string:二进制格式的安全字符串,带文本格式 Map:无序的键值对 Set:无序的不重复元素集合 Attribute:属性键值对,类似于Map PUSH:带外数据,类似于Array,用于Redis服务端主动向客户端推送数据 Hello:hello命令返回的响应类型,用于客户端、服务端建立连接时使用
  • 客户端缓存 Redis 6.0中通过TRACKING模块实现了主动通知客户端刷新缓存的机制,根据协议类型,实现方式如下: RESP3 普通模式 广播模式 RESP2 转发模式 开启客户端缓存通知的格式如下: CLIENT TRACKING ON|OFF [REDIRECT client-id] [PREFIX prefix] [BCAST] [OPTIN][OPTOUT] [NOLOOP] 在RESP3协议中,主要是借助了PUSH类型的消息来实现服务端的主动推送通知。在普通模式中,Redis会记住每个客户端请求的key,当该key所对应的value发生变化时,将会发送失效消息(invalidation message)通知对应的客户端集合,但对于每个客户端仅会通知一次,即使后续该key所对应的value有其他操作改动,除非客户端在接收到失效消息后,再次通过读取该key的方式开启通知。开启普通模式的track功能命令如下 : CLIENT TRACKING ON 对于广播模式,则根据所track的key prefix来决定在符合key prefix的key所对应的value有所变化时,通知给所有的客户端,如key prefix所匹配的key数量较多,或改动较多,将会导致服务端发送大量的失效广播消息,消耗网络带宽。开启广播模式的track功能命令如下: CLIENT TRACKING ON BCAST PREFIX key-prefix 如客户端SDK不支持RESP3协议,只能采用RESP2协议的转发模式来实现客户端缓存主动更新通知,需要准备一个专门支持RESP3协议的客户端来作为中转节点,转发来自Redis的失效消息(invalidation message)至特定的订阅频道。工作原理如下: 图1 工作原理
  • 支持SSL Redis 6.0开始支持SSL/TLS方式的加密连接及加密传输,可通过在服务控制台上开启SSL服务,生成实例的SSL/TLS证书及密钥,在使用客户端连接时,指定该证书/密钥即可,连接示例如下: redis-cli --tls --cert /etc/redis/ssl/redis.crt --key /etc/redis/ssl/redis.key --cacert /etc/redis/ssl/redis.crt 详情请参见:SSL设置。
  • 版本支持策略 分布式缓存服务Redis的版本生命周期如表1所示。 表1 版本生命周期 版本 当前状态 华为云商用时间 计划EOM(停止销售)时间 计划EOS(停止服务)时间 Redis 3 已停售 - 2021年2月 2024年12月 Redis 4 在售 2020年4月 2026年3月 2026年6月 Redis 5 在售 2021年6月 2027年3月 2028年9月 Redis 6 在售 2023年3月 2027年3月 2028年9月 Redis 7 在售 2025年3月 - -
  • 使用限制 贵阳一区域:最新的版本因为支持新驱动,目前仅支持使用专属资源池(Snt9b2)。 乌兰一区域:支持使用公共资源池(Snt9b3)。 如果支持公共资源池,但是没开白名单,“资源池类型”选择“公共资源池”时,下方会出现提示:公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交售前咨询。 如果不支持公共资源池,“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
  • 步骤三:在Cline中配置MaaS API 配置MaaS模型服务。 打开VS Code,在左侧导航栏单击图标,打开Cline插件,在右上角单击图标。 图2 打开Cline插件 在“Settings”页面,配置相关信息,然后单击“Done”。 表2 Cline配置说明 参数 说明 API Provider 选择“OpenAI Compatible”。 Base URL 步骤二.2获取的API地址,需要去掉尾部的“/chat/completions”后填入。 API Key 步骤二.1创建的API Key。 Model ID 步骤二.2获取的模型名称。 通过VS Code的Cline插件调用MaaS API实现自动化代码生成。 在VS Code左侧导航栏,单击图标。 在左下角红框处选择已配置的MaaS服务,进行对话和代码辅助生成。 Cline功能强大,可以进行代码生成,对写好的代码进行纠错、优化等操作。 图3 代码生成示例
  • 背景介绍 Cline是一款基于大语言模型的VS Code插件,能够有效处理复杂的软件开发任务。借助VS Code开发平台,Cline为开发者带来了便捷高效的编程体验。Cline的优势如下: 深度融合ModelArts Studio(简称MaaS)平台:Cline支持接入MaaS平台的DeepSeek系列模型服务。MaaS平台提供免费Token支持开发者开箱即用,帮助开发者快速验证和实现如代码生成、应用开发等场景。更多信息,请参见 免费体验 MaaS预置服务。 文件管理与代码纠错:支持便捷地创建和编辑文件,实时监控Linter和编译器的错误信息。一旦发现代码中存在缺少导入、语法错误等问题,能迅速进行分析诊断,并给出对应的修复建议,极大地提升代码编写的流畅性和准备性,保障开发工作顺利进行。 终端交互与即时响应:集成便捷的终端交互界面,允许开发者在其中执行各类命令,并实时查看命令输出。当文件编辑完成后,Cline可帮助开发者快速定位并解决服务器出现的问题,使开发流程紧密衔接,有效提高开发效率。 Web一站式解决方案:对于Web开发任务,Cline可以在无头浏览器中启动网站,自动模拟用户的单击、输入、滚动等操作,并实时捕获截图和控制台日志。通过对这些数据的深入分析,精准定位并修复运行时的错误和视觉错误,确保Web应用的高质量交付。
  • 背景介绍 Cherry Studio是一款开源的多模型桌面客户端,支持Windows、macOS和Linux系统。它集成了多种主流大语言模型(例如OpenAI、DeepSeek、Gemini等),并支持本地模型运行。此外,它还具备丰富的功能,例如对话知识库、AI绘画、翻译、多模型切换等。 ModelArts Studio(简称MaaS)服务将DeepSeek系列模型部署到平台,支持广大开发者在线体验或端外调用。同时,MaaS提供免费Token支持开发者免费使用,帮助开发者快速验证和实现创新应用。更多信息,请参见免费体验MaaS预置服务。
  • 使用限制 贵阳一区域:最新的版本因为支持新驱动,目前仅支持使用专属资源池(Snt9b2)。 乌兰一区域:支持使用公共资源池(Snt9b3)。 如果支持公共资源池,但是没开白名单,“资源池类型”选择“公共资源池”时,下方会出现提示:公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交售前咨询。 如果不支持公共资源池,“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
  • 步骤三:在Cherry Studio中配置MaaS API 添加MaaS提供商。 在Cherry Studio客户端左下角,单击设置图标,在“模型服务”中单击“添加”。 图1 添加提供商 在“添加提供商”对话框,配置提供商名称和提供商类型,然后单击“确定”。 表2 添加提供商参数说明 参数 说明 提供商名称 配置为“华为云ModelArts Studio”,您可以按需修改。 提供商类型 配置为“OpenAI”。 添加API密钥和API地址。 在Cherry Studio客户端左下角,单击设置图标。 在“设置”页面,找到“华为云ModelArts Studio”选项,配置API密钥和API地址。 参数 说明 API密钥 步骤二.1创建的API Key。 API地址 步骤二.2获取的MaaS服务的基础API地址,需要去掉地址尾部的“v1/chat/completions”后填入。 添加模型。 在“模型”区域,单击“添加”。 在“添加模型”对话框,配置模型ID、模型名称和分组名称,单击“添加模型”。 参数 说明 模型 ID 步骤二.2获取的模型名称。 模型名称 自定义模型名称。 分组名称 自定义分组名称。
  • Step3 启动kv-cache-int8量化服务 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。
  • Step1使用tensorRT量化工具进行模型量化 在GPU机器上使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。 量化脚本convert_checkpoint.py存放在TensorRT-LLM/examples路径对应的模型文件夹下,例如:llama模型对应量化脚本的路径是examples/llama/convert_checkpoint.py。 执行convert_checkpoint.py脚本进行权重转换生成量化系数,详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0/examples/llama#int8-kv-cache。 python convert_checkpoint.py \ --model_dir ./llama-models/llama-7b-hf \ --output_dir ./llama-models/llama-7b-hf/int8_kv_cache/ \ --dtype float16 \ --int8_kv_cache 运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。
  • Step1使用tensorRT量化工具进行模型量化 使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。 量化脚本convert_checkpoint.py存放在TensorRT-LLM/examples路径对应的模型文件夹下,例如:llama模型对应量化脚本的路径是examples/llama/convert_checkpoint.py。 执行convert_checkpoint.py脚本进行权重转换生成量化系数,详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0/examples/llama#int8-kv-cache。 python convert_checkpoint.py \ --model_dir ./llama-models/llama-7b-hf \ --output_dir ./llama-models/llama-7b-hf/int8_kv_cache/ \ --dtype float16 \ --int8_kv_cache 运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。
  • Step3 启动kv-cache-int8量化服务 在使用OpenAI接口或vLLM接口启动推理服务时添加如下参数: --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。
  • Step1使用tensorRT量化工具进行模型量化 使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0。 执行如下脚本进行权重转换生成量化系数,详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0.9.0/examples/llama#int8-kv-cache python convert_checkpoint.py \ --model_dir ./llama-models/llama-7b-hf \ --output_dir ./llama-models/llama-7b-hf/int8_kv_cache/ \ --dtype float16 \ --int8_kv_cache 运行完成后,会在output_dir下生成量化后的权重。量化后的权重包括原始权重和kvcache的scale系数。
  • Step3 启动kv-cache-int8量化服务 参考Step3 启动推理服务,启动推理服务时添加如下命令。 --kv-cache-dtype int8 #只支持int8,表示kvint8量化 --quantization-param-path kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。
  • 步骤四:在Deep Research中配置MaaS API 添加MaaS模型与联网搜索服务。 在Deep Research页面右上角,单击设置图标。 在“设置”对话框,配置相关信息,然后单击“保存”。 表2 设置参数说明 参数 说明 AI服务 选择“OpenAI Compatible”。 API密钥 步骤二.1创建的API Key。 API Base URL 步骤二.2获取的基础API地址,需要去掉地址尾部的“/chat/completions”后填入。 模型名称 步骤二.2获取的模型名称。 上下文长度 基于模型支持的上下文长度填写,各预置服务支持的最大Token数请参见表3。 联网搜索服务 选择Tavily服务商,API密钥配置为步骤三.2获取的API Key。 表3 预置服务支持的最大Token数 预置服务名称 上下文长度 最大Token数 DeepSeek-R1-671B-32K(推荐) 32k 32768 DeepSeek-V3-671B-32K(推荐) 32k 32768 DeepSeek-R1-671B-8K 8k 8192 DeepSeek-V3-671B-8K 8k 8192 DeepSeek-V3-671B-4K 4k 4096 DeepSeek-R1-671B-4K 4k 4096 在Deep Research中使用MaaS API。 在Deep Research页面的“研究主题”区域,填写想要研究的主题,设置问题数量、研究深度和研究广度,单击“开始研究”。 图2 配置研究相关信息 在Deep Research页面的“模型反馈”区域,模型会基于输入信息进行研究方向的确认,回答后单击“提交回答”。 模型会根据用户的回答生成一个工作流,展示研究的具体流程和目标,然后模型会调用Tavily AI的联网搜索接口获取相关的信息。您可以单击节点查看搜索详情。 图3 联网搜索 模型基于收集到的所有上下文信息进行总结,生成最终的研究报告。 图4 研究报告示例
  • 使用限制 贵阳一区域:最新的版本因为支持新驱动,目前仅支持使用专属资源池(Snt9b2)。 乌兰一区域:支持使用公共资源池(Snt9b3)。 如果支持公共资源池,但是没开白名单,“资源池类型”选择“公共资源池”时,下方会出现提示:公共资源池暂未完全公开,如需申请使用,请联系与您对接的销售人员或拨打4000-955-988获得支持,您也可以在线提交售前咨询。 如果不支持公共资源池,“公共资源池”按钮会置灰,鼠标悬停时,会提示:该模型版本暂不支持公共资源池部署;如果专属资源池不匹配,勾选按钮会置灰,鼠标悬停时,会出现相关提示,请按照提示进行相关操作。
  • 步骤三:联网搜索API接入准备 Tavily AI是专为AI大语言模型设计的搜索引擎,能够提供实时、基于事实的搜索结果。它通过API连接AI应用,获取可靠的网络知识。每个用户每月享有免费调用额度,具体额度请参考Tavily AI官网。 访问Tavily AI官网并注册账号。 在“Overview”页面的“API Keys”区域获取API Key,在后续Deep Research配置中使用。 图1 获取API Key
  • 背景介绍 Deep Research是一款新型AI深度研究工具,它能够通过联网搜索和多步骤推理,快速生成专业级的研究报告,帮助用户在短时间内完成复杂的多步骤研究任务。该工具适用于金融、科学、政策、工程等领域,特别适用于需要深度分析和小众信息搜索的场景。 ModelArts Studio(简称MaaS)服务将DeepSeek系列模型部署到平台,基于华为云昇腾云服务的全栈优化适配,可获得持平全球高端GPU部署模型的效果,提供稳定的生产级服务能力,满足业务商用部署需求,支持广大开发者在线体验或端外调用。同时,MaaS支持开发者在线体验或通过API调用服务,并提供免费Token,便于开发者快速验证和实现创新应用。更多信息,请参见免费体验MaaS预置服务。
共100000条