检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ContextCaching接口超时时间如何设置? ContextCaching的读写相关接口执行时间,跟请求并发数、每个请求的键值对数量有关系,当前单个请求超时时间默认5秒,用户可以根据SLO(Service Level Objective,服务级别目标,例如吞吐、首token
一般情况下,建议就近选择靠近您或者您的目标用户的区域,这样可以减少网络时延,提高访问速度。不过,在基础设施、BGP网络品质、资源的操作与配置等方面,中国大陆各个区域间区别不大,如果您或者您的目标用户在中国大陆,可以不用考虑不同区域造成的网络时延问题。 在除中国大陆以外的亚太地区有业务的用户,可以选择“亚太-曼谷”或“亚太-新加坡”等区域。
print(f"failed to save, {e}.") exit(1) # 读取保存的tensor数据到新的tensor, 保证跟之前保存的的tensor一样的shape和dtype data = torch.zero(6, device="npu:1") val_list
List[List[KvBufferWrapper]] 必选 参数解释: ContextCaching访问内存池的值列表。 约束限制: 值列表的数目必须跟键列表中的数目相同,形成一一对应的键值对。 取值范围: 无 默认取值: 无。 表2 CcKvOption 参数名称 参数类型 是否必选 描述
List[List[KvBufferWrapper]] 必选 参数解释: ContextCaching访问内存池的值列表。 约束限制: 值列表的数目必须跟键列表中的数目相同,形成一一对应的键值对。 取值范围: 无 默认取值: 无。 表2 CcKvOption 参数名称 参数类型 是否必选 描述
List[List[KvBufferWrapper]] 必选 参数解释: ContextCaching访问内存池的值列表。 约束限制: 值列表的数目必须跟键列表中的数目相同,形成一一对应的键值对。 取值范围: 无 默认取值: 无。 表2 CcKvOption 参数名称 参数类型 是否必选 描述
List[List[KvBufferWrapper]] 必选 参数解释: ContextCaching访问内存池的值列表。 约束限制: 值列表的数目必须跟键列表中的数目相同,形成一一对应的键值对。 默认取值: 无。 表2 CcKvOption 参数名称 参数类型 是否必选 描述 write_rcache
EMS支持按需付费(后付费)计费方式。 按需付费(后付费)即先使用后付费的付费方式。您在华为云账户先充值,系统每小时统计前一小时的实际使用量并进行结算,从账户余额中扣除实际消费金额。 详细的服务资费费率标准请提工单咨询。 计费项 计费项为安装EMS业务集群节点使用的时长。 开始计费:EMS业务集群部署成功并激活后开始计费。
划分成大页后,普通页的内存会相应减少,需要合理规划上层推理进程的内存占用。 建议设置为DRAM容量值的一半 hugePages.requestsMemory ems-server所需的最小大页数,如果主机上大页设置为500G,则配置为500Gi 建议设置为DRAM容量值的一半 hugePages