推荐系统 RES-近线作业:基于物品数据更新物品画像

时间:2024-04-17 20:12:37

基于物品数据更新物品画像

基于物品数据更新物品画像可持续更新物品画像,更新频率可达秒级。以DIS中的实时物品日志为数据源,持续更新或添加物品画像数据,使物品画像处于最新的状态。

表4 基于物品数据更新物品画像参数说明

参数名称

说明

默认值

策略别名

策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

默认基于物品数据更新物品画像。

数据源

  • 服务名:DIS。将实时近线任务需要的实时物品日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。
  • 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。
  • 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。

服务名默认DIS。

通道名无。

起始位置默认为latest。

窗口间隔(秒)

近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。

10s。

全局特征信息文件

用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件

-

异常数据输出路径

单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。

-

候选集

是否维护维新入库物品候选集。

  • 时间特征名称:特征值为10位时间戳的特征名称。
  • 候选集最大长度:维护的候选集的最大长度。
  • 保留天数:保留时间为最近N天的候选集。

false

物品画像存储

指定存储物品画像的存储平台信息:

  • 服务名:默认CloudTable,用于存储更新后的物品画像。
  • 集群名称:指定对应的集群名称。
  • 表名:选择对应表名称。您可以单击设置数据版本。RES的数据版本有两种,“V1”版本即数据按照原有格式存储,未做过分区处理。“V2”版本则会依照用户的分区设置做分区处理,当分区合理时,数据将均匀分布在各个节点,有效利用Cloudtable的高并发特性,提升读写效率。其中“预分区数量”“索引分区数量”可以根据数据量进行设置,如果读写性能达不到要求,可以增加Cloudtable的RS单元数量提升性能。

-

support.huaweicloud.com/usermanual-res/res_01_0051.html