推荐系统 RES-近线作业:基于用户的标签搜索候选集

时间:2024-04-17 20:12:37

基于用户的标签搜索候选集

基于用户的标签搜索候选集可以持续为用户召回新的候选集,召回频率可达秒级。以DIS中的实时行为日志为数据源,分析用户喜好,并以此为依据为用户召回候选集。此任务包含两种召回方式:

  • 根据兴趣标签召回候选集
  • 根据实时标签召回候选集
表2 基于用户的兴趣标签搜索候选集参数说明

参数名称

说明

默认值

策略别名

策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

默认基于用户的标签搜索候选集。

数据源

  • 服务名:DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。
  • 通道名称:数据通道名称,不同类型的数据需要创建不同的通道。
  • 起始位置:读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从最旧的数据开始读取。

服务名默认DIS。

通道名无。

起始位置默认为latest。

行为类型

用户行为包含如下几种类型:

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share:分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读。

默认选取所有行为。

窗口间隔(秒)

近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。

10

过滤历史记录

生成的候选集中是否过滤历史记录,如需要过滤历史记录,则开启此项。

默认关闭。

候选集的排序策略

生成候选集的排列规则,其排列顺序包括:

  • 随机排序:不对候选集排序。
  • 热度排序:根据物品属性表里的物品热度排序,由基于行为数据的用户画像更新生成,热度越大排序越靠前。
  • 时间排序:根据时间对候选集进行排序。时间排序需要指定特征名称和推荐天数。
    • 特征名称:值为时间戳(10位)的特征的名称,任务会根据此特征对候选集进行排序。
    • 推荐天数:推荐数据的时间段,该时间段从当前开始往前推N天,默认15天。

默认热度排序。

候选集最大长度

生成候选集的最大长度,每次计算更新的候选集中的个数不会超过最大值。

默认50。

候选集的召回策略

召回候选集的策略。

  • 兴趣标签召回候选集:根据用户画像的兴趣标签召回候选集。
  • 实时标签召回候选集:根据用户实时操作的物品的标签召回候选集。

默认兴趣标签召回候选集。

兴趣宽度

生成候选集中的兴趣宽度,值越小候选集中的类型越少。

说明:

选择兴趣宽度数量对应的,权重值最高的兴趣标签个数进行检索,得到与标签匹配的物品候选集。

默认3。

全局特征信息文件

用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件

-

异常数据输出路径

单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。

-

自定义搜索

改变默认搜索条件,按照所选自定义搜索规则进行搜索。自定义搜索的内容来自于全局特征信息文件。您可以单击添加自定义搜索,在下拉选项中选择用户的兴趣标签,单击转换为另外的标签体系进行召回。

说明:

存在不同标签体系时可使用此功能,自定义搜索条件。一般情况下不建议使用。

-

用户画像存储

指定存储用户画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。

不涉及。

物品画像存储

指定存储物品画像的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。

不涉及。

过滤存储

指定存储过滤集合的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。

不涉及

候选集存储

指定存储候选集的存储平台信息。服务名默认CloudTable,指定集群名称和表名用于存储更新后的用户画像。

不涉及。

support.huaweicloud.com/usermanual-res/res_01_0051.html