推荐系统 RES-近线作业:基于行为数据的用户画像更新

时间:2024-04-17 20:12:37

基于行为数据的用户画像更新

基于行为数据的用户画像更新可以对用户画像进行持续更新,更新频率可达秒级。以DIS中的实时行为日志为数据源,从中分析出用户画像更新信息,并实时更新用户画像,使用户画像随着用户行为的发生而不断变化。

通过此任务可以更新的用户画像内容有:用户标签等动态信息,以及用户年龄、位置、联系方式等上下文信息。

表1 基于行为数据的用户画像更新参数说明

参数名称

说明

默认值

策略别名

策略显示名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~60个字符。

默认基于行为数据的用户画像更新。

服务名

DIS。将实时近线任务需要的实时行为日志数据添加到DIS中,推荐系统通过读取该数据进行近线计算。

DIS。

通道名称

数据通道名称,不同类型的数据需要创建不同的通道。

无。

起始位置

读取DIS数据的起始位置,latest表示从最新的数据开始读取,earliest表示从通道中现存最旧的数据开始读取。

默认为latest。

行为类型

用户行为包含如下几种类型:

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share:分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读。

默认选取所有行为。

窗口间隔(秒)

近线策略处理的窗口间隔,单位为秒,10代表每隔10s进行一次算。

10

结果保存路径

根据行为日志,及cloudtable中已存在的用户画像和物品画像实时构造出样本通用数据,以供其他功能使用。

-

更新上下文

用户操作行为表中的“context ”字段代表动作发生的上下文信息。更新上下文就是将这些信息写入到Cloudtable中进行实时的更新。

默认关闭。

是否更新物品的热度值

根据行为日志,计算物品的热度值。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集按何种顺序排列,如要选择根据热度排序,则需要打开该功能。

默认关闭。

是否保存历史记录

根据行为日志,统计用户的历史记录。近线召回策略中(如利用兴趣标签搜索候选集),召回的候选集中过滤掉用户的历史记录依赖于此项,保存了历史记录才可使用。

默认关闭。

兴趣标签衰减参数

兴趣标签的衰减参数,数值越小,衰减能力越强。数值越大,衰减能力越弱。如果值为0,则代表不衰减。

0.99

兴趣标签维护长度

各标签体系下,兴趣标签的最大长度。

20

全局特征信息文件

用户在使用近线策略之前,需要提供全局特征信息文件,该文件为JSON格式,包含特征名、特征大类、特征值类型。当上传的数据中的特征有变化时,需要同步更新该文件。全局特征信息文件示例请参考全局特征信息文件

-

异常数据输出路径

单击右侧的按钮,选择数据在OBS中的存放路径,此路径下会记录不符合任务要求的输入数据。

-

用户画像存储

该数据来源于基于用户数据更新用户画像更新后的用户画像数据。服务名默认为绑定的CloudTable资源信息。指定集群名称和表名用于存储更新后的用户画像。

不涉及。

物品画像存储

该数据来源于基于物品数据更新物品画像更新后的物品画像数据。服务名默认为绑定的CloudTable资源信息。

不涉及。

过滤存储

过滤出用户发生过某行为的物品,并保存在此表中。例如,过滤出用户看过的物品,并存储在此表中。指定集群名称和表名用于存储更新后的用户画像。

不涉及。

support.huaweicloud.com/usermanual-res/res_01_0051.html