云服务器内容精选

  • 用户属性JSON格式示例 { "userId":"user1", "userProperties":"provinceId\u00035147\u0002cityId\u00035148\u0002districtId\u00035154\u0002streetId\u0003130533\u0002payment_type\u00031\u0002payment_method\u0003CMBLIFE_CMBLIFE\u0002payment_channel\u000312" }
  • 用户属性表 用户属性表记录用户的属性信息,例如地域、爱好等,属性名和属性值成对出现。 表2 字段描述 字段名 类型 描述 是否必选 userId String 被推荐用户的唯一标识符。例如,用户的登录账号、imei号等。 是 userProperties String 用户属性kv串。不同属性之间用\002(ASCII值)分隔,属性的key和value之间用\003(ASCII值)分隔,多值枚举型属性的不同值之间以\004(ASCII值)分隔,kv数值型属性的不同键值对同样以\004(ASCII值)分隔,每一个键值对内部用冒号(:)将键和值分隔。 基本格式:k1\003v1\002k2\003v2\k3\003v1\004v2\004v3\002k4\003\k1:v1\004k2:v2\004k3:v3 例子:比如用户有四个标签,分别是年龄、性别、爱好、画像,取值分别为18、1、[read,gym,music]、{morality:0.8,iq:0.7,art:0.9},则这条记录可编码为age\00318\002gender\0031\002hobbies\003read\004gym\004music\002profile\003morality:0.8\004iq:0.7\004art:0.9。 userProperties字段每个KV组中value的取值类型信息由user_meta_config给出。 否
  • 用户操作行为表 用户-物品行为表,每行记录用户的单次行为信息,包含用户标识符、行为对象标识符、行为类型和行为时间等信息。 表4 字段描述 字段名 类型 描述 是否必选 userId String 用户ID。 是 objectType String 发生行为对象的名称。 item:是用户和物品本身发生的行为。 是 actionObject String 对应行为发生对象的值,如果是和物品发生关系,则是物品的id(itemId)的值。 是 actionType String 行为类型: view:物品曝光 click:用户点击物品 collect:用户收藏了某个物品 uncollect:用户取消收藏某个物品 search_click:用户点击搜索结果中的物品 comment:用户对物品的评论 share:分享 like:点赞 dislike:点衰 grade:评分 consume:消费 use:观看视频/听音乐/阅读。 是 actionMeasure String 发生行为的度量,金额,评分,次数(整数)等。 默认值: 评分和观看视频/听音乐/阅读由用户根据实际情况自行定义,如观看两分钟,值为 “0.5”,观看5分钟,值为“0.8”。 其余行为的默认值为1.0。 是 actionContent String 发生行为为评论时,需要记录评论内容。 当是search_click时,需要记录搜索的关键字。 否 actionDateTime String 行为发生的时间,采用UTC标准时间,单位以秒计。 否 actionLocation String 行为发生的位置和精度维度。 格式:[latitude, longitude] 否 context String 动作发生的上下文信息,内容为json格式字符串,也可作为行为表的扩展字段。 例如,用户当前的设备id,ip地址等信息。 否 subSite String 行为发生的位置ID。例如,在首页推荐里面点击,在详情页里面浏览。 否 traceId String 用于追踪每个被推荐物品的唯一ID。用于效果的计算。 否 flowId String 用于计算每一个在线服务的效果。flowId由推荐系统的API返回给用户,用户需把flowId写到用户行为日志中。 否
  • 全局配置功能说明 表1 功能说明 功能 说明 详细指导 密钥认证 在使用RES之前,需要获取添加访问密钥,用于授权使用OBS、 DLI 、Cloudtable、ModelArts等服务,如果没有添加访问密钥,则无法调用接口。 获取访问秘钥并添加RES全局配置 属性配置 以键值对的方式进行存储,配置后的配置项可以用于整个服务。 管理属性配置 计算资源 计算资源包括DLI服务,添加的计算资源需根据业务数据情况进行合理分配。 管理计算资源
  • 业务规则-人工导入 业务规则-人工导入是指用户自定义物品列表,并将此列表作为候选集,以供在线服务调用。 表6 业务规则-人工导入参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 OBS地址 用户可从此OBS地址中选择自定义物品列表的csv文件。单击,从弹出的对话框中,选择数据存储的OBS桶及其文件夹。 导入候选集类型 选择导入候选集类型,目前支持以下三种。 物品-分数候选集:物品-分数候选集可以用于在线服务的推荐候选集。 用户相似度候选集:用户相似度候选集可用于实时召回。 物品相似度候选集:物品相似度候选集可用于实时召回与在线服务的推荐候选集。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。 数据格式(.csv文件): itemId1 itemId2 itemId为物品id,算法将物品列表上传的物品作为候选集 用户可从OBS中选择保存有人工编辑推荐结果的列表(即物品ID)。
  • 基于UCB的召回策略 基于UCB的召回策略综合考虑了用户操作行为表中,物品发生的某几种行为类型及次数,然后给每一个物品都计算一个得分,最终返回得分最高的若干个物品。 表8 基于UCB的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最小行为次数 在物品上产生过行为的最小用户数,其中一个用户在一个物品上只计算一次行为。默认为30。 折中参数 令alpha为Exploration 和 Exploitation之间的折中参数,其取值范围为[0,1],alpha越趋近于0,则物品的得分对历史得分高的物品越有利,即 Exploitation。反之,alpha越趋近于1,则物品的得分越倾向于探索新物品,即Exploration。默认为0.5。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 该参数会运用在“输出数据”的推荐候选集上。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于特征匹配的召回策略 基于特征匹配的召回策略会用用户画像和物品画像的相关属性进行匹配,为用户召回属性匹配程度高的若干个物品。 表7 基于特性匹配的召回策略参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 匹配类型 通过匹配数据的特征,生成推荐候选集。 例如,通过用户匹配物品生成给用户推荐物品的候选集,物品自匹配生成给物品推荐物品的候选集。可选: 用户匹配物品 物品自匹配 匹配特征对 用户和物品相关联特征。请根据实际情况配置参数,如果属性匹配特征对相似度较高内存不够时需提升配置。 用户特征名:字符串,长度1-20。 物品特征名:字符串,长度1-20。 权重值:权重影响不同物品属性匹配的程度,取值0.01-1,2位小数。 匹配个数度量:如果开启匹配个数度量, 同个特征匹配个数多的数据有优势。例如博客标签中,匹配5个标签(tags)比匹配1个标签(tags)更相关。如果不开启, 多值特征匹配时,匹配特征个数无关,都被视为匹配。 操作:可以单击操作列下面的进行删除某个匹配特征对。 您可以单击进入“添加匹配特征对”页面进行配置。设置特征对的用户特征名、物品特征名和权重。 最近邻域数 机器学习中的概念, 例如协同过滤计算中,需要计算物品之间,用户之间的相似度。最近邻域数是x,就是一个物品/用户找出x个和他相似的物品/用户。默认为100。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于物品相似度的实时召回 基于物品相似度的实时召回策略是根据用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出用户该时间段内感兴趣的物品,结合物品的相似度信息进行关联推荐。 表10 基于物品相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供物品和物品相似度关系的作业,用来进行物品的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 基于用户相似度的实时召回 基于用户相似度的实时召回策略是根据用户间的相似度信息,找到相似用户短时间内行为数据(如购买,收藏,内容评论或分享),通过牛顿冷却定律对相关行为的初始权重进行衰减和汇总,从而找出相似用户该时间段内感兴趣的物品,加权汇总后推荐给该用户。 表11 基于用户相似度的实时召回参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 依赖作业名称 已经完成的可以提供用户和用户相似度关系的作业,用来进行用户的关联推荐。 topK 用户最感兴趣的排序在前K个的物品。 行为 行为类型:用户感兴趣的行为类型。 权重值:行为的初始权重。 衰减系数:用于衰减行为初始权重的系数。 有效时间:用户配置的行为发生时间与当前时间的间隔,以小时为单位。系统只处理在该时间范围内的行为记录。
  • 业务规则-基于历史行为记忆生成候选集 业务规则-基于历史行为记忆生成候选集可以从用户历史行为数据中筛选出发生过某些行为的物品(例如,筛选出曾经点击过5次的物品)。此策略适用于“看了又看”,“买了又买”等推荐场景。 表5 业务规则-基于历史行为记忆生成候选集参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 频次 “相对时间间隔”:指定历史行为时间段,选取数据中每个用户最靠后的行为数据的时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “绝对时间间隔”:指定历史行为时间段,选取数据中每个用户距离现在时间往前N天的行为数据计算用户偏好。建议至少设置30天。 “行为类型”:指定行为类型。 “最小次数”:行为次数下界,高于此的物品才会被选中。默认为1。 “最大次数”:行为次数上界,低于此的物品才会被选中。 单击,增加频次。你可以单击右侧的删除该频次。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于用户的协同过滤推荐 基于用户的协同过滤推荐采用经典算法基于用户的协同过滤(UserCF)进行召回。基于用户的协同过滤算法是通过用户的历史行为数据发现用户对物品的喜欢(如购买,收藏,内容评论或分享),并对这些喜好进行度量和打分。根据不同用户对相同物品的态度和偏好程度计算用户之间的关系。在有相同喜好的用户间进行物品推荐。 例如,A、B两个用户都购买了abc三本图书,并且给出了5星的好评。则A和B属于同一类用户。可以将A看过的图书d也推荐给用户B。 表3 基于用户的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在UserCF算法中使用,生成的相似度矩阵中为每个用户保留的若干个最相似用户。默认为100。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 物品活跃度 物品过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于物品的协同过滤推荐 基于物品的协同过滤推荐采用经典推荐算法基于物品的协同过滤ItemCF进行召回。 表2 基于物品的协同过滤推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 最近邻域数 在ItemCF算法中使用,生成的相似度矩阵中为每个物品保留的若干个最相似物品。默认100。 用户活跃度 用来过滤用户的活跃度阈值。 取值范围:1-10000。 默认值:1。 效用阈值 用户对物品综合打分的阈值。 取值范围:0.000001-10。 最小交叉度 物品和物品之间被同一用户行为记录的数量,计算相似度时,过滤掉共同记录小于最小交叉度的item。 默认值:1。 最大推荐结果数 最多生成多少个推荐结果。 默认值:100。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数的行为数据计算相似度。 时间跨度(天) 用于指定从数据源中取最近多少天的行为数据计算相似度。默认取全部数据。 上传物品相似度 支持客户通过obs导入自定义的相似度信息。相似度文件格式为json, 其中subject为用户或物品, relations为与subject相似的用户或物品及其相似度。例如, { "subject": "item108", "relations": [ { "id": "item115", "score": 0.699357793663589 }, { "id": "item60", "score": 0.659905609639582 }, { "id": "item61", "score": 0.640305447750641 }, { "id": "item18", "score": 0.614275316537666 } ] } 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于综合行为热度推荐 基于综合行为热度推荐统计用户对物品所有行为的加权热度。如果选择用户分群,将生成每个分组的热度推荐;如果不选择,将生成全局热度推荐。 表1 基于综合行为热度推参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 行为次数统计方法 物品记录统计方式。 “pv”:page view,每个用户可对同个物品产生多条记录。 “uv”:unique visitor,每个用户只能对每个物品产生一条记录, 算法只保留权重最大的记录。 用户分群 数据源类型包括用户特征和物品特征,根据数据源筛选数据, 选出需要的属性。只能选择进行用户分组还是物品分组,分组内可配置多个特征。 “用户特征”:在用户特征下拉框中选择需要的特征参数进行召回计算。例" user_meta_list ": ["gender","age"] “物品特征”:在物品户特征下拉框中选择需要的特征参数进行召回计算。例" item_meta_list ": ["weight","score"] 最大推荐结果数 每个用户最多生成多少个推荐结果。 开启时间跨度 不开启取全部数据,开启则指定从数据源中取最近天数或小时数的行为数据计算相似度。 时间单位 开启时间跨度后,支持按照天或者小时为单位从指定从数据源中取行为数据计算相似度。 时间跨度 用于指定从数据源中取最近多少天或者多少小时的行为数据计算热度。默认取全部数据。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 基于交替最小二乘的矩阵分解推荐 基于交替最小二乘的矩阵分解推荐:基于用户-物品的行为信息作为原始矩阵,利用ALS优化算法对原始矩阵进行矩阵分解,分解之后的用户隐向量矩阵和物品隐向量矩阵可以用来生成预估的新的用户-物品评分矩阵,提取出评分最高的若干个物品作为召回结果。 表4 基于交替最小二乘的矩阵分解推荐参数说明 参数名称 说明 名称 策略名称,由中文、英文、数字、下划线、空格或者中划线组成,并且不能以空格开始和结束,长度为1~64个字符。 描述 策略的具体描述。 隐向量维度 在ALS算法中使用,指定用户隐向量、物品隐向量的隐含因子的维度大小。如果离线计算失败,建议调小至10以下。默认为10。 迭代次数 指定迭代优化的最大迭代次数。如果离线计算失败,建议调小至10以下。默认为10。 优化正则化系数 在ALS算法中使用,指定正则化系数,作为优化目标中参数项代价的系数,用于避免过拟合现象发生。默认为0.01。 最大推荐结果数 最多生成多少个推荐结果。默认为100。 开启调度 开启调度,按照指定的调度策略定期执行作业。 “调度周期”:调度周期可选“天”或“周”。 “调度类型”:包括自定义和间隔调度。 “开始调度时间”:选择具体的调度时间。当调度周期选择为“周”时,可在此下拉框中勾选星期一到星期天的任一天进行调度。 “时间间隔”:如果选择的调度类型为间隔调度,需要配置调度的时间间隔。
  • 深度网络因子分解机-DeepFM 深度网络因子分解机,结合了因子分解机和深度神经网络对于特征表达的学习,同时学习高阶和低阶特征组合,从而达到准确地特征组合学习,进行精准推荐。单击查看深度网络因子分解机详细信息。 表4 深度网络因子分解机参数说明 参数名称 说明 计算节点信息 用户可使用的计算资源种类。“8核|16GiB”、“8核|32GiB”、“8核|64GiB”、“16核|128GiB”。 训练数据的obs路径 特征工程排序样本预处理生成的训练数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的训练文件路径。 测试数据的obs路径 特征工程排序样本预处理生成的测试数据所在的OBS路径。 即特征工程“排序样本预处理”结果保存路径下具体的测试文件路径。 特征值数量统计文件 该文件标识了每一个域下的特征数量,排序数据处理接口会生成这个文件,需要用户提供此文件完整路径。文件路径为特征工程中排序样本预处理作业输出数据的结果保存路径的“fields_feature_size”目录下文件名称是part-00000开头的文件,需要用户提供文件的OBS路径。 最大迭代轮数 模型训练的最大迭代轮数,默认50。 提前终止训练轮数 在测试集上连续N轮迭代AUC无提高时,迭代停止,训练提前结束,默认5。 初始化方法 模型参数的初始化方法。 normal:正态分布 平均值:默认0 标准差:0.001 uniform :均匀分布 最小值:默认-0.001,均匀分布的最小值,必须小于最大值。 最大值:默认0.001,均匀分布的最大值,必须大于最小值。 xavier: 初始化初始值为 均值为0,方差为 Var(wi)=1/nin 的均匀分布(高斯或者随机分布)。其中 nin 是该神经元的输入数目。 优化器类型 grad:梯度下降算法 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 adam:自适应矩估计算法 结合AdaGrad和 RMS Prop两种优化算法的优点,对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,依次计算出更新步长。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 数值稳定常量:为保证数值稳定而设置的一个微小常量。默认1e-8。 adagrad:自适应梯度算法 对每个不同的参数调整不同的学习率,对频繁变化的参数以更小的步长进行更新,而稀疏的参数以更大的步长进行更新。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.001。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 ftrl:Follow The Regularized Leader 适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法。 学习率:优化算法的参数,决定优化器在最优方向上前进步长的参数。默认0.1。 初始梯度累加和:梯度累加和用来调整学习步长。默认0.1。 L1正则项系数:叠加在模型的1范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数:叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 L2正则项系数 叠加在模型的2范数之上,用来对模型值进行限制防止过拟合。默认0。 正则损失计算方式 正则损失计算当前有两种方式。 full:指针对全量参数计算。 batch:则仅针对当前批数据中出现的参数计算 说明: batch模式计算速度快于full模式。 隐向量长度 分解后的表示特征的向量的长度。默认10。 神经网络结构 神经网络的层数与每一层的神经元节点个数。默认400,400,400。 激活函数 神经网络中的激活函数,将一个(或一组)神经元的值映射为一个输出值。 relu tanh sigmoid 神经元值保留概率 神经网络前向传播过程中以该概率保留神经元的值。默认0.8。 保存根路径 单击选择训练结果在OBS中的保存根路径,训练完成后,会将模型和日志文件保存在该路径下。该路径不能包含中文。