推荐系统 RES-提交组合作业:请求消息

时间:2023-11-01 16:16:29

请求消息

请求参数请参见表2-请求参数说明
表2 请求参数说明

参数名称

是否必选

参数类型

说明

workspace_id

String

工作空间ID,默认为0

job_name

String

训练作业名称,只能由数字,字母,下划线,中划线组成,最大长度为20字符

job_description

String

训练作业描述,最大长度为256字符

offline_platform

List

请参见表3,离线计算平台信息。

data_source

List

请参见表5数据源。

storage

List

请参见表8,信息存储。

algorithm_setting

JSON

请参见表10,算法配置。

filter_rules

JSON

请参见表12,过滤配置列表。

表3 offline_platform参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,支持 DLI

platform_parameter

JSON

请参见表4,平台参数。

computing_resource

String

指定DLI运行任务的资源规格。

config_load_path

String

配置加载路径。

表4 platform_parameter 参数说明

参数名称

是否必选

参数类型

说明

cluster_name

String

集群名称,最大长度64。

表5 data_source参数说明

参数名称

是否必选

参数类型

说明

offline

List

请参见表6,离线数据源。

表6 offline参数说明

参数名称

是否必选

参数类型

说明

table_type_id

String

推荐通用数据模板

  • 用户属性表USER_META
  • 物品属性表ITEM_META
  • 用户操作行为表USER_BEHAVIOR
  • 通用格式GENERAL_FORMAT

数据格式请参见推荐系统离线数据源

data_source_url

String

数据源路径,最大长度1000字符

data_format

String

数据格式,可选值:csv、parquet、json、orc。

data_param

JSON

请参见表7,数据格式是csv的时候必选,其他可选。

start_time

String

通用格式数据源开始时间。例如,“2018-01-01”。

end_time

String

通用格式数据源结束时间。例如,“2018-02-01”。

表7 data_param参数说明

参数名称

是否必选

参数类型

说明

header

String

是否显示表头,有表头"true"或无表头"false"。

delimiter

String

分隔符,最大长度10字符

quote

String

引用字符,最大长度10字符

escape

String

转义字符,最大长度10字符

表8 storage参数说明

参数名称

是否必选

参数类型

说明

platform

String

平台名称,现支持CloudTable。

platform_parameter

JSON

请参见表9,数据存储参数。

表9 platform_parameter 参数说明

参数名称

是否必选

参数类型

说明

cluster_id

String

集群ID。

table_name

String

表名称,最大长度64字符

cluster_name

String

集群名称。

data_version

String

数据版本号。V1或者V2。

region_info

JSON

预分区信息。如果选择数据版本为V2时,才需要设置预分区信息。V1则默认不进行预分区。请参见表17,预分区信息。

表10 algorithm_setting参数说明

参数名称

是否必选

参数类型

说明

start_time

Long

训练数据开始时间,以毫秒为单位的时间戳。

end_time

Long

训练数据结束时间,以毫秒为单位的时间戳。

strategy

List

请参见表11,策略集合。

表11 strategy参数说明

参数名称

是否必选

参数类型

说明

strategy_type

String

策略类型(可选值)

  • 召回策略:recall
  • 排序策略:sorting

name

String

策略别名,最大长度60字符

algorithm_type

String

算法类型。

parameter

JSON

算法参数,JSON格式。

说明:

提交模板作业接口,根据选择策略的不同,参数也有不同。

  • 召回策略

    parameter中包含的参数,请参见策略参数说明中召回策略(recall)各策略参数说明。

  • 排序策略

    parameter中包含的参数有以下几部分:

    • spec_id :参数类型Long,训练作业选择的资源规格ID。
    • run_path:参数类型String,训练结果保存根路径,训练完成后,会将模型和日志文件保存在该路径下。
    • training_data_path:参数类型String,训练数据的obs路径。
    • test_data_path:参数类型String,测试数据的obs路径。
    • 策略参数说明中排序策略(sorting)各策略参数说明。
表12 filter_rules参数说明

参数名称

是否必选

参数类型

说明

behavior_rules

List

请参见表13,用户行为过滤配置。

blacklist

String

黑名单过滤配置。

whitelist

String

白名单过滤配置。

etl_uuid

String

特征工程-用户物品特征抽取生成的uuid,用于属性过滤配置。

表13 behavior_rules参数说明

参数名称

是否必选

参数类型

说明

behavior_type

String

行为类型 。

  • view:物品曝光
  • click:用户点击物品
  • collect:用户收藏了某个物品
  • uncollect:用户取消收藏某个物品
  • search_click:用户点击搜索结果中的物品
  • comment:用户对物品的评论
  • share: 分享
  • like:点赞
  • dislike:点衰
  • grade:评分
  • consume:消费
  • use:观看视频/听音乐/阅读

interval

Integer

代表过去几天的天数,取值[1,10000]。

frequency

Integer

代表频率次数,取值[1,10000]。

support.huaweicloud.com/api-res/res_02_0027.html