数据湖探索 DLI-新建SQL作业:请求消息

时间:2025-06-18 14:07:45

请求消息

表2 请求参数说明

参数名称

是否必选

参数类型

说明

name

String

作业名称。长度限制:1-57个字符。

desc

String

作业描述。长度限制:0-512个字符。

template_id

Integer

模板ID。

如果“template_id”“sql_body”都不为空,优先选择“sql_body”的内容;如果“template_id”不为空,“sql_body”为空,选择“template_id”的内容填充“sql_body”

queue_name

String

队列名称。长度限制:0-128个字符。

sql_body

String

Stream SQL语句,至少包含source, query, sink三个部分。长度限制:1024*1024个字符。

run_mode

String

作业运行模式:

  • shared_cluster:共享。
  • exclusive_cluster:独享。
  • edge_node:边缘节点。

默认值为“shared_cluster”。

cu_number

Integer

用户为作业选择的CU数。默认值为“2”。

CU数量为 DLI 的计算单元数量和管理单元数量总和,CU也是DLI的计费单位,1CU=1核4G。当前配置的CU数量为运行作业时所需的CU数,不能超过其绑定队列的CU数量。管理单元参数设置详见:manager_cu_number。

parallel_number

Integer

用户设置的作业并行数目。默认值为“1”。

并行数是指同时运行Flink SQL作业的最大任务数。适度增加并行数会提高作业整体算力,但也须考虑线程增多带来的切换开销。最大并行数不能大于计算单元(CU数量-管理单元)的4倍。

管理单元参数设置详见:manager_cu_number。

checkpoint_enabled

Boolean

是否开启作业自动快照功能。

  • 开启:true
  • 关闭:false
  • 默认:false

checkpoint_mode

Integer

快照模式,。两种可选:

  • 1:表示exactly_once,数据只被消费一次。
  • 2:表示at_least_once,数据至少被消费一次。

默认值为1。

checkpoint_interval

Integer

快照时间间隔。单位为秒,默认值为“10”

obs_bucket

String

“checkpoint_enabled”“true”时,该参数是用户授权保存快照的OBS桶名。

“log_enabled”“true”时,该参数是用户授权保存作业日志的OBS桶名。

log_enabled

Boolean

是否开启作业的日志上传到用户的OBS功能。默认为“false”

smn_topic

String

当作业异常时,向该 SMN 主题推送告警信息。

restart_when_exception

Boolean

是否开启作业异常自动重启。默认为“false”

idle_state_retention

Integer

空闲状态保留时间。单位为秒,默认值为“3600”

job_type

String

作业类型:flink_sql_job、flink_opensource_sql_job。

默认值:“flink_opensource_sql_job”

  • “run_mode”为“exclusive_cluster”时,作业类型须为“flink_sql_job”或“flink_opensource_sql_job”。
  • “run_mode””为“shared_cluster”时作业类型必须为”flink_sql_job“。

edge_group_ids

Array of Strings

边缘计算组ID列表, 多个ID以逗号分隔。

dirty_data_strategy

String

作业脏数据策略。

  • “2:obsDir”:保存,obsDir表示脏数据存储路径。
  • “1”:抛出异常。
  • “0”:忽略。

默认值为“0”。

udf_jar_url

String

用户已上传到DLI资源管理系统的资源包名,用户sql作业的udf jar包通过该参数传入。

Flink1.15及以上版本在创建作业时仅支持配置OBS中的程序包,不支持读取DLI程序包。

manager_cu_number

Integer

用户为作业选择的管理单元(jobmanager)CU数量,默认值为“1”。

tm_cus

Integer

每个taskmanager的CU数,默认值为“1”。

tm_slot_num

Integer

每个taskmanager的slot数,默认值为“(parallel_number*tm_cus)/(cu_number-manager_cu_number)”。

resume_checkpoint

Boolean

异常重启是否从checkpoint恢复。

resume_max_num

Integer

异常重试最大次数,单位:次/小时。取值范围:-1或大于0。默认值为“-1”,表示无限次数。

tags

Array of Objects

Flink SQL作业的标签。具体请参考表3

runtime_config

String

Flink作业运行时自定义优化参数。

flink_version

String

Flink版本。

execution_agency_urn

String

授权给DLI的委托名。Flink1.15版本时支持配置该参数。

resource_config_version

String

资源配置版本。可选值 "v1" ,"v2".默认为“v1”。

v2版本对比于v1模版不支持设置CU数量,支持直接设置Job Manager Memory和Task Manager Memory。

v1:适用于Flink 1.12、Flink 1.13、Flink 1.15

V2:适用于Flink 1.13、Flink 1.15、Flink 1.17

优先推荐使用V2版本的参数设置。

resource_config

Object

Flink 作业的资源配置。 具体参数说明请参考表4

资源配置版本 为 "v2"时,配置生效,资源配置版本 为 "v1"时,配置无效。

表3 tags参数

参数名称

是否必选

参数类型

说明

key

String

标签的键。

说明:

标签的键的最大长度为128个字符,标签的键可以包含任意语种字母、数字、空格和_ . : +-@ ,但首尾不能含有空格,不能以_sys_开头。

value

String

标签的值。

说明:

标签值的最大长度为255个字符,标签的值可以包含任意语种字母、数字、空格和_ . : +-@ 。

表4 resource_config参数说明

参数名称

是否必选

参数类型

说明

max_slot

integer

该参数用于设置单个TaskManager可以提供的并行任务数量。每个Task Slot可以并行执行一个任务。增加 Task Slots 可以提高 TaskManager 的并行处理能力,但也会增加资源消耗。

Task Slots的数量与TaskManager的CPU数相关联,因为每个CPU可以提供一个Task Slot。

单TM Slot默认值为1。最小并行数不能小于1。

parallel_number

integer

作业的并行数,指作业中各个算子的并行执行的子任务的数量,算子的子任务数就是其对应算子的并行度。默认值为“1”。

jobmanager_resource_spec

Object

JobManager资源规格。具体参数说明请参考表5

taskmanager_resource_spec

Object

TaskManager资源规格。具体参数说明请参考表6

表5 jobmanager_resource_spec参数说明

参数名称

是否必选

参数类型

说明

cpu

double

JobManager可以使用的CPU核数,默认值为1.0个CPU核数,最低不得小于0.5个CPU核数

memory

string

JobManager可以使用的内存,单位MB,GB。默认GB。默认值为4GB,最低不得小于2G。

表6 taskmanager_resource_spec参数说明

参数名称

是否必选

参数类型

说明

cpu

double

TaskManager可以使用的CPU核数,默认值为1.0个CPU核数,最低不得小于0.5个CPU核数

memory

string

TaskManager可以使用的内存,单位MB,GB。默认GB。默认值为4GB,最低不得小于2G

support.huaweicloud.com/api-dli/dli_02_0228.html