数据湖探索 DLI-创建批处理作业:请求消息

时间:2024-04-09 19:13:18

请求消息

表2 请求参数

参数名称

是否必选

参数类型

说明

file

String

用户已上传到DLI资源管理系统的类型为jar或pyFile的程序包名。也支持指定OBS路径,例如:obs://桶名/包名。

className

String

批处理作业的Java/Spark主类。

queue

String

用于指定队列,填写已创建DLI的队列名。必须为通用类型的队列。

说明:
  • 兼容“cluster_name”参数,即如果使用“cluster_name”指定队列仍然有效。
  • 推荐使用“queue”参数,“queue”参数与“cluster_name”参数两者不能同时存在。

cluster_name

String

用于指定队列,填写已创建DLI队列的队列名称。

说明:

推荐使用“queue”参数,“queue”参数与“cluster_name”参数两者不能同时存在。

args

Array of Strings

传入主类的参数,即应用程序参数。

sc_type

String

计算资源类型,目前可接受参数A, B, C。如果不指定,则按最小类型创建。具体资源类型请参见表3

jars

Array of Strings

用户已上传到DLI资源管理系统的类型为jar的程序包名。也支持指定OBS路径,例如:obs://桶名/包名。

pyFiles

Array of Strings

用户已上传到DLI资源管理系统的类型为pyFile的资源包名。也支持指定OBS路径,例如:obs://桶名/包名。

files

Array of Strings

用户已上传到DLI资源管理系统的类型为file的资源包名。也支持指定OBS路径,例如:obs://桶名/包名。

modules

Array of Strings

依赖的系统资源模块名,具体模块名可通过查询组内资源包(废弃)接口查看。

DLI系统提供了用于执行跨源作业的依赖模块,各个不同的服务对应的模块列表如下:
  • CloudTable/MRS HBase: sys.datasource.hbase
  • CloudTable/MRS OpenTSDB: sys.datasource.opentsdb
  • RDS MySQL: sys.datasource.rds
  • RDS PostGre: 不需要选
  • DWS: 不需要选
  • CSS: sys.datasource.css

resources

Array of Objects

JSON对象列表,填写用户已上传到队列的类型为JSON的资源包名和类型。具体请见表4

groups

Array of Objects

JSON对象列表,填写用户组类型资源,格式详见请求示例。如果“resources”中的“name”未进行type校验,只要此分组中存在这个名字的包即可。具体请见表5

conf

Object

batch配置项,参考Spark Configuration

name

String

创建时用户指定的批处理名称,不能超过128个字符。

driverMemory

String

Spark应用的Driver内存,参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必需带单位,否则会启动失败。

driverCores

Integer

Spark应用Driver的CPU核数。该配置项会替换sc_type中对应的默认参数。

executorMemory

String

Spark应用的Executor内存,参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必需带单位,否则会启动失败。

executorCores

Integer

Spark应用每个Executor的CPU核数。该配置项会替换sc_type中对应的默认参数。

numExecutors

Integer

Spark应用Executor的个数。该配置项会替换sc_type中对应的默认参数。

obs_bucket

String

保存Spark作业的obs桶名,需要保存作业时配置该参数。

auto_recovery

Boolean

是否开启重试功能,如果开启,可在Spark作业异常失败后自动重试。默认值为“false”。

max_retry_times

Integer

最大重试次数。最大值为“100”,默认值为“20”。

feature

String

作业特性。表示用户作业使用的Spark镜像类型。

  • basic:表示使用DLI提供的基础Spark镜像。
  • custom:表示使用用户自定义的Spark镜像。
  • ai:表示使用DLI提供的AI镜像。

spark_version

String

作业使用Spark组件的版本号。

  • 如果当前Spark组件版本为2.3.2,则不填写该参数。
  • 如果当前Spark组件版本为2.3.3,则在“feature”为“basic”或“ai”时填写。若不填写,则使用默认的Spark组件版本号2.3.2。

image

String

自定义镜像。格式为:组织名/镜像名:镜像版本。

当用户设置“feature”“custom”时,该参数生效。用户可通过与“feature”参数配合使用,指定作业运行使用自定义的Spark镜像。关于如何使用自定义镜像,请参考《数据湖探索用户指南》。

catalog_name

String

访问元数据时,需要将该参数配置为dli。

表3 资源类型说明

资源类型

物理资源

driverCores

executorCores

driverMemory

executorMemory

numExecutor

A

8核32G内存

2

1

7G

4G

6

B

16核64G内存

2

2

7G

8G

7

C

32核128G内存

4

2

15G

8G

14

表4 resources参数说明

参数名称

是否必选

参数类型

说明

name

String

资源名称。也支持指定OBS路径,例如:obs://桶名/包名。

type

String

资源类型。

表5 groups参数说明

参数名称

是否必选

参数类型

说明

name

String

用户组名称。

resources

Array of Objects

用户组资源。具体请参考表4

support.huaweicloud.com/api-dli/dli_02_0124.html