数据湖探索 DLI-创建批处理作业:请求消息

时间：2025-06-19 14:06:29

数据湖探索 DLI Spark作业相关API

请求消息

表2 请求参数
参数名称	是否必选	参数类型	说明
file	是	String	用户已上传到 DLI 资源管理系统的类型为jar或pyFile的程序包名。也支持指定OBS路径，例如：obs://桶名/包名。
className	是	String	批处理作业的Java/Spark主类。
queue	否	String	用于指定队列，填写已创建DLI的队列名。必须为通用类型的队列。说明：兼容“cluster_name”参数，即如果使用“cluster_name”指定队列仍然有效。推荐使用“queue”参数，“queue”参数与“cluster_name”参数两者不能同时存在。
cluster_name	否	String	用于指定队列，填写已创建DLI队列的队列名称。说明：推荐使用“queue”参数，“queue”参数与“cluster_name”参数两者不能同时存在。
args	否	Array of Strings	传入主类的参数，即应用程序参数。
sc_type	否	String	计算资源类型，目前可接受参数A, B, C。如果不指定，则按最小类型创建。具体资源类型请参见表3。
jars	否	Array of Strings	用户已上传到DLI资源管理系统的类型为jar的程序包名。也支持指定OBS路径，例如：obs://桶名/包名。
pyFiles	否	Array of Strings	用户已上传到DLI资源管理系统的类型为pyFile的资源包名。也支持指定OBS路径，例如：obs://桶名/包名。
files	否	Array of Strings	用户已上传到DLI资源管理系统的类型为file的资源包名。也支持指定OBS路径，例如：obs://桶名/包名。
modules	否	Array of Strings	依赖的系统资源模块名，具体模块名可通过查询组内资源包（废弃）接口查看。 DLI系统提供了用于执行跨源作业的依赖模块，各个不同的服务对应的模块列表如下： CloudTable/ MRS HBase: sys.datasource.hbase CloudTable/MRS OpenTSDB: sys.datasource.opentsdb RDS MySQL: sys.datasource.rds RDS PostGre: 不需要选 DWS: 不需要选 CSS : sys.datasource.css
resources	否	Array of Objects	JSON对象列表，填写用户已上传到队列的类型为JSON的资源包名和类型。具体请见表4。 Spark 3.3.x及以上版本不支持配置resources参数，请在jars、pyFiles、files中配置资源包信息。
groups	否	Array of Objects	JSON对象列表，填写用户组类型资源，格式详见请求示例。如果“resources”中的“name”未进行type校验，只要此分组中存在这个名字的包即可。具体请见表5。 Spark 3.3.x及以上版本不支持配置分组信息。
conf	否	Object	batch配置项，参考Spark Configuration。
name	否	String	创建时用户指定的批处理名称，不能超过128个字符。
driverMemory	否	String	Spark应用的Driver内存，参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数，使用时必须带单位，否则会启动失败。
driverCores	否	Integer	Spark应用Driver的CPU核数。该配置项会替换sc_type中对应的默认参数。
executorMemory	否	String	Spark应用的Executor内存，参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数，使用时必须带单位，否则会启动失败。
executorCores	否	Integer	Spark应用每个Executor的CPU核数。该配置项会替换sc_type中对应的默认参数。
numExecutors	否	Integer	Spark应用Executor的个数。该配置项会替换sc_type中对应的默认参数。
obs_bucket	否	String	保存Spark作业的obs桶名，需要保存作业时配置该参数。
auto_recovery	否	Boolean	是否开启重试功能，如果开启，可在Spark作业异常失败后自动重试。默认值为“false”。
max_retry_times	否	Integer	最大重试次数。最大值为“100”，默认值为“20”。
feature	否	String	作业特性。表示用户作业使用的Spark镜像类型。 custom：表示使用用户自定义的Spark镜像。
spark_version	否	String	作业使用Spark组件的版本号。如果当前Spark组件版本为2.3.2，则不填写该参数。
execution_agency_urn	否	String	授权给DLI的委托名。Spark3.3.1版本时支持配置该参数。
image	否	String	自定义镜像。格式为：组织名/镜像名:镜像版本。当用户设置“feature”为“custom”时，该参数生效。用户可通过与“feature”参数配合使用，指定作业运行使用自定义的Spark镜像。关于如何使用自定义镜像，请参考《数据湖探索用户指南》。
catalog_name	否	String	访问元数据时，需要将该参数配置为dli。