Spark作业相关API-华为云

数据湖探索 DLI-创建批处理作业:响应消息

响应消息表6 响应参数参数名称是否必选参数类型说明 id 否 String 批处理作业的ID。 appId 否 String 批处理作业的后台app ID。 name 否 String 创建时用户指定的批处理名称，不能超过128个字符。 owner 否 String 批处理作业所属用户。 proxyUser 否 String 批处理作业所属代理用户（资源租户）。 state 否 String 批处理作业的状态，详细说明请参见表7。 kind 否 String 批处理作业类型，只支持spark类型参数。 log 否 Array of strings 显示当前批处理作业的最后10条记录。 sc_type 否 String 计算资源类型。用户自定义时返回CUSTOMIZED。 cluster_name 否 String 批处理作业所在队列。 queue 是 String 用于指定队列，填写已创建 DLI 的队列名。说明：兼容“cluster_name”参数，即如果使用“cluster_name”指定队列仍然有效。推荐使用“queue”参数，“queue”参数与“cluster_name”参数两者不能同时存在。 image 否 String 自定义镜像。格式为：组织名/镜像名:镜像版本。当用户设置“feature”为“custom”时，该参数生效。用户可通过与“feature”参数配合使用，指定作业运行使用自定义的Spark镜像。关于如何使用自定义镜像，请参考《数据湖探索用户指南》。 create_time 否 Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。 duration 否 Long 作业运行时长，单位毫秒。表7 批处理作业状态说明参数名称参数类型说明 starting String 批处理作业正在启动。 running String 批处理作业正在执行任务。 dead String 批处理作业已退出。 success String 批处理作业执行成功。 recovering String 批处理作业正在恢复。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-创建批处理作业:请求示例

请求示例创建Spark作业，作业的Spark主类为“org.apache.spark.examples.SparkPi”，指定程序包batchTest/spark-examples_2.11-2.1.0.luxor.jar，并加载上传到DLI类型为jar的程序号和类型为files的资源包。 { "file": "batchTest/spark-examples_2.11-2.1.0.luxor.jar", "className": "org.apache.spark.examples.SparkPi", "sc_type": "A", "jars": ["demo-1.0.0.jar"], "files": ["count.txt"], "resources":[ {"name": "groupTest/testJar.jar", "type": "jar"}, {"name": "kafka-clients-0.10.0.0.jar", "type": "jar"}], "groups": [ {"name": "groupTestJar", "resources": [{"name": "testJar.jar", "type": "jar"}, {"name": "testJar1.jar", "type": "jar"}]}, {"name": "batchTest", "resources": [{"name": "luxor.jar", "type": "jar"}]}], "queue": " test", "name": "TestDemo4", "feature": "basic", "execution_agency_urn": "myAgencyName", "spark_version": "2.3.2" } 其中“batchTest/spark-examples_2.11-2.1.0.luxor.jar”已提前通过上传分组资源（废弃）接口上传。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-创建批处理作业:响应示例

响应示例 { "id": "07a3e4e6-9a28-4e92-8d3f-9c538621a166", "appId": "", "name": "", "owner": "test1", "proxyUser": "", "state": "starting", "kind": "", "log": [], "sc_type": "CUSTOMIZED", "cluster_name": "aaa", "queue": "aaa", "image": "", "create_time": 1607589874156, "update_time": 1607589874156 }

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-创建批处理作业:请求消息

请求消息表2 请求参数参数名称是否必选参数类型说明 file 是 String 用户已上传到DLI资源管理系统的类型为jar或pyFile的程序包名。也支持指定OBS路径，例如：obs://桶名/包名。 className 是 String 批处理作业的Java/Spark主类。 queue 否 String 用于指定队列，填写已创建DLI的队列名。必须为通用类型的队列。说明：兼容“cluster_name”参数，即如果使用“cluster_name”指定队列仍然有效。推荐使用“queue”参数，“queue”参数与“cluster_name”参数两者不能同时存在。 cluster_name 否 String 用于指定队列，填写已创建DLI队列的队列名称。说明：推荐使用“queue”参数，“queue”参数与“cluster_name”参数两者不能同时存在。 args 否 Array of Strings 传入主类的参数，即应用程序参数。 sc_type 否 String 计算资源类型，目前可接受参数A, B, C。如果不指定，则按最小类型创建。具体资源类型请参见表3。 jars 否 Array of Strings 用户已上传到DLI资源管理系统的类型为jar的程序包名。也支持指定OBS路径，例如：obs://桶名/包名。 pyFiles 否 Array of Strings 用户已上传到DLI资源管理系统的类型为pyFile的资源包名。也支持指定OBS路径，例如：obs://桶名/包名。 files 否 Array of Strings 用户已上传到DLI资源管理系统的类型为file的资源包名。也支持指定OBS路径，例如：obs://桶名/包名。 modules 否 Array of Strings 依赖的系统资源模块名，具体模块名可通过查询组内资源包（废弃）接口查看。 DLI系统提供了用于执行跨源作业的依赖模块，各个不同的服务对应的模块列表如下： CloudTable/ MRS HBase: sys.datasource.hbase CloudTable/MRS OpenTSDB: sys.datasource.opentsdb RDS MySQL: sys.datasource.rds RDS PostGre: 不需要选 DWS: 不需要选 CSS : sys.datasource.css resources 否 Array of Objects JSON对象列表，填写用户已上传到队列的类型为JSON的资源包名和类型。具体请见表4。 Spark 3.3.x及以上版本不支持配置resources参数，请在jars、pyFiles、files中配置资源包信息。 groups 否 Array of Objects JSON对象列表，填写用户组类型资源，格式详见请求示例。如果“resources”中的“name”未进行type校验，只要此分组中存在这个名字的包即可。具体请见表5。 Spark 3.3.x及以上版本不支持配置分组信息。 conf 否 Object batch配置项，参考Spark Configuration。 name 否 String 创建时用户指定的批处理名称，不能超过128个字符。 driverMemory 否 String Spark应用的Driver内存，参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数，使用时必须带单位，否则会启动失败。 driverCores 否 Integer Spark应用Driver的CPU核数。该配置项会替换sc_type中对应的默认参数。 executorMemory 否 String Spark应用的Executor内存，参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数，使用时必须带单位，否则会启动失败。 executorCores 否 Integer Spark应用每个Executor的CPU核数。该配置项会替换sc_type中对应的默认参数。 numExecutors 否 Integer Spark应用Executor的个数。该配置项会替换sc_type中对应的默认参数。 obs_bucket 否 String 保存Spark作业的obs桶名，需要保存作业时配置该参数。 auto_recovery 否 Boolean 是否开启重试功能，如果开启，可在Spark作业异常失败后自动重试。默认值为“false”。 max_retry_times 否 Integer 最大重试次数。最大值为“100”，默认值为“20”。 feature 否 String 作业特性。表示用户作业使用的Spark镜像类型。 custom：表示使用用户自定义的Spark镜像。 spark_version 否 String 作业使用Spark组件的版本号。如果当前Spark组件版本为2.3.2，则不填写该参数。 execution_agency_urn 否 String 授权给DLI的委托名。Spark3.3.1版本时支持配置该参数。 image 否 String 自定义镜像。格式为：组织名/镜像名:镜像版本。当用户设置“feature”为“custom”时，该参数生效。用户可通过与“feature”参数配合使用，指定作业运行使用自定义的Spark镜像。关于如何使用自定义镜像，请参考《数据湖探索用户指南》。 catalog_name 否 String 访问元数据时，需要将该参数配置为dli。表3 资源类型说明资源类型物理资源 driverCores executorCores driverMemory executorMemory numExecutor A 8核32G内存 2 1 7G 4G 6 B 16核64G内存 2 2 7G 8G 7 C 32核128G内存 4 2 15G 8G 14 表4 resources参数说明参数名称是否必选参数类型说明 name 否 String 资源名称。也支持指定OBS路径，例如：obs://桶名/包名。 type 否 String 资源类型。表5 groups参数说明参数名称是否必选参数类型说明 name 否 String 用户组名称。 resources 否 Array of Objects 用户组资源。具体请参考表4。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询批处理作业列表:URI

URI URI格式： GET /v2.0/{project_id}/batches 参数说明表1 URI参数参数名称是否必选参数类型说明 project_id 是 String 项目编号，用于资源隔离。获取方式请参考获取项目ID。表2 query参数说明参数名称是否必选参数类型说明 job_name 否 String 批处理作业的名称。 job-id 否 String 根据作业ID查询批作业。 cluster_name 否 String DLI队列名称，不填写则获取当前Project下所有批处理作业(不推荐使用)。 queue_name 否 String DLI队列名称，根据队列查询批作业（推荐使用）。 from 否 Integer 起始批处理作业的索引号，默认从0开始。 size 否 Integer 查询批处理作业的数量。 state 否 String 根据作业状态查询批作业。 owner 否 String 提交作业的用户。

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询批处理作业列表:响应示例

响应示例 { "from": 0, "total": 1, "sessions": [ { "id": "178fa687-2e8a-41ed-a439-b00de60bb176", "state": "dead", "appId": null, "log": [ "stdout: ", "stderr: ", "YARN Diagnostics: " ], "sc_type": "A", "cluster_name": "test", "create_time": 1531906043036 } ]}

数据湖探索 DLI Spark作业相关API

数据湖探索 DLI-查询批处理作业列表:响应消息

响应消息表3 响应参数说明参数名称是否必选参数类型说明 from 否 Integer 起始批处理作业的索引号。 total 否 Integer 返回批处理作业的总数。 sessions 否 Array of objects 批处理作业信息。详细说明请参见表4。 create_time 否 Long 批处理作业的创建时间。表4 sessions参数参数名称是否必选参数类型说明 duration 否 Long 作业运行时长，单位毫秒。 id 否 String 批处理作业的id。 state 否 String 批处理作业的状态。 appId 否 String 批处理作业的后台app id。 log 否 Array of Strings 显示当前批处理作业的最后10条记录。 sc_type 否 String 计算资源类型。用户自定义时返回CUSTOMIZED。 cluster_name 否 String 批处理作业所在队列。 create_time 否 Long 批处理作业的创建时间。是单位为“毫秒”的时间戳。 name 否 String 批处理作业名称。 owner 否 String 批处理作业所属用户。 proxyUser 否 String 批处理作业所属代理用户（资源租户）。 kind 否 String 批处理作业类型，只支持spark类型参数。 queue 否 String 批处理作业所在队列。 image 否 String 自定义镜像。格式为：组织名/镜像名:镜像版本。当用户设置“feature”为“custom”时，该参数生效。用户可通过与“feature”参数配合使用，指定作业运行使用自定义的Spark镜像。 req_body 否 String 请求参数详情。 update_time 否 Long 批处理作业的更新时间。是单位为“毫秒”的时间戳。

数据湖探索 DLI Spark作业相关API

云服务器内容精选

Spark作业相关API