数据湖探索 DLI-使用Spark作业访问DLI元数据:开发流程

时间:2024-05-20 09:43:43

开发流程

DLI进行Spark作业访问DLI元数据开发流程参考如下:
图1 Spark作业访问DLI元数据开发流程
表2 开发流程说明

序号

阶段

操作界面

说明

1

创建DLI通用队列

DLI控制台

创建作业运行的DLI队列。

2

OBS桶文件配置

OBS控制台

  • 如果是创建OBS表,则需要上传文件数据到OBS桶下。
  • 配置Spark创建表的元数据信息的存储路径。该文件夹路径用来存储Spark创建表的元数据信息“spark.sql.warehouse.dir”。

3

新建Maven工程,配置pom文件

IntelliJ IDEA

参考样例代码说明,编写程序代码创建DLI表或OBS表。

4

编写程序代码

5

调试,编译代码并导出Jar包

6

上传Jar包到OBS和DLI

OBS控制台

将生成的Spark Jar包文件上传到OBS目录下和DLI程序包中。

7

创建Spark Jar作业

DLI控制台

在DLI控制台创建Spark Jar作业并提交运行作业。

8

查看作业运行结果

DLI控制台

查看作业运行状态和作业运行日志。

support.huaweicloud.com/devg-dli/dli_09_0176.html