数据湖探索 DLI-创建并提交Spark Jar作业:步骤1:上传数据至OBS
步骤1:上传数据至OBS
参考Spark作业样例代码开发Spark Jar作业程序,编译并打包为“spark-examples.jar”。参考以下操作步骤上传该作业程序。
提交Spark作业之前,需要在OBS中上传数据文件。
- 登录管理控制台
- 在服务列表中,单击“存储”中的“对象存储服务OBS”,进入OBS管理控制台页面。
- 创建桶,这里以桶名“dli-test-obs01”为例。
- 单击“创建桶”。
- 进入“创建桶”页面,选择“区域”,输入“桶名称”。其他参数保持默认值或根据需要选择。
创建OBS桶时,需要选择与DLI管理控制台相同的区域,不可跨区域执行操作。
- 单击“立即创建”。
- 单击所建桶“dli-test-obs01”,进入“对象”页面。
- 选择左侧列表中的“对象”,选择“上传对象”,将需要上传的文件,例如“spark-examples.jar”上传到指定目录,单击“确定”。
例如,文件上传成功后,待分析的文件路径为“obs://dli-test-obs01/spark-examples.jar”。
- 关于OBS管理控制台更多操作请参考《对象存储服务控制台指南》。
- OBS上传文件指导,请参见《OBS工具指南》。
- 针对大文件场景,由于OBS管理控制台对文件大小和数量限制较多,所以推荐使用OBS工具上传大文件,如OBS Browser+或obsutil工具上传。
- OBS Browser+是一个比较常用的图形化工具,,支持完善的桶管理和对象管理操作。推荐使用此工具创建桶或上传对象。
- obsutil是一款用于访问管理OBS的命令行工具,对于熟悉命令行程序的用户,obsutil是执行批量处理、自动化任务的好的选择。
您可以通过以下多种方式将文件上传至桶,OBS最终将这些文件以对象的形式存储在桶中。表1 OBS上传对象的不同访问方式 访问方式
上传对象方法
控制台
OBS Browser+
obsutil
SDK
使用SDK上传对象 ,具体参考各语言开发指南的上传对象章节
API
- 什么是Spark SQL作业_数据湖探索DLISpark SQL作业
- 什么是数据湖探索服务_数据湖探索DLI用途与特点
- 什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource SQL
- 数据治理中心_数据开发_数据开发示例_使用教程-华为云
- 华为云内容审核服务_内容审核有什么作用_华为云内容审核的优势
- 什么是跨源连接-数据湖探索DLI跨源连接
- ModelArts模型训练_创建训练作业_如何创建训练作业
- MapReduce服务_什么是Flink_如何使用Flink
- 数据治理中心_数据开发_数据开发能力_脚本和节点介绍-华为云
- MapReduce服务_什么是Loader_如何使用Loader