使用Spark-华为云

MAPREDUCE服务 MRS-Spark2x日志介绍:日志描述

日志描述日志存储路径： Executor运行日志：“${BIGDATA_DATA_HOME}/hadoop/data${i}/nm/containerlogs/application_${appid}/container_{$contid}” 运行中的任务日志存储在以上路径中，运行结束后会基于Yarn的配置确定是否汇聚到HDFS目录中，详情请参见Yarn常用参数。其他日志：“/var/log/Bigdata/spark2x” 日志归档规则：使用yarn-client或yarn-cluster模式提交任务时，Executor日志默认50MB滚动存储一次，最多保留10个文件，不压缩。 JobHistory2x日志默认100MB滚动存储一次，最多保留100个文件，压缩存储。 JDBCServer2x日志默认100MB滚动存储一次，最多保留100个文件，压缩存储。 IndexServer2x日志默认100MB滚动存储一次，最多保留100个文件，压缩存储。 JDBCServer2x审计日志默认20MB滚动存储一次，最多保留20个文件，压缩存储。日志大小和压缩文件保留个数可以在FusionInsight Manager界面中配置。表1 Spark2x日志列表日志类型日志文件名描述 SparkResource2x日志 spark.log Spark2x服务初始化日志。 prestart.log prestart脚本日志。 cleanup.log 安装卸载实例时的清理日志。 spark-availability-check.log Spark2x服务健康检查日志。 spark-service-check.log Spark2x服务检查日志 JDBCServer2x日志 JDBCServer-start.log JDBCServer2x启动日志。 JDBCServer-stop.log JDBCServer2x停止日志。 JDBCServer.log JDBCServer2x运行时，Driver端日志。 jdbc-state-check.log JDBCServer2x健康检查日志。 jdbcserver-omm-pid***-gc.log.*.current JDBCServer2x进程gc日志。 spark-omm-org.apache.spark.sql.hive.thriftserver.HiveThriftProxyServer2-***.out* JDBCServer2x进程启动信息日志。如果进程停止，会打印jstack信息。 JobHistory2x日志 jobHistory-start.log JobHistory2x启动日志。 jobHistory-stop.log JobHistory2x停止日志。 JobHistory.log JobHistory2x运行过程日志。 jobhistory-omm-pid***-gc.log.*.current JobHistory2x进程gc日志。 spark-omm-org.apache.spark.deploy.history.HistoryServer-***.out* JobHistory2x进程启动信息日志。如果进程停止，会打印jstack信息。 IndexServer2x日志 IndexServer-start.log IndexServer2x启动日志。 IndexServer-stop.log IndexServer2x停止日志。 IndexServer.log IndexServer2x运行时，Driver端日志。 indexserver-state-check.log IndexServer2x健康检查日志。 indexserver-omm-pid***-gc.log.*.current IndexServer2x进程gc日志。 spark-omm-org.apache.spark.sql.hive.thriftserver.IndexServerProxy-***.out* IndexServer2x进程启动信息日志。如果进程停止，会打印jstack信息。审计日志 jdbcserver-audit.log ranger-audit.log JDBCServer2x审计日志。

MAPREDUCE服务 MRS 使用Spark/Spark2x

MAPREDUCE服务 MRS-小文件合并工具:工具介绍

工具介绍在Hadoop大规模生产集群中，由于HDFS的元数据都保存在NameNode的内存中，集群规模受制于NameNode单点的内存限制。如果HDFS中有大量的小文件，会消耗NameNode大量内存，还会大幅降低读写性能，延长作业运行时间。因此，小文件问题是制约Hadoop集群规模扩展的关键问题。本工具主要有如下两个功能：扫描表中有多少低于用户设定阈值的小文件，返回该表目录中所有数据文件的平均大小。对表文件提供合并功能，用户可设置合并后的平均文件大小。

MAPREDUCE服务 MRS 使用Spark/Spark2x

MAPREDUCE服务 MRS-JDK版本不匹配导致启动spark-sql和spark-shell失败:原因分析

原因分析在Driver端打印异常如下： Exception Occurs: BadPadding 16/02/22 14:25:38 ERROR Schema: Failed initialising database. Unable to open a test connection to the given database. JDBC url = jdbc:postgresql://ip:port/sparkhivemeta, username = spark. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). SparkSQL任务使用时，需要访问DBService以获取元数据信息，在客户端需要解密密文来访问，在使用过程中，用户没有按照流程操作，没有执行配置环境变量操作，且在其客户端环境变量中存在默认的JDK版本，导致在执行解密过程中调用的解密程序执行解密异常，导致用户被锁。

MAPREDUCE服务 MRS 使用Spark

MAPREDUCE服务 MRS-提交Spark任务时Driver端提示运行内存超限:原因分析

原因分析在Driver日志中直接打印申请的executor memory超过集群限制。 ... INFO Client: Verifying our application has not requested more than the maximum memory capability of the cluster (6144 MB per container) ... ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: Required executor memory (10240+1024 MB) is above the max threshold (6144 MB) of this cluster! Spark任务提交至Yarn上面，运行task的executor使用的资源受yarn的管理。从报错信息可看出，用户申请启动executor时，指定10G的内存，超出了Yarn设置的每个container的最大内存的限制，导致任务无法启动。

MAPREDUCE服务 MRS 使用Spark

MapReduce服务 MRS-Spark任务由于内存不够或提交作业时未添加Jar包，作业卡住:问题现象

问题现象使用Spark提交作业后，长期卡住不动。反复运行作业后报错，内容如下： Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Aborting TaskSet 3.0 because task 0 (partition 0) cannot run anywhere due to node and executor blacklist. Blacklisting behavior can be configured via spark.blacklist.*.

MapReduce服务 MRS 使用Spark

数据湖探索 DLI-概述

概述 DLI支持原生Spark的DataSource能力，并在其基础上进行了扩展，能够通过SQL语句或者Spark作业访问其他数据存储服务并导入、查询、分析处理其中的数据，目前支持的DLI跨源访问服务有：表格存储服务CloudTable，云搜索服务CSS，分布式缓存服务DCS，文档数据库服务DDS，数据仓库服务GaussDB（DWS），MapReduce服务MRS，云数据库RDS等。使用DLI的跨源能力，需要先创建跨源连接。管理控制台界面具体操作请参考《数据湖探索用户指南》。使用Spark作业跨源访问数据源支持使用scala，pyspark和java三种语言进行开发。表格存储服务CloudTable相关介绍请参考《表格存储服务产品介绍》。云搜索服务CSS相关介绍请参考《云搜索服务产品介绍》。分布式缓存服务DCS相关介绍请参考《分布式缓存服务产品介绍》。文档数据库服务DDS相关介绍请参考《文档数据库服务产品介绍》。数据仓库服务GaussDB（DWS）相关介绍请参考《数据仓库服务产品介绍》。 MapReduce服务MRS相关介绍请参考《MapReduce服务产品介绍》。云数据库RDS相关介绍请参考《云数据库服务产品介绍》。父主题：使用Spark作业跨源访问数据源

数据湖探索 DLI 使用Spark作业跨源访问数据源

MapReduce服务 MRS-场景说明

场景说明登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 使用spark操作Hudi执行插入数据、查询数据、更新数据、增量查询、特定时间点查询、删除数据等操作。用spark-submit提交命令：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。父主题：使用Spark执行Hudi基本操作

MapReduce服务 MRS 使用Spark执行Hudi基本操作

云服务器内容精选

使用Spark

7*24

备案

专业服务

退订

建议反馈

售前咨询热线