检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
运行Spark Streaming任务参数调优的注意事项 问题 运行Spark Streaming任务时,随着executor个数的增长,数据处理性能没有明显提升,对于参数调优有哪些注意事项? 回答 在executor核数等于1的情况下,遵循以下规则对调优Spark Streaming
表1 参数说明 参数 描述 默认值 dfs.namenode.delegation.token.renew-interval 该参数为服务器端参数,设置token renew的时间间隔,单位为毫秒。 86400000 父主题: Spark Streaming
请登录FusionInsight Manager管理界面,单击“集群 > 待操作集群的名称 > 服务 > Spark2x > 配置”,单击“全部配置”,在左侧的导航列表中,单击“JobHistory2x > 界面”,配置如下参数。
访问Spark2x JobHistory中某个应用的原生页面时页面显示错误 问题 提交一个Spark应用,包含单个Job 百万个task。应用结束后,在JobHistory中访问该应用的原生页面,浏览器会等待较长时间才跳转到应用原生页面,若10分钟内无法跳转,则页面会显示Proxy
参考修改集群服务配置参数,进入Yarn“全部配置”页面。
如何清理由于建表失败残留在ZooKeeper中的table-lock节点下的表名 问题 安全模式下,由于建表失败,在ZooKeeper的table-lock节点(默认路径/hbase/table-lock)下残留有新建的表名,请问该如何清理? 回答 操作步骤如下: 在安装好客户端的环境下
MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常 问题 HBase bulkload任务有210000个map和10000个reduce,MapReduce任务运行失败,ApplicationMaster出现物理内存溢出异常。 For more
配置Spark表、列和数据库的用户权限 操作场景 使用SparkSQL操作表或者数据库时,如果用户访问别人创建的表或数据库,需要授予对应的权限。为了实现更严格权限控制,SparkSQL也支持列级别的权限控制。如果要访问别人创建的表上某些列,需要授予列权限。以下介绍使用Manager
配置WebUI上显示的Lost Executor信息的个数 配置场景 Spark WebUI中“Executor”页面支持展示Lost Executor的信息,对于JDBCServer长任务来说,Executor的动态回收是常态,Lost Executor个数太多,会撑爆“Executor
配置描述 提供两种不同的数据汇聚功能配置选项,两者在Spark JDBCServer服务端的tunning选项中进行设置,设置完后需要重启JDBCServer。
获取运行中Spark应用的Container日志 运行中Spark应用的Container日志分散在多个节点中,本章节用于说明如何快速获取Container日志。 场景说明 可以通过yarn logs命令获取运行在Yarn上的应用的日志,针对不同的场景,可以使用以下命令获取需要的日志
优化数据倾斜场景下的Spark SQL性能 配置场景 在Spark SQL多表Join的场景下,会存在关联键严重倾斜的情况,导致Hash分桶后,部分桶中的数据远高于其它分桶。最终导致部分Task过重,跑得很慢;其它Task过轻,跑得很快。一方面,数据量大Task运行慢,使得计算性能低
优化小文件场景下的Spark SQL性能 配置场景 Spark SQL的表中,经常会存在很多小文件(大小远小于HDFS块大小),每个小文件默认对应Spark中的一个Partition,也就是一个Task。在很多小文件场景下,Spark会起很多Task。当SQL逻辑中存在Shuffle
当事件队列溢出时如何配置事件队列的大小 问题 当Driver日志中出现如下的日志时,表示事件队列溢出了。当事件队列溢出时如何配置事件队列的大小? 普通应用 Dropping SparkListenerEvent because no remaining room in event
16T的文本数据转成4T Parquet数据失败 问题 使用默认配置时,16T的文本数据转成4T Parquet数据失败,报如下错误信息。 Job aborted due to stage failure: Task 2866 in stage 11.0 failed 4 times
返回实例页面,单击“概览”,在概览页面选择“更多 > 重启服务”,输入当前用户密码,单击“确定”开始重启服务。
配置过滤掉分区表中路径不存在的分区 操作场景 当读取Hive分区表时,如果指定的分区路径在HDFS上不存在,执行select查询时会报FileNotFoundException异常。为了避免这种情况,可以通过配置“spark.sql.hive.verifyPartitionPath
使用Ranger时适配第三方JDK 操作场景 当使用Ranger作为spark sql的权限管理服务时,访问RangerAdmin需要使用集群中的证书。
保存完成后请重新启动配置过期的服务或实例以使配置生效。 父主题: Yarn常见问题
配置Flume角色的服务端参数,并将配置文件上传到集群。 使用FusionInsight Manager界面中的Flume配置工具来配置服务端参数并生成配置文件。 登录FusionInsight Manager,选择“集群 > 服务 > Flume > 配置工具”。