-
最新动态 - MapReduce服务 MRS
最新动态 本文介绍了MapReduce服务MRS各特性版本的功能发布和对应的文档动态,新特性将在各个区域(Region)陆续发布,欢迎体验。 2021年07月 序号 功能名称 功能描述 阶段 相关文档 1 MRS支持Hudi组件 Hudi是数据湖的文件组织层,对Parquet格式
-
动态资源 - MapReduce服务 MRS
Yarn任务队列是计算资源分配的基本单位。 对于租户,通过Yarn任务队列申请到的资源是动态资源。用户可以动态创建并修改任务队列的配额,可以查看任务队列的使用状态和使用统计。 资源池 现代企业IT经常会面对纷繁复杂的集群环境和上层需求。例如以下业务场景: 集群异构,集群中各个节点的计算速度、存储容量
-
调整HetuEngine动态过滤 - MapReduce服务 MRS
调整HetuEngine动态过滤 操作场景 HetuEngine提供了动态过滤的功能,在Join场景中开启动态过滤往往有较大的性能提升。 本章节介绍如何开启动态过滤功能。 操作步骤 使用可访问HetuEngine WebUI界面的用户登录FusionInsight Manager,选择“集群
-
动态设置日志级别 - MapReduce服务 MRS
动态设置日志级别 配置场景 在某些场景下,当任务已经启动后,用户想要修改日志级别以定位问题或者查看想要的信息。 用户可以在进程启动前,在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后,就可以通
-
MetaStore动态分区数超出阈值导致SQL报错 - MapReduce服务 MRS
2001 原因分析 Hive中会默认限制最大动态分区数,由“hive.exec.max.dynamic.partitions”参数控制(默认值为1000)。 如果超过此限制,Hive将不会创建新的动态分区。 处理步骤 调整上层业务,将动态分区数控制在“hive.exec.max.dynamic
-
使用Broker Load导入数据报错 - MapReduce服务 MRS
使用Broker Load导入数据报错 现象描述 使用Broker Load导入数据时报错“failed to send batch”或“TabletWriter add batch with unknown id”。 原因分析 系统并发量较大或数据量大导致任务执行超时。 处理步骤 登录My
-
Yarn模式下动态资源调度 - MapReduce服务 MRS
如果通过spark.executor.instances或者--num-executors指定了Executor的个数,即使配置了动态资源调度功能,动态资源调度功能也不会生效。 当前动态资源分配功能开启后,不能完全避免task被分配到即将要移除的executor,但是一般情况下只会导致该task失
-
配置Hive表分区动态覆盖 - MapReduce服务 MRS
配置Hive表分区动态覆盖 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致。
-
支持Hive动态分区覆盖语义 - MapReduce服务 MRS
支持Hive动态分区覆盖语义 配置场景 在旧版本中,使用insert overwrite语法覆写分区表时,只支持对指定的分区表达式进行匹配,未指定表达式的分区将被全部删除。在spark2.3版本中,增加了对未指定表达式的分区动态匹配的支持,此种语法与Hive的动态分区匹配语法行为一致。
-
Yarn模式下动态资源调度 - MapReduce服务 MRS
不合理的调度。 动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service。 登录FusionInsight Manager,选择“集群
-
Impala启用并配置动态资源池 - MapReduce服务 MRS
Impala启用并配置动态资源池 本文介绍如何使用动态资源池控制impala并发。 问题背景 客户需要使用动态资源池控制impala并发。 登录到集群的master1节点上,然后切换到omm用户下,在/home/omm目录下创建fair-scheduler.xml、llama-site
-
动态分区插入场景内存优化 - MapReduce服务 MRS
动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证明:102
-
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records - MapReduce服务 MRS
10:58:00 batch任务时,会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(Kafka重启前Kafka上未读取完的数据,属于2017/05/11 10:57:00之前的batch),如图2所示。 图2
-
Hive支持创建单表动态视图授权访问控制 - MapReduce服务 MRS
Hive支持创建单表动态视图授权访问控制 操作场景 MRS中安全模式下Hive可以创建一个视图并控制用户访问权限,支持授权给不同的用户访问,又可以限定不同用户只能访问的不同数据。 在视图中,Hive可以通过获取当前客户端提交任务的用户的内置函数“current_user()”来进
-
Spark动态分区插入场景内存优化 - MapReduce服务 MRS
Spark动态分区插入场景内存优化 操作场景 SparkSQL在往动态分区表中插入数据时,分区数越多,单个Task生成的HDFS文件越多,则元数据占用的内存也越多。这就导致程序GC(Gabage Collection)严重,甚至发生OOM(Out of Memory)。 经测试证
-
Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records - MapReduce服务 MRS
10:58:00 batch任务时,会按照batch时间把2017/05/11 10:57:00~2017/05/11 10:58:00缺失的RDD补上(Kafka重启前Kafka上未读取完的数据,属于2017/05/11 10:57:00之前的batch),如图2所示。 图2
-
配置Yarn模式下Spark动态资源调度 - MapReduce服务 MRS
的资源浪费和资源不合理的调度。 动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service。 登录FusionInsight
-
MRS租户管理中的动态资源计划页面无法刷新怎么办? - MapReduce服务 MRS
MRS租户管理中的动态资源计划页面无法刷新怎么办? 问: MRS租户管理中的动态资源计划页面无法刷新怎么办? 答: 以root用户分别登录Master1和Master2节点。 执行ps -ef |grep aos命令检查aos进程号。 执行kill -9 aos进程号 结束aos进程。
-
典型场景:从本地采集动态日志保存到HDFS - MapReduce服务 MRS
典型场景:从本地采集动态日志保存到HDFS 操作场景 该任务指导用户使用Flume服务端从本地采集动态日志保存到HDFS上“/flume/test”目录下。 本章节适用于MRS 3.x及之后版本。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式
-
提交Bundle批处理作业 - MapReduce服务 MRS
提交Bundle批处理作业 操作场景 当同时存在多个定时任务的情况下,用户可以通过Bundle任务进行批量管理作业。该任务指导用户通过Hue界面提交批量类型的作业。 前提条件 提交Bundle批处理之前需要提前配置好相关的Workflow和Coordinator作业。 操作步骤 访问Hue