云服务器内容精选

华为云首页用户手册

Hive性能调优

MAPREDUCE服务 MRS-Hive Group By语句优化:注意事项

注意事项 Group By数据倾斜 Group By也同样存在数据倾斜的问题，设置hive.groupby.skewindata为true，生成的查询计划会有两个MapReduce Job，第一个Job的Map输出结果会随机的分布到Reduce中，每个Reduce做聚合操作，并输出结果，这样的处理会使相同的Group By Key可能被分发到不同的Reduce中，从而达到负载均衡，第二个Job再根据预处理的结果按照Group By Key分发到Reduce中完成最终的聚合操作。 Count Distinct聚合问题当使用聚合函数count distinct完成去重计数时，处理值为空的情况会使Reduce产生很严重的数据倾斜，可以将空值单独处理，如果是计算count distinct，可以通过where字句将该值排除掉，并在最后的count distinct结果中加1。如果还有其他计算，可以先将值为空的记录单独处理，再和其他计算结果合并。

MAPREDUCE服务 MRS Hive性能调优
MAPREDUCE服务 MRS-Hive ORC数据存储优化:操作步骤

操作步骤推荐：使用“SNAPPY”压缩，适用于压缩比和读取效率要求均衡场景。 Create table xx (col_name data_type) stored as orc tblproperties ("orc.compress"="SNAPPY"); 可用：使用“ZLIB”压缩，适用于压缩比要求较高场景。 Create table xx (col_name data_type) stored as orc tblproperties ("orc.compress"="ZLIB"); xx为具体使用的Hive表名。

MAPREDUCE服务 MRS Hive性能调优
MAPREDUCE服务 MRS-Hive Join数据优化:注意事项

注意事项 Join数据倾斜问题执行任务的时候，任务进度长时间维持在99%，这种现象叫数据倾斜。数据倾斜是经常存在的，因为有少量的Reduce任务分配到的数据量和其他Reduce差异过大，导致大部分Reduce都已完成任务，但少量Reduce任务还没完成的情况。解决数据倾斜的问题，可通过设置“set hive.optimize.skewjoin=true”并调整hive.skewjoin.key的大小。hive.skewjoin.key是指Reduce端接收到多少个key即认为数据是倾斜的，并自动分发到多个Reduce。

MAPREDUCE服务 MRS Hive性能调优
MAPREDUCE服务 MRS-Hive Join数据优化:Sort Merge Bucket Map Join

Sort Merge Bucket Map Join 使用Sort Merge Bucket Map Join必须满足以下2个条件： join的两张表都很大，内存中无法存放。两张表都按照join key进行分桶（clustered by (column)）和排序（sorted by(column)），且两张表的分桶数正好是倍数关系。通过如下设置，启用Sort Merge Bucket Map Join： set hive.optimize.bucketmapjoin=true; set hive.optimize.bucketmapjoin.sortedmerge=true; 这种Map Join也没有Reduce任务，是在Map任务前启动MapReduce Local Task，将小表内容按桶读取到本地，在本机保存多个桶的HashTable备份并写入HDFS，并保存在Distributed Cache中，在Map Task中从本地磁盘或者Distributed Cache中按桶一个一个读取小表内容，然后与大表做匹配直接得到结果并输出。

MAPREDUCE服务 MRS Hive性能调优
MAPREDUCE服务 MRS-Hive Join数据优化:Map Join

Map Join Hive的Map Join适用于能够在内存中存放下的小表（指表大小小于25MB），通过“hive.mapjoin.smalltable.filesize”定义小表的大小，默认为25MB。 Map Join的方法有两种：使用/*+ MAPJOIN(join_table) */。执行语句前设置如下参数，当前版本中该值默认为true。 set hive.auto.convert.join=true; 使用Map Join时没有Reduce任务，而是在Map任务前起了一个MapReduce Local Task，这个Task通过TableScan读取小表内容到本机，在本机以HashTable的形式保存并写入硬盘上传到DFS，并在distributed cache中保存，在Map Task中从本地磁盘或者distributed cache中读取小表内容直接与大表join得到结果并输出。使用Map Join时需要注意小表不能过大，如果小表将内存基本用尽，会使整个系统性能下降甚至出现内存溢出的异常。

MAPREDUCE服务 MRS Hive性能调优