MAPREDUCE服务 MRS-使用Hive CBO优化查询:操作场景

时间:2024-04-22 14:51:52

操作场景

在Hive中执行多表Join时,Hive支持开启CBO(Cost Based Optimization),系统会自动根据表的统计信息,例如数据量、文件数等,选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO正确的优化。

  • CBO优化器会基于统计信息和查询条件,尽可能地使join顺序达到更优。但是也可能存在特殊情况导致join顺序调整不准确。例如数据存在倾斜,以及查询条件值在表中不存在等场景,可能调整出非优化的join顺序。
  • 开启列统计信息自动收集时,需要在reduce侧做聚合统计。对于没有reduce阶段的insert任务,将会多出reduce阶段,用于收集统计信息。
support.huaweicloud.com/cmpntguide-lts-mrs/mrs_01_0983.html