配置Hive数据源-华为云

MAPREDUCE服务 MRS-配置独立部署Hive数据源:操作场景

操作场景本章节指导用户在HSConsole界面添加Hive类型数据源。 HetuEngine目前支持对接传统数据格式数据源类型包括：avro、text、rctext、orc、parquet、sequencefile。 HetuEngine对接Hive数据源，不支持指定多分隔符建表，但对于在Hive数据源中指定MultiDelimitSerDe类作为序列化类来创建text数据格式的多分隔符表，可以通过HetuEngine查询，其他场景不支持。 HetuEngine对接的Hive数据源支持Hudi表重定向功能。适用于MRS 3.3.0及以后版本。该功能支持在Hive connector访问Hudi表时重定向到Hudi connector，从而使用Hudi connector高级功能。使用该功能需提前配置目标Hudi数据源，并确保Hudi数据源与当前Hive数据源的Metastore URL一致，并在Hive数据源中配置“开启Hudi重定向”参数即可。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置独立部署Hive数据源:数据类型映射

数据类型映射目前Hive数据源支持的数据类型为：BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、REAL、DOUBLE、DECIMAL、NUMERIC、DEC、VARCHAR、VARCHAR（X）、CHAR、CHAR（X）、STRING、DATE、TIMESTAMP、TIME WITH TIMEZONE、TIMESTAMP WITH TIME ZONE、TIME、ARRAY、MAP、UNIOMTYPE、STRUCT、ROW。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置独立部署Hive数据源:性能优化

性能优化元数据缓存 Hive连接器支持元数据缓存，以便更快地提供对各种操作的元数据请求。可参考调整元数据缓存。动态过滤开启动态过滤有助于Hive连接器的Join算子的计算优化。可参考调整动态过滤。带分区条件查询建立分区表并且查询带分区过滤条件有助于过滤部分分区数据，从而提高性能。 Insert优化通过设置“task.writer-count”的值为“1”和增大“hive.max-partitions-per-writers”的值有助于提升Insert性能。可参考调整INSERT写入优化。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置独立部署Hive数据源:前提条件

前提条件数据源所在集群域名与HetuEngine集群域名不能相同。数据源所在集群与HetuEngine集群节点网络互通。在HetuEngine所在集群的所有节点的“/etc/hosts”文件中，添加待对接数据源所在集群的主机名称和对应的IP映射，及其“/etc/hosts”文件中的“10.10.10.10 hadoop.系统域名”（如“10.10.10.10 hadoop.hadoop.com”），否则HetuEngine无法根据主机名称连接到非本集群节点。已创建HetuEngine计算实例。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置共部署Hive数据源:操作场景

操作场景本章节指导用户在HSConsole界面配置与HetuEngine在一个Hadoop集群的Hive类型数据源。 HetuEngine目前支持对接的数据格式包括：avro、text、rctext、orc、parquet、sequencefile。 HetuEngine对接Hive数据源，不支持指定多分隔符建表，但对于在Hive数据源中指定MultiDelimitSerDe类作为序列化类来创建text数据格式的多分隔符表，可以通过HetuEngine查询，其他场景不支持。 HetuEngine对接的Hive数据源支持Hudi表重定向功能。适用于MRS 3.3.0及以后版本。该功能支持在Hive connector访问Hudi表时重定向到Hudi connector，从而使用Hudi connector高级功能。使用该功能需提前配置目标Hudi数据源，并确保Hudi数据源与当前Hive数据源的Metastore URL一致，并在Hive数据源中配置“开启Hudi重定向”参数即可。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置共部署Hive数据源:前提条件

前提条件已创建HetuEngine计算实例。 HetuEngine服务在安装时已经将共部署的Hive数据源默认实现对接，数据源名称为“hive”，不可删除，部分默认配置不可修改，不可修改的配置发生更新时，重启HetuEngine服务可以自动同步。如果需要使用Hive Metastore隔离功能，需要在Hive侧配置“HIVE_METASTORE_URI_HETU”，配置完成后需在HetuEngine服务重启Hsbroke实例，刷新Hive Metastore URI信息。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置共部署Hive数据源:性能优化

性能优化元数据缓存 Hive连接器支持元数据缓存，以便更快地提供对各种操作的元数据请求。可参考调整元数据缓存。 CBO（Cost based Optimizer）优化定期通过Analyze命令收集表统计信息有助于Hive连接器CBO优化。动态过滤开启动态过滤有助于Hive连接器的Join算子的计算优化。可参考调整动态过滤。带分区条件查询建立分区表并且查询带分区过滤条件有助于过滤部分分区数据，从而提高性能。 Insert优化通过设置“task.writer-count”的值为“1”和增大“hive.max-partitions-per-writers”的值有助于提升Insert性能。可参考调整INSERT写入优化。

MAPREDUCE服务 MRS 配置Hive数据源

MAPREDUCE服务 MRS-配置共部署Hive数据源:数据类型映射

数据类型映射目前Hive数据源支持的数据类型为：BOOLEAN、TINYINT、SMALLINT、INT、BIGINT、REAL、DOUBLE、DECIMAL、NUMERIC、DEC、VARCHAR、VARCHAR（X）、CHAR、CHAR（X）、STRING、DATE、TIMESTAMP、TIME WITH TIMEZONE、TIMESTAMP WITH TIME ZONE、TIME、ARRAY、MAP、UNIOMTYPE、STRUCT、ROW。

MAPREDUCE服务 MRS 配置Hive数据源

云服务器内容精选

配置Hive数据源

7*24

备案

专业服务

退订

建议反馈

售前咨询热线