Search_HUAWEI CLOUD

创建HBase索引进行数据查询 - MapReduce服务 MRS

创建HBase索引进行数据查询操作场景 HBase是一个Key-Value类型的分布式存储数据库，HIndex为HBase提供了按照某些列的值进行索引的能力，缩小搜索范围并缩短时延。使用约束列族应以“;”分隔。列和数据类型应包含在“[]”中。列数据类型在列名称后使用“->

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用HBase > HBase数据操作
Doris数据查询规范 - MapReduce服务 MRS

Doris数据查询规范该章节主要介绍Doris数据查询时需遵循的规则和建议。 Doris数据查询规则在数据查询业务代码中建议查询失败时进行重试，再次下发查询。 in中常量枚举值超过1000后，必须修改为子查询。禁止使用REST API（Statement Execution

帮助中心 > MapReduce服务 MRS > 组件开发规范 > Doris应用开发规范
使用Hive CBO功能优化查询效率 - MapReduce服务 MRS

使用Hive CBO功能优化查询效率操作场景在Hive中执行多表Join时，Hive支持开启CBO（Cost Based Optimization），系统会自动根据表的统计信息，例如数据量、文件数等，选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使CBO

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hive > Hive性能调优
使用Hive CBO功能优化多表查询效率 - MapReduce服务 MRS

使用Hive CBO功能优化多表查询效率操作场景在Hive中执行多表Join时，Hive支持开启CBO（Cost Based Optimization），系统会自动根据表的统计信息，例如数据量、文件数等，选出合适计划提高多表Join的效率。Hive需要先收集表的统计信息后才能使

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Hive > Hive性能调优
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例 rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如 rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 开发指南（普通版_2.x及之前） > Spark开发指南 > Spark应用开发常见问题 > Spark应用调优 > Spark Core调优
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例： rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如 rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Spark2x（MRS 3.x及之后版本） > Spark Core性能调优
index相关配置 - MapReduce服务 MRS
index相关配置 - MapReduce服务 MRS

index相关配置参数描述默认值 hoodie.index.class 用户自定义索引的全路径名，索引类必须为HoodieIndex的子类，当指定该配置时，其会优先于hoodie.index.type配置。 "" hoodie.index.type 使用的索引类型，默认为布隆过滤器

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Hudi > Hudi常见配置参数
经验总结 - MapReduce服务 MRS
经验总结 - MapReduce服务 MRS

经验总结使用mapPartitions，按每个分区计算结果如果每条记录的开销太大，例： rdd.map{x=>conn=getDBConn;conn.write(x.toString);conn.close} 则可以使用MapPartitions，按每个分区计算结果，如： rdd.mapPartitions

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark Core性能调优
增加Hive表字段超时 - MapReduce服务 MRS

增加Hive表字段超时用户问题增加Hive表字段报错。问题现象 Hive对包含10000+分区的表执行ALTER TABLE table_name ADD COLUMNS(column_name string) CASCADE;，报错如下： Timeout when executing

帮助中心 > MapReduce服务 MRS > 故障排除 > 使用Hive
优化数据倾斜场景下的Spark SQL性能 - MapReduce服务 MRS

优化数据倾斜场景下的Spark SQL性能操作场景在Spark SQL多表Join的场景下，会存在关联键严重倾斜的情况，导致Hash分桶后，部分桶中的数据远高于其他分桶。最终导致部分Task过重，运行很慢；其他Task过轻，运行很快。一方面，数据量大Task运行慢，使得计算性能低

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL性能调优
Doris建表规范 - MapReduce服务 MRS
Doris建表规范 - MapReduce服务 MRS

Doris建表规范该章节主要介绍创建Doris表时需遵循的规则和建议。 Doris建表规则在创建Doris表指定分桶buckets时，每个桶的数据大小应保持在100MB~3GB之间，单分区中最大分桶数量不超过5000。表数据超过5亿条以上必须设置分区分桶策略。表的分桶列不要设置太多

 帮助中心 > MapReduce服务 MRS > 组件开发规范 > Doris应用开发规范
配置Container日志聚合功能 - MapReduce服务 MRS

配置Container日志聚合功能配置场景 Yarn提供了Container日志聚合功能，可以将各节点Container产生的日志收集到HDFS，释放本地磁盘空间。日志收集的方式有两种：应用完成后将Container日志一次性收集到HDFS。应用运行过程中周期性收集Container

帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用Yarn
HBase应用开发建议 - MapReduce服务 MRS

HBase应用开发建议不要调用Admin的closeRegion方法关闭一个Region Admin中，提供了关闭一个Region的接口： public void closeRegion(final String regionname, final String serverName

帮助中心 > MapReduce服务 MRS > 组件开发规范 > HBase应用开发规范
Impala - MapReduce服务 MRS
Impala - MapReduce服务 MRS

Impala Impala Impala直接对存储在HDFS、HBase或对象存储服务（OBS）中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外，Impala还使用于Apache Hive相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面

 帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍
配置Container日志聚合功能 - MapReduce服务 MRS

配置Container日志聚合功能操作场景 YARN提供了Container日志聚合功能，可以将各节点Container产生的日志收集到HDFS，释放本地磁盘空间。日志收集的方式有两种：应用完成后将Container日志一次性收集到HDFS。应用运行过程中周期性收集Container

帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Yarn
ClickHouse数据查询 - MapReduce服务 MRS

ClickHouse数据查询数据查询规则禁止select *查询只查询需要的字段可以减少磁盘io和网络io，提升查询性能。使用uniqCombined替代distinct uniqCombined对去重逻辑进行了优化，通过近似去重提升十倍查询性能，如果对查询允许有误差，可以使用

 帮助中心 > MapReduce服务 MRS > 组件开发规范 > ClickHouse应用开发规范 > ClickHouse数据库开发
HDFS文件系统目录简介 - MapReduce服务 MRS

HDFS文件系统目录简介 HDFS是Hadoop的分布式文件系统（Hadoop Distributed File System），实现大规模数据可靠的分布式读写。HDFS针对的使用场景是数据读写具有“一次写，多次读”的特征，而数据“写”操作是顺序写，也就是在文件创建时的写入或者在现有文件之后的添加操作

 帮助中心 > MapReduce服务 MRS > 组件操作指南（普通版） > 使用HDFS
配置矢量化读取ORC数据 - MapReduce服务 MRS

配置矢量化读取ORC数据操作场景 ORC文件格式是一种Hadoop生态中的列式存储格式，它最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet文件格式类似，ORC并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内按列进行存储

 帮助中心 > MapReduce服务 MRS > 组件操作指南（LTS版） > 使用Spark/Spark2x > Spark SQL企业级能力增强
MRS集群运维说明 - MapReduce服务 MRS

MRS集群运维说明账户维护建议建议系统管理员对账户例行检查，检查的内容包括：操作系统、Manager以及各组件的账户是否有必要，临时账户是否已删除。各类账户的权限是否合理。不同的管理员拥有不同的权限。对各类账户的登录、操作记录进行检查和审计。密码维护建议用户身份验证是应用系统的门户

 帮助中心 > MapReduce服务 MRS > 用户指南 > MRS集群运维
ClickHouse基本原理 - MapReduce服务 MRS

ClickHouse基本原理 ClickHouse简介 ClickHouse是一款开源的面向联机分析处理的列式数据库，其独立于Hadoop大数据体系，最核心的特点是压缩率和极速查询性能。同时，ClickHouse支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异

 帮助中心 > MapReduce服务 MRS > 产品介绍 > 组件介绍 > ClickHouse

总条数： 124

点击加载更多

您搜索到想要的结果了吗？

是的没搜到

意见反馈

/200

提交反馈取消