云服务器内容精选

华为云首页用户手册

数据管理维护

MAPREDUCE服务 MRS-Clustering:Clustering架构

Clustering架构 Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和入湖速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为“0”，以强制新数据写入新的文件组，或设置为更高的值以确保新数据被“填充”到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。为能够支持快速摄取的同时不影响查询性能，引入了Clustering服务来重写数据以优化Hudi数据湖文件的布局。 Clustering服务可以异步或同步运行，Clustering会添加了一种新的REPLACE操作类型，该操作类型将在Hudi元数据时间轴中标记Clustering操作。 Clustering服务基于Hudi的MVCC设计，允许继续插入新数据，而Clustering操作在后台运行以重新格式化数据布局，从而确保并发读写者之间的快照隔离。总体而言Clustering分为两个部分：调度Clustering：使用可插拔的Clustering策略创建Clustering计划。识别符合Clustering条件的文件：根据所选的Clustering策略，调度逻辑将识别符合Clustering条件的文件。根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小，以改善并行性并避免混排大量数据。将Clustering计划以avro元数据格式保存到时间线。执行Clustering：使用执行策略处理计划以创建新文件并替换旧文件。读取Clustering计划，并获得ClusteringGroups，其标记了需要进行Clustering的文件组。对于每个组使用strategyParams实例化适当的策略类（例如：sortColumns），然后应用该策略重写数据。创建一个REPLACE提交，并更新HoodieReplaceCommitMetadata中的元数据。

MAPREDUCE服务 MRS 数据管理维护
MapReduce服务 MRS-Cleaning

Cleaning Cleaning用于清理不再需要的版本数据。 Hudi使用Cleaner后台作业，不断清除不需要的旧得版本的数据。通过配置hoodie.cleaner.policy和hoodie.cleaner.commits.retained可以使用不同的清理策略和保存的commit数量。执行cleaning有两种方式：同步clean由参数hoodie.clean.automatic控制，默认自动开启。关闭同步clean： datasource写入时可以通过.option("hoodie.clean.automatic", "false")来关闭自动clean。 spark-sql写入时可以通过set hoodie.clean.automatic=false;来关闭自动clean。异步clean可以使用spark-sql来执行，详情可以参考章节CLEAN。更多clean相关参数请参考compaction&cleaning配置章节。父主题：数据管理维护

MapReduce服务 MRS 数据管理维护