MapReduce服务

MapReduce服务（MapReduce Service）为客户提供ClickHouse、Spark、Flink、Kafka、HBase等Hadoop生态的高性能大数据引擎，支持数据湖、数据仓库、BI、AI融合等能力，完全兼容开源，快速帮助客户上云构建低成本、灵活开放、安全可靠、全栈式的云原生大数据平台，满足客户业务快速增长和敏捷创新诉求。

[快速入门]MapReduce服务
[相似文章]MapReduce服务

[快速入门]MapReduce服务

MapReduce服务入门

MapReduce服务 MRS 入门 MapReduce服务 MRS 入门提供Hadoop、HBase、Hudi、Spark、Flink等开源大数据组件，支持湖仓一体、灵活的弹性控制能力。提供Hadoop、HBase、Hudi、Spark、Flink等开源大数据组件，支持湖仓一体、灵活的弹性控制能力。

MapReduce服务定价

MapReduce服务定价与计费价格计算器 1对1咨询计费项购买MRS集群的费用包含两个部分： 1、MRS服务管理费用 2、IaaS基础设施资源费用（弹性云服务器，云硬盘，弹性IP/带宽等） MRS服务管理费用详情，请参见产品价格详情。您可以通过MRS提供的价格计算器，选

MapReduce服务学习与资源

MapReduce服务 MRS 资源 MapReduce服务 MRS 资源提供Hadoop、HBase、Hudi、Spark、Flink等开源大数据组件，支持湖仓一体、灵活的弹性控制能力。提供Hadoop、HBase、Hudi、Spark、Flink等开源大数据组件，支持湖仓一体、灵活的弹性控制能力。

对象存储服务 OBS功能-BigData Pro

存算分离资源利用率更高存算分离资源利用率更高 OBS具备海量数据存储能力，结合华为云MapReduce服务，为美图提供BigData Pro大数据解决方案 OBS具备海量数据存储能力，结合华为云MapReduce服务，为美图提供BigData Pro大数据解决方案典型业务场景-大数据离线分析

内容分发网络 CDN-概览

ng、bmp、wma、rar、jpeg、jpg等，动态内容也可设置不缓存搭配使用对象存储服务 OBS 弹性云服务器 ECS MapReduce服务大文件下载加速场景介绍适用于大文件下载加速，如App商店、游戏客户端等我们的优势支持客户端断点续传，有效节省下行流量带宽

湖仓构建

支持库、表、列级的细粒度元数据访问控制；在授予元数据权限的同时，自动完成对应文件目录的授权，让客户的授权操作更加便捷高效搭配使用 MapReduce服务对象存储服务 OBS 云原生存算分离演进云原生存算分离演进传统存算分离虽然数据集中存储，但元数据仍相互割裂，导致权限与元数据

智能数据洞察 DataArts Insight

Auto Graph引擎自动生成可视化图表，风格统一，美观搭配使用云数据库 GaussDB 云数据仓库 GaussDB(DWS) MapReduce服务 MRS 个性化分析场景个性化分析场景企业业务需求的多样化催生出对特定BI功能的需求，除了基础的数据查询和可视化分析，DataArts

数据接入服务 DIS

提供不同平台Agent，简单配置，即可实现数据采集安全可靠传输过程使用https加密，保障数据安全传输建议搭配使用对象存储服务 OBS MapReduce服务数据湖探索 DLI 数据接入备份将大量滚动日志文件传输到云端做备份，用于数据丢失或异常后的恢复和故障分析。同时大量小文本文件可合并转储为大文件，提高数据处理性能

日志分析服务

针对时序数据，通过提前将细粒度数据聚合成粗粒度数据，提升drill up与drill down的性能。建议搭配使用云搜索服务 CSS MapReduce服务对象存储服务 OBS 云数据迁移 CDM 产品优势易用性强无须编程，5分钟完成日志采集、清洗、检索、报表分析、Dashboa

[相似文章]MapReduce服务

MapReduce服务_什么是MapReduce服务_什么是HBase

使用Hive客户端创建外部表 MapReduce服务 MRS 03:44 MapReduce服务 MRS 安装及使用MRS客户端 MapReduce服务 MRS 03:22 MapReduce服务 MRS 使用HBase客户端创建表 MapReduce服务 MRS 04:20 MapReduce服务 MRS

MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用

MapReduce服务_什么是Hue_如何使用Hue

如何使用Flink 大数据分析是什么_使用MapReduce_创建MRS服务 MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用 MapReduce服务_什么是Flume_如何使用Flume 什么是EIP_EIP有什么线路类型_如何访问EIP 什么

MapReduce服务_什么是Kafka_如何使用Kafka

ce流程 MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用 MapReduce服务_什么是MapReduce服务_什么是HBase MapReduce服务_什么是HetuEngine_如何使用HetuEngine MapReduce服务_什么是HDFS_HDFS特性

MapReduce服务_什么是HetuEngine_如何使用HetuEngine

HetuEngine服务介绍华为云MapReduce服务（MRS）提供可控的企业级大数据集群云服务，可轻松运行Hadoop、Spark、HBase、HetuEngine等大数据组件，具有企业级、易运维、高安全和低成本等产品优势。华为云MapReduce服务（MRS）提供可控的企业级大

MapReduce服务_什么是HDFS_HDFS特性

MapReduce工作原理_MapReduce是什么意思_MapReduce流程 MapReduce服务_如何使用MapReduce服务_MRS集群客户端安装与使用 MapReduce服务_什么是MapReduce服务_什么是HBase 免费云服务器_个人免费云服务器_免费弹性云服务器推荐_免费ECS

MapReduce服务_什么是ZooKeeper_如何使用ZooKeeper

华为MRS镜像下载 MapReduce服务_什么是ClickHouse_如何使用ClickHouse MapReduce服务_什么是HetuEngine_如何使用HetuEngine MapReduce服务_什么是Hive_如何使用Hive MapReduce服务_什么是Loader_如何使用Loader

MapReduce服务_什么是Hive_如何使用Hive

MapReduce服务_什么是ClickHouse_如何使用ClickHouse

MapReduce服务

MapReduce开源增强特性：JobHistoryServer HA特性

JobHistoryServer（JHS）是用于查看MapReduce历史任务信息的服务器，当前开源JHS只支持单实例服务。JobHistoryServer HA能够解决JHS单点故障时，应用访问MapReduce接口无效，导致整体应用执行失败的场景，从而大大提升MapReduce服务的高可用性。

图1 JobHistoryServer HA主备倒换的状态转移过程

JobHistoryServer高可用性

采用ZooKeeper实现主备选举和倒换。
JobHistoryServer使用浮动IP对外提供服务。
兼容JHS单实例，也支持HA双实例。
同一时刻，只有一个节点启动JHS进程，防止多个JHS操作同一文件冲突。
支持扩容减容、实例迁移、升级、健康检查等。

MapReduce开源增强特性：特定场景优化MapReduce的Merge/Sort流程提升MapReduce性能

下图展示了MapReduce任务的工作流程。

图2 MapReduce 作业

图3 MapReduce作业执行流程

Reduce过程分为三个不同步骤：Copy、Sort（实际应当称为Merge）及Reduce。在Copy过程中，Reducer尝试从NodeManagers获取Maps的输出并存储在内存或硬盘中。紧接着进行Shuffle过程（包含Sort及Reduce），这个过程将获取到的Maps输出进行存储并有序地合并然后提供给Reducer。当Job有大量的Maps输出需要处理的时候，Shuffle过程将变得非常耗时。对于一些特定的任务（例如hash join或hash aggregation类型的SQL任务），Shuffle过程中的排序并非必须的。但是Shuffle却默认必须进行排序，所以需要对此处进行改进。

此特性通过对MapReduce API进行增强，能自动针对此类型任务关闭Sort过程。当Sort被关闭，获取Maps输出数据以后，直接合并后输出给Reduce，避免了由于排序而浪费大量时间。这种方式极大程度地提升了大部分SQL任务的效率。

MapReduce开源增强特性：History Server优化解决日志小文件问题

运行在Yarn上的作业在执行完成后，NodeManager会通过LogAggregationService把产生的日志收集到HDFS上，并从本地文件系统中删除。日志收集到HDFS上以后由HistoryServer来进行统一的日志管理。LogAggregationService在收集日志时会把container产生的本地日志合并成一个日志文件上传到HDFS，在一定程度上可以减少日志文件的数量。但在规模较大且任务繁忙的集群上，经过长时间的运行，HDFS依然会面临存储的日志文件过多的问题。

以一个20节点的计算场景为例，默认清理周期（15日）内将产生约1800万日志文件，占用NameNode近18G内存空间，同时拖慢HDFS的系统响应速度。

由于收集到HDFS上的日志文件只有读取和删除的需求，因此可以利用Hadoop Archives功能对收集的日志文件目录进行定期归档。

日志归档

在HistoryServer中新增AggregatedLogArchiveService模块，定期检查日志目录中的文件数。在文件数达到设定阈值时，启动归档任务进行日志归档，并在归档完成后删除原日志文件，以减少HDFS上的文件数量。

归档日志清理

由于Hadoop Archives不支持在归档文件中进行删除操作，因此日志清理时需要删除整个归档文件包。通过修改AggregatedLogDeletionService模块，获取归档日志中最新的日志生成时间，若所有日志文件均满足清理条件，则清理该归档日志包。

归档日志浏览

Hadoop Archives支持URI直接访问归档包中的文件内容，因此浏览过程中，当History Server发现原日志文件不存在时，直接将URI重定向到归档文件包中即可访问到已归档的日志文件。

本功能通过调用HDFS的Hadoop Archives功能进行日志归档。由于Hadoop Archives归档任务实际上是执行一个MR应用程序，所以在每次执行日志归档任务后，会新增一条MR执行记录。
本功能归档的日志来源于日志收集功能，因此只有在日志收集功能开启状态下本功能才会生效。

MapReduce服务常见问题

更多常见问题 >>

MapReduce服务

MapReduce服务（MRS）打造了高可靠、高安全、易使用的运行维护平台，对外提供大容量的数据存储和分析能力，可解决各大企业的数据存储和处理需求
GaussDB常见问题

GaussDB是华为自主创新研发的分布式关系型数据库。具备企业级复杂事务混合负载能力，同时支持分布式事务，同城跨AZ部署，数据0丢失，支持1000+节点的扩展能力，PB级海量存储。
SFS的常见问题

SFS的常见问题解答。
包年包月镜像常见问题

包年包月镜像是基于按需镜像包装出的预付费套餐，一个包年包月镜像同一时间只能用于一台云服务器。包年包月镜像支持续费，在到期前用户可以选择续费继续使用。如果到期不对镜像续费，而云服务器继续使用，请在到期前及时更换系统，否则镜像将以按需的方式开始计费。
CDN刷新预热常见问题

预热的任务一直在处理中的可能原因有如下几种：可能当前CDN处于预热高峰期，您的预热任务正在排队中。缓存预热的时候CDN要回源请求资源，会占用源站带宽。当您要执行大批量文件预热时，可能会导致您的源站带宽资源被占满，建议：预热时请尽量分批次执行。您可以在访问量低的时间（如夜间）进行预热。升级您的源站带宽。
按需付费镜像常见问题

本文为您解答华为云云市场按需付费镜像常见问题。

MapReduce服务教程视频

最佳实践视频帮助您快速了解搭建流程了解更多

MapReduce服务

MapReduce服务

MapReduce开源增强特性：JobHistoryServer HA特性

MapReduce开源增强特性：特定场景优化MapReduce的Merge/Sort流程提升MapReduce性能

MapReduce开源增强特性：History Server优化解决日志小文件问题

MapReduce服务常见问题

MapReduce服务教程视频

更多相关专题