华为云用户手册

云解析服务 DNS-将第三方域名转入华为云管理:资源和成本规划

资源和成本规划表1 资源和成本规划资源资源名称资源说明数量每月费用（元）实名认证信息模板根据域名所有者定义模板名称根据工信部域名实名认证的要求，在进行域名注册、域名过户（用户类型及域名所有者变更）、域名实名认证、域名转入等操作时，需要填写域名的用户信息。建议您在进行上述操作前，首先创建域名的信息模板。 1 信息模板不计费转入域名域名的名称域名转入是免费办理的。但因域名注册局的规定，转入时需在原期限上续费1年，因此，需支付域名续费1年的费用。用户自定义迁移的域名数量在华为云的价格详情中，点击域名类型查看相应的价格。

云解析服务 DNS
云解析服务 DNS-将第三方域名转入华为云管理:约束与限制

约束与限制域名转入的约束限制较多，以下列举常见的域名转入华为云的约束限制，更多约束限制请参考域名转入华为云。您必须是域名所有者，或者已经获得域名所有者的授权。距域名注册成功超过60天。距域名最近一次转移成功超过60天。如果是国内域名（.中国和.cn），则距域名到期超过15天。域名处于正常状态，本身无任何纠纷或欠费情况。最多支持二级域名（example.com）的转入，不支持三级以上域名的转入（例如，abc.example.com）。域名转入是免费办理的。但因域名注册局的规定，转入时需在原期限上续费1年，因此，需支付域名续费1年的费用。

云解析服务 DNS
云解析服务 DNS-将第三方域名转入华为云管理:步骤二：创建实名认证的信息模板

步骤二：创建实名认证的信息模板您可以通过创建信息模板操作预先设置域名所有者的信息，并对信息模板进行实名认证。完成信息模板创建后，在域名转入时可以直接使用已经创建的信息模板设置域名信息。信息模板的实名认证审核由注册局负责，一般1个工作日内即可完成审核（部分需要3~5个工作日）。登录域名注册控制台。进入“域名列表”页面。在左侧树状导航栏中，选择“信息模板”。在页面右上角，单击“创建信息模板”。图3 创建信息模板设置“用户类型” 根据实名认证证件内容填写“基本信息”区域。填写说明请参考信息模板简介。完成模板信息填写后单击“提交”，完成信息模板的配置。在左侧树状导航栏中，选择“信息模板”。在信息模板列表中，可以查看已创建的信息模板。此时，信息模板的“认证状态”为“实名认证审核中”。待信息模板的“认证状态”变为“已实名认证”，表示信息模板实名认证审核通过。实名认证一般1个工作日内即可完成审核（部分需要3~5个工作日），请您耐心等待。

云解析服务 DNS
智能数据洞察 DATAARTS INSIGHT-管理项目:编辑项目

编辑项目单击“项目”，进入我的项目页面。单击，单击“设置”，进入项目设置页面（图2）。图1 编辑项目图2 项目设置在基本信息界面，支持编辑我的项目名称、企业项目、描述等参数（表1）。表1 基本信息参数说明参数说明我的项目名称设置项目名称，只能包含中文、英文、数字、小括号（()）、中括号（[]）、斜线（/）、反斜线（\）、竖线（|）和下划线(_)，长度不超过50个字符。 ID DataArts Insight项目ID。企业项目项目所在的企业项目。描述对项目添加描述，您可以输入新建项目的目的、应用场景等信息，方便后续管理。描述输入不超过512个字符。创建人创建该项目的用户。创建时间项目首次创建的时间。所有者该项目的所有者，拥有和管理员一样的权限。未开启行级权限时可查看数据集所有数据勾选状态：未开启行级权限时，可查看数据集所有数据，开启行级权限后，可查看行级权限约束的数据。未勾选状态：未开启行级权限时，无法查看数据集任何数据，依赖于该数据集的仪表板、大屏、智能分析助手也无法查询数据。单击“成员信息”，进入成员信息界面，支持查看该项目下的所有用户和用户组。单击右上角“新增成员”可以新增用户和用户组。图3 成员信息单击“OBS桶设置”，进入OBS桶设置界面，相关操作请参见OBS桶设置。图4 OBS桶设置

智能数据洞察 DATAARTS INSIGHT 新建项目
企业SAAS应用-附录-常见问题:如何创建SparkPack企业ERP客户端的快捷方式登录？

如何创建SparkPack企业ERP客户端的快捷方式登录？解决方案打开浏览器，输入用户登录地址：https://macroverse.huaweicloud.com/unified-login/#/portal-login?ind=IMC&appId=e3a8574e-4b56-43bc-b27d-011f93fb2bed 图1 用户登录单击右上角“自定义及控制”，选择更多工具创建快捷方式。图2 创建快捷方式在弹出的窗口里，输入SparkPack企业ERP，单击创建按钮。图3 创建按钮此时SparkPack 企业ERP的桌面快捷方式已经创建成功，下次登录时双击该快捷方式即可。图4 双击

企业SAAS应用
MAPREDUCE服务 MRS-IoTDB基本原理:IoTDB结构

IoTDB结构 IoTDB套件由若干个组件构成，共同形成数据收集、数据写入、数据存储、数据查询、数据可视化、数据分析等一系列功能。图1展示了使用IoTDB套件的全部组件形成的整体应用架构，IoTDB特指其中的时间序列数据库组件。图1 IoTDB结构用户可以通过JDBC/Session将来自设备传感器上采集的时序数据和服务器负载、CPU内存等系统状态数据、消息队列中的时序数据、应用程序的时序数据或者其他数据库中的时序数据导入到本地或者远程的IoTDB中。用户还可以将上述数据直接写成本地（或位于HDFS上）的TsFile文件。用户可以将TsFile文件写入到HDFS上，进而满足Hadoop、Flink等数据处理任务的访问。对于写入到HDFS或者本地的TsFile文件，可以利用TsFile-Hadoop或TsFile-Flink连接器，允许Hadoop或Flink进行数据处理。对于分析的结果，可以写回成TsFile文件。 IoTDB和TsFile还提供了相应的客户端工具，满足用户以SQL形式、脚本形式和图形形式写入和查看数据的各种需求。 IoTDB服务包括IoTDBServer（DataNode）和ConfigNode两种角色。由于社区版角色名称DataNode和HDFS角色同名，因此将DataNode更名为IoTDBServer，如图2所示。 ConfigNode：管理角色，负责DataNode数据分片，负载均衡等。 IoTDBServer（DataNode）：存储角色，负责数据存储、查询和写入等功能。图2 IoTDB分布式架构

MAPREDUCE服务 MRS IoTDB
MAPREDUCE服务 MRS-IoTDB基本原理:IoTDB原理

IoTDB原理根据属性层级、属性涵盖范围以及数据之间的从属关系，可将IoTDB数据模型表示为如图3所示的属性层级组织结构，即“电力集团层-电厂层-设备层-传感器层”。其中ROOT为根节点，传感器层的每一个节点为叶子节点。IoTDB的语法规定，ROOT节点到叶子节点的路径以“.”连接，以此完整路径命名IoTDB中的一个时间序列。例如，下图最左侧路径对应的时间序列名称为“ROOT.ln.wf01.wt01.status”。图3 IoTDB数据模型

MAPREDUCE服务 MRS IoTDB
MAPREDUCE服务 MRS-Storm基本原理:Storm原理

Storm原理基本概念表1 概念介绍概念说明 Tuple Storm核心数据结构，是消息传递的基本单元，不可变Key-Value对，这些Tuple会以一种分布式的方式进行创建和处理。 Stream Storm的关键抽象，是一个无边界的连续Tuple序列。 Topology 在Storm平台上运行的一个实时应用程序，由各个组件（Component）组成的一个DAG（Directed Acyclic Graph）。一个Topology可以并发地运行在多台机器上，每台机器上可以运行该DAG中的一部分。Topology与Hadoop中的MapReduce Job类似，不同的是，它是一个长驻程序，一旦开始就不会停止，除非人工中止。 Spout Topology中产生源数据的组件，是Tuple的来源，通常可以从外部数据源（如消息队列、数据库、文件系统、TCP连接等）读取数据，然后转换为Topology内部的数据结构Tuple，由下一级组件处理。 Bolt Topology中接受数据并执行具体处理逻辑（如过滤，统计、转换、合并、结果持久化等）的组件。 Worker 是Topology运行态的物理进程。每个Worker是一个JVM进程，每个Topology可以由多个Worker并行执行，每个Worker运行Topology中的一个逻辑子集。 Task Worker中每一个Spout/Bolt的线程称为一个Task。 Stream groupings Storm中的Tuple分发策略，即后一级Bolt以什么分发方式来接收数据。当前支持的策略有：Shuffle Grouping， Fields Grouping， All Grouping， Global Grouping， Non Grouping， Directed Grouping。图3描述了一个由Spout、Bolt组成的DAG，即Topology。图中每个矩形框代表Spout或者Bolt，矩形框内的节点表示各个并发的Task，Task之间的“边”代表数据流——Stream。图3 Topology示意图可靠性 Storm提供三种级别的数据可靠性：至多一次：处理的数据可能会丢失，但不会被重复处理。此情况下，系统吞吐量最大。至少一次：保证数据传输可靠，但可能会被重复处理。此情况下，对在超时时间内没有获得成功处理响应的数据，会在Spout处进行重发，供后续Bolt再次处理，会对性能稍有影响。精确一次：数据成功传递，不丢失，不冗余处理。此情况下，性能最差。可靠性不同级别的选择，需要根据业务对可靠性的要求来选择、设计。例如对于一些对数据丢失不敏感的业务，可以在业务中不考虑数据丢失处理从而提高系统性能；而对于一些严格要求数据可靠性的业务，则需要使用精确一次的可靠性方案，以确保数据被处理且仅被处理一次。容错 Storm是一个容错系统，提供较高可用性。表2从Storm的不同部件失效的情况角度解释其容错能力：表2 容错能力失效场景说明 Nimbus失效 Nimbus是无状态且快速失效的。当主Nimbus失效时，备Nimbus会接管，并对外提供服务。 Supervisor失效 Supervisor是工作节点的后台守护进程，是一种快速失效机制，且是无状态的，并不影响正在该节点上运行的Worker，但是会无法接收新的Worker分配。当Supervisor失效时， OMS 会侦测到，并及时重启该进程。 Worker失效该Worker所在节点上的Supervisor会在此节点上重新启动该Worker。如果多次重启失败，则Nimbus会将该任务重新分配到其他节点。节点失效该节点上的所有分配的任务会超时，而Nimbus会将这些Worker重新分配到其他节点。

MAPREDUCE服务 MRS Storm
MAPREDUCE服务 MRS-Storm基本原理:Storm开源特性

Storm开源特性分布式实时计算框架开源Storm集群中的每台机器上都可以运行多个工作进程，每个工作进程又可创建多个线程，每个线程可以执行多个任务，任务是并发进行数据处理。高容错如果在消息处理过程中有节点、进程等出现异常，提供重新部署该处理单元的能力。可靠的消息保证支持At-Least Once、At-Most Once、Exactly Once的数据处理模式。安全机制提供基于Kerberos的认证以及可插拔的授权机制，提供支持SSL的Storm UI以及Log Viewer界面，同时支持与大数据平台其他组件（如ZooKeeper，HDFS等）进行安全集成。灵活的拓扑定义及部署使用Flux框架定义及部署业务拓扑，在业务DAG发生变化时，只需对YAML DSL（domain-specific language）定义进行修改，无需重新编译及打包业务代码。与外部组件集成支持与多种外部组件集成，包括：Kafka、HDFS、HBase、Redis或JDBC/RDBMS等服务，便于实现涉及多种数据源的业务。

MAPREDUCE服务 MRS Storm
MAPREDUCE服务 MRS-MemArtsCC基本原理:MemArtsCC结构

MemArtsCC结构 MemArtsCC由C CS ideCar和CCWorker两个角色组成。在存算架构下，Spark、Hive等计算分析应用的数据存储在对象存储服务 (OBS)中。在MemArtsCC集群上一个服务实例称为Worker，对于OBS上的对象数据，Worker缓存其中部分或全部分片到本地的持久化存储（SSD/HDD）中。上层应用通过MemArtsCC SDK读取某个对象时，基于分片索引到特定的Worker上读取分片数据，如果命中缓存则Worker返回对应分片，如果未命中则直接从OBS中读取数据，同时Worker端会异步的加载未命中的分片到本地存储中，供后续使用。图1 MemArtsCC结构表1 MemArtsCC结构图说明名称说明 MemArtsCC SDK 提供OBSA（OBSA，Hadoop客户端插件） FS客户端使用的可访问OBS服务器对象的SDK。 CCSideCar MemArtsCC的管理面服务，提供MemArtsCC服务监控采集、配置下发、服务启停等能力。 CCWorker MemArtsCC的数据面服务，支持MemArtsCC的缓存数据读写、存储、淘汰等能力。

MAPREDUCE服务 MRS MemArtsCC
MAPREDUCE服务 MRS-Hive基本原理:Hive原理

Hive原理 Hive作为一个基于HDFS和MapReduce架构的数据仓库，其主要能力是通过对HQL（Hive Query Language）编译和解析，生成并执行相应的MapReduce任务或者HDFS操作。Hive与HQL相关信息，请参考HQL 语言手册。图3为Hive的结构简图。 Metastore：对表，列和Partition等的元数据进行读写及更新操作，其下层为关系型数据库。 Driver：管理HQL执行的生命周期并贯穿Hive任务整个执行期间。 Compiler：编译HQL并将其转化为一系列相互依赖的Map/Reduce任务。 Optimizer：优化器，分为逻辑优化器和物理优化器，分别对HQL生成的执行计划和MapReduce任务进行优化。 Executor：按照任务的依赖关系分别执行Map/Reduce任务。 ThriftServer：提供thrift接口，作为JDBC的服务端，并将Hive和其他应用程序集成起来。 Clients：包含WebUI和JDBC接口，为用户访问提供接口。图3 Hive结构

MAPREDUCE服务 MRS Hive
MAPREDUCE服务 MRS-Hive基本原理:Hive结构

Hive结构 Hive为单实例的服务进程，提供服务的原理是将HQL编译解析成相应的MapReduce或者HDFS任务，图1为Hive的结构概图。图1 Hive结构表1 模块说明名称说明 HiveServer 一个集群内可部署多个HiveServer，负荷分担。对外提供Hive数据库服务，将用户提交的HQL语句进行编译，解析成对应的Yarn任务或者HDFS操作，从而完成数据的提取、转换、分析。 MetaStore 一个集群内可部署多个MetaStore，负荷分担。提供Hive的元数据服务，负责Hive表的结构和属性信息读、写、维护和修改。提供Thrift接口，供HiveServer、Spark、WebHCat等MetaStore客户端来访问，操作元数据。 WebHCat 一个集群内可部署多个WebHCat，负荷分担。提供Rest接口，通过Rest执行Hive命令，提交MapReduce任务。 Hive客户端包括人机交互命令行Beeline、提供给JDBC应用的JDBC驱动、提供给Python应用的Python驱动、提供给MapReduce的HCatalog相关JAR包。 ZooKeeper集群 ZooKeeper作为临时节点记录各HiveServer实例的IP地址列表，客户端驱动连接ZooKeeper获取该列表，并根据路由机制选取对应的HiveServer实例。 HDFS/HBase集群 Hive表数据存储在HDFS集群中。 MapReduce/Yarn集群提供分布式计算服务：Hive的大部分数据操作依赖MapReduce/Yarn集群，HiveServer的主要功能是将HQL语句转换成分布式计算任务，从而完成对海量数据的处理。 HCatalog建立在Hive Metastore之上，具有Hive的DDL能力。从另外一种意义上说，HCatalog还是Hadoop的表和存储管理层，它使用户能够通过使用不同的数据处理工具（比如MapReduce），更轻松地在网格上读写HDFS上的数据，HCatalog还能为这些数据处理工具提供读写接口，并使用Hive的命令行接口发布数据定义和元数据探索命令。此外，经过封装这些命令，WebHCat Server还对外提供了RESTful接口，如图2所示。图2 WebHCat的逻辑架构图

MAPREDUCE服务 MRS Hive
MAPREDUCE服务 MRS-Kafka基本原理:Kafka结构

Kafka结构生产者（Producer）将消息发布到Kafka主题（Topic）上，消费者（Consumer）订阅这些主题并消费这些消息。在Kafka集群上一个服务器称为一个Broker。对于每一个主题，Kafka集群保留一个用于缩放、并行化和容错性的分区（Partition）。每个分区是一个有序、不可变的消息序列，并不断追加到提交日志文件。分区的消息每个也被赋值一个称为偏移顺序（Offset）的序列化编号。图1 Kafka结构

MAPREDUCE服务 MRS Kafka
MAPREDUCE服务 MRS-Kafka基本原理:Kafka原理

Kafka原理消息可靠性 Kafka Broker收到消息后，会持久化到磁盘，同时，Topic的每个Partition有自己的Replica（备份），每个Replica分布在不同的Broker节点上，以保证当某一节点失效时，可以自动故障转移到可用消息节点。高吞吐量 Kafka通过以下方式提供系统高吞吐量：数据磁盘持久化：消息不在内存中缓存，直接写入到磁盘，充分利用磁盘的顺序读写性能。 Zero-copy：减少IO操作步骤。数据批量发送：提高网络利用率。 Topic划分为多个Partition，提高并发度，可以由多个Producer、Consumer数目之间的关系并发来读、写消息。Producer根据用户指定的算法，将消息发送到指定的Partition。消息订阅-通知机制消费者对感兴趣的主题进行订阅，并采取pull的方式消费数据，使得消费者可以根据其消费能力自主地控制消息拉取速度，同时，可以根据自身情况自主选择消费模式，例如批量、重复消费，从尾端开始消费等；另外，需要消费者自己负责维护其自身消息的消费记录。可扩展性当在Kafka集群中可通过增加Broker节点以提供更大容量时。新增的Broker会向ZooKeeper注册，而Producer及Consumer会及时从ZooKeeper感知到这些变化，并做出调整。

MAPREDUCE服务 MRS Kafka
MAPREDUCE服务 MRS-Kafka基本原理:Kafka开源特性

Kafka开源特性可靠性提供At-Least Once，At-Most Once，Exactly Once消息可靠传递。消息被处理的状态是在Consumer端维护，需要结合应用层实现Exactly Once。高吞吐同时为发布和订阅提供高吞吐量。持久化将消息持久化到磁盘，因此可用于批量消费以及实时应用程序。通过将数据持久化到硬盘以及replication的方式防止数据丢失。分布式分布式系统，易于向外扩展。每个集群支持部署多个Producer、Broker和Consumer，从而形成分布式的集群，无需停机即可扩展系统。

MAPREDUCE服务 MRS Kafka
MAPREDUCE服务 MRS-Kafka基本原理:Kafka UI

Kafka UI Kafka UI提供Kafka Web服务，通过界面展示Kafka集群中Broker、Topic、Partition、Consumer等功能模块的基本信息，同时提供Kafka服务常用命令的界面操作入口。该功能作为Kafka Manager替代，提供符合安全规范的Kafka Web服务。通过Kafka UI可以进行以下操作：支持界面检查集群状态（主题，消费者，偏移量，分区，副本，节点）支持界面执行集群内分区重新分配支持界面选择配置创建主题支持界面删除主题（Kafka服务设置了参数“delete.topic.enable = true”）支持为已有主题增加分区支持更新现有主题的配置可以为分区级别和主题级别度量标准启用JMX查询

MAPREDUCE服务 MRS Kafka
MAPREDUCE服务 MRS-Hue基本原理:Hue结构

Hue结构 Hue是建立在Django Python（开放源代码的Web应用框架）的Web框架上的Web应用程序，采用了MTV（模型M-模板T-视图V）的软件设计模式。 Hue由“Supervisor Process”和“WebServer”构成，“Supervisor Process”是Hue的核心进程，负责应用进程管理。“Supervisor Process”和“WebServer”通过“THRIFT/REST”接口与WebServer上的应用进行交互，如图1所示。图1 Hue架构示意图图1中各部分的功能说明如表1所示。表1 结构图说明名称描述 Supervisor Process Supervisor负责WebServer上APP的进程管理：启动、停止、监控等。 Hue WebServer 通过Django Python的Web框架提供如下功能。部署APPs。提供图形化用户界面。与数据库连接，存储APP的持久化数据。

MAPREDUCE服务 MRS Hue
MAPREDUCE服务 MRS-Flink基本原理:Flink关键特性

Flink关键特性流式处理高吞吐、高性能、低时延的实时流处理引擎，能够提供毫秒级时延处理能力。丰富的状态管理流处理应用需要在一定时间内存储所接收到的事件或中间结果，以供后续某个时间点访问并进行后续处理。Flink提供了丰富的状态管理相关的特性，包括：多种基础状态类型：Flink提供了多种不同数据结构的状态支持，如ValueState、ListState、MapState等。用户可以基于业务模型选择最高效、合适状态类型。丰富的State Backend：State Backend负责管理应用程序的状态，并根据需要进行Checkpoint。Flink提供了不同State Backend，State可以存储在内存上或RocksDB等上，并支持异步以及增量的Checkpoint机制。精确一次语义：Flink的Checkpoint和故障恢复能力保证了任务在故障发生前后的应用状态一致性，为某些特定的存储支持了事务型输出的功能，即使在发生故障的情况下，也能够保证精确一次的输出。丰富的时间语义时间是流处理应用的重要组成部分，对于实时流处理应用来说，基于时间语义的窗口聚合、检测、匹配等运算是很常见的。Flink提供了丰富的时间语义。 Event-time：使用事件本身自带的时间戳进行计算，使乱序到达或延迟到达的事件处理变得更加简单。 Watermark：Flink引入Watermark概念，用以衡量事件时间的发展。Watermark也为平衡处理时延和数据完整性提供了灵活的保障。当处理带有Watermark的事件流时，在计算完成之后仍然有相关数据到达时，Flink提供了多种处理选项，如将数据重定向（side output）或更新之前完成的计算结果。 Processing-time和Ingestion-time。高度灵活的流式窗口：Flink能够支持时间窗口、计数窗口、会话窗口，以及数据驱动的自定义窗口，可以通过灵活的触发条件定制，实现复杂的流式计算模式。容错机制分布式系统，单个Task或节点的崩溃或故障，往往会导致整个任务的失败。Flink提供了任务级别的容错机制，保证任务在异常发生时不会丢失用户数据，并且能够自动恢复。 Checkpoint：Flink基于Checkpoint实现容错，用户可以自定义对整个任务的Checkpoint策略，当任务出现失败时，可以将任务恢复到最近一次Checkpoint的状态，从数据源重发快照之后的数据。 Savepoint：一个Savepoint就是应用状态的一致性快照，Savepoint与Checkpoint机制相似，但Savepoint需要手动触发，Savepoint保证了任务在升级或迁移时，不丢失当前流应用的状态信息，便于任何时间点的任务暂停和恢复。 Flink SQL Table API和SQL借助了Apache Calcite来进行查询的解析，校验以及优化，可以与DataStream和DataSet API无缝集成，并支持用户自定义的标量函数，聚合函数以及表值函数。简化数据分析、ETL等应用的定义。下面代码示例展示了如何使用Flink SQL语句定义一个会话点击量的计数应用。 SELECT userId, COUNT(*) FROM clicks GROUP BY SESSION(clicktime, INTERVAL '30' MINUTE), userId 有关Flink SQL的更多信息，请参见：https://ci.apache.org/projects/flink/flink-docs-master/dev/table/sqlClient.html。 CEP in SQL Flink允许用户在SQL中表示CEP（Complex Event Processing）查询结果以用于模式匹配，并在Flink上对事件流进行评估。 CEP SQL通过MATCH_RECOGNIZE的SQL语法实现。MATCH_RECOGNIZE子句自Oracle Database 12c起由Oracle SQL支持，用于在SQL中表示事件模式匹配。CEP SQL使用举例如下： SELECT T.aid, T.bid, T.cid FROM MyTable MATCH_RECOGNIZE ( PARTITION BY userid ORDER BY proctime MEASURES A.id AS aid, B.id AS bid, C.id AS cid PATTERN (A B C) DEFINE A AS name = 'a', B AS name = 'b', C AS name = 'c' ) AS T

MAPREDUCE服务 MRS Flink
MAPREDUCE服务 MRS-Flink基本原理:Flink原理

Flink原理 Stream & Transformation & Operator 用户实现的Flink程序是由Stream和Transformation这两个基本构建块组成。 Stream是一个中间结果数据，而Transformation是一个操作，它对一个或多个输入Stream进行计算处理，输出一个或多个结果Stream。当一个Flink程序被执行的时候，它会被映射为Streaming Dataflow。一个Streaming Dataflow是由一组Stream和Transformation Operator组成，它类似于一个DAG图，在启动的时候从一个或多个Source Operator开始，结束于一个或多个Sink Operator。图3为一个由Flink程序映射为Streaming Dataflow的示意图。图3 Flink DataStream示例图3中“FlinkKafkaConsumer”是一个Source Operator，Map、KeyBy、TimeWindow、Apply是Transformation Operator，RollingSink是一个Sink Operator。 Pipeline Dataflow 在Flink中，程序是并行和分布式的方式运行。一个Stream可以被分成多个Stream分区（Stream Partitions），一个Operator可以被分成多个Operator Subtask。 Flink内部有一个优化的功能，根据上下游算子的紧密程度来进行优化。紧密度低的算子则不能进行优化，而是将每一个Operator Subtask放在不同的线程中独立执行。一个Operator的并行度，等于Operator Subtask的个数，一个Stream的并行度（分区总数）等于生成它的Operator的并行度，如图4所示。图4 Operator 紧密度高的算子可以进行优化，优化后可以将多个Operator Subtask串起来组成一个Operator Chain，实际上就是一个执行链，每个执行链会在TaskManager上一个独立的线程中执行，如图5所示。图5 Operator chain 图5中上半部分表示的是将Source和Map两个紧密度高的算子优化后串成一个Operator Chain，实际上一个Operator Chain就是一个大的Operator的概念。图中的Operator Chain表示一个Operator，KeyBy表示一个Operator，Sink表示一个Operator，它们通过Stream连接，而每个Operator在运行时对应一个Task，也就是说图中的上半部分有3个Operator对应的是3个Task。图5中下半部分是上半部分的一个并行版本，对每一个Task都并行化为多个Subtask，这里只是演示了2个并行度，Sink算子是1个并行度。

MAPREDUCE服务 MRS Flink
MAPREDUCE服务 MRS-Flink基本原理:Flink简介

Flink简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。它的最大亮点是流处理，是业界最顶级的开源流处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink技术栈如图1所示。图1 Flink技术栈 Flink在当前版本中重点构建如下特性： DataStream Checkpoint 窗口 Job Pipeline 配置表

MAPREDUCE服务 MRS Flink
MAPREDUCE服务 MRS-Flink基本原理:Flink结构

Flink结构 Flink服务包含了两个重要的角色：FlinkResource和FlinkServer。 FlinkResource：提供客户端配置管理，是必须安装的角色。包括供客户端下载使用的原始lib包和配置文件，以及FlinkServer提交作业所依赖的原始lib包。无实体进程，作业运行过程不依赖FlinkResource。 FlinkServer：基于Web的作业管理二次开发平台，可直接在界面开发与管理FlinkSQL作业。具有运维管理界面化、作业开发SQL标准化等特点。 Flink结构如图2所示。图2 Flink结构 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些TaskManager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。如果您想了解更多关于Flink架构的信息，请参考链接：https://ci.apache.org/projects/flink/flink-docs-master/docs/concepts/flink-architecture/。

MAPREDUCE服务 MRS Flink
MAPREDUCE服务 MRS-CDL:CDL简介

CDL简介 CDL（全称Change Data Loader）是一个基于Kafka Connect框架的实时数据集成服务。 CDL服务能够从各种OLTP数据库中捕获数据库的Data Change事件，并推送到kafka，再由sink connector推送到大数据生态系统中。 CDL目前支持的数据源有MySQL、PostgreSQL、Hudi、Kafka、ThirdParty-Kafka，目标端支持写入Kafka、Hudi、DWS以及ClickHouse。更多关于CDL组件操作指导，请参考使用CDL。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Impala:Impala Catalog Service

Impala Catalog Service 负责Impala的元数据管理，进程名为catalogd，将元数据的变化发送到所有的Impalad进程。当创建表、加载数据或者其他的一些从Hive发起的操作后，Impala查询之前需要在Impalad上执行REFRESH或者INVALIDATE METADATA刷新Catalog上缓存的元数据信息。如果元数据变化是通过Impala执行的，则不需要执行刷新。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Impala:Impala Daemon

Impala Daemon Impala daemon的进程名为Impalad，是Impala的核心进程。 Impalad关键功能如下：运行在所有的数据节点上。读写数据文件。接收来自于Impala-shell命令、Hue、JDBC或者ODBC等客户端的查询请求。可以并行执行来自集群中其他节点的查询请求，将中间结果返回给调度节点。可以调用节点将结果返回给客户端。 Impalad进程通过持续的和StateStore通信来确认自己所在的节点是否健康和是否可以接受新的任务请求。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Impala:Impala

Impala Impala直接对存储在HDFS、HBase或对象存储服务（OBS）中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外，Impala还使用于Apache Hive相同的元数据，SQL语法（Hive SQL），ODBC驱动程序和用户界面（Hue中的Impala查询UI）。这为实时或面向批处理的查询提供了一个熟悉且统一的平台。作为查询大数据的工具的补充，Impala不会替代基于MapReduce构建的批处理框架，例如Hive。基于MapReduce构建的Hive和其他框架最适合长时间运行的批处理作业。 Impala主要特点如下：支持Hive查询语言（HQL）中大多数的SQL-92功能，包括SELECT，JOIN和聚合函数。 HDFS，HBase和对象存储服务（OBS）存储，包括： HDFS文件格式：基于分隔符的Text file，Parquet，Avro，SequenceFile和RCFile。压缩编解码器：Snappy，GZIP，Deflate，BZIP。常见的数据访问接口包括： JDBC驱动程序。 ODBC驱动程序。 Hue beeswax和Impala查询UI。 Impala-shell命令行接口。支持Kerberos身份认证。 Impala主要应用于实时查询数据的离线分析（如日志分析，集群状态分析）、大规模的数据挖掘（用户行为分析，兴趣分区，区域展示）等场景。有关Impala的详细信息，请参见https://impala.apache.org/impala-docs.html。更多关于Impala组件操作指导，请参考使用Impala。 Impala由Impalad、StateStore、Catalog 3个角色组成。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Impala:Impala与其他组件的关系

Impala与其他组件的关系 Impala与HDFS间的关系 Impala默认利用HDFS作为其文件存储系统。Impala通过解析和计算处理结构化的数据，Hadoop HDFS则为Impala提供了高可靠性的底层存储支持。使用Impala将无需移动HDFS中的数据并且提供更快的访问。 Impala与Hive间的关系 Impala使用Hive的元数据、ODBC驱动程序和SQL语法。与Hive不同，Impala不基于MapReduce算法，它实现了一个基于守护进程的分布式架构，它负责在同一台机器上运行的查询执行的所有方面。因此，它减少了使用MapReduce的延迟，这使Impala比Hive快。 Impala与Kudu间的关系 Kudu与Impala紧密集成，替代Impala+HDFS+Parquet组合。允许使用Impala的SQL语法从Kudu tablets插入、查询、更新和删除数据。此外，还可以用JDBC或ODBC，Impala作为代理连接Kudu进行数据操作。 Impala与HBase间的关系 Impala表默认使用存储在HDFS上的数据文件，便于全表扫描的批量加载和查询。但是，HBase可以提供对OLTP样式组织的数据的便捷高效查询。

MAPREDUCE服务 MRS
MAPREDUCE服务 MRS-Flume基本原理:Flume原理

Flume原理 Agent之间的可靠性 Agent之间数据交换流程如图4所示。图4 Agent数据传输流程 Flume采用基于Transactions的方式保证数据传输的可靠性，当数据从一个Agent流向另外一个Agent时，两个Transactions已经开始生效。发送Agent的Sink首先从Channel取出一条消息，并且将该消息发送给另外一个Agent。如果接收消息的Agent成功地接收并处理消息，那么发送Agent将会提交Transactions，标识一次数据传输成功可靠地完成。当接收Agent接收到发送Agent发送的消息时，开始一个新的Transactions，当该数据被成功处理（写入Channel中），那么接收Agent提交该Transactions，并向发送Agent发送成功响应。如果在某次提交（commit）之前，数据传输出现了失败，将会再次开始上一次Transactions，并将上次发送失败的数据重新传输。因为commit操作已经将Transactions写入了磁盘，那么在进程故障退出并恢复业务之后，仍然可以继续上次的Transactions。

MAPREDUCE服务 MRS Flume
MAPREDUCE服务 MRS-Loader基本原理

Loader基本原理 Loader是在开源Sqoop组件的基础上进行了一些扩展，实现 MRS 与关系型数据库、文件系统之间交换“数据”、“文件”，同时也可以将数据从关系型数据库或者文件服务器导入到HDFS/HBase中，或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。 Loader模型主要由Loader Client和Loader Server组成，如图1所示。图1 Loader模型上图中各部分的功能说明如表1所示。表1 Loader模型组成名称描述 Loader Client Loader的客户端，包括WebUI和CLI版本两种交互界面。 Loader Server Loader的服务端，主要功能包括：处理客户端操作请求、管理连接器和元数据、提交MapReduce作业和监控MapReduce作业状态等。 REST API 实现RESTful（HTTP + JSON）接口，处理来自客户端的操作请求。 Job Scheduler 简单的作业调度模块，支持周期性的执行Loader作业。 Transform Engine 数据转换处理引擎，支持字段合并、字符串剪切、字符串反序等。 Execution Engine Loader作业执行引擎，支持以MapReduce方式执行Loader作业。 Submission Engine Loader作业提交引擎，支持将作业提交给MapReduce执行。 Job Manager 管理Loader作业，包括创建作业、查询作业、更新作业、删除作业、激活作业、去激活作业、启动作业、停止作业。 Metadata Repository 元数据仓库，存储和管理Loader的连接器、转换步骤、作业等数据。 HA Manager 管理Loader Server进程的主备状态，Loader Server包含2个节点，以主备方式部署。 Loader通过MapReduce作业实现并行的导入或者导出作业任务，不同类型的导入导出作业可能只包含Map阶段或者同时Map和Reduce阶段。 Loader同时利用MapReduce实现容错，在作业任务执行失败时，可以重新调度。数据导入到HBase 在MapReduce作业的Map阶段中从外部数据源抽取数据。在MapReduce作业的Reduce阶段中，按Region的个数启动同样个数的Reduce Task，Reduce Task从Map接收数据，然后按Region生成HFile，存放在HDFS临时目录中。在MapReduce作业的提交阶段，将HFile从临时目录迁移到HBase目录中。数据导入HDFS 在MapReduce作业的Map阶段中从外部数据源抽取数据，并将数据输出到HDFS临时目录下（以“输出目录-ldtmp”命名）。在MapReduce作业的提交阶段，将文件从临时目录迁移到输出目录中。数据导出到关系型数据库在MapReduce作业的Map阶段，从HDFS或者HBase中抽取数据，然后将数据通过JDBC接口插入到临时表（Staging Table）中。在MapReduce作业的提交阶段，将数据从临时表迁移到正式表中。数据导出到文件系统在MapReduce作业的Map阶段，从HDFS或者HBase中抽取数据，然后将数据写入到文件服务器临时目录中。在MapReduce作业的提交阶段，将文件从临时目录迁移到正式目录。 Loader的架构和详细原理介绍，请参见：https://sqoop.apache.org/docs/1.99.3/index.html。更多关于Loader组件操作指导，请参考使用Loader。父主题： Loader

MAPREDUCE服务 MRS Loader
MAPREDUCE服务 MRS-ZooKeeper基本原理:ZooKeeper结构

ZooKeeper结构 ZooKeeper集群中的节点分为三种角色：Leader、Follower和Observer，其结构和相互关系如图1所示。通常来说，需要在集群中配置奇数个（2N+1）ZooKeeper服务，至少（N+1）个投票才能成功的执行写操作。图1 ZooKeeper结构图1中各部分的功能说明如表1所示。表1 结构图说明名称描述 Leader 在ZooKeeper集群中只有一个节点作为集群的Leader，由各Follower通过ZooKeeper Atomic Broadcast(ZAB)协议选举产生，主要负责接收和协调所有写请求，并把写入的信息同步到Follower和Observer。 Follower Follower的功能有两个：每个Follower都作为Leader的储备，当Leader故障时重新选举Leader，避免单点故障。处理读请求，并配合Leader一起进行写请求处理。 Observer Observer不参与选举和写请求的投票，只负责处理读请求、并向Leader转发写请求，避免系统处理能力浪费。 Client ZooKeeper集群的客户端，对ZooKeeper集群进行读写操作。例如HBase可以作为ZooKeeper集群的客户端，利用ZooKeeper集群的仲裁功能，控制其HMaster的“Active”和“Standby”状态。如果集群启用了安全服务，在连接ZooKeeper时需要进行身份认证，认证方式有以下两种： keytab方式：需要从MRS集群管理员处获取一个“人机”用户，用于登录MRS平台并通过认证，并且获取到该用户的keytab文件。票据方式：从MRS集群管理员处获取一个“人机”用户，用于后续的安全登录，开启Kerberos服务的renewable和forwardable开关并且设置票据刷新周期，开启成功后重启kerberos及相关组件。默认情况下，用户的密码有效期是90天，所以获取的keytab文件的有效期是90天。 Kerberos服务的renewable、forwardable开关和票据刷新周期的设置在Kerberos服务的配置页面的“系统”标签下，票据刷新周期的修改可以根据实际情况修改“kdc_renew_lifetime”和“kdc_max_renewable_life”的值。

MAPREDUCE服务 MRS ZooKeeper
MAPREDUCE服务 MRS-ZooKeeper基本原理:ZooKeeper原理

ZooKeeper原理写请求 Follower或Observer接收到写请求后，转发给Leader。 Leader协调各Follower，通过投票机制决定是否接受该写请求。如果超过半数以上的Leader、Follower节点返回写入成功，那么Leader提交该请求并返回成功，否则返回失败。 Follower或Observer返回写请求处理结果。只读请求客户端直接向Leader、Follower或Observer读取数据。

MAPREDUCE服务 MRS ZooKeeper

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！