华为云用户手册

MapReduce服务 MRS-mapPartition接口使用:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MapReduce服务 MRS
MapReduce服务 MRS-Manager应用开发简介:基本认证（Basic Authentication）

基本认证（Basic Authentication）在HTTP中，基本认证是一种用来允许Web浏览器或其他客户端程序在请求时提供用户名和密码形式的身份凭证的一种登录验证方式。在请求发送之前，用Basic加一个空格标识基本认证，以用户名追加一个冒号然后串接上密码，再将此字符串用Base64算法编码。例如：用户名是admin、密码是Asd#smSisn$123，则拼接后的字符串就是admin:Asd#smSisn$123，然后进行Base64编码，得到YWRtaW46QWRtaW5AMTIz，加上基本认证标识，得到Basic YWRtaW46QWRtaW5AMTIz，最终将编码后的字符串发送出去，由接收者解码得到一个由冒号分隔的用户名和密码的字符串。

MapReduce服务 MRS Manager管理开发指南
MapReduce服务 MRS-删除Manager用户:代码样例

代码样例以下代码片段是删除用户的示例，在“rest”包的“UserManager”类的main方法中。 //访问Manager接口完成删除用户 operationName = "DeleteUser"; String deleteJsonStr = "{\"userNames\":[\"user888\"]}"; operationUrl = webUrl + DELETE_USER_URL; httpManager.sendHttpDeleteRequest(httpClient, operationUrl, deleteJsonStr, operationName); LOG .info("Exit main.");

MapReduce服务 MRS 开发Manager应用
MapReduce服务 MRS-使用Spark执行Hudi样例程序开发思路:运行任务

运行任务登录Spark客户端节点，执行如下命令： source 客户端安装目录/bigdata_env source 客户端安装目录/Hudi/component_env 编译构建样例代码后可以使用spark-submit提交命令，执行命令后会依次执行写入、更新、查询、删除等操作：运行Java样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieWriteClientExample /opt/example/hudi-java-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_java hoodie_java 其中：“/opt/example/hudi-java-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_java”为Hudi表的存储路径，“ hoodie_java”为Hudi表的表名。运行Scala样例程序： spark-submit --class com.huawei.bigdata.hudi.examples.HoodieDataSourceExample /opt/example/hudi-scala-examples-1.0.jar hdfs://hacluster/tmp/example/hoodie_scala hoodie_scala 其中：“/opt/example/hudi-scala-examples-1.0.jar”为jar包路径，“hdfs://hacluster/tmp/example/hoodie_scala”为Hudi表的存储路径，“ hoodie_Scala”为Hudi表的表名。运行Python样例程序： spark-submit /opt/example/HudiPythonExample.py hdfs://hacluster/tmp/huditest/example/python hudi_trips_cow 其中：“hdfs://hacluster/tmp/huditest/example/python”为Hudi表的存储路径，“ hudi_trips_cow”为Hudi表的表名。

MapReduce服务 MRS
MapReduce服务 MRS-MapReduce应用开发简介:MapReduce简介

MapReduce简介 Hadoop MapReduce是一个使用简易的并行计算软件框架，基于它写出来的应用程序能够运行在由上千个服务器组成的大型集群上，并以一种可靠容错的方式并行处理上T级别的数据集。一个MapReduce作业（application/job）通常会把输入的数据集切分为若干独立的数据块，由map任务（task）以完全并行的方式来处理。框架会对map的输出先进行排序，然后把结果输入给reduce任务，最后返回给客户端。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。 MapReduce主要特点如下：大规模并行计算适用于大型数据集高容错性和高可靠性合理的资源调度

MapReduce服务 MRS
MapReduce服务 MRS-Oozie应用开发简介:Oozie应用开发常见概念

Oozie应用开发常见概念流程定义文件描述业务逻辑的XML文件，包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类，最终由Oozie引擎解析并执行。流程属性文件流程运行期间的参数配置文件，对应文件名为“job.properties”，每个流程定义有且仅有一个该属性文件。 keytab文件存放用户信息的密钥文件。在安全模式下，应用程序采用此密钥文件进行API方式认证。 Client 客户端直接面向用户，可通过Java API、Shell API、 REST API或者Web UI访问Oozie服务端。

MapReduce服务 MRS Oozie开发指南（普通模式）
MapReduce服务 MRS-MapReduce Action:参数解释

参数解释 MapReduce Action节点中包含的各参数及其含义，请参见表1。表1 参数含义参数含义 name map-reduce action的名称 resourceManager MapReduce ResourceManager地址 name-node HDFS NameNode地址 queueName 任务处理时使用的MapReduce队列名 mapred.mapper.class Mapper类名 mapred.reducer.class Reducer类名 mapred.input.dir MapReduce处理数据的输入目录 mapred.output.dir MapReduce处理后结果数据输出目录 mapred.map.tasks MapReduce map任务个数 “${变量名}”表示：该值来自“job.properties”所定义。例如：${nameNode}表示的就是“hdfs://hacluster”。（可参见job.properties）

MapReduce服务 MRS
MapReduce服务 MRS-Spark Core样例程序开发思路:场景说明

场景说明假定用户有某个周末网民网购停留时间的日志，基于某些业务要求，要求开发Spark应用程序实现如下功能：统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。周末两天的日志文件第一列为姓名，第二列为性别，第三列为本次停留时间，单位为分钟，分隔符为“,”。 log1.txt：周六网民停留日志 LiuYang,female,20YuanJing,male,10GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20FangBo,female,50LiuYang,female,20YuanJing,male,10GuoYijun,male,50CaiXuyu,female,50FangBo,female,60 log2.txt：周日网民停留日志 LiuYang,female,20YuanJing,male,10CaiXuyu,female,50FangBo,female,50GuoYijun,male,5CaiXuyu,female,50Liyuan,male,20CaiXuyu,female,50FangBo,female,50LiuYang,female,20YuanJing,male,10FangBo,female,50GuoYijun,male,50CaiXuyu,female,50FangBo,female,60

MapReduce服务 MRS
MapReduce服务 MRS-Spark Core样例程序开发思路:数据规划

数据规划首先需要把原日志文件放置在HDFS系统里。本地新建两个文本文件input_data1.txt和input_data2.txt，将log1.txt中的内容复制保存到input_data1.txt，将log2.txt中的内容复制保存到input_data2.txt。在HDFS客户端路径下建立一个文件夹，“/tmp/input”，并上传input_data1.txt，input_data2.txt到此目录，命令如下：在Linux系统HDFS客户端使用命令hadoop fs -mkdir /tmp/input（hdfs dfs命令有同样的作用），创建对应目录。进入到HDFS客户端下的“/tmp/input”目录，在Linux系统HDFS客户端使用命令hadoop fs -putinput_data1.txt /tmp/input和hadoop fs -putinput_data2.txt /tmp/input，上传数据文件。

MapReduce服务 MRS
MapReduce服务 MRS-Oozie应用开发简介:Oozie简介

Oozie简介 Oozie是一个用来管理Hadoop job任务的工作流引擎，Oozie流程基于有向无环图（Directed Acyclical Graph）来定义和描述，支持多种工作流模式及流程定时触发机制。易扩展、易维护、可靠性高，与Hadoop生态系统各组件紧密结合。 Oozie流程的三种类型： Workflow 描述一个完整业务的基本流程。 Coordinator Coordinator流程构建在Workflow流程之上，实现了对Workflow流程的定时触发、按条件触发功能。 Bundle Bundle流程构建在coordinator流程之上，提供对多个Coordinator流程的统一调度、控制和管理功能。 Oozie主要特点：支持分发、聚合、选择等工作流程模式。与Hadoop生态系统各组件紧密结合。流程变量支持参数化。支持流程定时触发。自带一个Web Console，提供了流程查看、流程监控、日志查看等功能。

MapReduce服务 MRS Oozie开发指南（普通模式）
MapReduce服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:数据规划

数据规划在kafka中生成模拟数据（需要有Kafka权限用户）。 java -cp $SPARK_HOME/conf:$SPARK_HOME/jars/*:$SPARK_HOME/jars/streamingClient010/*:{ClassPath} com.huawei.bigdata.spark.examples.KafkaADEventProducer {BrokerList} {timeOfProduceReqEvent} {eventTimeBeforeCurrentTime} {reqTopic} {reqEventCount} {showTopic} {showEventMaxDelay} {clickTopic} {clickEventMaxDelay} 确保集群安装完成，包括HDFS、Yarn、Spark2x和Kafka。将Kafka的Broker配置参数“allow.everyone.if.no.acl.found”的值修改为“true”。启动Kafka的Producer，向Kafka发送数据。 {ClassPath}表示工程jar包的存放路径，详细路径由用户指定，可参考在Linux环境中调测Spark应用章节中导出jar包的操作步骤。命令举例： java -cp /opt/client/Spark2x/spark/conf:/opt/StructuredStreamingADScalaExample-1.0.jar:/opt/client/Spark2x/spark/jars/*:/opt/client/Spark2x/spark/jars/streamingClient010/* com.huawei.bigdata.spark.examples.KafkaADEventProducer 10.132.190.170:21005,10.132.190.165:21005 2h 1h req 10000000 show 5m click 5m 此命令将在kafka上创建3个topic：req、show、click，在2h内生成1千万条请求事件数据，请求事件的时间取值范围为{当前时间-1h 至当前时间}，并为每条请求事件随机生成0-5条展示事件，展示事件的时间取值范围为{请求事件时间至请求事件时间+5m }，为每条展示事件随机生成0-5条点击事件，点击事件的时间取值范围为{展示事件时间至展示事件时间+5m }

MapReduce服务 MRS
MapReduce服务 MRS-操作Avro格式数据:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode client --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars /opt/female/protobuf-java-2.5.0.jar --conf spark.yarn.user.classpath.first=true --class com.huawei.bigdata.spark.examples.datasources.AvroSource SparkOnHbaseJavaExample-1.0.jar python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --conf spark.yarn.user.classpath.first=true --jars SparkOnHbaseJavaExample-1.0.jar,/opt/female/protobuf-java-2.5.0.jar AvroSource.py

MapReduce服务 MRS
MapReduce服务 MRS-操作Avro格式数据:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中调测Spark应用。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MapReduce服务 MRS
MapReduce服务 MRS-操作Avro格式数据:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中的AvroSource文件： # -*- coding:utf-8 -*-"""【说明】由于pyspark不提供HBase相关api,本样例使用Python调用Java的方式实现"""from py4j.java_gateway import java_importfrom pyspark.sql import SparkSession# 创建SparkSessionspark = SparkSession\ .builder\ .appName("AvroSourceExample")\ .getOrCreate()# 向sc._jvm中导入要运行的类java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.datasources.AvroSource')# 创建类实例并调用方法，传递sc._jsc参数spark._jvm.AvroSource().execute(spark._jsc)# 停止SparkSessionspark.stop()

MapReduce服务 MRS
MapReduce服务 MRS-Spark Structured Streaming对接Kafka样例程序开发思路:场景说明

场景说明假定一个广告业务，存在广告请求事件、广告展示事件、广告点击事件，广告主需要实时统计有效的广告展示和广告点击数据。已知：终端用户每次请求一个广告后，会生成广告请求事件，保存到kafka的adRequest topic中。请求一个广告后，可能用于多次展示，每次展示，会生成广告展示事件，保存到kafka的adShow topic中。每个广告展示，可能会产生多次点击，每次点击，会生成广告点击事件，保存到kafka的adClick topic中。广告有效展示的定义如下：请求到展示的时长超过A分钟算无效展示。 A分钟内多次展示，每次展示事件为有效展示。广告有效点击的定义如下：展示到点击时长超过B分钟算无效点击。 B分钟内多次点击，仅首次点击事件为有效点击。基于此业务场景，模拟简单的数据结构如下：广告请求事件数据结构：adID^reqTime 广告展示事件数据结构：adID^showID^showTime 广告点击事件数据结构：adID^showID^clickTime 数据关联关系如下：广告请求事件与广告展示事件通过adID关联。广告展示事件与广告点击事件通过adID+showID关联。数据要求：数据从产生到到达流处理引擎的延迟时间不超过2小时广告请求事件、广告展示事件、广告点击事件到达流处理引擎的时间不能保证有序和时间对齐

MapReduce服务 MRS
MapReduce服务 MRS-Spark JDBCServer接口介绍:增强特性

增强特性对比开源社区，华为还提供了两个增强特性，JD BCS erverHA方案和设置JDB CS erver连接的超时时间。 JDBCServerHA方案，多个JDBCServer主节点同时提供服务，当其中一个节点发生故障时，新的客户端连接会分配到其他主节点上，从而保障无间断为集群提供服务。Beeline和JDBC客户端代码两种连接方式的操作相同。设置客户端与JDBCServer连接的超时时间。 Beeline 在网络拥塞的情况下，这个特性可以避免Beeline由于无限等待服务端的返回而挂起。使用方式如下：启动Beeline时，在后面追加“--socketTimeOut=n”，其中“n”表示等待服务返回的超时时长，单位为秒，默认为“0”（表示永不超时）。建议根据业务场景，设置为业务所能容忍的最大等待时长。 JDBC客户端代码在网络拥塞的情况下，这个特性可以避免客户端由于无限等待服务端的返回而挂起。使用方式如下：在执行“DriverManager.getConnection”方法获取JDBC连接前，添加“DriverManager.setLoginTimeout(n)”方法来设置超时时长，其中n表示等待服务返回的超时时长，单位为秒，类型为Int，默认为“0”（表示永不超时）。建议根据业务场景，设置为业务所能容忍的最大等待时长。

MapReduce服务 MRS
MapReduce服务 MRS-Spark JDBCServer接口介绍:简介

简介 JDBCServer是Hive中的HiveServer2的另外一个实现，它底层使用了Spark SQL来处理SQL语句，从而比Hive拥有更高的性能。 JDBCServer是一个JDBC接口，用户可以通过JDBC连接JDBCServer来访问SparkSQL的数据。JDBCServer在启动的时候，会启动一个sparkSQL的应用程序，而通过JDBC连接进来的客户端共同分享这个sparkSQL应用程序的资源，也就是说不同的用户之间可以共享数据。JDBCServer启动时还会开启一个侦听器，等待JDBC客户端的连接和提交查询。所以，在配置JDBCServer的时候，至少要配置JDBCServer的主机名和端口，如果要使用hive数据的话，还要提供hive metastore的uris。 JDBCServer默认在安装节点上的22550端口起一个JDBC服务（通过参数hive.server2.thrift.port配置），可以通过Beeline或者JDBC客户端代码来连接它，从而执行SQL命令。如果您需要了解JDBCServer的其他信息，请参见Spark官网：http://archive.apache.org/dist/spark/docs/3.3.1/sql-programming-guide.html#distributed-sql-engine。

MapReduce服务 MRS
MapReduce服务 MRS-Structured Streaming的cluster模式，在数据处理过程中终止ApplicationManager，应用失败:问题

问题 Structured Streaming的cluster模式，在数据处理过程中终止ApplicationManager，执行应用时显示如下异常。 2017-05-09 20:46:02,393 | INFO | main | client token: Token { kind: YARN_CLIENT_TOKEN, service: } diagnostics: User class threw exception: org.apache.spark.sql.AnalysisException: This query does not support recovering from checkpoint location. Delete hdfs://hacluster/structuredtest/checkpoint/offsets to start over.; ApplicationMaster host: 10.96.101.170 ApplicationMaster RPC port: 0 queue: default start time: 1494333891969 final status: FAILED tracking URL: https://9-96-101-191:8090/proxy/application_1493689105146_0052/ user: spark2x | org.apache.spark.internal.Logging$class.logInfo(Logging.scala:54)Exception in thread "main" org.apache.spark.SparkException: Application application_1493689105146_0052 finished with failed status

MapReduce服务 MRS
MapReduce服务 MRS-Structured Streaming的cluster模式，在数据处理过程中终止ApplicationManager，应用失败:回答

回答原因分析：显示该异常是因为“recoverFromCheckpointLocation”的值判定为false，但却配置了checkpoint目录。参数“recoverFromCheckpointLocation”的值为代码中“outputMode == OutputMode.Complete()”语句的判断结果（outputMode的默认输出方式为“append”）。处理方法：编写应用时，用户可以根据具体情况修改数据的输出方式。将输出方式修改为“complete”，“recoverFromCheckpointLocation”的值会判定为true。此时配置了checkpoint目录时就不会显示异常。

MapReduce服务 MRS
MapReduce服务 MRS-Spark Python API接口介绍:Spark Streaming常用接口

Spark Streaming常用接口 Spark Streaming中常见的类有： pyspark.streaming.StreamingContext：是Spark Streaming功能的主入口，负责提供创建DStreams的方法，入参中需要设置批次的时间间隔。 pyspark.streaming.DStream：是一种代表RDDs连续序列的数据类型，代表连续数据流。 dsteam.PariDStreamFunctions：键值对的DStream，常见的操作如groupByKey和reduceByKey。对应的Spark Streaming的JAVA API是JavaStreamingContext，JavaDStream和JavaPairDStream。 Spark Streaming的常见方法与Spark Core类似，下表罗列了Spark Streaming特有的一些方法。表3 Spark Streaming常用接口介绍方法说明 socketTextStream(hostname, port, storageLevel) 从TCP源主机：端口创建一个输入流。 start() 启动Spark Streaming计算。 awaitTermination(timeout) 当前进程等待终止，如Ctrl+C等。 stop(stopSparkContext, stopGraceFully) 终止Spark Streaming计算，stopSparkContext用于判断是否需要终止相关的SparkContext，StopGracefully用于判断是否需要等待所有接收到的数据处理完成。 UpdateStateByKey(func) 更新DStream的状态。使用此方法，需要定义State和状态更新函数。 window(windowLength, slideInterval) 根据源DStream的窗口批次计算得到一个新的DStream。 countByWindow(windowLength, slideInterval) 返回流中滑动窗口元素的个数。 reduceByWindow(func, windowLength, slideInterval) 当调用在DStream的KV对上，返回一个新的DStream的KV对，其中每个Key的Value根据滑动窗口中批次的reduce函数聚合得到。 join(other,numPartitions) 实现不同的Spark Streaming之间做合并操作。

MapReduce服务 MRS
MapReduce服务 MRS-Spark Python API接口介绍:SparkSQL常用接口

SparkSQL常用接口 Spark SQL中在Python中重要的类有： pyspark.sql.SQLContext：是Spark SQL功能和DataFrame的主入口。 pyspark.sql.DataFrame：是一个以命名列方式组织的分布式数据集。 pyspark.sql.HiveContext：获取存储在Hive中数据的主入口。 pyspark.sql.DataFrameStatFunctions：统计功能中一些函数。 pyspark.sql.functions：DataFrame中内嵌的函数。 pyspark.sql.Window：sql中提供窗口功能。表4 Spark SQL常用的Action 方法说明 collect() 返回一个数组，包含DataFrame的所有列。 count() 返回DataFrame中的行数。 describe() 计算统计信息，包含计数，平均值，标准差，最小值和最大值。 first() 返回第一行。 head(n) 返回前n行。 show() 用表格形式显示DataFrame。 take(num) 返回DataFrame中的前num行。表5 基本的DataFrame Functions 方法说明 explain() 打印出SQL语句的逻辑计划和物理计划。 printSchema() 打印schema信息到控制台。 registerTempTable(name) 将DataFrame注册为一张临时表，命名为name，其周期和SQLContext绑定在一起。 toDF() 返回一个列重命名的DataFrame。

MapReduce服务 MRS
MapReduce服务 MRS-准备Manager应用开发和运行环境

准备Manager应用开发和运行环境在进行开发时，要准备的开发和运行环境如表1所示。表1 开发和运行环境准备项说明操作系统 Windows系统，支持Windows 7以上版本。本地开发环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置，版本要求如下： JDK版本号应该与用户要访问的 FusionInsight Manager使用的版本号一致，具体的版本号可以查看对应版本文档或咨询系统管理员。例如FusionInsight Manager 8.1.2.2支持的JDK是JDK 1.8.x。安装和配置IntelliJ IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。父主题：准备Manager应用开发环境

MapReduce服务 MRS 准备Manager应用开发环境
MapReduce服务 MRS-Spark同步HBase数据到CarbonData样例程序开发思路:数据规划

数据规划创建HBase表，构造数据，列需要包含key，modify_time，valid。其中每条数据key值全表唯一，modify_time代表修改时间，valid代表是否为有效数据（该样例中'1'为有效，'0'为无效数据）。示例：进入hbase shell，执行如下命令： create 'hbase_table','key','info' put 'hbase_table','1','info:modify_time','2019-11-22 23:28:39' put 'hbase_table','1','info:valid','1' put 'hbase_table','2','info:modify_time','2019-11-22 23:28:39' put 'hbase_table','2','info:valid','1' put 'hbase_table','3','info:modify_time','2019-11-22 23:28:39' put 'hbase_table','3','info:valid','0' put 'hbase_table','4','info:modify_time','2019-11-22 23:28:39' put 'hbase_table','4','info:valid','1' 上述数据的modify_time列可设置为当前时间之前的值。 put 'hbase_table','5','info:modify_time','2021-03-03 15:20:39' put 'hbase_table','5','info:valid','1' put 'hbase_table','6','info:modify_time','2021-03-03 15:20:39' put 'hbase_table','6','info:valid','1' put 'hbase_table','7','info:modify_time','2021-03-03 15:20:39' put 'hbase_table','7','info:valid','0' put 'hbase_table','8','info:modify_time','2021-03-03 15:20:39' put 'hbase_table','8','info:valid','1' put 'hbase_table','4','info:valid','0' put 'hbase_table','4','info:modify_time','2021-03-03 15:20:39' 上述数据的modify_time列可设置为样例程序启动后30分钟内的时间值（此处的30分钟为样例程序默认的同步间隔时间，可修改）。 put 'hbase_table','9','info:modify_time','2021-03-03 15:32:39' put 'hbase_table','9','info:valid','1' put 'hbase_table','10','info:modify_time','2021-03-03 15:32:39' put 'hbase_table','10','info:valid','1' put 'hbase_table','11','info:modify_time','2021-03-03 15:32:39' put 'hbase_table','11','info:valid','0' put 'hbase_table','12','info:modify_time','2021-03-03 15:32:39' put 'hbase_table','12','info:valid','1' 上述数据的modify_time列可设置为样例程序启动后30分钟到60分钟内的时间值，即第二次同步周期。在sparksql中创建HBase的hive外表，命令如下： create table external_hbase_table(key string ,modify_time STRING, valid STRING) using org.apache.spark.sql.hbase.HBaseSource options(hbaseTableName "hbase_table", keyCols "key", colsMapping "modify_time=info.modify_time,valid=info.valid"); 在sparksql中创建CarbonData表： create table carbon01(key string,modify_time STRING, valid STRING) stored as carbondata; 初始化加载当前hbase表中所有数据到CarbonData表； insert into table carbon01 select * from external_hbase_table where valid='1'; 用spark-submit提交命令： spark-submit --master yarn --deploy-mode client --class com.huawei.bigdata.spark.examples.HBaseExternalHivetoCarbon /opt/example/HBaseExternalHivetoCarbon-1.0.jar

MapReduce服务 MRS
MapReduce服务 MRS-建立ClickHouse连接

建立ClickHouse连接本章节介绍建立ClickHouse连接样例代码。以下代码片段在“ClickhouseJDBCHaDemo”类的initConnection方法中。在创建连接时传入表1中配置的user和password作为认证凭据，ClickHouse会带着用户名和密码在服务端进行安全认证。 MRS 3.3.0之前版本，示例代片段参考如下： clickHouseProperties.setPassword(userPass);clickHouseProperties.setUser(userName);BalancedClickhouseDataSource balancedClickhouseDataSource = new BalancedClickhouseDataSource(JDBC_PREFIX + UriList, clickHouseProperties); MRS 3.3.0及之后版本，示例代片段参考如下： clickHouseProperties.setProperty(ClickHouseDefaults.USER.getKey(), userName);clickHouseProperties.setProperty(ClickHouseDefaults.PASSWORD.getKey(), userPass);try { clickHouseProperties.setProperty(ClickHouseClientOption.FAILOVER.getKey(), "21"); clickHouseProperties.setProperty(ClickHouseClientOption.LOAD_BALANCING_POLICY.getKey(), "roundRobin"); balancedClickhouseDataSource = new ClickHouseDataSource(JDBC_PREFIX + UriList, clickHouseProperties);} catch (Exception e) { LOG.error("Failed to create balancedClickHouseProperties."); throw e;} 父主题：开发ClickHouse应用

MapReduce服务 MRS
MapReduce服务 MRS-调测springboot样例程序:在Linux环境中调测ClickHouse Springboot样例程序

在Linux环境中调测ClickHouse Springboot样例程序 ClickHouse springboot应用程序也支持在Linux环境中运行。在程序代码完成开发后，您可以上传Jar包至准备好的Linux运行环境中运行。前提条件 Linux环境已安装JDK，版本号需要和IntelliJ IDEA导出Jar包使用的JDK版本一致，并设置好Java环境变量。编译并运行程序在IDEA中右侧单击“Maven”，展开“Lifecycle”，双击“package”，对当前工程进行打包。使用root用户登录ClickHouse客户端节点，创建运行目录，例如“/opt/test”，在IDEA的“target”目录下获取带有“-with-dependencies”的jar包，并将jar包和idea中conf文件夹一同上传到“/opt/test”目录，如：执行如下命令，配置环境变量并运行jar包： cd 客户端安装路径 source bigdata_env cd /opt/test java -jar clickhouse-examples-1.0-SNAPSHOT-jar-with-dependencies.jar 显示结果如下：调用ClickHouse的SpringBoot样例接口触发样例代码运行： Windows环境运行方式：打开浏览器，输入：http://ClickHouse客户端节点IP:8080/clickhouse/executeQuery，查看浏览器返回信息： ClickHouse springboot client runs normally. Linux环境下执行运行方式：登录ClickHouse客户端节点，执行如下命令，查看linux下shell日志打印和日志文件打印： curl http://localhost:8080/clickhouse/executeQuery vi clickhouse-springboot-example.log

MapReduce服务 MRS
MapReduce服务 MRS-YARN REST API接口介绍:操作步骤

操作步骤获取运行在Yarn上的任务的具体信息。命令： curl -k -i --negotiate -u : "http://10-120-85-2:8088/ws/v1/cluster/apps/" 其中10-120-85-2为ResourceManager主节点的hostname，8088为ResourceManager的端口号。运行结果： { "apps": { "app": [ { "id": "application_1461743120947_0001", "user": "spark", "name": "Spark-JDBCServer", "queue": "default", "state": "RUNNING", "finalStatus": "UNDEFINED", "progress": 10, "trackingUI": "ApplicationMaster", "trackingUrl": "http://10-120-85-2:8088/proxy/application_1461743120947_0001/", "diagnostics": "AM is launched. ", "clusterId": 1461743120947, "applicationType": "SPARK", "applicationTags": "", "startedTime": 1461804906260, "finishedTime": 0, "elapsedTime": 6888848, "amContainerLogs": "http://10-120-85-2:8088/node/containerlogs/container_e12_1461743120947_0001_01_000001/spark", "amHostHttpAddress": "10-120-85-2:8088", "allocatedMB": 1024, "allocatedVCores": 1, "runningContainers": 1, "memorySeconds": 7053309, "vcoreSeconds": 6887, "preemptedResourceMB": 0, "preemptedResourceVCores": 0, "numNonAMContainerPreempted": 0, "numAMContainerPreempted": 0, "resourceRequests": [ { "capability": { "memory": 1024, "virtualCores": 1 }, "nodeLabelExpression": "", "numContainers": 0, "priority": { "priority": 0 }, "relaxLocality": true, "resourceName": "*" } ], "logAggregationStatus": "NOT_START", "amNodeLabelExpression": "" }, { "id": "application_1461722876897_0002", "user": "admin", "name": "QuasiMonteCarlo", "queue": "default", "state": "FINISHED", "finalStatus": "SUCCEEDED", "progress": 100, "trackingUI": "History", "trackingUrl": "http://10-120-85-2:8088/proxy/application_1461722876897_0002/", "diagnostics": "Attempt recovered after RM restart", "clusterId": 1461743120947, "applicationType": "MAPREDUCE", "applicationTags": "", "startedTime": 1461741052993, "finishedTime": 1461741079483, "elapsedTime": 26490, "amContainerLogs": "http://10-120-85-2:8088/node/containerlogs/container_e11_1461722876897_0002_01_000001/admin", "amHostHttpAddress": "10-120-85-2:8088", "allocatedMB": -1, "allocatedVCores": -1, "runningContainers": -1, "memorySeconds": 158664, "vcoreSeconds": 52, "preemptedResourceMB": 0, "preemptedResourceVCores": 0, "numNonAMContainerPreempted": 0, "numAMContainerPreempted": 0, "amNodeLabelExpression": "" } ] }} 结果分析：通过这个接口，可以查询当前集群中Yarn上的任务，并且可以得到如下表1。表1 常用信息参数参数描述 user 运行这个任务的用户。 applicationType 例如MAPREDUCE或者SPARK等。 finalStatus 可以知道任务是成功还是失败。 elapsedTime 任务运行的时间。获取Yarn资源的总体信息命令： curl -k -i --negotiate -u : "http://10-120-85-102:8088/ws/v1/cluster/metrics" 运行结果： { "clusterMetrics": { "appsSubmitted": 2, "appsCompleted": 1, "appsPending": 0, "appsRunning": 1, "appsFailed": 0, "appsKilled": 0, "reservedMB": 0, "availableMB": 23552, "allocatedMB": 1024, "reservedVirtualCores": 0, "availableVirtualCores": 23, "allocatedVirtualCores": 1, "containersAllocated": 1, "containersReserved": 0, "containersPending": 0, "totalMB": 24576, "totalVirtualCores": 24, "totalNodes": 3, "lostNodes": 0, "unhealthyNodes": 0, "decommissionedNodes": 0, "rebootedNodes": 0, "activeNodes": 3, "rmMainQueueSize": 0, "schedulerQueueSize": 0, "stateStoreQueueSize": 0 }} 结果分析：通过这个接口，可以查询当前集群中如表2。表2 常用信息参数参数描述 appsSubmitted 已经提交的任务数。 appsCompleted 已经完成的任务数。 appsPending 正在挂起的任务数。 appsRunning 正在运行的任务数。 appsFailed 已经失败的任务数。 appsKilled 已经被kill的任务数。 totalMB Yarn资源总的内存。 totalVirtualCores Yarn资源总的VCore数。

MapReduce服务 MRS
MapReduce服务 MRS-在Linux环境中调测ClickHouse应用（MRS 3.3.0及之后版本）:查看调测结果

查看调测结果 ClickHouse应用程序运行完成后，可通过以下方式查看程序运行情况：通过运行结果查看程序运行情况。通过ClickHouse日志获取应用运行情况。即查看当前jar文件所在目录的“logs/clickhouse-example.log”日志文件，例如“客户端安装目录/JDBC/logs/clickhouse-example.log”或“客户端安装目录/JDBCTransaction/logs/clickhouse-example.log”。 jar包运行结果如下： 2021-06-10 20:53:56,028 | INFO | main | Current load balancer is 10.112.17.150:21426 | com.huawei.clickhouse.examples.Util.insertData(Util.java:128)2021-06-10 20:53:58,247 | INFO | main | Inert batch time is 1442 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:53:59,649 | INFO | main | Inert batch time is 1313 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:05,872 | INFO | main | Inert batch time is 6132 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:10,223 | INFO | main | Inert batch time is 4272 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:11,614 | INFO | main | Inert batch time is 1300 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:12,871 | INFO | main | Inert batch time is 1200 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:14,589 | INFO | main | Inert batch time is 1663 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:16,141 | INFO | main | Inert batch time is 1500 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:17,690 | INFO | main | Inert batch time is 1498 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:19,206 | INFO | main | Inert batch time is 1468 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:145)2021-06-10 20:54:19,207 | INFO | main | Inert all batch time is 22626 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:148)2021-06-10 20:54:19,208 | INFO | main | Current load balancer is 10.112.17.150:21426 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:58)2021-06-10 20:54:20,231 | INFO | main | Execute query:select * from mutong1.testtb_all order by age limit 10 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:63)2021-06-10 20:54:21,266 | INFO | main | Execute time is 1035 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:67)2021-06-10 20:54:21,267 | INFO | main | Current load balancer is 10.112.17.150:21426 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:58)2021-06-10 20:54:21,815 | INFO | main | Execute query:select toYYYYMM(date),count(1) from mutong1.testtb_all group by toYYYYMM(date) order by count(1) DESC limit 10 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:63)2021-06-10 20:54:22,897 | INFO | main | Execute time is 1082 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:67)2021-06-10 20:54:22,898 | INFO | main | nameagedate | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,898 | INFO | main | huawei_26602021-12-19 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_250002021-12-29 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_898002021-12-16 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_67102021-12-29 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_222502021-12-12 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_604002021-12-14 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_729402021-12-10 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,899 | INFO | main | huawei_113302021-12-25 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | huawei_316102021-12-21 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | huawei_399202021-11-25 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | toYYYYMM(date)count() | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | 2019102247 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | 2021052213 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | 2018012208 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,900 | INFO | main | 2018032204 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2018102167 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2018052166 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2019012164 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2019082145 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2019122143 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)2021-06-10 20:54:22,901 | INFO | main | 2021072137 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:144)

MapReduce服务 MRS
MapReduce服务 MRS-在本地Windows环境中调测ClickHouse应用（MRS 3.3.0及之后版本）:查看调测结果

查看调测结果 ClickHouse应用程序运行完成后，可通过以下方式查看程序运行情况：通过运行结果查看程序运行情况。通过ClickHouse日志获取应用运行情况，即“logs”目录下的日志文件：clickhouse-example.log。运行clickhouse-examples的完整样例后，控制台显示部分运行结果如下： 2023-09-19 16:20:48,344 | INFO | main | loadBalancerIPList is 192.168.5.132, loadBalancerHttpPort is 21422, user is ck_user, clusterName is default_cluster, isSec is true, password is Admin12!. | com.huawei.clickhouse.examples.Demo.main(Demo.java:42)2023-09-19 16:20:48,350 | INFO | main | ckLbServerList current member is 0, ClickhouseBalancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Demo.getCkLbServerList(Demo.java:110)2023-09-19 16:20:48,436 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:20:50,781 | INFO | main | Execute query:drop table if exists testdb.testtb on cluster default_cluster no delay | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:20:51,504 | INFO | main | Execute time is 723 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:20:51,511 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:20:51,897 | INFO | main | Execute query:drop table if exists testdb.testtb_all on cluster default_cluster no delay | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:20:52,421 | INFO | main | Execute time is 524 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:20:52,422 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:20:52,946 | INFO | main | Execute query:create database if not exists testdb on cluster default_cluster | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:20:53,405 | INFO | main | Execute time is 458 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:20:53,406 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:20:53,757 | INFO | main | Execute query:create table testdb.testtb on cluster default_cluster (name String, age UInt8, date Date)engine=ReplicatedMergeTree('/clickhouse/tables/{shard}/testdb.testtb','{replica}') partition by toYYYYMM(date) order by age | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:20:54,243 | INFO | main | Execute time is 485 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:20:54,244 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:20:54,640 | INFO | main | Execute query:create table testdb.testtb_all on cluster default_cluster as testdb.testtb ENGINE = Distributed(default_cluster,testdb,testtb, rand()); | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:20:55,175 | INFO | main | Execute time is 535 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:20:55,175 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.insertData(Util.java:143)2023-09-19 16:20:58,868 | INFO | main | Insert batch time is 503 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:160)2023-09-19 16:21:01,015 | INFO | main | Insert batch time is 631 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:160)2023-09-19 16:21:02,521 | INFO | main | Inert all batch time is 4163 ms | com.huawei.clickhouse.examples.Util.insertData(Util.java:164)2023-09-19 16:21:02,522 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:21:03,051 | INFO | main | Execute query:select * from testdb.testtb_all order by age limit 10 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:21:03,430 | INFO | main | Execute time is 379 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:21:03,433 | INFO | main | Current load balancer is 192.168.5.132:21422 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:68)2023-09-19 16:21:03,760 | INFO | main | Execute query:select toYYYYMM(date),count(1) from testdb.testtb_all group by toYYYYMM(date) order by count(1) DESC limit 10 | com.huawei.clickhouse.examples.Util.exeSql(Util.java:73)2023-09-19 16:21:04,361 | INFO | main | Execute time is 600 ms | com.huawei.clickhouse.examples.Util.exeSql(Util.java:77)2023-09-19 16:21:04,362 | INFO | main | nameagedate | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,362 | INFO | main | huawei_9122021-04-20 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,362 | INFO | main | huawei_17152021-05-23 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_5242021-04-15 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_13392020-07-04 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_3492021-06-27 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_15502020-06-26 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_11532020-08-14 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_12562021-12-19 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_19572021-10-31 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | huawei_0572020-03-01 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,363 | INFO | main | toYYYYMM(date)count() | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2021053 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2021102 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2021042 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2020082 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2020072 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2021062 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2020121 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2021091 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,364 | INFO | main | 2020031 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:04,365 | INFO | main | 2020111 | com.huawei.clickhouse.examples.Demo.queryData(Demo.java:158)2023-09-19 16:21:05,044 | INFO | main | Name is: huawei_9, age is: 12 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,044 | INFO | main | Name is: huawei_17, age is: 15 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_5, age is: 24 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_13, age is: 39 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_3, age is: 49 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_15, age is: 50 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_11, age is: 53 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_12, age is: 56 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,045 | INFO | main | Name is: huawei_19, age is: 57 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)2023-09-19 16:21:05,046 | INFO | main | Name is: huawei_0, age is: 57 | com.huawei.clickhouse.examples.ClickhouseJDBCHaDemo.queryData(ClickhouseJDBCHaDemo.java:78)Process finished with exit code 0

MapReduce服务 MRS
MapReduce服务 MRS-ClickHouse应用开发简介:ClickHouse简介

ClickHouse简介 ClickHouse是面向联机分析处理的列式数据库，支持SQL查询，且查询性能好，特别是基于大宽表的聚合分析查询性能非常优异，比其他分析型数据库速度快一个数量级。 ClickHouse的设计优点：数据压缩比高多核并行计算向量化计算引擎支持嵌套数据结构支持稀疏索引支持数据Insert和Update ClickHouse的应用场景：实时数仓场景使用流式计算引擎（如Flink）把实时数据写入ClickHouse，借助ClickHouse的优异查询性能，在亚秒级内响应多维度、多模式的实时查询分析请求。离线查询场景把规模庞大的业务数据导入到ClickHouse，构造数亿至数百亿记录规模、数百以上的维度的大宽表，随时进行个性化统计和持续探索式查询分析，辅助商业决策，具有非常好的查询体验。

MapReduce服务 MRS ClickHouse开发指南（普通模式）
MapReduce服务 MRS-创建ClickHouse数据库

创建ClickHouse数据库本章节介绍创建ClickHouse数据库样例代码。通过on cluster语句在集群中创建表1中以databaseName参数值为数据库名的数据库。示例代片段参考如下： private void createDatabase(String databaseName, String clusterName) throws Exception { String createDbSql = "create database if not exists " + databaseName + " on cluster " + clusterName; util.exeSql(createDbSql);} 父主题：开发ClickHouse应用

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！