华为云用户手册

MapReduce服务 MRS-初始化HDFS:配置文件介绍

配置文件介绍登录HDFS时会使用到如表1所示的配置文件。这些文件均已导入到“hdfs-example-security”工程的“conf”目录。表1 配置文件文件名称作用 core-site.xml 配置HDFS详细参数。 hdfs-site.xml 配置HDFS详细参数。 user.keytab 对于Kerberos安全认证提供HDFS用户信息。 krb5.conf Kerberos server配置信息。不同集群的“user.keytab”、“krb5.conf”不能共用。 “conf”目录下的“log4j.properties”文件，客户可根据自己的需要进行配置。

MapReduce服务 MRS
MapReduce服务 MRS-准备HDFS应用开发和运行环境:准备开发环境

准备开发环境在进行应用开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows7以上版本。运行环境：Windows或Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置，版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。准备开发用户参考准备 MRS 应用开发用户进行操作，准备用于应用开发的集群用户并授予相应权限。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。

MapReduce服务 MRS
MapReduce服务 MRS-初始化HDFS:代码样例

代码样例如下是代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples的HdfsExample类。在Linux客户端运行应用和在Windows环境下运行应用的初始化代码相同，代码样例如下所示。 // 完成初始化和认证 confLoad(); authentication(); // 创建一个用例 HdfsExample hdfs_examples = new HdfsExample("/user/hdfs-examples", "test.txt"); /** * * 如果程序运行在Linux上，则需要core-site.xml、hdfs-site.xml的路径修改 * 为在Linux下客户端文件的绝对路径 * * */ private static void confLoad() throws IOException { conf = new Configuration(); // conf file conf.addResource(new Path(PATH_TO_HDFS_SITE_XML)); conf.addResource(new Path(PATH_TO_CORE_SITE_XML)); // conf.addResource(new Path(PATH_TO_SMALL_SITE_XML)); } /** *安全认证 * */ private static void authentication() throws IOException { // security mode if ("kerberos".equalsIgnoreCase(conf.get("hadoop.security.authentication"))) { System.setProperty("java.security.krb5.conf", PATH_TO_KRB5_CONF); LoginUtil.login(PRNCIPAL_NAME, PATH_TO_KEYTAB, PATH_TO_KRB5_CONF, conf); } } /** *创建用例 */ public HdfsExample(String path, String fileName) throws IOException { this.DEST_PATH = path; this.FILE_NAME = fileName; instanceBuild(); } private void instanceBuild() throws IOException { fSystem = FileSystem.get(conf); }

MapReduce服务 MRS
MapReduce服务 MRS-HDFS应用开发流程介绍

HDFS应用开发流程介绍开发流程中各阶段的说明如图1和表1所示。图1 HDFS应用程序开发流程表1 HDFS应用开发的流程说明阶段说明参考文档了解基本概念在开始开发应用前，需要了解HDFS的基本概念。 HDFS应用开发简介准备开发和运行环境使用IntelliJ IDEA工具，请根据指导完成开发环境配置。 HDFS的运行环境即HDFS客户端，请根据指导完成客户端的安装和配置。准备HDFS应用开发和运行环境准备工程 HDFS提供了不同场景下的样例程序，可以导入样例工程进行程序学习。导入并配置HDFS样例工程准备安全认证如果使用的是安全集群，需要进行安全认证。配置HDFS应用安全认证根据场景开发工程提供样例工程，帮助用户快速了解HDFS各部件的编程接口。开发HDFS应用编译并运行程序指导用户将开发好的程序编译并提交运行。调测HDFS应用查看程序运行结果程序运行结果会写在用户指定的路径下。用户还可以通过UI查看应用运行情况。调测HDFS应用父主题： HDFS开发指南（安全模式）

MapReduce服务 MRS HDFS开发指南（安全模式）
MapReduce服务 MRS-修改HBase表:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testModifyTable方法中。 public void testModifyTable() { LOG .info("Entering testModifyTable."); // Specify the column family name. byte[] familyName = Bytes.toBytes("education"); Admin admin = null; try { // Instantiate an Admin object. admin = conn.getAdmin(); // Obtain the table descriptor. TableDescriptor htd = admin.getTableDescriptor(tableName); // Check whether the column family is specified before modification. if (!htd.hasColumnFamily(familyName)) { // Create the column descriptor. TableDescriptor tableBuilder = TableDescriptorBuilder.newBuilder(htd) .setColumnFamily(ColumnFamilyDescriptorBuilder.newBuilder(familyName).build()).build(); // Disable the table to get the table offline before modifying // the table. admin.disableTable(tableName);//注[1] // Submit a modifyTable request. admin.modifyTable(tableBuilder); // Enable the table to get the table online after modifying the // table. admin.enableTable(tableName); } LOG.info("Modify table successfully."); } catch (IOException e) { LOG.error("Modify table failed " ,e); } finally { if (admin != null) { try { // Close the Admin object. admin.close(); } catch (IOException e) { LOG.error("Close admin failed " ,e); } } } LOG.info("Exiting testModifyTable."); }

MapReduce服务 MRS
MapReduce服务 MRS-HBase样例程序开发思路:场景说明

场景说明假定用户开发一个应用程序，用于管理企业中的使用A业务的用户信息，如表1所示，A业务操作流程如下：创建用户信息表。在用户信息中新增用户的学历、职称等信息。根据用户编号查询用户姓名和地址。根据用户姓名进行查询。查询年龄段在[20-29]之间的用户信息。数据统计，统计用户信息表的人员数、年龄最大值、年龄最小值、平均年龄。用户销户，删除用户信息表中该用户的数据。 A业务结束后，删除用户信息表。表1 用户信息编号姓名性别年龄地址 12005000201 张三男 19 广东省深圳市 12005000202 李婉婷女 23 河北省石家庄市 12005000203 王明男 26 浙江省宁波市 12005000204 李刚男 18 湖北省襄阳市 12005000205 赵恩如女 21 江西省上饶市 12005000206 陈龙男 32 湖南省株洲市 12005000207 周微女 29 河南省南阳市 12005000208 杨艺文女 30 重庆市开县 12005000209 徐兵男 26 陕西省渭南市 12005000210 肖凯男 25 辽宁省大连市

MapReduce服务 MRS
MapReduce服务 MRS-HBase样例程序开发思路:功能分解

功能分解根据上述的业务场景进行功能分解，需要开发的功能点如表2所示。表2 在HBase中开发的功能序号步骤代码实现 1 根据表1中的信息创建表。请参见创建HBase表。 2 导入用户数据。请参见向HBase表中插入数据。 3 增加“教育信息”列族，在用户信息中新增用户的学历、职称等信息。请参见修改HBase表。 4 根据用户编号查询用户姓名和地址。请参见使用Get API读取HBase表数据。 5 根据用户姓名进行查询。请参见使用Filter过滤器读取HBase表数据。 6 为提升查询性能，创建二级索引或者删除二级索引。请参见创建HBase表二级索引和基于二级索引查询HBase表数据。 7 用户销户，删除用户信息表中该用户的数据。请参见删除HBase表数据。 8 A业务结束后，删除用户信息表。请参见删除HBase表。

MapReduce服务 MRS
MapReduce服务 MRS-在Linux环境中调测HBase应用:前提条件

前提条件已安装客户端时：已安装HBase客户端。当客户端所在主机不是集群中的节点时，需要在客户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。未安装HBase客户端时： Linux环境已安装JDK，版本号需要和IntelliJ IDEA导出Jar包使用的JDK版本一致。当Linux环境所在主机不是集群中的节点时，需要在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。

MapReduce服务 MRS
MapReduce服务 MRS-HBase应用开发流程介绍

HBase应用开发流程介绍本文档主要基于Java API对HBase进行应用开发。开发流程中各阶段的说明如图1和表1所示。图1 HBase应用程序开发流程表1 HBase应用开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用Java语言进行开发，使用IntelliJ IDEA工具，同时完成JDK、Maven等初始配置。准备本地应用开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括集群组件信息文件以及用于安全认证的用户文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts 域名信息。准备连接HBase集群配置文件配置并导入样例工程 HBase提供了不同场景下的多种样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。导入并配置HBase样例工程配置安全认证如果您使用的是开启了Kerberos认证的MRS集群，需要进行安全认证。配置HBase应用安全认证根据业务场景开发程序根据实际业务场景开发程序，调用组件接口实现对应功能。开发HBase应用编译并运行程序将开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。调测HBase应用父主题： HBase应用开发概述

MapReduce服务 MRS
MapReduce服务 MRS-使用Get API读取HBase表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testGet方法中。 public void testGet() { LOG.info("Entering testGet."); // Specify the column family name. byte[] familyName = Bytes.toBytes("info"); // Specify the column name. byte[][] qualifier = { Bytes.toBytes("name"), Bytes.toBytes("address") }; // Specify RowKey. byte[] rowKey = Bytes.toBytes("012005000201"); Table table = null; try { // Create the Table instance. table = conn.getTable(tableName); // Instantiate a Get object. Get get = new Get(rowKey); // Set the column family name and column name. get.addColumn(familyName, qualifier[0]); get.addColumn(familyName, qualifier[1]); // Submit a get request. Result result = table.get(get); // Print query results. for (Cell cell : result.rawCells()) { LOG.info("{}:{},{},{}", Bytes.toString(CellUtil.cloneRow(cell)), Bytes.toString(CellUtil.cloneFamily(cell)), Bytes.toString(CellUtil.cloneQualifier(cell)), Bytes.toString(CellUtil.cloneValue(cell))); } LOG.info("Get data successfully."); } catch (IOException e) { LOG.error("Get data failed " ,e); } finally { if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed " ,e); } } } LOG.info("Exiting testGet."); }

MapReduce服务 MRS HBase数据读写样例程序
MapReduce服务 MRS-HBase访问多个ZooKeeper样例程序:代码样例

代码样例以下代码片段在“hbase-zk-example\src\main\java\com\huawei\hadoop\hbase\example”包的“TestZKSample”类中，用户主要需要关注“login”和“connectApacheZK”这两个方法。 private static void login(String keytabFile, String principal) throws IOException { conf = HBaseConfiguration.create(); //In Windows environment String confDirPath = TestZKSample.class.getClassLoader().getResource("").getPath() + File.separator;[1] //In Linux environment //String confDirPath = System.getProperty("user.dir") + File.separator + "conf" + File.separator; // Set zoo.cfg for hbase to connect to fi zookeeper. conf.set("hbase.client.zookeeper.config.path", confDirPath + "zoo.cfg"); if (User.isHBaseSecurityEnabled(conf)) { // jaas.conf file, it is included in the client pakcage file System.setProperty("java.security.auth.login.config", confDirPath + "jaas.conf"); // set the kerberos server info,point to the kerberosclient System.setProperty("java.security.krb5.conf", confDirPath + "krb5.conf"); // set the keytab file name conf.set("username.client.keytab.file", confDirPath + keytabFile); // set the user's principal try { conf.set("username.client.kerberos.principal", principal); User.login(conf, "username.client.keytab.file", "username.client.kerberos.principal", InetAddress.getLocalHost().getCanonicalHostName()); } catch (IOException e) { throw new IOException("Login failed.", e); } } } private void connectApacheZK() throws IOException, org.apache.zookeeper.KeeperException { try { // Create apache zookeeper connection. ZooKeeper digestZk = new ZooKeeper("127.0.0.1:2181", 60000, null); LOG.info("digest directory：{}", digestZk.getChildren("/", null)); LOG.info("Successfully connect to apache zookeeper."); } catch (InterruptedException e) { LOG.error("Found error when connect apache zookeeper ", e); } }

MapReduce服务 MRS
MapReduce服务 MRS-使用IBM JDK产生异常，提示“Problem performing GSS wrap”信息:回答

回答问题原因：在IBM JDK下建立的JDBC connection时间超过登录用户的认证超时时间（默认一天），导致认证失败。 IBM JDK的机制跟Oracle JDK的机制不同，IBM JDK在认证登录后的使用过程中做了时间检查却没有检测外部的时间更新，导致即使显式调用relogin也无法得到刷新。解决措施：通常情况下，在发现JDBC connection不可用的时候，可以关闭该connection，重新创建一个connection继续执行。

MapReduce服务 MRS
MapReduce服务 MRS-SparkStreaming批量写入HBase表:打包项目

打包项目通过IDEA自带的Maven工具，打包项目，生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。将打包生成的jar包上传到Spark客户端所在服务器的任意目录（例如“$SPARK_HOME” ）下。若运行“Spark on HBase”样例程序，需要在Spark客户端的“spark-defaults.conf”配置文件中将配置项“spark.yarn.security.credentials.hbase.enabled”设置为“true”（该参数值默认为“false”，改为“true”后对已有业务没有影响。如果要卸载HBase服务，卸载前请将此参数值改回“false”），将配置项“spark.inputFormat.cache.enabled”设置为“false”。

MapReduce服务 MRS Spark读取HBase表样例程序
MapReduce服务 MRS-SparkStreaming批量写入HBase表:提交命令

提交命令假设用例代码打包后的jar包名为spark-hbaseContext-test-1.0.jar，并将jar包放在客户端“$SPARK_HOME”目录下，以下命令均在“$SPARK_HOME”目录执行，Java接口对应的类名前有Java字样，请参考具体样例代码进行书写。 yarn-client模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例），${ip}请使用实际执行nc -lk 9999的命令的机器ip bin/spark-submit --master yarn --deploy-mode client --class com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample SparkOnHbaseJavaExample-1.0.jar ${ip} 9999 streamingTable cf1 python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --jars SparkOnHbaseJavaExample-1.0.jar HBaseStreamingBulkPutExample.py ${ip} 9999 streamingTable cf1 yarn-cluster模式： java/scala版本（类名等请与实际代码保持一致，此处仅为示例），${ip}请使用实际执行nc -lk 9999的命令的机器ip bin/spark-submit --master yarn --deploy-mode client --deploy-mode cluster --class com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample SparkOnHbaseJavaExample-1.0.jar ${ip} 9999 streamingTable cf1 python版本（文件名等请与实际保持一致，此处仅为示例） bin/spark-submit --master yarn --deploy-mode cluster --jars SparkOnHbaseJavaExample-1.0.jar HBaseStreamingBulkPutExample.py ${ip} 9999 streamingTable cf1

MapReduce服务 MRS Spark读取HBase表样例程序
MapReduce服务 MRS-SparkStreaming批量写入HBase表:Python样例代码

Python样例代码下面代码片段仅为演示，具体代码参见SparkOnHbasePythonExample中HBaseStreamingBulkPutExample文件： # -*- coding:utf-8 -*-"""【说明】由于pyspark不提供Hbase相关api,本样例使用Python调用Java的方式实现"""from py4j.java_gateway import java_importfrom pyspark.sql import SparkSession# 创建SparkSessionspark = SparkSession\ .builder\ .appName("JavaHBaseStreamingBulkPutExample")\ .getOrCreate()# 向sc._jvm中导入要运行的类java_import(spark._jvm, 'com.huawei.bigdata.spark.examples.streaming.JavaHBaseStreamingBulkPutExample')# 创建类实例并调用方法，传递sc._jsc参数spark._jvm.JavaHBaseStreamingBulkPutExample().execute(spark._jsc, sys.argv)# 停止SparkSessionspark.stop()

MapReduce服务 MRS Spark读取HBase表样例程序
MapReduce服务 MRS-在客户端安装节点的/tmp目录下残留了很多blockmgr-开头和spark-开头的目录:回答

回答 Spark任务在运行过程中，driver会创建一个spark-开头的本地临时目录，用于存放业务jar包，配置文件等，同时在本地创建一个blockmgr-开头的本地临时目录，用于存放block data。此两个目录会在Spark应用运行结束时自动删除。此两个目录的存放路径优先通过SPARK_LOCAL_DIRS环境变量指定，若不存在该环境变量，则设置为spark.local.dir的值，若此配置还不存在，则使用java.io.tmpdir的值。客户端默认配置中spark.local.dir被设置为/tmp，因此默认使用系统/tmp目录。但存在一些特殊情况，如driver进程未正常退出，比如被kill -9命令结束进程，或者Java虚拟机直接崩溃等场景，导致driver的退出流程未正常执行，则可能导致该部分目录无法被正常清理，残留在系统中。当前只有yarn-client模式和local模式的driver进程会产生上述问题，在yarn-cluster模式中，已将container内进程的临时目录设置为container临时目录，当container退出时，由container自动清理该目录，因此yarn-cluster模式不存在此问题。

MapReduce服务 MRS
MapReduce服务 MRS-SparkStreaming批量写入HBase表:数据规划

数据规划在客户端执行hbase shell进入HBase命令行。在HBase命令执行下面的命令创建HBase表： create 'streamingTable','cf1' 在客户端另外一个session通过linux命令构造一个端口进行接收数据（不同操作系统的机器，命令可能不同，suse尝试使用netcat -lk 9999）： nc -lk 9999 在构造一个端口进行接收数据时，需要在客户端所在服务器上安装netcat

MapReduce服务 MRS Spark读取HBase表样例程序
MapReduce服务 MRS-导入并配置Spark样例工程:样例代码路径说明

样例代码路径说明表1 样例代码路径说明样例代码项目样例名称样例语言 SparkJavaExample Spark Core程序 Java SparkScalaExample Spark Core程序 Scala SparkPythonExample Spark Core程序 Python SparkSQLJavaExample Spark SQL程序 Java SparkSQLScalaExample Spark SQL程序 Scala SparkSQLPythonExample Spark SQL程序 Python SparkThriftServerJavaExample 通过JDBC访问Spark SQL的程序 Java SparkThriftServerScalaExample 通过JDBC访问Spark SQL的程序 Scala SparkOnHbaseJavaExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Java SparkOnHbaseScalaExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Scala SparkOnHbasePythonExample-AvroSource Spark on HBase 程序-操作Avro格式数据 Python SparkOnHbaseJavaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Java SparkOnHbaseScalaExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Scala SparkOnHbasePythonExample-HbaseSource Spark on HBase 程序-操作HBase数据源 Python SparkOnHbaseJavaExample-JavaHBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Java SparkOnHbaseScalaExample-HBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Scala SparkOnHbasePythonExample-HBaseBulkPutExample Spark on HBase 程序-BulkPut接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Java SparkOnHbaseScalaExample-HBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Scala SparkOnHbasePythonExample-HBaseBulkGetExample Spark on HBase 程序-BulkGet接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Java SparkOnHbaseScalaExample-HBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Scala SparkOnHbasePythonExample-HBaseBulkDeleteExample Spark on HBase 程序-BulkDelete接口使用 Python SparkOnHbaseJavaExample-JavaHBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Java SparkOnHbaseScalaExample-HBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Scala SparkOnHbasePythonExample-HBaseBulkLoadExample Spark on HBase 程序-BulkLoad接口使用 Python SparkOnHbaseJavaExample-JavaHBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Java SparkOnHbaseScalaExample-HBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Scala SparkOnHbasePythonExample-HBaseForEachPartitionExample Spark on HBase 程序-foreachPartition接口使用 Python SparkOnHbaseJavaExample-JavaHBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Java SparkOnHbaseScalaExample-HBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Scala SparkOnHbasePythonExample-HBaseDistributedScanExample Spark on HBase 程序-分布式Scan HBase表 Python SparkOnHbaseJavaExample-JavaHBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Java SparkOnHbaseScalaExample-HBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Scala SparkOnHbasePythonExample-HBaseMapPartitionExample Spark on HBase 程序-mapPartitions接口使用 Python SparkOnHbaseJavaExample-JavaHBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Java SparkOnHbaseScalaExample-HBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Scala SparkOnHbasePythonExample-HBaseStreamingBulkPutExample Spark on HBase 程序-SparkStreaming批量写入HBase表 Python SparkHbasetoHbaseJavaExample 从HBase读取数据再写入HBase Java SparkHbasetoHbaseScalaExample 从HBase读取数据再写入HBase Scala SparkHbasetoHbasePythonExample 从HBase读取数据再写入HBase Python SparkHivetoHbaseJavaExample 从Hive读取数据再写入HBase Java SparkHivetoHbaseScalaExample 从Hive读取数据再写入HBase Scala SparkHivetoHbasePythonExample 从Hive读取数据再写入HBase Python SparkStreamingKafka010JavaExample Spark Streaming对接Kafka0-10程序 Java SparkStreamingKafka010ScalaExample Spark Streaming对接Kafka0-10程序 Scala SparkStructuredStreamingJavaExample Structured Streaming程序 Java SparkStructuredStreamingScalaExample Structured Streaming程序 Scala SparkStructuredStreamingPythonExample Structured Streaming程序 Python StructuredStreamingADScalaExample Structured Streaming流流Join Scala StructuredStreamingStateScalaExample Structured Streaming 状态操作 Scala SparkOnHudiJavaExample 使用Spark执行Hudi基本操作 Java SparkOnHudiPythonExample 使用Spark执行Hudi基本操作 Python SparkOnHudiScalaExample 使用Spark执行Hudi基本操作 Scala

MapReduce服务 MRS
MapReduce服务 MRS-准备ClickHouse应用开发环境

准备ClickHouse应用开发环境在进行应用开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows7以上版本。运行环境：Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置。版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 开发环境的基本配置，建议使用2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。 7-zip 用于解压“*.zip”和“*.rar”文件，支持7-Zip 16.04版本。父主题：准备ClickHouse应用开发环境

MapReduce服务 MRS 准备ClickHouse应用开发环境
MapReduce服务 MRS-运行Producer.java样例运行获取元数据失败如何处理:解决步骤

解决步骤检查工程conf目录下“client.properties”中配置的“bootstrap.servers”配置值中访问的IP和端口是否正确。如果IP与Kafka集群部署的业务IP不一致，那么需要修改为当前集群正确的IP地址。如果配置中的端口为21007（开启kerberos认证模式端口），那么修改该端口为9092（没有开启kerberos认证模式端口）。检查网络是否正常，确保当前机器能够正常访问Kafka集群。

MapReduce服务 MRS Kafka应用开发常见问题
MapReduce服务 MRS-Kafka应用开发环境简介

Kafka应用开发环境简介 Kafka开发应用时，需要准备的开发环境如下表所示：表1 开发环境准备项说明操作系统 Windows系统，推荐Windows 7以上版本。安装JDK和Maven 开发环境的基本配置。JDK版本要求：1.7或者1.8。Maven版本要求：3.3.0及以上安装和配置Eclipse或IntelliJ IDEA 用于开发Kafka应用程序的工具。网络确保本地与Kafka服务所在的VPC的至少一个节点在网络上互通。访问云服务器的安全认证本地可以通过密钥或密码方式登录访问Linux弹性云服务器父主题：准备Kafka应用开发环境

MapReduce服务 MRS
MapReduce服务 MRS-Storm-HBase开发指引:应用开发操作步骤

应用开发操作步骤确认Storm和HBase组件已经安装，并正常运行。将storm-examples导入到Eclipse开发环境，请参见导入并配置Storm样例工程。如果集群启用了安全服务，按登录方式分为以下两种。 keytab方式：需要从管理员处获取一个“人机”用户，用于认证，并且获取到该用户的keytab文件。票据方式：从管理员处获取一个“人机”用户，用于后续的安全登录，开启Kerberos服务的renewable和forwardable开关并且设置票据刷新周期，开启成功后重启kerberos及相关组件。获取的用户需要属于storm组。 Kerberos服务的renewable、forwardable开关和票据刷新周期的设置在Kerberos服务的配置页面的“系统”标签下，票据刷新周期的修改可以根据实际情况修改“kdc_renew_lifetime”和“kdc_max_renewable_life”的值。下载并安装HBase客户端程序。获取相关配置文件。获取方法如下。在安装好的hbase客户端目录下找到目录“/opt/client/HBase/hbase/conf”，在该目录下获取到core-site.xml、hdfs-site.xml、hbase-site.xml配置文件。将这些文件拷贝到示例工程的 src/main/resources目录。如果使用keytab登录方式，按3获取keytab文件；如果使用票据方式，则无需获取额外的配置文件。获取到的keytab文件默认文件名为user.keytab，若用户需要修改，可直接修改文件名，但在提交任务时需要额外上传修改后的文件名作为参数。

MapReduce服务 MRS
MapReduce服务 MRS-Storm-HBase开发指引:部署运行及结果查看

部署运行及结果查看在Storm示例代码根目录执行如下命令打包："mvn package"。执行成功后，将会在target目录生成storm-examples-1.0.jar。执行命令提交拓扑。 keytab方式下，若用户修改了keytab文件名，如修改为“huawei.keytab”，则需要在命令中增加第二个参数进行说明，提交命令示例（拓扑名为hbase-test）： storm jar /opt/jartarget/storm-examples-1.0.jar com.huawei.storm.example.hbase.SimpleHBaseTopology hbase-test huawei.keytab 安全模式下在提交source.jar之前，请确保已经进行kerberos安全登录，并且keytab方式下，登录用户和所上传keytab所属用户必须是同一个用户。因为示例中的HBaseBolt并没有建表功能，在提交之前确保hbase中存在相应的表，若不存在需要手动建表，hbase shell建表语句如下create 'WordCount', 'cf'。安全模式下hbase需要用户有相应表甚至列族和列的访问权限，因此首先需要在hbase所在集群上使用hbase管理员用户登录，之后在hbase shell中使用grant命令给提交用户申请相应表的权限，如示例中的WordCount，成功之后再使用提交用户登录并提交拓扑。拓扑提交成功后请自行登录HBase集群查看WordCount表是否有数据生成。如果使用票据登录，则需要使用命令行定期上传票据，具体周期由票据刷新截止时间而定，步骤如下。在安装好的storm客户端目录的Storm/storm-0.10.0/conf/storm.yaml文件尾部新起一行添加如下内容。 topology.auto-credentials: - backtype.storm.security.auth.kerberos.AutoTGT 执行命令：./storm upload-credentials hbase-test

MapReduce服务 MRS
MapReduce服务 MRS-Spark任务读取HBase报错“had a not serializable result”:回答

回答可通过如下两种方式处理：在代码的SparkConf初始化之前执行以下两行代码： System.setProperty("spark.serializer", "org.apache.spark.serializer.KryoSerializer");System.setProperty("spark.kryo.registrator", "com.huawei.bigdata.spark.examples.MyRegistrator"); 在SparkConf对象使用set方法设置，代码如下： val conf = new SparkConf().setAppName("HbaseTest");conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");conf.set("spark.kryo.registrator", "com.huawei.bigdata.spark.examples.MyRegistrator");

MapReduce服务 MRS
MapReduce服务 MRS-下载MRS客户端

下载MRS客户端登录MRS Manager，请参考登录MRS Manager。选择“服务管理”。单击“下载客户端”。在“客户端类型”选择“完整客户端”。在“下载路径”选择“远端主机”。将“主机IP”设置为新申请的弹性云服务器的IP地址，设置“主机端口”为“22”，并将“存放路径”设置为“/tmp”。如果使用SSH登录E CS 的默认端口“22”被修改，请将“主机端口”设置为新端口。 “保存路径”最多可以包含256个字符。 “登录用户”设置为“root”。如果使用其他用户，请确保该用户对保存目录拥有读取、写入和执行权限。在“登录方式”选择“密码”或“SSH私钥”。密码：输入创建集群时设置的root用户密码。 SSH私钥：选择并上传创建集群时使用的密钥文件。图1 下载客户端单击“确定”开始生成客户端文件。若界面显示以下提示信息表示客户端包已经成功保存。单击“关闭”。客户端文件请到下载客户端时设置的远端主机的“存放路径”中获取。下载客户端文件到远端主机成功。若界面显示以下提示信息，请检查用户名密码及远端主机的安全组配置，确保用户名密码正确，及远端主机的安全组已增加SSH(22)端口的入方向规则。然后从2执行重新开始下载客户端。连接到服务器失败，请检查网络连接或参数设置。生成客户端会占用大量的磁盘IO，不建议在集群处于安装中、启动中、打补丁中等非稳态场景下载客户端。父主题： HDFS应用开发常见问题

MapReduce服务 MRS
MapReduce服务 MRS-Flink应用开发简介

Flink应用开发简介 Flink是一个批处理和流处理结合的统一计算框架，其核心是一个提供了数据分发以及并行化计算的流数据处理引擎。 Flink最适合的应用场景是低时延的数据处理（Data Processing）场景：高并发pipeline处理数据，时延毫秒级，且兼具可靠性。 Flink整个系统包含三个部分： Client Flink Client主要给用户提供向Flink系统提交用户任务（流式作业）的能力。 TaskManager Flink系统的业务执行节点，执行具体的用户任务。TaskManager可以有多个，各个TaskManager都平等。 JobManager Flink系统的管理节点，管理所有的TaskManager，并决策用户任务在哪些Taskmanager执行。JobManager在HA模式下可以有多个，但只有一个主JobManager。 Flink系统提供的关键能力：低时延提供ms级时延的处理能力。 Exactly Once 提供异步快照机制，保证所有数据真正只处理一次。 HA JobManager支持主备模式，保证无单点故障。水平扩展能力 TaskManager支持手动水平扩展。 Flink DataStream API提供Scala和Java两种语言的开发方式，如表1所示。表1 Flink DataStream API接口功能说明 Scala API 提供Scala语言的API，提供过滤、join、窗口、聚合等数据处理能力。由于Scala语言的简洁易懂，推荐用户使用Scala接口进行程序开发。 Java API 提供Java语言的API，提供过滤、join、窗口、聚合等数据处理能力。有关Flink的详细信息，请参见：https://flink.apache.org/ 父主题： Flink应用开发概述

MapReduce服务 MRS
MapReduce服务 MRS-Python样例代码:环境准备

环境准备安装支持环境。（开发环境请参考Spark应用开发环境简介准备）执行以下命令安装编译工具： yum install cyrus-sasl-devel -y yum install gcc-c++ -y 安装相应的python模块。需要安装sasl，thrift，thrift-sasl，PyHive。 pip install sasl pip install thrift pip install thrift-sasl pip install PyHive 安装python连接zookeeper工具。 pip install kazoo 从MRS集群上获取相应参数。 zookeeper的IP和PORT：可以查看配置文件/opt/client/Spark/spark/conf/hive-site.xml中的配置项spark.deploy.zookeeper.url zookeeper 上存放JD BCS erver主节点的IP和PORT：可以查看配置文件/opt/client/Spark/spark/conf/hive-site.xml中的配置项spark.thriftserver.zookeeper.dir（默认是/thriftserver），在此znode子节点（active_thriftserver）上存放了JDBCServer主节点的IP和PORT

MapReduce服务 MRS 通过JDBC访问Spark SQL的程序
MapReduce服务 MRS-Impala SQL接口介绍

Impala SQL接口介绍 Impala SQL提供对HiveQL的高度兼容性，Impala使用SQL作为其查询语言，为了保护用户在技能开发和查询设计上的投资，Impala提供了与Hive查询语言（HiveQL）的高度兼容性。由于Impala使用与Hive相同的元数据存储来记录有关表结构和属性的信息，因此Impala可以访问通过本机Impala CREATE TABLE命令定义的表，也可以访问使用Hive数据定义语言（DDL）创建的表。 Impala支持类似于HiveQL的DML组件的数据操作（DML）语句。 Impala提供了许多与HiveQL等价物具有相同名称和参数类型的内置函数。详情请参见https://impala.apache.org/docs/build/html/topics/impala_langref.html。父主题： Impala应用开发常见问题

MapReduce服务 MRS Impala应用开发常见问题
MapReduce服务 MRS-Python样例代码:样例代码

样例代码 from kazoo.client import KazooClientzk = KazooClient(hosts='ZookeeperHost')zk.start()result=zk.get("/thriftserver/active_thriftserver")result=result[0].decode('utf-8')JDBCServerHost=result[0].split(":")[0]JDBCServerPort=result[0].split(":")[1]from pyhive import hiveconn = hive.Connection(host=JDBCServerHost, port=JDBCServerPort,database='default')cursor=conn.cursor()cursor.execute("select * from test")for result in cursor.fetchall(): print result 其中，ZookeeperHost使用4获取到的zookeeper IP和PORT替换。

MapReduce服务 MRS 通过JDBC访问Spark SQL的程序
MapReduce服务 MRS-调测Alluxio应用:Alluxio客户端运行及结果查看

Alluxio客户端运行及结果查看执行mvn clean compile assembly:single生成jar包，在工程目录target目录下获取，比如:alluxio-examples-mrs-1.9-jar-with-dependencies.jar。在运行调测环境上创建一个目录作为运行目录，如或“/opt/alluxio_examples”(Linux环境)，并在该目录下创建子目录“conf”。将1导出的alluxio-examples-mrs-1.9-jar-with-dependencies.jar拷贝到“/opt/alluxio_examples”下。将客户端下的配置文件“/opt/client/Alluxio/alluxio/conf/alluxio-site.properties”拷贝到“conf”下。当Alluxio集群启动时，每一个Alluxio服务端进程（包括master和worke）在目录“${CLASSPATH}”，“${HOME}/.alluxio/”，“/etc/alluxio/”，和“${ALLUXIO_HOME}/conf”下顺序读取alluxio-site.properties , 当alluxio-site.properties文件被读取到则跳过剩余路径的查找，所以请根据实际环境情况存放alluxio-site.properties文件。在Linux环境下执行运行样例程序。 chmod +x /opt/alluxio_examples -R cd /opt/alluxio_examplesjava -jar alluxio-examples-mrs-1.9-jar-with-dependencies.jar /testFlie.txt 在命令行终端查看样例代码所查询出的结果。 Linux环境运行成功结果会有如下信息： hi, I am bigdata. It is successful if you can see me.

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！