华为云用户手册

MapReduce服务 MRS-在Linux环境中调测HBase应用:前提条件

前提条件已安装客户端时：已安装HBase客户端。当客户端所在主机不是集群中的节点时，需要在客户端所在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。未安装HBase客户端时： Linux环境已安装JDK，版本号需要和IntelliJ IDEA导出Jar包使用的JDK版本一致。当Linux环境所在主机不是集群中的节点时，需要在节点的hosts文件中设置主机名和IP地址映射。主机名和IP地址请保持一一对应。

MapReduce服务 MRS
MapReduce服务 MRS-HDFS样例工程介绍

HDFS样例工程介绍 MRS 样例工程获取地址为https://github.com/huaweicloud/huaweicloud-mrs-example，切换分支为与MRS集群相匹配的版本分支，然后下载压缩包到本地后解压，即可获取各组件对应的样例代码工程。当前MRS提供以下HDFS相关样例工程：表1 HDFS相关样例工程样例工程位置描述 hdfs-example-normal HDFS文件操作的Java示例程序。本工程主要给出了创建HDFS文件夹、写文件、追加文件内容、读文件和删除文件/文件夹等相关接口操作示例。 hdfs-c-example HDFS C语言开发代码样例。本示例提供了基于C语言的HDFS文件系统连接、文件操作如创建文件、读写文件、追加文件、删除文件等。相关业务场景介绍请参见HDFS C API接口介绍。父主题： HDFS开发指南（普通模式）

MapReduce服务 MRS
MapReduce服务 MRS-HBase样例程序开发思路:功能分解

功能分解根据上述的业务场景进行功能分解，需要开发的功能点如表2所示。表2 在HBase中开发的功能序号步骤代码实现 1 根据表1中的信息创建表。请参见创建HBase表。 2 导入用户数据。请参见向HBase表中插入数据。 3 增加“教育信息”列族，在用户信息中新增用户的学历、职称等信息。请参见修改HBase表。 4 根据用户编号查询用户姓名和地址。请参见使用Get API读取HBase表数据。 5 根据用户姓名进行查询。请参见使用Filter过滤器读取HBase表数据。 6 为提升查询性能，创建二级索引或者删除二级索引。请参见创建HBase表二级索引和基于二级索引查询HBase表数据。 7 用户销户，删除用户信息表中该用户的数据。请参见删除HBase表数据。 8 A业务结束后，删除用户信息表。请参见删除HBase表。

MapReduce服务 MRS
MapReduce服务 MRS-HBase样例程序开发思路:场景说明

场景说明假定用户开发一个应用程序，用于管理企业中的使用A业务的用户信息，如表1所示，A业务操作流程如下：创建用户信息表。在用户信息中新增用户的学历、职称等信息。根据用户编号查询用户姓名和地址。根据用户姓名进行查询。查询年龄段在[20-29]之间的用户信息。数据统计，统计用户信息表的人员数、年龄最大值、年龄最小值、平均年龄。用户销户，删除用户信息表中该用户的数据。 A业务结束后，删除用户信息表。表1 用户信息编号姓名性别年龄地址 12005000201 张三男 19 广东省深圳市 12005000202 李婉婷女 23 河北省石家庄市 12005000203 王明男 26 浙江省宁波市 12005000204 李刚男 18 湖北省襄阳市 12005000205 赵恩如女 21 江西省上饶市 12005000206 陈龙男 32 湖南省株洲市 12005000207 周微女 29 河南省南阳市 12005000208 杨艺文女 30 重庆市开县 12005000209 徐兵男 26 陕西省渭南市 12005000210 肖凯男 25 辽宁省大连市

MapReduce服务 MRS
MapReduce服务 MRS-Phoenix命令行操作介绍:操作步骤

操作步骤以客户端安装用户，登录安装HBase客户端的节点。进入HBase客户端安装目录：例如：cd /opt/client 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证，执行以下命令认证当前用户，当前用户需要具有创建HBase表的权限，具体请参见创建角色配置拥有对应权限的角色，参考创建用户为用户绑定对应角色。如果当前集群未启用Kerberos认证，则无需执行此命令。 kinit MRS 集群用户例如，kinit hbaseuser。直接执行Phoenix客户端命令。 sqlline.py 建表： CREATE TABLE TEST (id VARCHAR PRIMARY KEY, name VARCHAR); 插入数据： UPSERT INTO TEST(id,name) VALUES ('1','jamee'); 查询数据： SELECT * FROM TEST; 删表： DROP TABLE TEST; 退出Phoenix命令行。 !quit

MapReduce服务 MRS
MapReduce服务 MRS-创建HDFS文件并写入内容:代码样例

代码样例如下是写文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 创建文件，写文件 * * @throws java.io.IOException * @throws com.huawei.bigdata.hdfs.examples.ParameterException */private void write() throws IOException { final String content = "hi, I am bigdata. It is successful if you can see me."; FSDataOutputStream out = null; try { out = fSystem.create(new Path(DEST_PATH + File.separator + FILE_NAME)); out.write(content.getBytes()); out.hsync(); LOG .info("success to write."); } finally { // make sure the stream is closed finally. IOUtils.closeStream(out); }}

MapReduce服务 MRS
MapReduce服务 MRS-使用Filter过滤器读取HBase表数据:注意事项

注意事项当前二级索引不支持使用SubstringComparator类定义的对象作为Filter的比较器。例如，如下示例中的用法当前不支持： Scan scan = new Scan();filterList = new FilterList(FilterList.Operator.MUST_PASS_ALL);filterList.addFilter(new SingleColumnValueFilter(Bytes.toBytes(columnFamily), Bytes.toBytes(qualifier),CompareOperator.EQUAL, new SubstringComparator(substring)));scan.setFilter(filterList);

MapReduce服务 MRS
MapReduce服务 MRS-BulkLoad和Put应用场景有哪些:回答

回答 bulkload是通过启动MapReduce任务直接生成HFile文件，再将HFile文件注册到HBase，因此错误的使用bulkload会因为启动MapReduce任务而占用更多的集群内存和CPU资源，也可能会生成大量很小的HFile文件频繁的触发Compaction，导致查询速度急剧下降。错误的使用put，会造成数据加载慢，当分配给RegionServer内存不足时会造成RegionServer内存溢出从而导致进程退出。下面给出bulkload和put适合的场景： bulkload适合的场景：大量数据一次性加载到HBase。对数据加载到HBase可靠性要求不高，不需要生成WAL文件。使用put加载大量数据到HBase速度变慢，且查询速度变慢时。加载到HBase新生成的单个HFile文件大小接近HDFS block大小。 put适合的场景：每次加载到单个Region的数据大小小于HDFS block大小的一半。数据需要实时加载。加载数据过程不会造成用户查询速度急剧下降。

MapReduce服务 MRS
MapReduce服务 MRS-使用Filter过滤器读取HBase表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testSingleColumnValueFilter方法中。 public void testSingleColumnValueFilter() { LOG.info("Entering testSingleColumnValueFilter."); Table table = null; ResultScanner rScanner = null; try { table = conn.getTable(tableName); Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name")); // Set the filter criteria. SingleColumnValueFilter filter = new SingleColumnValueFilter( Bytes.toBytes("info"), Bytes.toBytes("name"), CompareOperator.EQUAL, Bytes.toBytes("Xu Bing")); scan.setFilter(filter); // Submit a scan request. rScanner = table.getScanner(scan); // Print query results. for (Result r = rScanner.next(); r != null; r = rScanner.next()) { for (Cell cell : r.rawCells()) { LOG.info("{}:{},{},{}", Bytes.toString(CellUtil.cloneRow(cell)), Bytes.toString(CellUtil.cloneFamily(cell)), Bytes.toString(CellUtil.cloneQualifier(cell)), Bytes.toString(CellUtil.cloneValue(cell))); } } LOG.info("Single column value filter successfully."); } catch (IOException e) { LOG.error("Single column value filter failed " ,e); } finally { if (rScanner != null) { // Close the scanner object. rScanner.close(); } if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed " ,e); } } } LOG.info("Exiting testSingleColumnValueFilter."); }

MapReduce服务 MRS
MapReduce服务 MRS-向Phoenix表中写入数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“PhoenixSample”类的testPut方法中。 /** * Put data */ public void testPut() { LOG.info("Entering testPut."); String URL = "jdbc:phoenix:" + conf.get("hbase.zookeeper.quorum"); // Insert String upsertSQL = "UPSERT INTO TEST VALUES(1,'John','100000', TO_DATE('1980-01-01','yyyy-MM-dd'))"; try (Connection conn = DriverManager.getConnection(url, props); Statement stat = conn.createStatement()){ // Execute Update SQL stat.executeUpdate(upsertSQL); conn.commit(); LOG.info("Put successfully."); } catch (Exception e) { LOG.error("Put failed.", e); } LOG.info("Exiting testPut."); }

MapReduce服务 MRS
MapReduce服务 MRS-使用Scan API读取HBase表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testScanData方法中 public void testScanData() { LOG.info("Entering testScanData."); Table table = null; // Instantiate a ResultScanner object. ResultScanner rScanner = null; try { // Create the Configuration instance. table = conn.getTable(tableName); // Instantiate a Get object. Scan scan = new Scan(); scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name")); // Set the cache size. scan.setCaching(1000); // Submit a scan request. rScanner = table.getScanner(scan); // Print query results. for (Result r = rScanner.next(); r != null; r = rScanner.next()) { for (Cell cell : r.rawCells()) { LOG.info("{}:{},{},{}", Bytes.toString(CellUtil.cloneRow(cell)), Bytes.toString(CellUtil.cloneFamily(cell)), Bytes.toString(CellUtil.cloneQualifier(cell)), Bytes.toString(CellUtil.cloneValue(cell))); } } LOG.info("Scan data successfully."); } catch (IOException e) { LOG.error("Scan data failed " ,e); } finally { if (rScanner != null) { // Close the scanner object. rScanner.close(); } if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed " ,e); } } } LOG.info("Exiting testScanData."); }

MapReduce服务 MRS
MapReduce服务 MRS-准备本地应用开发环境

准备本地应用开发环境在进行二次开发时，要准备的开发和运行环境如表1所示。表1 开发环境准备项说明操作系统开发环境：Windows系统，支持Windows 7以上版本。运行环境：Windows系统或Linux系统。如需在本地调测程序，运行环境需要和集群业务平面网络互通。安装JDK 开发和运行环境的基本配置，版本要求如下：服务端和客户端仅支持自带的OpenJDK，版本为1.8.0_272，不允许替换。对于客户应用需引用SDK类的Jar包运行在客户应用进程中的。 X86客户端：Oracle JDK：支持1.8版本；IBM JDK：支持1.8.5.11版本。 TaiShan客户端：OpenJDK：支持1.8.0_272版本。说明：基于安全考虑，服务端只支持TLS V1.2及以上的加密协议。 IBM JDK默认只支持TLS V1.0，若使用IBM JDK，请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”，设置后可以同时支持TLS V1.0/V1.1/V1.2，详情参见https://www.ibm.com/support/knowledgecenter/zh/SSYKE2_8.0.0/com.ibm.java.security.component.80.doc/security-component/jsse2Docs/matchsslcontext_tls.html#matchsslcontext_tls。安装和配置IntelliJ IDEA 用于开发HBase应用程序的工具。版本要求：2019.1或其他兼容版本。说明：若使用IBM JDK，请确保IntelliJ IDEA中的JDK配置为IBM JDK。若使用Oracle JDK，请确保IntelliJ IDEA中的JDK配置为Oracle JDK。若使用Open JDK，请确保IntelliJ IDEA中的JDK配置为Open JDK。安装Junit插件开发环境的基本配置。安装Maven 开发环境的基本配置。用于项目管理，贯穿软件开发生命周期。华为提供开源镜像站，各服务样例工程依赖的Jar包通过华为开源镜像站下载，剩余所依赖的开源Jar包请直接从Maven中央库或者其他用户自定义的仓库地址下载，详情请参考配置华为开源镜像仓。 7-zip 用于解压“*.zip”和“*.rar”文件。支持7-Zip 16.04版本。父主题：准备HBase应用开发环境

MapReduce服务 MRS
MapReduce服务 MRS-如何处理非static的KafkaPartitioner类对象构造FlinkKafkaProducer010运行时报错:问题

问题 Flink内核升级到1.3.0之后，当Kafka调用带有非static的KafkaPartitioner类对象为参数的FlinkKafkaProducer010去构造函数时，运行时会报错。报错内容如下： org.apache.flink.api.common.InvalidProgramException: The implementation of the FlinkKafkaPartitioner is not serializable. The object probably contains or references non serializable fields.

MapReduce服务 MRS
MapReduce服务 MRS-如何处理blob.storage.directory配置/home目录时启动yarn-session失败:回答

回答建议将"blob.storage.directory"配置选项设置成“/tmp”或者“/opt/huawei/Bigdata/tmp”。当用户将"blob.storage.directory"配置选项设置成自定义目录时，需要手动赋予用户该目录的owner权限。以下以 FusionInsight 的admin用户为例。修改Flink客户端配置文件conf/flink-conf.yaml，配置blob.storage.directory: /home/testdir/testdirdir/xxx。创建目录/home/testdir（创建一层目录即可），设置该目录为admin用户所属。图1 创建目录 /home/testdir/下的testdirdir/xxx目录在启动Flink集群时会在每个节点下自动创建。进入客户端路径，执行命令./bin/yarn-session.sh -jm 2048 -tm 3072，可以看到yarn-session正常启动并且成功创建目录。图2 执行命令

MapReduce服务 MRS
MapReduce服务 MRS-Hive JDBC样例程序开发思路:开发思路

开发思路数据准备。创建三张表，雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended”。雇员信息表“employees_info”的字段为雇员编号、姓名、支付薪水币种、薪水金额、缴税税种、工作地、入职时间，其中支付薪水币种“R”代表人民币，“D”代表美元。雇员联络信息表“employees_contact”的字段为雇员编号、电话号码、e-mail。雇员信息扩展表“employees_info_extended”的字段为雇员编号、姓名、电话号码、e-mail、支付薪水币种、薪水金额、缴税税种、工作地，分区字段为入职时间。创建表代码实现请见创建Hive表。加载雇员信息数据到雇员信息表“employees_info”中。加载数据代码实现请见加载数据到Hive表中。雇员信息数据如表1所示：表1 雇员信息数据编号姓名支付薪水币种薪水金额缴税税种工作地入职时间 1 Wang R 8000.01 personal income tax&0.05 Country1:City1 2014 3 Tom D 12000.02 personal income tax&0.09 Country2:City2 2014 4 Jack D 24000.03 personal income tax&0.09 Country3:City3 2014 6 Linda D 36000.04 personal income tax&0.09 Country4:City4 2014 8 Zhang R 9000.05 personal income tax&0.05 Country5:City5 2014 加载雇员联络信息数据到雇员联络信息表“employees_contact”中。雇员联络信息数据如表2所示：表2 雇员联络信息数据编号电话号码 e-mail 1 135 XXXX XXXX xxxx@xx.com 3 159 XXXX XXXX xxxxx@xx.com.cn 4 186 XXXX XXXX xxxx@xx.org 6 189 XXXX XXXX xxxx@xxx.cn 8 134 XXXX XXXX xxxx@xxxx.cn 加载雇员扩展信息数据到雇员联络信息表“employees_info_extended”中。雇员扩展信息数据如表3所示：表3 雇员扩展信息数据编号姓名电话号码 e-mail 支付薪水币种薪水金额缴税税种工作地入职时间 1 Wang 135 XXXX XXXX xxxx@xx.com R 8000.01 personal income tax&0.05 Country1:City1 2014 3 Tom 159 XXXX XXXX xxxxx@xx.com.cn D 12000.02 personal income tax&0.09 Country2:City2 2014 4 Jack 186 XXXX XXXX xxxx@xx.org D 24000.03 personal income tax&0.09 Country3:City3 2014 6 Linda 189 XXXX XXXX xxxx@xxx.cn D 36000.04 personal income tax&0.09 Country4:City4 2014 8 Zhang 134 XXXX XXXX xxxx@xxxx.cn R 9000.05 personal income tax&0.05 Country5:City5 2014 数据分析。数据分析代码实现，请见查询Hive表数据。查看薪水支付币种为美元的雇员联系方式。查询入职时间为2014年的雇员编号、姓名等字段，并将查询结果加载进表employees_info_extended中的入职时间为2014的分区中。统计表employees_info中有多少条记录。查询使用以“cn”结尾的邮箱的员工信息。提交数据分析任务，统计表employees_info中有多少条记录。实现请参见使用JDBC接口提交数据分析任务。

MapReduce服务 MRS
MapReduce服务 MRS-读取HDFS指定文件内容:代码样例

代码样例如下是读文件的代码片段，详细代码请参考com.huawei.bigdata.hdfs.examples中的HdfsExample类。 /** * 读文件 * * @throws java.io.IOException */private void read() throws IOException { String strPath = DEST_PATH + File.separator + FILE_NAME; Path path = new Path(strPath); FSDataInputStream in = null; BufferedReader reader = null; StringBuffer strBuffer = new StringBuffer(); try { in = fSystem.open(path); reader = new BufferedReader(new InputStreamReader(in)); String sTempOneLine; // write file while ((sTempOneLine = reader.readLine()) != null) { strBuffer.append(sTempOneLine); } LOG.info("result is : " + strBuffer.toString()); LOG.info("success to read."); } finally { // make sure the streams are closed finally. IOUtils.closeStream(reader); IOUtils.closeStream(in); }}

MapReduce服务 MRS
MapReduce服务 MRS-HDFS样例程序开发思路:开发思路

开发思路根据前述场景说明进行功能分解，以“/user/hdfs-examples/test.txt”文件的读写删除等操作为例，说明HDFS文件的基本操作流程，可分为以下八部分：创建FileSystem对象：fSystem。调用fSystem的mkdir接口创建目录。调用fSystem的create接口创建FSDataOutputStream对象：out，使用out的write方法写入数据。调用fSystem的append接口创建FSDataOutputStream对象：out，使用out的write方法追加写入数据。调用fSystem的open接口创建FSDataInputStream对象：in，使用in的read方法读取文件。调用fSystem中的delete接口删除文件。调用fSystem中的delete接口删除文件夹。

MapReduce服务 MRS
MapReduce服务 MRS-HBase应用开发流程

HBase应用开发流程本文档主要基于Java API对HBase进行应用开发。开发流程中各阶段的说明如图1和表1所示。图1 HBase应用程序开发流程表1 HBase应用开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用Java语言进行开发，使用IntelliJ IDEA工具，同时完成JDK、Maven等初始配置。准备本地应用开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括集群组件信息文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts 域名信息。准备连接HBase集群配置文件配置并导入样例工程 HBase提供了不同场景下的多种样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。导入并配置HBase样例工程根据业务场景开发程序根据实际业务场景开发程序，调用组件接口实现对应功能。开发HBase应用编译并运行程序开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。调测HBase应用父主题： HBase应用开发概述

MapReduce服务 MRS
MapReduce服务 MRS-读取Phoenix表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“PhoenixSample”类的testSelect方法中。 /** * Select Data */ public void testSelect() { LOG.info("Entering testSelect."); String URL = "jdbc:phoenix:" + conf.get("hbase.zookeeper.quorum"); // Query String querySQL = "SELECT * FROM TEST WHERE id = ?"; Connection conn = null; PreparedStatement preStat = null; Statement stat = null; ResultSet result = null; try { // Create Connection conn = DriverManager.getConnection(url, props); // Create Statement stat = conn.createStatement(); // Create PrepareStatement preStat = conn.prepareStatement(querySQL); // Execute query preStat.setInt(1, 1); result = preStat.executeQuery(); // Get result while (result.next()) { int id = result.getInt("id"); String name = result.getString(1); System.out.println("id: " + id); System.out.println("name: " + name); } LOG.info("Select successfully."); } catch (Exception e) { LOG.error("Select failed.", e); } finally { if (null != result) { try { result.close(); } catch (Exception e2) { LOG.error("Result close failed.", e2); } } if (null != stat) { try { stat.close(); } catch (Exception e2) { LOG.error("Stat close failed.", e2); } } if (null != conn) { try { conn.close(); } catch (Exception e2) { LOG.error("Connection close failed.", e2); } } } LOG.info("Exiting testSelect."); }

MapReduce服务 MRS
MapReduce服务 MRS-基于二级索引查询HBase表数据:代码样例

代码样例下面代码片段在com.huawei.hadoop.hbase.example包的“HBaseSample”类的testScanDataByIndex方法中：样例：使用二级索引查找数据 public void testScanDataByIndex() { LOG.info("Entering testScanDataByIndex."); Table table = null; ResultScanner scanner = null; try { table = conn.getTable(tableName); // Create a filter for indexed column. Filter filter = new SingleColumnValueFilter(Bytes.toBytes("info"), Bytes.toBytes("name"), CompareOperator.EQUAL, "Li Gang".getBytes()); Scan scan = new Scan(); scan.setFilter(filter); scanner = table.getScanner(scan); LOG.info("Scan indexed data."); for (Result result : scanner) { for (Cell cell : result.rawCells()) { LOG.info("{}:{},{},{}", Bytes.toString(CellUtil.cloneRow(cell)), Bytes.toString(CellUtil.cloneFamily(cell)), Bytes.toString(CellUtil.cloneQualifier(cell)), Bytes.toString(CellUtil.cloneValue(cell))); } } LOG.info("Scan data by index successfully."); } catch (IOException e) { LOG.error("Scan data by index failed."); } finally { if (scanner != null) { // Close the scanner object. scanner.close(); } try { if (table != null) { table.close(); } } catch (IOException e) { LOG.error("Close table failed."); } } LOG.info("Exiting testScanDataByIndex."); }

MapReduce服务 MRS
MapReduce服务 MRS-基于二级索引查询HBase表数据:功能介绍

功能介绍针对添加了二级索引的用户表，您可以通过Filter来查询数据。其数据查询性能高于针对无二级索引用户表的数据查询。 HIndex支持的Filter类型为“SingleColumnValueFilter”，“SingleColumnValueExcludeFilter”以及“SingleColumnValuePartitionFilter”。 HIndex支持的Comparator为“BinaryComparator”，“BitComparator”，“LongComparator”，“DecimalComparator”，“DoubleComparator”，“FloatComparator”，“IntComparator”，“NullComparator”。二级索引的使用规则如下：针对某一列或者多列创建了单索引的场景下：当查询时使用此列进行过滤时，不管是AND还是OR操作，该索引都会被利用来提升查询性能。例如：Filter_Condition(IndexCol1) AND/OR Filter_Condition(IndexCol2) 当查询时使用“索引列AND非索引列”过滤时，此索引会被利用来提升查询性能。例如：Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol2) AND Filter_Condition(NonIndexCol1) 当查询时使用“索引列OR非索引列”过滤时，此索引将不会被使用，查询性能不会因为索引得到提升。例如：Filter_Condition(IndexCol1) AND/OR Filter_Condition(IndexCol2) OR Filter_Condition(NonIndexCol1) 针对多个列创建的联合索引场景下：当查询时使用的列（多个），是联合索引所有对应列的一部分或者全部，且列的顺序与联合索引一致时，此索引会被利用来提升查询性能。例如，针对C1、C2、C3列创建了联合索引，生效的场景包括： Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol2) AND Filter_Condition(IndexCol3) Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol2) Filter_Condition(IndexCol1) 不生效的场景包括： Filter_Condition(IndexCol2) AND Filter_Condition(IndexCol3) Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol3) Filter_Condition(IndexCol2) Filter_Condition(IndexCol3) 当查询时使用“索引列AND非索引列”过滤时，此索引会被利用来提升查询性能。例如： Filter_Condition(IndexCol1) AND Filter_Condition(NonIndexCol1) Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol2) AND Filter_Condition(NonIndexCol1) 当查询时使用“索引列OR非索引列”过滤时，此索引不会被使用，查询性能不会因为索引得到提升。例如： Filter_Condition(IndexCol1) OR Filter_Condition(NonIndexCol1) (Filter_Condition(IndexCol1) AND Filter_Condition(IndexCol2))OR ( Filter_Condition(NonIndexCol1)) 当查询时使用多个列进行范围查询时，只有联合索引中最后一个列可指定取值范围，前面的列只能设置为“=”。例如：针对C1、C2、C3列创建了联合索引，需要进行范围查询时，只能针对C3设置取值范围，过滤条件为“C1=XXX，C2=XXX，C3=取值范围”。针对添加了二级索引的用户表，可以通过Filter来查询数据，在单列索引和复合列索引上进行过滤查询，查询结果都与无索引结果相同，且其数据查询性能高于无二级索引用户表的数据查询性能。

MapReduce服务 MRS
MapReduce服务 MRS-删除HBase表:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的dropTable方法中 public void dropTable() { LOG.info("Entering dropTable."); Admin admin = null; try { admin = conn.getAdmin(); if (admin.tableExists(tableName)) { // Disable the table before deleting it. admin.disableTable(tableName); // Delete table. admin.deleteTable(tableName);//注[1] } LOG.info("Drop table successfully."); } catch (IOException e) { LOG.error("Drop table failed " ,e); } finally { if (admin != null) { try { // Close the Admin object. admin.close(); } catch (IOException e) { LOG.error("Close admin failed " ,e); } } } LOG.info("Exiting dropTable."); }

MapReduce服务 MRS
MapReduce服务 MRS-Hive应用开发流程

Hive应用开发流程开发流程中各阶段的说明如图1和表1所示。图1 Hive应用程序开发流程表1 Hive应用开发的流程说明阶段说明参考文档准备开发环境在进行应用开发前，需首先准备开发环境，推荐使用Java语言进行开发，使用IntelliJ IDEA工具，同时完成JDK、Maven等初始配置。准备本地应用开发环境准备连接集群配置文件应用程序开发或运行过程中，需通过集群相关配置文件信息连接MRS集群，配置文件通常包括集群组件信息文件，可从已创建好的MRS集群中获取相关内容。用于程序调测或运行的节点，需要与MRS集群内节点网络互通，同时配置hosts域名信息。准备连接Hive集群配置文件配置并导入样例工程 Hive提供了不同场景下的多种样例程序，用户可获取样例工程并导入本地开发环境中进行程序学习。导入并配置Hive样例工程根据业务场景开发程序根据实际业务场景开发程序，调用组件接口实现对应功能。开发Hive应用编译并运行程序开发好的程序编译运行，用户可在本地Windows开发环境中进行程序调测运行，也可以将程序编译为Jar包后，提交到Linux节点上运行。调测Hive应用父主题： Hive应用开发概述

MapReduce服务 MRS
MapReduce服务 MRS-HDFS Java API接口介绍:基于API的Glob路径模式以获取LocatedFileStatus和从FileStatus打开文件

基于API的Glob路径模式以获取LocatedFileStatus和从FileStatus打开文件在DistributedFileSystem中添加了以下API，以获取具有块位置的FileStatus，并从FileStatus对象打开文件。这些API将减少从客户端到Namenode的RPC调用的数量。表6 FileSystem API接口说明 Interface接口 Description说明 public LocatedFileStatus[] globLocatedStatus(Path, PathFilter, boolean) throws IOException 返回一个LocatedFileStatus对象数组，其对应文件路径符合路径过滤规则。 public FSDataInputStream open(FileStatus stat) throws IOException 如果stat对象是LocatedFileStatusHdfs的实例，该实例已具有位置信息，则直接创建InputStream而不联系Namenode。

MapReduce服务 MRS HDFS常用API介绍
MapReduce服务 MRS-创建HBase表:注意事项

注意事项注[1] 可以设置列族的压缩方式，代码片段如下： //设置编码算法，HBase提供了DIFF，FAST_DIFF，PREFIX三种编码算法 hcd.setDataBlockEncoding(DataBlockEncoding.FAST_DIFF); //设置文件压缩方式，HBase默认提供了GZ和SNAPPY两种压缩算法 //其中GZ的压缩率高，但压缩和解压性能低，适用于冷数据 //SNAPPY压缩率低，但压缩解压性能高，适用于热数据 //建议默认开启SNAPPY压缩 hcd.setCompressionType(Compression.Algorithm.SNAPPY); 注[2] 可以通过指定起始和结束RowKey，或者通过RowKey数组预分Region两种方式建表，代码片段如下： // 创建一个预划分region的表 byte[][] splits = new byte[4][]; splits[0] = Bytes.toBytes("A"); splits[1] = Bytes.toBytes("H"); splits[2] = Bytes.toBytes("O"); splits[3] = Bytes.toBytes("U"); admin.createTable(htd, splits);

MapReduce服务 MRS
MapReduce服务 MRS-HBase应用开发常用概念

HBase应用开发常用概念过滤器过滤器用于帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器，而且可以实现自定义的过滤器。协处理器允许用户执行region级的操作，并且可以使用与RDBMS中触发器类似的功能。 Client 客户端直接面向用户，可通过Java API、HBase Shell或者Web UI访问服务端，对HBase的表进行读写操作。本文中的HBase客户端特指HBase client的安装包，可参考HBase对外接口介绍。父主题： HBase应用开发概述

MapReduce服务 MRS
MapReduce服务 MRS-创建HBase客户端连接:代码样例

代码样例以下代码片段是登录，创建Connection并创建表的示例，在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的HBaseSample方法中。 private TableName tableName = null; private Connection conn = null; public HBaseSample(Configuration conf) throws IOException { this.tableName = TableName.valueOf("hbase_sample_table"); this.conn = ConnectionFactory.createConnection(conf);}

MapReduce服务 MRS
MapReduce服务 MRS-创建HBase表:功能简介

功能简介 HBase通过org.apache.hadoop.hbase.client.Admin对象的createTable方法来创建表，并指定表名、列族名。创建表有两种方式（强烈建议采用预分Region建表方式）：快速建表，即创建表后整张表只有一个Region，随着数据量的增加会自动分裂成多个Region。预分Region建表，即创建表时预先分配多个Region，此种方法建表可以提高写入大量数据初期的数据写入速度。表的列名以及列族名不能包含特殊字符，可以由字母、数字以及下划线组成。

MapReduce服务 MRS
MapReduce服务 MRS-创建HBase客户端连接:功能介绍

功能介绍 HBase通过ConnectionFactory.createConnection(configuration)方法创建Connection对象。传递的参数为上一步创建的Configuration。 Connection封装了底层与各实际服务器的连接以及与ZooKeeper的连接。Connection通过ConnectionFactory类实例化。创建Connection是重量级操作，Connection是线程安全的，因此，多个客户端线程可以共享一个Connection。典型的用法，一个客户端程序共享一个单独的Connection，每一个线程获取自己的Admin或Table实例，然后调用Admin对象或Table对象提供的操作接口。不建议缓存或者池化Table、Admin。Connection的生命周期由调用者维护，调用者通过调用close()，释放资源。

MapReduce服务 MRS
MapReduce服务 MRS-使用Get API读取HBase表数据:代码样例

代码样例以下代码片段在com.huawei.bigdata.hbase.examples包的“HBaseSample”类的testGet方法中 public void testGet() { LOG.info("Entering testGet."); // Specify the column family name. byte[] familyName = Bytes.toBytes("info"); // Specify the column name. byte[][] qualifier = { Bytes.toBytes("name"), Bytes.toBytes("address") }; // Specify RowKey. byte[] rowKey = Bytes.toBytes("012005000201"); Table table = null; try { // Create the Table instance. table = conn.getTable(tableName); // Instantiate a Get object. Get get = new Get(rowKey); // Set the column family name and column name. get.addColumn(familyName, qualifier[0]); get.addColumn(familyName, qualifier[1]); // Submit a get request. Result result = table.get(get); // Print query results. for (Cell cell : result.rawCells()) { LOG.info("{}:{},{},{}", Bytes.toString(CellUtil.cloneRow(cell)), Bytes.toString(CellUtil.cloneFamily(cell)), Bytes.toString(CellUtil.cloneQualifier(cell)), Bytes.toString(CellUtil.cloneValue(cell))); } LOG.info("Get data successfully."); } catch (IOException e) { LOG.error("Get data failed " ,e); } finally { if (table != null) { try { // Close the HTable object. table.close(); } catch (IOException e) { LOG.error("Close table failed " ,e); } } } LOG.info("Exiting testGet."); }

MapReduce服务 MRS

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！