华为云用户手册

MapReduce服务 MRS-使用Oozie客户端提交其它任务:前提条件

前提条件 Oozie组件及客户端已经安装，并且正常运行。已创建或获取访问Oozie服务的人机用户账号及密码。 Shell任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并确保Shell脚本在每个nodemanager节点都有执行权限。 SSH任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并完成互信配置。其他任务：该用户需要从属于hadoop、supergroup组，添加Oozie的角色操作权限，并具备对应任务类型所需的权限。用户同时还需要至少manager_viewer权限的角色。获取运行状态的Oozie服务器（任意实例）URL，如“https://10.1.130.10:21003/oozie”。获取运行状态的Oozie服务器主机名，如“10-1-130-10”。获取Yarn ResourceManager主节点IP，如10.1.130.11。

MapReduce服务 MRS
MapReduce服务 MRS-配置SparkSQL的分块个数:配置场景

配置场景 SparkSQL在进行shuffle操作时默认的分块数为200。在数据量特别大的场景下，使用默认的分块数就会造成单个数据块过大。如果一个任务产生的单个shuffle数据块大于2G，该数据块在被fetch的时候还会报类似错误： Adjusted frame length exceeds 2147483647: 2717729270 - discarded 例如，SparkSQL运行TPCDS 500G的测试时，使用默认配置出现错误。所以当数据量较大时需要适当的调整该参数。

MapReduce服务 MRS Spark SQL企业级能力增强
MapReduce服务 MRS-调整Spark日志级别:配置场景

配置场景在某些场景下，当任务已经启动后，用户想要修改日志级别以定位问题或者查看想要的信息。用户可以在进程启动前，在进程的JVM参数中增加参数“-Dlog4j.configuration.watch=true”来打开动态设置日志级别的功能。进程启动后，就可以通过修改进程对应的log4j配置文件，来调整日志打印级别。目前支持动态设置日志级别功能的有：Driver日志、Executor日志、AM日志、JobHistory日志、JD BCS erver日志。允许设置的日志级别是：FATAL，ERROR，WARN，INFO，DEBUG，TRACE和ALL。

MapReduce服务 MRS Spark运维管理
MapReduce服务 MRS-调整Spark日志级别:配置描述

配置描述在进程对应的JVM参数配置项中增加以下参数。表1 参数描述参数描述默认值 -Dlog4j.configuration.watch 进程JVM参数，设置成“true”用于打开动态设置日志级别功能。未配置，即为false。 Driver、Executor、AM进程的JVM参数如表2所示。在Spark客户端的配置文件“spark-defaults.conf”中进行配置。Driver、Executor、AM进程的日志级别在对应的JVM参数中的“-Dlog4j.configuration”参数指定的log4j配置文件中设置。表2 进程的JVM参数1 参数说明默认日志级别 spark.driver.extraJavaOptions Driver的JVM参数。 INFO spark.executor.extraJavaOptions Executor的JVM参数。 INFO spark.yarn.am.extraJavaOptions AM的JVM参数。 INFO JobHistory Server和JDB CS erver的JVM参数如表3所示。在服务端配置文件“ENV_VARS”中进行配置。JobHistory Server和JDBCServer的日志级别在服务端配置文件“log4j.properties”中设置。表3 进程的JVM参数2 参数说明默认日志级别 GC_OPTS JobHistory Server的JVM参数。 INFO SPARK_SUBMIT_OPTS JDBCServer的JVM参数。 INFO 示例：为了动态修改Executor日志级别为DEBUG，在进程启动之前，修改“spark-defaults.conf”文件中的Executor的JVM参数“spark.executor.extraJavaOptions”，增加如下配置： -Dlog4j.configuration.watch=true 提交用户应用后，修改“spark.executor.extraJavaOptions”中“-Dlog4j.configuration”参数指定的log4j日志配置文件（例如：“-Dlog4j.configuration=file:${BIGDATA_HOME}/ FusionInsight _Spark2x_8.1.0.1/install/FusionInsight-Spark2x-*/spark/conf/log4j-executor.properties”）中的日志级别为DEBUG，如下所示： log4j.rootCategory=DEBUG, sparklog DEBUG级别生效会有一定的时延。

MapReduce服务 MRS Spark运维管理
MapReduce服务 MRS-使用Hue提交Oozie Distcp作业:操作步骤

操作步骤创建工作流，请参考使用Hue创建工作流。在工作流编辑页面，选择“DistCp”按钮，将其拖到操作区中。当前DistCp操作是否是跨集群操作。是，执行4。否，执行7。对两个集群进行跨Manager集群互信。在弹出的“Distcp”窗口中配置“源”的值，例如“hdfs://hacluster/user/admin/examples/input-data/text/data.txt”。配置“目标”的值，例如“hdfs://target_ip:target_port/user/admin/examples/output-data/distcp-workflow/data.txt”。然后单击“添加”。单击右上角的配置按钮，在打开的“属性”页签配置界面中，单击“属性+”，在左边文本框中填写属性名称“oozie.launcher.mapreduce.job.hdfs-servers”，在右边文本框中填写属性值“hdfs://source_ip:source_port,hdfs://target_ip:target_port”，执行8。 source_ip：源集群的HDFS的NameNode的业务地址。 source_port：源集群的HDFS的NameNode的端口号。 target_ip：目标集群的HDFS的NameNode的业务地址。 target_port：目标集群的HDFS的NameNode的端口号。在弹出的“Distcp”窗口中配置“源”的值，例如“/user/admin/examples/input-data/text/data.txt”。配置“目标”的值，例如“/user/admin/examples/output-data/distcp-workflow/data.txt”。然后单击“添加”。单击右上角的配置按钮，在打开的配置界面中，单击“删除+”，添加删除目录，例如“/user/admin/examples/output-data/distcp-workflow”。单击Oozie编辑器右上角的。保存前如果需要修改作业名称（默认为“My Workflow”），可以直接单击该名称进行修改，例如“Distcp-Workflow”。保存完成后，单击，提交该作业。作业提交后，可通过Hue界面查看作业的详细信息、日志、进度等相关内容。

MapReduce服务 MRS
MapReduce服务 MRS-使用Hue提交Oozie Mapreduce作业:操作步骤

操作步骤创建工作流，请参考使用Hue创建工作流。在工作流编辑页面，选择“MapReduce 作业”按钮，将其拖到操作区中。在弹出的“MapReduce job”窗口中配置“Jar name”的值，例如“/user/admin/examples/apps/map-reduce/lib/oozie-examples-5.1.0.jar”。然后单击“添加”。单击“属性+”，添加输入输出相关属性。例如配置“mapred.input.dir”的值为“/user/admin/examples/input-data/text”，配置“mapred.output.dir”的值为“/user/admin/examples/output-data/map-reduce_workflow”。单击右上角的配置按钮。在打开的配置界面中，单击“删除+”，添加删除目录，例如“/user/admin/examples/output-data/map-reduce_workflow”。单击Oozie编辑器右上角的。保存前如果需要修改作业名称（默认为“My Workflow”），可以直接单击该名称进行修改，例如“MapReduce-Workflow”。保存完成后，单击，提交该作业。作业提交后，可通过Hue界面查看作业的详细信息、日志、进度等相关内容。

MapReduce服务 MRS 使用Hue提交Oozie作业
MapReduce服务 MRS-MapReduce任务运行失败，ApplicationMaster出现物理内存溢出异常:回答

回答这是性能规格的问题，MapReduce任务运行失败的根本原因是由于ApplicationMaster的内存溢出导致的，即物理内存溢出导致被NodeManager kill。解决方案：将ApplicationMaster的内存配置调大，在客户端“客户端安装路径/Yarn/config/mapred-site.xml”配置文件中优化如下参数： “yarn.app.mapreduce.am.resource.mb” “yarn.app.mapreduce.am.command-opts”，该参数中-Xmx值建议为0.8*“yarn.app.mapreduce.am.resource.mb”

MapReduce服务 MRS
MapReduce服务 MRS-调整DataNode磁盘坏卷信息:配置描述

配置描述参数入口：请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 dfs.datanode.failed.volumes.tolerated DataNode停止提供服务前允许失败的卷数。默认情况下，必须至少有一个有效卷。值-1表示有效卷的最小值是1。大于等于0的值表示允许失败的卷数。 MRS 3.x之前版本：0 MRS 3.x及之后版本：-1

MapReduce服务 MRS
MapReduce服务 MRS-Loader常用参数:参数说明

参数说明表1 Loader常用参数配置参数说明默认值范围 mapreduce.client.submit.file.replication MapReduce任务在运行时依赖的相关job文件在HDFS上的副本数。当集群中DataNode个数小于该参数值时，副本数等于DataNode的个数。当DataNode个数大于或等于该参数值，副本数为该参数值。 10 3～256 loader.fault.tolerance.rate 容错率。值大于0时使能容错机制。使能容错机制时建议将作业的Map数设置为大于等于3，推荐在作业数据量大的场景下使用。 0 0～1.0 loader.input.field.separator 默认的输入字段分割符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分割符，则以此处的默认分割符为准。 , - loader.input.line.separator 默认的输入行分割符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分割符，则以此处的默认分割符为准。 - - loader.output.field.separator 默认的输出字段分割符，需要配置输入与输出转换步骤才生效，转换步骤的内容可以为空；如果作业的转换步骤中没有配置分割符，则以此处的默认分割符为准。 , - loader.output.line.separator Loader输出数据的行分隔符。 - - 由于容错率的统计需要时间，为保证使用效果，建议在作业运行时间在2分钟以上时使用“loader.fault.tolerance.rate”参数。此处参数设置的为Loader全局的默认分割符，如果作业的转换步骤中配置了分割符，则以转换步骤为准，转换步骤中没有配置分割符则以此处的默认分割符为准。

MapReduce服务 MRS
MapReduce服务 MRS-HBase占用网络端口，连接数过大会导致其他服务不稳定:回答

回答使用操作系统命令lsof或者netstat发现大量TCP连接处于CLOSE_WAIT状态，且连接持有者为HBase RegionServer，可能导致网络端口耗尽或HDFS连接超限，那样可能会导致其他服务不稳定。HBase CLOSE_WAIT现象为HBase机制。 HBase CLOSE_WAIT产生原因：HBase数据以HFile形式存储在HDFS上，这里可以叫StoreFiles，HBase作为HDFS的客户端，HBase在创建StoreFile或启动加载StoreFile时创建了HDFS连接，当创建StoreFile或加载StoreFile完成时，HDFS方面认为任务已完成，将连接关闭权交给HBase，但HBase为了保证实时响应，有请求时就可以连接对应数据文件，需要保持连接，选择不关闭连接，所以连接状态为CLOSE_WAIT（需客户端关闭）。什么时候会创建StoreFile：当HBase执行Flush时。什么时候执行Flush：HBase写入数据首先会存在内存memstore，只有内存使用达到阈值或手动执行flush命令时会触发flush操作，将数据写入HDFS。解决方法：由于HBase连接机制，若想减小HBase端口占用，则需控制StoreFile数量，具体可以通过触发HBase的compaction动作完成，即触发HBase文件合并，方法如下：方法1：使用HBase shell客户端，在客户端手动执行major_compact操作。方法2：编写HBase客户端代码，调用HBaseAdmin类中的compact方法触发HBase的compaction动作。如果compact无法解决HBase端口占用现象，说明HBase使用情况已经达到瓶颈，需考虑如下几点： table的Region数初始设置是否合适。是否存在无用数据。若存在无用数据，可删除对应数据以减小HBase存储文件数量，若以上情况都不满足，则需考虑扩容。

MapReduce服务 MRS
MapReduce服务 MRS-结束BulkLoad客户端程序导致作业执行失败:回答

回答 BulkLoad程序在客户端启动时会生成一个partitioner文件，用于划分Map任务数据输入的范围。此文件在BulkLoad客户端退出时会被自动删除。一般来说当所有Map任务都启动运行以后，退出BulkLoad客户端也不会导致已提交的作业失败。但由于Map任务存在重试机制和推测执行机制；Reduce任务下载一个已运行完成的Map任务的数据失败次数过多时，Map任务也会被重新执行。如果此时BulkLoad客户端已经退出，则重试的Map任务会因为找不到partitioner文件而执行失败，导致作业执行失败。因此，强烈建议BulkLoad程序在数据导入期间不要结束客户端程序。

MapReduce服务 MRS
MapReduce服务 MRS-优化Flink内存GC参数:操作步骤

操作步骤优化GC。调整老年代和新生代的比值。在客户端的“conf/flink-conf.yaml”配置文件中，在“env.java.opts”配置项中添加参数：“-XX:NewRatio”。如“ -XX:NewRatio=2”，则表示老年代与新生代的比值为2:1，新生代占整个堆空间的1/3，老年代占2/3。开发Flink应用程序时，优化DataStream的数据分区或分组操作。当分区导致数据倾斜时，需要考虑优化分区。避免非并行度操作，有些对DataStream的操作会导致无法并行，例如WindowAll。 keyBy尽量不要使用String。

MapReduce服务 MRS
MapReduce服务 MRS-REGISTER INDEX TABLE:示例

示例 create database productdb; use productdb; CREATE TABLE productSalesTable(a int,b string,c string) stored as carbondata; create index productNameIndexTable on table productSalesTable(c) as 'carbondata'; insert into table productSalesTable select 1,'a','aaa'; create database productdb2; 使用hdfs命令将productdb数据库下的productSalesTable和productNameIndexTable 拷贝到productdb2。 refresh table productdb2.productSalesTable ; refresh table productdb2.productNameIndexTable ; explain select * from productdb2.productSalesTable where c = 'aaa'; //可以发现该查询命令没有使用索引表 REGISTER INDEX TABLE productNameIndexTable ON productdb2.productSalesTable; explain select * from productdb2.productSalesTable where c = 'aaa'; //可以发现该查询命令使用了索引表

MapReduce服务 MRS
MapReduce服务 MRS-Loader日志介绍:日志级别

日志级别 Loader中提供了如表2所示的日志级别，日志级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG，程序会打印高于或等于所设置级别的日志，设置的日志等级越高，打印出来的日志就越少。表2 日志级别级别描述 ERROR ERROR表示错误日志输出。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示系统及各事件正常运行状态信息。 DEBUG DEBUG表示系统及系统调试信息。如果您需要修改日志级别，请执行如下操作：请参考修改集群服务配置参数，进入Loader的“全部配置”页面。左边菜单栏中选择所需修改的角色所对应的日志菜单。选择所需修改的日志级别。保存配置，在弹出窗口中单击“确定”，完成后重启服务使配置生效。

MapReduce服务 MRS
MapReduce服务 MRS-Hive输出:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值 Hive文件存储格式配置Hive表文件的存储格式（目前支持四种格式：CSV、ORC、RC和PARQUET）。说明： PARQUET格式是一种列式存储格式，PARQUET要求Loader的输出字段名和Hive表中的字段名保持一致。 Hive 1.2.0版本之后，Hive使用字段名称替代字段序号对ORC文件进行解析，因此，Loader的输出字段名和Hive表中的字段名需要保持一致。 enum 是 CSV Hive文件压缩格式在下拉菜单中选择Hive表文件的压缩格式，未配置或选择“NONE”表示不压缩数据。 enum 是 NONE Hive ORC文件版本通过该字段配置ORC文件的版本（当Hive表文件的存储格式是ORC时）。 enum 是 0.12 输出分隔符配置分隔符。 string 是无输出字段配置输出信息：位置：配置输出字段的位置。字段名：配置输出字段的字段名。类型：配置字段类型，字段类型为“DATE”或“TIME”或“TIMESTAMP”时，需指定特定时间格式，其他类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。十进制格式：配置小数的刻度和精度。长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。分区键：配置是否为分区列。可以不指定分区列，也可以指定多个分区列。配置多个列为分区列时，会按照配置列的先后顺序对其进行拼接。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-CSV文件输入:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值分隔符 CSV文件的列分隔符，用于分隔每行的数据。 string 是 , 换行符用户根据数据实际情况，填写字符串作为换行符。支持任何字符串。默认使用操作系统的换行符。 string 否 \n 文件名是否作为字段自定义一个字段，以当前数据所在的文件名作为该字段值。 string 否无绝对路径配置“文件名是否作为字段”引用文件名环境，选中单选框时是带绝对路径的文件名；不选中单选框时是不带路径的文件名。 boolean 否不选中验证输入字段是否检验输入字段与值的类型匹配情况，值为“NO”，不检查；值为“YES”，检查。若不匹配则跳过该行。 enum 是 YES 输入字段配置输入字段的相关信息：位置：源文件每行被列分隔符分隔后，目标字段对应的位置，从1开始编号。字段名：配置字段名。类型：配置字段类型。数据格式：字段类型为“DATE”或“TIM”E或“TIMESTAMP”时，需指定特定时间格式，其他字段类型指定无效。时间格式如：“yyyyMMdd HH:mm:ss”。长度：配置字段长度，字段值太长则按配置的长度截取，类型为“CHAR”时实际长度不足则空格补齐，类型为“VARCHAR”时实际长度不足则不补齐。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-未安装HBase时Hive on Spark任务卡顿如何处理:操作场景

操作场景此功能适用于Hive组件。按如下操作步骤设置参数后，在未安装HBase的环境执行Hive on Spark任务时，可避免任务卡顿。 Hive on Spark任务的Spark内核版本已经升级到Spark2x，可以支持在不安装Spark2x的情况下，执行Hive on Spark任务。如果没有安装HBase，默认在执行Spark任务时，会尝试去连接Zookeeper访问HBase，直到超时，这样会造成任务卡顿。在未安装HBase的环境，要执行Hive on Spark任务，可以按如下操作处理。如果是从已有HBase低版本环境升级上来的，升级完成之后可不进行设置。

MapReduce服务 MRS
MapReduce服务 MRS-为什么已备份的Hive表无法执行drop操作:回答

回答由于已备份Hive表对应的HDFS目录创建了快照，导致HDFS目录无法删除，造成Hive表删除失败。 Hive表在执行备份操作时，会创建表对应的HDFS数据目录快照。而HDFS的快照机制有一个约束：如果一个HDFS目录已创建快照，则在快照完全删除之前，该目录无法删除或修改名称。Hive表（除EXTERNAL表外）执行drop操作时，会尝试删除该表对应的HDFS数据目录，如果目录删除失败，系统会提示表删除失败。如果确实需要删除该表，可手动删除涉及到该表的所有备份任务。

MapReduce服务 MRS
MapReduce服务 MRS-配置HDFS DiskBalancer磁盘均衡:配置描述

配置描述请参考修改集群服务配置参数，进入HDFS的“全部配置”页面，在搜索框中输入参数名称。表1 参数说明参数描述默认值 dfs.disk.balancer.auto.enabled 是否开启自动执行HDFS DiskBalancer特性。默认值为“false”，表示关闭该特性。 false dfs.disk.balancer.auto.cron.expression HDFS 磁盘均衡操作的CRON表达式，用于控制均衡操作的开始时间。仅当dfs.disk.balancer.auto.enabled设置为true时才有效。默认值“0 1 * * 6”表示在每周六的1点执行任务。表达式的具体含义可参见表2。 0 1 * * 6 dfs.disk.balancer.max.disk.throughputInMBperSec 执行磁盘数据均衡时可使用的最大磁盘带宽。单位为MB/s，默认值为10，可依据集群的实际磁盘条件设置。 10 dfs.disk.balancer.max.disk.errors 设置能够容忍的在指定的移动过程中出现的最大错误次数，超过此阈值则移动失败。 5 dfs.disk.balancer.block.tolerance.percent 设置磁盘之间进行数据均衡操作时，各个磁盘的数据存储量与理想状态之间的差异阈值。例如，各个磁盘的理想数据存储量为1TB，此参数设置为10。那么，当目标磁盘的数据存储量达到900GB时，就认为该磁盘的存储状态就已经足够好了。取值范围[1-100]。 10 dfs.disk.balancer.plan.threshold.percent 设置在磁盘数据均衡中可容忍的两磁盘之间的数据密度阈值差。如果任意两个磁盘数据密度差值的绝对值超过了此阈值，意味着对应的磁盘应该进行数据均衡。取值范围[1-100]。 10 dfs.disk.balancer.top.nodes.number 该参数用来指定集群中需要执行磁盘数据均衡的Top N 节点。 5 表2为HDFS磁盘均衡操作的CRON表达式。使用此功能时，需要先将参数dfs.disk.balancer.auto.enabled设置为true。其它参数依据集群状况设置。表2 CRON表达式解释列说明第1列分钟，参数值为0~59。第2列小时，参数值为0~23。第3列日期，参数值为1~31。第4列月份，参数值为1~12。第5列星期，参数值为0~6，0表示星期日。

MapReduce服务 MRS
MapReduce服务 MRS-如何修复长时间处于RIT状态的Region:回答

回答登录HMaster WebUI，在导航栏选择“Procedure & Locks”，查看是否有处于Waiting状态的process id。如果有，需要执行以下命令将procedure lock释放： hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar bypass -o pid 查看State是否处于Bypass状态，如果界面上的procedures一直处于RUNNABLE(Bypass)状态，需要进行主备切换。执行assigns命令使region重新上线。 hbase hbck -j 客户端安装目录/HBase/hbase/tools/hbase-hbck2-*.jar assigns -o regionName

MapReduce服务 MRS
MapReduce服务 MRS-CLEAN FILES:示例

示例添加carbon配置参数 carbon.clean.file.force.allowed = true create table carbon01(a int,b string,c string) stored as carbondata; insert into table carbon01 select 1,'a','aa'; insert into table carbon01 select 2,'b','bb'; delete from table carbon01 where segment.id in (0); show segments for table carbon01; CLEAN FILES FOR TABLE carbon01 options('force'='true'); show segments for table carbon01; 上述命令将从物理上删除所有DELETE SEGMENT命令删除的segment和合并后的旧的segment。

MapReduce服务 MRS
MapReduce服务 MRS-CREATE TABLE:注意事项

注意事项以下是表格属性的使用。 Block大小单个表的数据文件block大小可以通过TBLPROPERTIES进行定义，系统会选择数据文件实际大小和设置的blocksize大小中的较大值，作为该数据文件在HDFS上存储的实际blocksize大小。单位为MB，默认值为1024MB，范围为1MB~2048MB。若设置值不在[1, 2048]之间，系统将会报错。一旦block大小达到配置值，写入程序将启动新的CarbonData数据的block。数据以页面大小（32000个记录）的倍数写入，因此边界在字节级别上不严格。如果新页面跨越配置block的边界，则不会将其写入当前block，而是写入新的block。 TBLPROPERTIES('table_blocksize'='128') 当在CarbonData表中配置了较小的blocksize，而加载的数据生成的数据文件比较大时，在HDFS上显示的blocksize会与设置值不同。这是因为，对于每一个本地block文件的首次写入，即使待写入数据的大小大于blocksize的配置值，也直接将待写入数据写入此block。所以，HDFS上blocksize的实际值为待写入数据大小与blocksize配置值中的较大值。当CarbonData表中的数据文件block.num小于任务并行度（parellelism）时，CarbonData数据文件的block会被切为新的block，使得blocks.num大于parellelism，这样所有core均可被使用。这种优化称为block distribution。 SORT_SCOPE：指定表创建时的排序范围。如下为四种排序范围。 GLOBAL_SORT：它提高了查询性能，特别是点查询。TBLPROPERTIES('SORT_SCOPE'='GLOBAL_SORT') LOCAL_SORT：数据会本地排序（任务级别排序）。 LOCAL_SORT与分区表的DDL操作存在冲突，不能同时使用，且对分区表性能提升不明显，不建议在分区表上启用该特性。 NO_SORT：默认排序。它将以不排序的方式加载数据，这将显著提升加载性能。 SORT_COLUMNS 此表属性指定排序列的顺序。 TBLPROPERTIES('SORT_COLUMNS'='column1, column3') 如果未指定此属性，则默认情况下，没有列会被排序。如果指定了此属性，但具有空参数，则表将被加载而不进行排序。例如，('SORT_COLUMNS'='')。 SORT_COLUMNS将接受string，date，timestamp，short，int，long，byte和boolean数据类型。

MapReduce服务 MRS
MapReduce服务 MRS-CREATE TABLE:参数描述

参数描述表1 CREATE TABLE参数描述参数描述 db_name Database名称，由字母、数字和下划线（_）组成。 col_name data_type 以逗号分隔的带数据类型的列表。列名由字母、数字和下划线（_）组成。说明：在CarbonData表创建过程中，不允许使用tupleId，PositionId和PositionReference为列命名，因为具有这些名称的列由二级索引命令在内部使用。 table_name Database中的表名，由字母、数字和下划线（_）组成。 STORED AS 参数carbondata，定义和创建CarbonData table。 TBLPROPERTIES CarbonData table属性列表。

MapReduce服务 MRS
MapReduce服务 MRS-CREATE TABLE:使用场景

使用场景通过指定列创建表 CREATE TABLE命令与Hive DDL相同。CarbonData的额外配置将作为表格属性给出。 CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type , ...)] STORED AS carbondata [TBLPROPERTIES (property_name=property_value, ...)];

MapReduce服务 MRS
MapReduce服务 MRS-CREATE TABLE:示例

示例 CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, productCategory String, productBatch String, saleQuantity Int, revenue Int) STORED AS carbondata TBLPROPERTIES ( 'table_blocksize'='128', 'SORT_COLUMNS'='productBatch, productName')

MapReduce服务 MRS
MapReduce服务 MRS-配置项中使用宏定义:Loader宏定义

Loader宏定义目前Loader默认支持以下时间宏定义：表1 Loader常用宏定义名称替换后效果说明 @{dateformat("yyyy-MM-dd")}@ 2016-05-17 当前日期。 @{dateformat("yyyy-MM-dd HH:mm:ss")}@ 2016-05-17 16:50:00 当前日期和时间。 @{timestamp()}@ 1463476137557 从1970年到现在的毫秒数。 @{dateformat("yyyy-MM-dd HH:mm:ss",-7,DAYS)}@ 2016-05-10 16:50:00 最近7天，即当前时间减7天。第二个参数支持加减运算。第三个参数为时间运算的单位，参考“java.util.concurrent.TimeUnit.java”定义，分为DAYS、HOURS 、MINUTES、SECONDS。在以下场景中，可以使用宏进行配置参数：指定以当天时间命名的数据目录参数项配置为“/user/data/inputdate_@{dateformat("yyyy-MM-dd")}@”。通过SQL语句查询最近7天的数据 select * from table where time between '@{dateformat("yyyy-MM-dd HH:mm:ss",-7,DAYS)}@' and '@{dateformat("yyyy-MM-dd HH:mm:ss")}@' 指定当天的表名参数项配置为“table_@{dateformat("yyyy-MM-dd")}@”。

MapReduce服务 MRS
MapReduce服务 MRS-字符串逆序转换:参数说明

参数说明表1 算子参数说明参数含义类型是否必填默认值逆序转换的字段配置字符串逆序转换的字段相关信息：输入字段名：配置输入字段名，需填写上一个转换步骤生成的字段名。输出字段名：配置输出字段名。类型：配置字段类型。输出字段长度：配置字段长度，字段值实际长度太长则按配置的长度截取，“类型”为“CHAR”时实际长度不足则空格补齐，“类型”为“VARCHAR”时实际长度不足则不补齐。 map 是无

MapReduce服务 MRS
MapReduce服务 MRS-CarbonData表空间索引语法说明:快速示例

快速示例 create table IF NOT EXISTS carbonTable(COLUMN1 BIGINT,LONGITUDE BIGINT,LATITUDE BIGINT,COLUMN2 BIGINT,COLUMN3 BIGINT)STORED AS carbondataTBLPROPERTIES ('SPATIAL_INDEX.mygeohash.type'='geohash','SPATIAL_INDEX.mygeohash.sourcecolumns'='longitude, latitude','SPATIAL_INDEX.mygeohash.originLatitude'='39.850713','SPATIAL_INDEX.mygeohash.gridSize'='50','SPATIAL_INDEX.mygeohash.minLongitude'='115.828503','SPATIAL_INDEX.mygeohash.maxLongitude'='720.000000','SPATIAL_INDEX.mygeohash.minLatitude'='39.850713','SPATIAL_INDEX.mygeohash.maxLatitude'='720.000000','SPATIAL_INDEX'='mygeohash','SPATIAL_INDEX.mygeohash.conversionRatio'='1000000','SORT_COLUMNS'='column1,column2,column3,latitude,longitude');

MapReduce服务 MRS CarbonData语法参考
MapReduce服务 MRS-CarbonData表空间索引语法说明:建表

建表 GeoHash编码： create table IF NOT EXISTS carbonTable(...`LONGITUDE` BIGINT,`LATITUDE` BIGINT,...)STORED AS carbondataTBLPROPERTIES ('SPATIAL_INDEX.mygeohash.type'='geohash','SPATIAL_INDEX.mygeohash.sourcecolumns'='longitude, latitude','SPATIAL_INDEX.mygeohash.originLatitude'='xx.xxxxxx','SPATIAL_INDEX.mygeohash.gridSize'='xx','SPATIAL_INDEX.mygeohash.minLongitude'='xxx.xxxxxx','SPATIAL_INDEX.mygeohash.maxLongitude'='xxx.xxxxxx','SPATIAL_INDEX.mygeohash.minLatitude'='xx.xxxxxx','SPATIAL_INDEX.mygeohash.maxLatitude'='xxx.xxxxxx','SPATIAL_INDEX'='mygeohash','SPATIAL_INDEX.mygeohash.conversionRatio'='1000000','SORT_COLUMNS'='column1,column2,column3,latitude,longitude'); SPATIAL_INDEX：自定义索引处理器。此处理程序允许用户从表结构列集合中创建新的列。新创建的列名与处理程序名相同。处理程序的type和sourcecolumns属性是必需的属性。目前，type属性只支持“geohash”。Carbon提供一个简单的默认实现类。用户可以通过扩展默认实现类来挂载geohash的自定义实现类。该默认处理程序还需提供以下的表属性： SPATIAL_INDEX.xxx.originLatitude：Double类型，坐标原点纬度 SPATIAL_INDEX.xxx.gridSize：Int类型，栅格长度（米） SPATIAL_INDEX.xxx.minLongitude：Double类型，最小经度 SPATIAL_INDEX.xxx.maxLongitude：Double类型，最大经度 SPATIAL_INDEX.xxx.minLatitude：Double类型，最小纬度 SPATIAL_INDEX.xxx.maxLatitude：Double类型，最大纬度 SPATIAL_INDEX.xxx.conversionRatio：Int类型，将经纬度小数值转换为整型值用户可以按照上述格式为处理程序添加自己的表属性，并在自定义实现类中访问它们。originLatitude，gridSize及conversionRatio是必选参数，其余属性在Carbon中都是可选的。可以使用“SPATIAL_INDEX.xxx.class”属性指定它们的实现类。默认实现类可以为每一行的sourcecolumns生成handler列值，并且支持基于sourcecolumns的过滤条件查询。生成的handler列对用户不可见。除SORT_COLUMNS表属性外，任何DDL命令和属性都不允许包含handler列。生成的handler列默认被视为排序列。如果SORT_COLUMNS不包含任何sourcecolumns，则将handler列追加到现有的SORT_COLUMNS最后。如果在SORT_COLUMNS中已经指定了该handler列，则它在SORT_COLUMNS的顺序将保持不变。如果SORT_COLUMNS包含任意的sourcecolumns，但是没有包含handler列，则handler列将自动插入到SORT_COLUMNS中的sourcecolumns之前。如果SORT_COLUMNS需要包含任意的sourcecolumns，那么需要保证handler列出现在sourcecolumns之前，这样handler列才能在排序中生效。

MapReduce服务 MRS CarbonData语法参考
MapReduce服务 MRS-CarbonData表空间索引语法说明:空间索引介绍

空间索引介绍空间数据包括多维点、线、矩形、立方体、多边形和其他几何对象。空间数据对象占据空间的某一区域，称为空间范围，通过其位置和边界描述。空间数据可以是点数据，也可以是区域数据。点数据：一个点具有一个空间范围，仅通过其位置描述。它不占用空间，没有相关的边界。点数据由二维空间中的点的集合组成。点可以存储为一对经纬度。区域数据：一个区域有空间范围，有位置和边界。位置可以看作是一个定点在区域内的位置，例如它的质心。在二维中，边界可以可视化为一条线（有限区域，闭环）。区域数据包含一系列区域。目前仅限于支持点数据，存储点数据。经纬度可以编码为唯一的GeoID。Geohash是Gustavo Niemeyer发明的公共域地理编码系统，它将地理位置编码为一串由字母和数字组成的短字符串。它是一种分层的空间数据结构，把空间细分为网格形状的桶，是被称为Z阶曲线和通常称为空间填充曲线的许多应用之一。点在多维中的Z值是简单地通过交织其坐标值的二进制表示来计算的，如下图所示。使用Geohash创建GeoID时，数据按照GeoID排序，而不是按照经纬度排序，数据按照空间就近性排序存储。

MapReduce服务 MRS CarbonData语法参考

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！