华为云用户手册

  • 使用文件创建一个Hive表 访问“Metastore Manager”,在“Databases”选择一个数据库。 默认数据库为“default”。 单击,进入“Create a new table from a file”页面。 选择文件。 在“Table Name”填写Hive表的名称。 支持字母、数字、下划线,首位必须为字母或数字,且长度不能超过128位。 根据需要,在“Description”填写Hive表的描述信息。 在“Input File or Location”单击,在HDFS中选择一个用于创建Hive表文件。此文件将存储Hive表的新数据。 如果文件未在HDFS中保存,可以单击“Upload a file”从本地选择文件并上传。支持同时上传多个文件,文件不可为空。 如果需要将文件中的数据导入Hive表,选择“Import data”作为“Load method”。默认选择“Import data”。 选择“Create External Table”时,创建的是Hive外部表。 当选择“Create External Table”时,参数“Input File or Location”需要选择为路径。 选择“Leave Empty”则创建空的Hive表。 单击“Next”。 设置分隔符。 在“Delimiter”选择一个分隔符。 如果分隔符不在列表中,选择“Other..”,然后输入新定义的分隔符。 单击“Preview”查看数据处理预览。 单击“Next”。 定义字段列。 单击“Use first row as column names”右侧的,则使用文件中第一行数据作为列名称。取消则不使用数据作为列名称。 在“Column name”编辑每个列的名称。 支持字母、数字、下划线,首位必须为字母或数字,且长度不能超过128位。 单击“Bulk edit column names”右侧的,可批量对列重新命名。输入所有列的名称并使用逗号分隔。 在“Column Type”选择每个列的类型。 单击“Create Table”创建表,等待Hue显示Hive表的信息。
  • 访问“Job Browser” 访问Hue WebUI,请参考访问Hue WebUI界面。 单击“Job Browser”。 默认显示当前集群的所有作业。 “Job Browser”显示的数字表示集群中所有作业的总数。 “Job Browser”将显示作业以下信息: 表1 MRS 作业属性介绍 属性名 描述 “Logs” 表示作业的日志信息。如果作业有输出日志,则显示。 “ID” 表示作业的编号,由系统自动生成。 “Name” 表示作业的名称。 “Application Type” 表示作业的类型。 “Status” 表示作业的状态,包含“RUNNING”、“SUCCEEDED”、“FAILED”和“KILLED”。 “User” 表示启动该作业的用户。 “Maps” 表示作业执行Map过程的进度。 “Reduces” 表示作业执行Reduce过程的进度。 “Queue” 表示作业运行时使用的YARN队列。 “Priority” 表示作业运行时的优先级。 “Duration” 表示作业运行使用的时间。 “Submitted” 表示作业提交到MRS集群的时间。 如果MRS集群安装了Spark组件,则默认会启动一个作业“Spark-JD BCS erver”,用于执行任务。
  • 操作场景 在启用Kerberos认证的集群中,用户使用Kafka前需要拥有对应的权限。MRS集群支持将Kafka的使用权限,授予不同用户。 Kafka默认用户组如表1所示。 在MRS 3.x及之后版本中,Kafka支持两种鉴权插件:“Kafka开源自带鉴权插件”和“Ranger鉴权插件”。 本章节描述的是基于“Kafka开源自带鉴权插件”的用户权限管理。若想使用 “Ranger鉴权插件”,请参考添加Kafka的Ranger访问权限策略。 表1 Kafka默认用户组 用户组名称 描述 kafkaadmin Kafka管理员用户组。添加入本组的用户,拥有所有主题的创建,删除,授权及读写权限。 kafkasuperuser Kafka高级用户组。添加入本组的用户,拥有所有主题的读写权限。 kafka Kafka普通用户组。添加入本组的用户,需要被kafkaadmin组用户授予特定主题的读写权限,才能访问对应主题。
  • 操作步骤 根据业务情况,准备好客户端,登录安装客户端的节点。 请根据客户端所在位置,参考安装客户端章节,登录安装客户端的节点。 执行以下命令,设置拓扑的jar包权限。 例如修改“/opt/storm/topology.jar”的权限: chmod 600 /opt/storm/topology.jar 执行以下命令,切换到客户端目录,例如“/opt/client”。 cd /opt/client 执行以下命令,配置环境变量。 source bigdata_env 若安装了Storm多实例,在使用Storm命令提交拓扑时,请执行以下命令加载具体实例的环境变量,否则请跳过此步骤。例如,Storm-2实例: source Storm-2/component_env 启用Kerberos认证的集群,执行以下命令认证用户身份。未启用Kerberos认证的集群无需执行。 kinit Storm用户 MRS 3.x之前版本:执行以下命令,提交Storm拓扑。 storm jar 拓扑包路径 拓扑Main方法的类名称 拓扑名称 界面提示以下信息表示提交成功: Finished submitting topology: topo1 如果需要拓扑支持采样消息,则还需要增加参数“topology.debug”和“topology.eventlogger.executors”。 拓扑如何处理数据是拓扑自身行为。样例拓扑随机生成字符并分隔字符串,需要查看处理情况时,请启用采样功能并参见查看Storm拓扑日志。 MRS 3.x及后续版本:执行以下命令,提交拓扑任务。 storm jar topology-jar-path class 入参列表 topology-jar-path:表示拓扑的jar包所在路径。 class:表示拓扑使用的main方法所在类名称。 入参列表:表示拓扑使用的main方法入参。 例如,提交WordCount计算的拓扑“/opt/storm/topology.jar”并以拓扑命名作为入参,执行: storm jar /opt/storm/topology.jar com.huawei.storm.example.WordCountTopology topology1 显示以下信息表示拓扑提交成功: Finished submitting topology: topology1 登录认证用户必须与所加载环境变量(component_env)一 一对应,否则使用storm命令提交拓扑任务出错。 加载客户端环境变量且对应用户登录成功后,该用户可以在任意storm客户端下执行storm命令来提交拓扑任务,但提交拓扑命令执行完成后,提交成功的拓扑仍然在用户所对应的Storm集群中,不会出现在其他Storm集群中。 如果修改了集群 域名 ,需要在提交拓扑前重新设置域名信息,进入cql语句执行命令,例如:set "kerberos.domain.name" = "hadoop.huawei.com"。 执行以下命令,查看Storm中的拓扑。启用Kerberos认证的集群,只有属于“stormadmin”或“storm”的用户可以查看所有拓扑。 storm list
  • 操作步骤 连接到Spark CarbonData。 根据业务情况,准备好客户端,使用root用户登录安装客户端的节点。 例如在Master2节点更新客户端,则在该节点登录客户端,具体参见使用MRS客户端。 切换用户与配置环境变量。 sudo su - omm source /opt/client/bigdata_env 启用Kerberos认证的集群,执行以下命令认证用户身份。未启用Kerberos认证集群无需执行。 kinit Spark组件用户名 用户需要加入用户组hadoop、hive,主组hadoop。 执行以下命令,连接到Spark运行环境: spark-beeline 执行命令创建CarbonData表。 CarbonData表可用于加载数据和执行查询操作,例如执行以下命令创建CarbonData表: CREATE TABLE x1 (imei string, deviceInformationId int, mac string, productdate timestamp, updatetime timestamp, gamePointId double, contractNumber double) STORED BY 'org.apache.carbondata.format' TBLPROPERTIES ('DICTIONARY_EXCLUDE'='mac','DICTIONARY_INCLUDE'='deviceInformationId'); 命令执行结果如下: +---------+--+| result |+---------+--++---------+--+No rows selected (1.551 seconds) 从 CS V文件加载数据到CarbonData表。 根据所要求的参数运行命令从CSV文件加载数据,且仅支持CSV文件。LOAD命令中配置的CSV列名,需要和CarbonData表列名相同,顺序也要对应。CSV文件中的数据的列数,以及数据格式需要和CarbonData表匹配。 文件需要保存在HDFS中。用户可以将文件上传到OBS,并在MRS管理控制台“文件管理”将文件从OBS导入HDFS,具体请参考导入导出数据。 如果集群启用了Kerberos认证,则需要在工作环境准备CSV文件,然后可以使用开源HDFS命令,参考5将文件从工作环境导入HDFS,并设置Spark组件用户在HDFS中对文件有读取和执行的权限。 例如,HDFS的“tmp”目录有一个文件“data.csv”,内容如下: x123,111,dd,2017-04-20 08:51:27,2017-04-20 07:56:51,2222,33333 执行导入命令: LOAD DATA inpath 'hdfs://hacluster/tmp/data.csv' into table x1 options('DELIMITER'=',','QUOTECHAR'='"','FILEHEADER'='imei, deviceinformationid,mac,productdate,updatetime,gamepointid,contractnumber'); 命令执行结果如下: +---------+--+| Result |+---------+--++---------+--+No rows selected (3.039 seconds) 在CarbonData中查询数据。 获取记录数 为了获取在CarbonData table中的记录数,可以执行以下命令。 select count(*) from x1; 使用Groupby查询 为了获取不重复的“deviceinformationid”记录数,可以执行以下命令。 select deviceinformationid,count (distinct deviceinformationid) from x1 group by deviceinformationid; 使用条件查询 为了获取特定deviceinformationid的记录,可以执行以下命令。 select * from x1 where deviceinformationid='111'; 在执行数据查询操作后,如果查询结果中某一列的结果含有中文字等其他非英文字符,会导致查询结果中的列不能对齐,这是由于不同语言的字符在显示时所占的字宽不尽相同。 执行以下命令退出Spark运行环境。 !quit
  • 使用Flume客户端加密工具 安装Flume客户端后,配置文件的部分参数可能需要填写加密的字符,Flume客户端中提供了加密工具。 安装Flume客户端。 登录安装Flume客户端的节点,并切换到客户端安装目录。例如“/opt/FlumeClient”。 切换到以下目录 cd fusioninsight-flume-Flume组件版本号/bin 执行以下命令,加密原始信息: ./genPwFile.sh 输入两次待加密信息。 执行以下命令,查看加密后的信息: cat password.property 如果加密参数是用于Flume Server,那么需要到相应的Flume Server所在节点执行加密。需要使用omm用户执行加密脚本进行加密。 针对MRS 3.x之前版本加密路径为“/opt/Bigdata/MRS_XXX/install/ FusionInsight -Flume-Flume组件版本号/flume/bin/genPwFile.sh”。 针对MRS 3.x及之后版本加密路径为“/opt/Bigdata/FusionInsight_Porter_XXX/install/FusionInsight-Flume-Flume组件版本号/flume/bin/genPwFile.sh”。其中XXX为产品的版本号。 父主题: Flume企业级能力增强
  • 查看Flume客户端日志 安装Flume客户端。 进入Flume客户端日志目录,默认为“/var/log/Bigdata”。 执行如下命令查看日志文件列表。 ls -lR flume-client-* 日志文件示例如下: flume-client-1/flume:total 7672-rw-------. 1 root root 0 Sep 8 19:43 Flume-audit.log-rw-------. 1 root root 1562037 Sep 11 06:05 FlumeClient.2017-09-11_04-05-09.[1].log.zip-rw-------. 1 root root 6127274 Sep 11 14:47 FlumeClient.log-rw-------. 1 root root 2935 Sep 8 22:20 flume-root-20170908202009-pid72456-gc.log.0.current-rw-------. 1 root root 2935 Sep 8 22:27 flume-root-20170908202634-pid78789-gc.log.0.current-rw-------. 1 root root 4382 Sep 8 22:47 flume-root-20170908203137-pid84925-gc.log.0.current-rw-------. 1 root root 4390 Sep 8 23:46 flume-root-20170908204918-pid103920-gc.log.0.current-rw-------. 1 root root 3196 Sep 9 10:12 flume-root-20170908215351-pid44372-gc.log.0.current-rw-------. 1 root root 2935 Sep 9 10:13 flume-root-20170909101233-pid55119-gc.log.0.current-rw-------. 1 root root 6441 Sep 9 11:10 flume-root-20170909101631-pid59301-gc.log.0.current-rw-------. 1 root root 0 Sep 9 11:10 flume-root-20170909111009-pid119477-gc.log.0.current-rw-------. 1 root root 92896 Sep 11 13:24 flume-root-20170909111126-pid120689-gc.log.0.current-rw-------. 1 root root 5588 Sep 11 14:46 flume-root-20170911132445-pid42259-gc.log.0.current-rw-------. 1 root root 2576 Sep 11 13:24 prestartDetail.log-rw-------. 1 root root 3303 Sep 11 13:24 startDetail.log-rw-------. 1 root root 1253 Sep 11 13:24 stopDetail.logflume-client-1/monitor:total 8-rw-------. 1 root root 141 Sep 8 19:43 flumeMonitorChecker.log-rw-------. 1 root root 2946 Sep 11 13:24 flumeMonitor.log 其中FlumeClient.log即为Flume客户端的运行日志。 父主题: Flume运维管理
  • 使用自定义列创建表 可通过指定各列及其数据类型来创建表。启用Kerberos认证的分析集群创建CarbonData表时,如果用户需要在默认数据库“default”以外的数据库创建新表,则需要在Hive角色管理中为用户绑定的角色添加指定数据库的“Create”权限。 命令示例: CREATE TABLE IF NOT EXISTS productdb.productSalesTable ( productNumber Int, productName String, storeCity String, storeProvince String, revenue Int) STORED BY 'org.apache.carbondata.format' TBLPROPERTIES ( 'table_blocksize'='128', 'DICTIONARY_EXCLUDE'='productName', 'DICTIONARY_INCLUDE'='productNumber'); 上述命令所创建的表的详细信息如下:
  • OBS连接 OBS连接是Loader与OBS进行数据交换的通道,配置参数如表1所示。 表1 obs-connector配置 参数 说明 名称 指定一个Loader连接的名称。 OBS服务器 输入OBS endpoint地址,一般格式为OBS.Region.DomainName。 例如执行如下命令查看OBS endpoint地址: cat /opt/Bigdata/apache-tomcat-7.0.78/webapps/web/WEB-INF/classes/cloud-obs.properties 端口 访问OBS数据的端口。默认值为“443”。 访问标识(AK) 表示访问OBS的用户的访问密钥AK。 密钥(SK) 表示访问密钥对应的SK。
  • 文件服务器连接 文件服务器连接包含FTP连接和SFTP连接,是Loader与文件服务器进行数据交换的通道,配置参数如表4所示。 表4 ftp-connector或sftp-connector配置 参数 说明 名称 指定一个Loader连接的名称。 主机名或IP 输入文件服务器的访问地址,可以是服务器的主机名或者IP地址。 端口 访问文件服务器的端口。 FTP协议请使用端口“21”。 SFTP协议请使用端口“22”。 用户名 表示文件服务器的用户名称。 密码 表示此用户对应的密码。
  • 关系型数据库连接 关系型数据库连接是Loader与关系型数据库进行数据交换的通道,配置参数如表2所示。 部分参数需要单击“显示高级属性”后展开,否则默认隐藏。 表2 generic-jdbc-connector配置 参数 说明 名称 指定一个Loader连接的名称。 数据库类型 表示Loader连接支持的数据,可以选择“ORACLE”、“MYSQL”和“MPPDB”。 数据库服务器 表示数据库的访问地址,可以是IP地址或者域名。 端口 表示数据库的访问端口。 数据库名称 表示保存数据的具体数据库名。 用户名 表示连接数据库使用的用户名称。 密码 表示此用户对应的密码。需要与实际密码保持一致。
  • 背景信息 假定用户开发一个应用程序,用于管理企业中的使用A业务的用户信息,使用Hive客户端实现A业务操作流程如下: 普通表的操作: 创建用户信息表user_info。 在用户信息中新增用户的学历、职称信息。 根据用户编号查询用户姓名和地址。 A业务结束后,删除用户信息表。 表1 用户信息 编号 姓名 性别 年龄 地址 12005000201 A 男 19 A城市 12005000202 B 女 23 B城市 12005000203 C 男 26 C城市 12005000204 D 男 18 D城市 12005000205 E 女 21 E城市 12005000206 F 男 32 F城市 12005000207 G 女 29 G城市 12005000208 H 女 30 H城市 12005000209 I 男 26 I城市 12005000210 J 女 25 J城市
  • 配置Maxwell 在maxwell-XXX文件夹下若有conf目录则配置config.properties文件,配置项说明请参见表1。若没有conf目录,则是在maxwell-XXX文件夹下将config.properties.example修改成config.properties。 表1 Maxwell配置项说明 配置项 是否必填 说明 默认值 user 是 连接MySQL的用户名,即2中新创建的用户 - password 是 连接MySQL的密码,配置文件中包含认证密码信息可能存在安全风险,建议当前场景执行完毕后删除相关配置文件或加强安全管理。 - host 否 MySQL地址 localhost port 否 MySQL端口 3306 log_level 否 日志打印级别,可选值为 debug info warn error info output_ddl 否 是否发送DDL(数据库与数据表的定义修改)事件 true:发送DDL事件 false:不发送DDL事件 false producer 是 生产者类型,配置为kafka stdout:将生成的事件打印在日志中 kafka:将生成的事件发送到kafka stdout producer_partition_by 否 分区策略,用来确保相同一类的数据写入到kafka同一分区 database:使用数据库名称做分区,保证同一个数据库的事件写入到kafka同一个分区中 table:使用表名称做分区,保证同一个表的事件写入到kafka同一个分区中 database ignore_producer_error 否 是否忽略生产者发送数据失败的错误 true:在日志中打印错误信息并跳过错误的数据,程序继续运行 false:在日志中打印错误信息并终止程序 true metrics_slf4j_interval 否 在日志中输出上传kafka成功与失败数据的数量统计的时间间隔,单位为秒 60 kafka.bootstrap.servers 是 kafka代理节点地址,配置形式为HOST:PORT[,HOST:PORT] - kafka_topic 否 写入kafka的topic名称 maxwell dead_letter_topic 否 当发送某条记录出错时,记录该条出错记录主键的kafka topic - kafka_version 否 Maxwell使用的kafka producer版本号,不能在config.properties中配置,需要在启动命令时用-- kafka_version xxx参数传入 - kafka_partition_hash 否 划分kafka topic partition的算法,支持default或murmur3 default kafka_key_format 否 Kafka record的key生成方式,支持array或Hash Hash ddl_kafka_topic 否 当output_ddl配置为true时,DDL操作写入的topic {kafka_topic} filter 否 过滤数据库或表。 若只想采集mydatabase的库,可以配置为 exclude: *.*,include: mydatabase.* 若只想采集mydatabase.mytable的表,可以配置为 exclude: *.*,include: mydatabase.mytable 若只想采集mydatabase库下的mytable,mydate_123, mydate_456表,可以配置为 exclude: *.*,include: mydatabase.mytable, include: mydatabase./mydate_\\d*/ -
  • 验证Maxwell 登录Maxwell所在的服务器。 查看日志。如果日志里面没有ERROR日志,且有打印如下日志,表示与MySQL连接正常。 BinlogConnectorLifecycleListener - Binlog connected. 登录MySQL数据库,对测试数据进行更新/创建/删除等操作。操作语句可以参考如下示例。 -- 创建库create database test;-- 创建表create table test.e ( id int(10) not null primary key auto_increment, m double, c timestamp(6), comment varchar(255) charset 'latin1');-- 增加记录insert into test.e set m = 4.2341, c = now(3), comment = 'I am a creature of light.';-- 更新记录update test.e set m = 5.444, c = now(3) where id = 1;-- 删除记录delete from test.e where id = 1;-- 修改表alter table test.e add column torvalds bigint unsigned after m;-- 删除表drop table test.e;-- 删除库drop database test; 观察Maxwell的日志输出,如果没有WARN/ERROR打印,则表示Maxwell安装配置正常。 若要确定数据是否成功上传,可设置config.properties中的log_level为debug,则数据上传成功时会立刻打印如下JSON格式数据,具体字段含义请参考Maxwell生成的数据格式及常见字段含义。 {"database":"test","table":"e","type":"insert","ts":1541150929,"xid":60556,"commit":true,"data":{"id":1,"m":4.2341,"c":"2018-11-02 09:28:49.297000","comment":"I am a creature of light."}}…… 当整个流程调试通过之后,可以把config.properties文件中的配置项log_level修改为info,减少日志打印量,并重启Maxwell。 # log level [debug | info | warn | error]log_level=info
  • 安装Maxwell 下载安装包,下载路径为https://github.com/zendesk/maxwell/releases,选择名为maxwell-XXX.tar.gz的二进制文件下载,其中XXX为版本号。 将tar.gz包上传到任意目录下(本示例路径为Master节点的/opt)。 登录部署Maxwell的服务器,并执行如下命令进入tar.gz包所在目录。 cd /opt 执行如下命令解压“maxwell-XXX.tar.gz”压缩包,并进入“maxwell-XXX”文件夹。 tar -zxvf maxwell-XXX.tar.gz cd maxwell-XXX
  • 启动Maxwell 登录Maxwell所在的服务器。 执行如下命令进入Maxwell安装目录。 cd /opt/maxwell-1.21.0/ 如果是初次使用Maxwell,建议将conf/config.properties中的log_level改为debug(调试级别),以便观察启动之后是否能正常从MySQL获取数据并发送到kafka,当整个流程调试通过之后,再把log_level修改为info,然后先停止再启动Maxwell生效。 # log level [debug | info | warn | error] log_level=debug 执行如下命令启动Maxwell。 source /opt/client/bigdata_env bin/Maxwell bin/maxwell --user='maxwell' --password='XXXXXX' --host='127.0.0.1' \ --producer=kafka --kafka.bootstrap.servers=kafkahost:9092 --kafka_topic=Maxwell 其中,user,password和host分别表示MySQL的用户名,密码和IP地址,这三个参数可以通过修改配置项配置也可以通过上述命令配置,kafkahost为流式集群的Core节点的IP地址。 命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 显示类似如下信息,表示Maxwell启动成功。 Success to start Maxwell [78092].
  • Maxwell生成的数据格式及常见字段含义 Maxwell生成的数据格式为JSON,常见字段含义如下: type:操作类型,包含database-create,database-drop,table-create,table-drop,table-alter,insert,update,delete database:操作的数据库名称 ts:操作时间,13位时间戳 table:操作的表名 data:数据增加/删除/修改之后的内容 old:数据修改前的内容或者表修改前的结构定义 sql:DDL操作的SQL语句 def:表创建与表修改的结构定义 xid:事务唯一ID commit:数据增加/删除/修改操作是否已提交
  • 查看Consumers信息 登录KafkaManager的WebUI界面。 在集群列表页面单击对应集群名称进入集群Summary页面。 单击“Consumers”查看当前集群的Consumers列表及每个Consumer的消费信息。 图5 Consumers列表 单击Consumer的名称查看消费的Topic列表。 图6 Consumer消费的Topic列表 单击Consumer下Topic列表中的Topic名称,查看该Consumer对Topic的具体消费情况。 图7 Consumer对Topic的具体消费情况
  • 使用S3表函数 登录主 OMS 节点。 执行以下命令获取OBS内的存储数据。 select * from S3(path, [ak, sk,] format, structure, [compression]) path:访问域名/OBS文件路径,登录OBS管理控制台,在左侧导航栏单击“并行文件系统”,在“并行文件系统”页面单击对应的文件系统名称,在“文件”页面单击文件名称,文件“链接”即path路径,如图1所示。 图1 文件路径 ak:参数可选,具备访问OBS权限的ak。 sk:参数可选,具备访问OBS权限的sk。 format :文件的格式。 structure:表的结构。 compression:参数可选,压缩类型。
  • 读取Hudi数据概述 Hudi的读操作,作用于Hudi的三种视图之上,可以根据需求差异选择合适的视图进行查询。 Hudi 支持多种查询引擎Spark和Hive,具体支持矩阵见表1和表2。 表1 cow表 查询引擎 实时视图/读优化视图 增量视图 Hive Y Y Spark(SparkSQL) Y Y Spark(SparkDataSource API) Y Y 表2 mor表 查询引擎 实时视图 增量视图 读优化视图 Hive Y Y Y Spark(SparkSQL) Y Y Y Spark(SparkDataSource API) Y Y Y 当前Hudi使用Spark datasource接口读取时,不支持分区推断能力。比如bootstrap表使用datasource接口查询时,可能出现分区字段不显示,或者显示为null的情况。 增量视图,需设置set hoodie.hudicow.consume.mode = INCREMENTAL;,但该参数仅限于增量视图查询,不能用于Hudi表的其他类型查询,和其他表的查询。 恢复配置可设置set hoodie.hudicow.consume.mode = SNAPSHOT;或任意值。 父主题: Hudi读操作
  • 操作场景 用户可以根据业务需要,使用集群客户端创建Kafka Topic。启用Kerberos认证的集群,需要拥有管理Kafka主题的权限。也可以通过KafkaUI修改Topic Configs。 安全模式下,KafkaUI对修改Topic Configs场景,需保证KafkaUI登录用户属于“kafkaadmin”用户组或者单独给用户授予对应操作权限,否则将会鉴权失败。 非安全模式下,KafkaUI对所有操作不作鉴权处理。 该章节仅适用MRS 3.x及之后版本。
  • 操作步骤 访问Storm的WebUI,请参考访问Storm的WebUI。 在“Topology summary”区域,单击指定的拓扑名称。 通过“Topology actions”管理Storm拓扑。 激活拓扑 单击“Activate”,转化当前拓扑为激活状态。 去激活拓扑 单击“Deactivate”,转化当前拓扑为去激活状态。 重部署拓扑 单击“Rebalance”,将当前拓扑重新部署执行,需要输入执行重部署的等待时间,单位为秒。一般在集群中节点数发生变化时进行,以更好利用集群资源。 删除拓扑 单击“Kill”,将当前拓扑删除,需要输入执行操作的等待时间,单位为秒。 采样、停止采样拓扑消息 单击“Debug”,在弹出窗口输入流数据采样消息的数值,单位为百分比,表示从开始采样到停止采样这段时间内所有数据的采集比例。例如输入“10”,则采集比例为10%。 如果需要停止采样,则单击“Stop Debug”。 只有在提交拓扑时启用采样功能,才支持此功能。查看采样处理数据,请参见查看Storm拓扑日志。 修改拓扑日志级别 单击“Change Log Level”,可以为Storm日志指定新的日志信息级别。 显示拓扑结构图。 在“Topology Visualization”区域单击“Show Visualization”,执行拓扑可视化操作。
  • 问题排查步骤 磁盘或其他存储介质问题导致merge过慢或者中止。 登录Manager页面,检查是否存在磁盘容量不足或其他磁盘告警,如果存在,请按照告警指导处理。 如果是磁盘容量不足,也可以联系客户删除部分过期数据,释放空间,快速恢复业务。 Zookeeper异常导致merge无法正常执行。 登录Manager页面,检查ZooKeeper是否存在服务不可用、ClickHouse服务在ZooKeeper的数量配额使用率超过阈值等相关告警,如果存在,请按照告警指导处理。 执行如下SQL排查是否存在副本同步队列任务积压: select FQDN() as node,type,count() from clusterAllReplicas(default_cluster, system.replication_queue) group by node,type; 如果存在积压,请查看副本队列中的任务是否报错,并根据报错信息处理。 执行如下SQL排查是否存在节点间表结构不一致。 select FQDN(), create_table_query from clusterAllReplicas(default_cluster,system.tables) where name = '${table_name}' group by FQDN(),create_table_query; 如果存在,请将不一致的表结构修改一致。 执行如下SQL排查是否存在mutation任务异常: select FQDN(), database, table, mutation_id, create_time, command from clusterAllReplicas(default_cluster, system.mutations) where is_done = '0' order by create_time asc; 如果mutation任务正常,等待mutation任务完成,如果mutation任务异常,清理异常的mutation任务。 业务写入压力过大导致merge速度小于insert速度。 可以用以下SQL语句检查报错节点最近一小时的写入条数和频次: select tables,written_rows,count() from system.query_log where type='QueryFinish' and query_start_time between (toUnixTimestamp(now()) - 3600) AND toUnixTimestamp(now()) and query_kind = 'Insert' group by tables,written_rows order by written_rows limit 10; 业务上建议一次写入一个分区,写入频率不要太快,不要小批量数据的插入,适当增大每次插入的时间间隔。 如果没有触发Merge,或者Merge较慢,需要调整参数加快Merge。 加速Merge,需要调整如下参数,请参考加速Merge操作: 配置项 参考值 max_threads CPU核数*2 background_pool_size CPU核数 merge_max_block_size 8192的整数倍,根据CPU内存资源大小调整 cleanup_delay_period 适当小于默认值 30
  • 编辑器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 在左侧导航栏单击,然后选择“Workflow”。 支持创建Workflow、计划和Bundles的操作。支持提交运行、共享、复制和导出已创建的应用。 每个Workflow可以包含一个或多个作业,形成完整的工作流,用于实现指定的业务。 创建Workflow时,可直接在Hue的编辑器设计作业,并添加到Workflow中。 每个计划可定义一个时间触发器,用于定时触发执行一个指定的Workflow。不支持多个Workflow。 每个Bundles可定义一个集合,用于触发执行多个计划,使不同Workflow批量执行。
  • 执行HiveQL语句 在“Database”右侧下拉列表选择一个Hive中的数据库,默认数据库为“default”。 系统将自动显示数据库中的所有表。可以输入表名关键字,系统会自动搜索包含此关键字的全部表。 单击指定的表名,可以显示表中所有的列。 光标移动到表或列所在的行,单击 可以查看详细信息。 在HiveQL语句编辑区输入查询语句。 单击 开始执行HiveQL语句。 图1 执行语句 如果希望下次继续使用已输入的HiveQL语句,请单击保存。 高级查询配置: 单击右上角的,对文件、功能、设置等信息进行配置。 查看快捷键: 单击右上角的,可查看语法和键盘快捷方式信息。 删除已输入的HiveQL语句,请单击后的三角选择“清除”。 查看历史: 单击“查询历史记录”,可查看HiveQL运行情况,支持显示所有语句或只显示保存的语句的运行情况。历史记录存在多个结果时,可以在输入框使用关键字进行搜索。
  • 修改在Hue使用编辑器的会话配置 在编辑器页面,单击 。 在“文件”的右侧单击 ,然后单击 选择文件。 可以单击“文件”后的 新增加一个文件资源。 在“功能” ,输入用户自定义的名称和函数的类名称。 可以单击“功能”后的 新增加一个自定义函数。 在“设置” ,在“设置”的“键”输入Hive的参数名,在“值”输入对应的参数值,则当前Hive会话会以用户定义的配置连接Hive。 可以单击 新增加一个参数。
  • 前提条件 已安装客户端。例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 各组件业务用户由MRS集群管理员根据业务需要创建。 “机机”用户需要下载keytab文件,“人机”用户第一次登录时需修改密码。 非root用户使用HBase客户端,请确保该HBase客户端目录的属主为该用户,否则请参考如下命令修改属主。 chown user:group -R 客户端安装目录/HBase
  • 使用HBase客户端(MRS 3.x及之后版本) 安装客户端,具体请参考安装客户端章节。 以客户端安装用户,登录安装客户端的节点。 执行以下命令切换到客户端目录。 cd /opt/hadoopclient 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建HBase表的权限,具体请参见角色管理配置拥有对应权限的角色,参考创建用户章节,为用户绑定对应角色。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit 组件业务用户 例如,kinit hbaseuser。 直接执行HBase组件的客户端命令。 hbase shell
  • 元数据管理器使用介绍 访问Hue WebUI,请参考访问Hue WebUI界面。 查看Hive表的元数据 在左侧导航栏单击表,单击某一表名称,界面将显示Hive表的元数据信息。 管理Hive表的元数据 在Hive表的元数据信息界面: 单击右上角的“导入”可导入数据。 单击“概述”,在“属性”域可查看表文件的位置信息。 可查看Hive表各列字段的信息,并手动添加描述信息,注意此处添加的描述信息并不是Hive表中的字段注释信息(comment)。 单击“样本”可浏览数据。 管理Hive元数据表 单击左侧列表中的可在数据库中根据上传的文件创建一个新表,也可手动创建一个新表。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,例如使用HDFS客户端对HDFS文件进行操作,使用Hive客户端对Hive表进行操作。
  • 使用HBase客户端(MRS 3.x之前版本) 安装客户端,具体请参考安装客户端章节。 以客户端安装用户,登录安装客户端的节点。 执行以下命令切换到客户端目录。 cd /opt/hadoopclient 执行以下命令配置环境变量。 source bigdata_env 如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建HBase表的权限,具体请参见创建角色配置拥有对应权限的角色,参考创建用户章节,为用户绑定对应角色。如果当前集群未启用Kerberos认证,则无需执行此命令。 kinit 组件业务用户 例如,kinit hbaseuser。 直接执行HBase组件的客户端命令。 hbase shell
共100000条
提示

您即将访问非华为云网站,请注意账号财产安全