检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用Sasl Kerberos认证 在安全集群环境下,各个组件之间不能够简单地相互通信,而需要在通信之前进行相互认证,以确保通信的安全性。Kafka应用开发需要进行Kafka、ZooKeeper、Kerberos的安全认证,这些安全认证只需要生成一个jaas文件并设置相关环境变量
Maven”查看当前“settings.xml”文件放置目录,确保该目录为“<本地Maven安装目录>\conf\settings.xml”。 图3 “settings.xml”文件放置目录 父主题: 准备MapReduce应用开发环境
MapReduce二次开发远程调试 问题 MapReduce二次开发过程中如何远程调试业务代码? 回答 MapReduce开发调试采用的原理是Java的远程调试机制,在Map/Reduce任务启动时,添加Java远程调试命令。 首先理解两个参数:“mapreduce.map.java
准备连接MapReduce集群配置文件 如果需要使用访问多组件样例程序,请确保集群已安装Hive、HBase服务。 准备集群认证用户信息 对于开启Kerberos认证的MRS集群,需提前准备具有相关组件操作权限的用户,并下载认证凭据文件用于程序认证。 以下MapReduce权限配
Spark Core样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
Spark SQL样例程序开发思路 场景说明 假定用户有某个周末网民网购停留时间的日志文本,基于某些业务要求,要求开发Spark应用程序实现如下功能: 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 周末两天的日志文件第一列为姓名,第二列为性别,第三列为本次停留时间,单位为分钟,分隔符为“
操作Avro格式数据 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,本例中将数据以Avro格式存储在HBase中,并从中读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
要使用的HBase表: create 'HBaseSourceExampleTable','rowkey','cf1','cf2','cf3','cf4','cf5','cf6','cf7', 'cf8' 开发思路 创建RDD。 以数据源的方式操作HBase,将上面生成的RDD写入HBase表中。
list.add(Bytes.toBytes("2")); list.add(Bytes.toBytes("3")); list.add(Bytes.toBytes("4")); list.add(Bytes
在数据集的每一个元素上,运行函数func。 java.util.Map<T,Long> countByValue() 对RDD中每个元素出现的次数进行统计。 表3 Spark Core新增接口 API 说明 public java.util.concurrent.atomic.AtomicBoolean
countByValue()(implicit ord: Ordering[T] = null): Map[T, Long] 对RDD中每个元素出现的次数进行统计。 表3 Spark Core新增接口 API 说明 isSparkContextDown:AtomicBoolean 该接口可判断sparkCon
eam。 Spark Streaming的常见方法与Spark Core类似,下表罗列了Spark Streaming特有的一些方法。 表3 Spark Streaming常用接口介绍 方法 说明 socketTextStream(hostname, port, storageLevel)
时间最长的SQL语句的信息(即结果中“longestDurationOfCompletedSQL”的部分)。每个SQL语句的信息如下表3。 表3 SQL的常用信息 参数 描述 id SQL语句的ID status SQL语句的执行状态,有RUNNING、COMPLETED、FAILED三种
structured streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类
在右侧窗口中单击“+”,选择“Library Files”添加依赖包。 图2 添加Library Files 选择需要添加的依赖包,然后单击“OK”。 图3 Choose Libraries 单击“Apply”加载依赖包,然后单击“OK”完成配置。 父主题: Spark应用开发常见问题
SparkSQL UDF功能的权限控制机制 问题 SparkSQL中UDF功能的权限控制机制是怎样的? 回答 目前已有的SQL语句无法满足用户场景时,用户可使用UDF功能进行自定义操作。 为确保数据安全以及UDF中的恶意代码对系统造成破坏,SparkSQL的UDF功能只允许具备a
使用IBM JDK产生异常“Problem performing GSS wrap”如何处理 问题 使用IBM JDK产生异常,提示“Problem performing GSS wrap”信息。 回答 问题原因: 在IBM JDK下建立的Hive connection时间超过登
准备MapReduce开发和运行环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统,支持Windows 7以上版本。 运行环境:Windows系统或Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。
getInt( "log.time.threshold", 120); } } 样例3:main()方法创建一个job,指定参数,提交作业到hadoop集群。 public static void main(String[]
MapReduce二次开发远程调试 问题 MapReduce二次开发过程中如何远程调试业务代码? 回答 MapReduce开发调试采用的原理是Java的远程调试机制,在Map/Reduce任务启动时,添加Java远程调试命令。 首先理解两个参数:“mapreduce.map.java