检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
countByValue()(implicit ord: Ordering[T] = null): Map[T, Long] 对RDD中每个元素出现的次数进行统计。 表3 Spark Core新增接口 API 说明 isSparkContextDown:AtomicBoolean 该接口可判断sparkCon
eam。 Spark Streaming的常见方法与Spark Core类似,下表罗列了Spark Streaming特有的一些方法。 表3 Spark Streaming常用接口介绍 方法 说明 socketTextStream(hostname, port, storageLevel)
examples/jars/spark-examples_2.12-3.1.1-hw-ei-311001-SNAPSHOT.jar 6 10 10 3 spark-sql 可用于local模式或者集群模式运行Hive元数据服务以及命令行查询。如果需要查看其逻辑计划,只需在SQL语句前面加上explain
structured streaming功能与可靠性介绍 Structured Streaming支持的功能 支持对流式数据的ETL操作。 支持流式DataFrames或Datasets的schema推断和分区。 流式DataFrames或Datasets上的操作:包括无类型,类
在右侧窗口中单击“+”,选择“Library Files”添加依赖包。 图2 添加Library Files 选择需要添加的依赖包,然后单击“OK”。 图3 Choose Libraries 单击“Apply”加载依赖包,然后单击“OK”完成配置。 父主题: Spark应用开发常见问题
如何处理自动加载的依赖包 问题 在使用IDEA导入工程前,如果IDEA工具中已经进行过Maven配置时,会导致工具自动加载Maven配置中的依赖包。当自动加载的依赖包与应用程序不配套时,导致工程Build失败。如何处理自动加载的依赖包? 回答 建议在导入工程后,手动删除自动加载的依赖。步骤如下:
使用旧插件storm-kafka时如何正确设置offset 问题 当前虽然默认推荐使用storm-kafka-client插件进行安全kafka对接,但仍然存在使用旧插件storm-kafka的用户和场景,在这种场景下如何正确指定消费的offset,避免每次重启拓扑后都从头开始消费?
使用JDBC接口提交数据分析任务 功能介绍 本章节介绍如何使用JDBC样例程序完成数据分析任务。 样例代码 使用Hive JDBC接口提交数据分析任务,该样例程序在“hive-examples/hive-jdbc-example”的“JDBCExample.java”中,实现该功能的模块如下:
toBytes("1")); list.add(Bytes.toBytes("2")); list.add(Bytes.toBytes("3")); list.add(Bytes.toBytes("4")); list.add(Bytes.toBytes("5"));
使用JDBC接口提交数据分析任务 功能简介 本章节介绍如何使用JDBC样例程序完成数据分析任务。 样例代码 使用Hive JDBC接口提交数据分析任务,该样例程序在“hive-examples/hive-jdbc-example”的“JDBCExample.java”中,实现该功能的模块如下:
访问Hue原生页面时间长,文件浏览器报错Read timed out 问题 访问Hue原生页面时页面加载时间较长,访问Hue的HDFS文件浏览器报错Read timed out,如何解决。 回答 检查HDFS服务中是否安装Httpfs实例。 否,请联系运维人员处理。 是,重启HttpFS实例解决。
90000 spark.thriftserver.zookeeper.retry.times Zookeeper客户端失联后,重试次数。 3 spark.yarn.queue JDBCServer服务所在的Yarn队列。 default 父主题: 配置Spark HA增强高可用
healthcheck.recheckTimes 多租户模式下,JDBCServer代理检查JDBCServer健康状态失败后重试次数。 3 spark.thriftserver.proxy.healthcheck.waitTime 多租户模式下,JDBCServer代理发送健康
fs,以及原生内存方式好。 缺点:需要调优。大数据情况下建议JDBCServer driver端内存10G,executor端每个核心分配3G内存。 true:使用该功能 false: 不使用该功能 false spark.sql.collect.Hive 该参数在spark.sql
NodeManager关闭导致Executor(s)未移除 问题 在Executor动态分配打开的情况下,如果在任务执行过程中,执行NodeManager关闭动作,NodeManager关闭节点上的Executor(s)在空闲超时之后,在driver页面上未被移除。 回答 因为R
checkpoint DataNode实例异常: HDFS的DataNode一直显示退服中 DataNode偶现CPU占用接近100%导致节点无法连接 由于HDFS块丢失导致DataNode退服失败 文件读写异常: HDFS写文件失败,报错“item limit of xxx is
checkpoint DataNode实例异常: HDFS的DataNode一直显示退服中 DataNode偶现CPU占用接近100%导致节点无法连接 由于HDFS块丢失导致DataNode退服失败 文件读写异常: HDFS写文件失败,报错“item limit of xxx is
(XA) Connector/J 3.0 MySQL 3.x、MySQL 4.1 将“mysql-connector-java-5.1.21.jar”上传至MRS master 主备节点loader安装目录。 针对MRS 3.x之前版本,上传至“/opt/Bigdata/MRS_
Hive常用常用配置参数 参数入口 对于MRS 3.x之前版本,登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称,选择“组件管理 > Hive > 服务配置”,单击“基础配置”下拉菜单,选择“全部配置”。 对于MRS 3.x之后版本,登录FusionInsight Manager,选择“集群
对于HDD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内至少7个采集周期的svctm时延达到1000ms。 系统默认每3秒采集一次数据,在300秒内至少50%次采集到的svctm时延达到150ms。 对于SSD盘,满足以下任意条件时触发告警: 系统默认每3秒采集一次数据,在30秒内