存算分离类 没有/tmp目录权限导致执行访问OBS的作业报错 使用Hadoop客户端删除OBS上数据时报.Trash目录没有权限错误 由于MRS集群节点的NTP时间不同步导致集群访问OBS时鉴权失败
修改集群服务配置参数 MRS 3.x之前版本,用户可直接通过MRS管理控制台的集群管理页面修改各服务配置参数: 登录MRS控制台,在左侧导航栏选择“现有集群”,单击集群名称。 选择“组件管理 > 服务名称 > 服务配置”。
如果配置不当,将造成服务不可用。 - 单击“保存”,在“实例”页面查看是否有配置过期的实例,如果有,则勾选配置过期的实例,选择“更多 > 重启实例”,重启完成后配置生效。 父主题: 使用HDFS
如果配置不当,将造成服务不可用。 - 单击“保存”,在“实例”页面查看是否有配置过期的实例,如果有,则勾选配置过期的实例,选择“更多 > 重启实例”,重启完成后配置生效。 父主题: 使用HDFS
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir”
是否可以手动调整DataNode数据存储目录 问题 数据块在DataNode上的存储目录由“dfs.datanode.data.dir”配置项指定,是否可以修改该配置项来修改数据存储目录? 是否可以手动拷贝数据存储目录下的文件? 回答 “dfs.datanode.data.dir”
ECS重置密码插件升级(可选) 华为云ECS服务提供了一键式重置密码功能,弹性云服务器的密码丢失或过期时,可使用该功能进行一键式重置密码。
以上参数可以登录Manager,选择“集群 > 服务 > HDFS > 配置 > 全部配置”搜索对应参数获取。
配置Hive列加密功能 操作场景 Hive支持对表的某一列或者多列进行加密,在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列的数据加密。 Hive列加密机制目前支持的加密算法有两种,需在建表时指定: AES:对应加密类名称为
配置Hive列加密功能 操作场景 Hive支持对表的某一列或者多列进行加密;在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列加密。列加密只支持存储在HDFS上的TextFile和SequenceFile文件格式的表。Hive
Hive支持ZSTD压缩格式 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前Hadoop支持的其他压缩格式,本特性使得Hive支持ZSTD压缩格式的表。Hive支持基于ZSTD压缩的存储格式有常见的ORC,RCFile,TextFile
obs-connector 表1 obs-connector目的连接属性 参数 说明 桶名 保存最终数据的OBS文件系统。 写入目录 最终数据在文件系统保存时的具体目录。必须指定一个目录。
事件有SparkListenerJobStart、SparkListenerJobEnd等,记录了每个重要的过程。
使用CDM服务迁移Hadoop数据至MRS集群 应用场景 云数据迁移(Cloud Data Migration,简称CDM),是一种高效、易用的批量数据迁移服务。
事件有SparkListenerJobStart、SparkListenerJobEnd等,记录了每个重要的过程。
Hive服务状态为Unknown 问题现象 Hive服务状态为unknown。 可能原因 Hive服务停止。 解决方案 尝试重启Hive服务。 父主题: 使用Hive
解决步骤 登录FusionInsight Manager页面,选择“集群 > 服务 > ClickHouse > 配置 > 全部配置”。
数据分析 使用Spark2x实现车联网车主驾驶行为分析 使用Hive加载HDFS数据并分析图书评分情况 使用Hive加载OBS数据并分析企业雇员信息 通过Flink作业处理OBS数据 通过Spark Streaming作业消费Kafka数据 通过Flume采集指定目录日志系统文件至
ClickHouse依赖服务设计 为了保证ClickHouse服务的稳定,需要提早规划好对于底层依赖服务的设计,主要是ZooKeeper,尤其是在使用replicated*系列表引擎的场景下。
创建ZSTD压缩格式的Hive表 操作场景 文件压缩可以减少储存文件的空间,并且提高数据从磁盘读取和网络传输的速度,Hive支持创建表时配置SNAPPY、ZLIB、Gzip、Bzip2、ZSTD等压缩格式。 ZSTD(全称为Zstandard)是一种开源的无损数据压缩算法,其压缩性能和压缩比均优于当前