检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
问题背景 使用SparkSql访问Hive的一个数据存放于OBS的一个分区表,但是运行速度却很慢,并且会大量调用OBS的查询接口。
使用Loader从关系型数据库导入数据到HDFS/OBS 操作场景 该任务指导用户使用Loader将数据从关系型数据库导入到HDFS/OBS。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
静态服务资源概述 静态服务资源简介 集群分配给各个服务的资源是静态服务资源,这些服务包括Flume、HBase、HDFS、IoTDB、Kafka(Kafka组件仅MRS 3.2.0及之后版本支持静态服务池)和Yarn。每个服务的计算资源总量固定,不与其他服务共享,是静态的。
云服务:选择“弹性云服务器 ECS 裸金属服务器 BMS”。 持续时间:选择“永久”。 在弹出授权页面的搜索框内,搜索“OBS OperateAccess”策略,并勾选“OBS OperateAccess”策略。
使用Scan读取HBase数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中
请配置为正确的OBS路径,OBS路径不支持KMS加密的文件或程序。 最多为1023字符,不能包含;|&>'<$特殊字符,可为空。 默认取值: 不涉及 output 否 String 参数解释: 数据输出地址。 约束限制: 不涉及 取值范围: 必须以“/”或“s3a://”开头。
Hive服务启动失败 Hive服务启动失败最常见的原因是metastore实例无法连接上DBservice,可以查看metastore日志中具体的错误信息。 可能原因 DBservice没有初始化好Hive的元数据库hivemeta。
重启Hive服务失败 用户问题 修改Hive服务配置后,保存配置失败,Manager页面Hive服务的配置状态为配置失败。
查询作业exe对象列表(废弃) 功能介绍 查询所有作业的exe对象列表。该接口不兼容Sahara。 URI URI格式 GET /v1.1/{project_id}/job-exes 参数说明 表1 URI参数说明 名称 是否必选 说明 project_id 是 参数解释: 项目编号
区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。
Loader支持如下数据导出方式: 从HDFS/OBS中导出数据到SFTP服务器 从HDFS/OBS中导出数据到关系型数据库 从HBase中导出数据到SFTP服务器 从HBase中导出数据到关系型数据库 从Phoenix表导出数据到SFTP服务器 从Phoenix表导出数据到关系型数据库
对接OBS存储源 建表时指定Location为OBS路径: 已完成存算分离配置,具体请参考“配置Guardian服务对接OBS”。
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner
上传脚本至OBS文件系统. 脚本完成后上传到同region的OBS文件系统中。在您选定的时机,集群各节点会从OBS将脚本下载下来并以root用户执行。 父主题: 配置MRS集群节点引导操作
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner
使用Get读取HBase数据 功能简介 要从表中读取一条数据,首先需要实例化该表对应的Table实例,然后创建一个Get对象。也可以为Get对象设定参数值,如列族的名称和列的名称。查询到的行数据存储在Result对象中,Result中可以存储多个Cell。 代码样例 以下代码片段在
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 当Guardian调用ECS metadata失败时,可能会导致获取访问OBS的临时aksk失败,进而业务无法正常访问OBS。 可能原因 ECS底层接口异常,导致请求失败。
选择“集群 > 服务 > 服务名称”,进入服务概览页面。 选择“更多 > 重启服务”或“更多 > 滚动重启服务”。 图12 重启服务 重启服务会造成业务中断,滚动重启可以尽量减少或者不影响业务运行。
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,建议指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner
Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。 图1 Hive数据迁移场景 方案优势 场景化迁移通过迁移快照数据然后再恢复表数据的方法,能大大提升迁移效率。