同一个Hive服务中可以分别创建存储在OBS上的表和存储在HDFS上的表。 Hive存储在OBS上的分区表,不支持将分区Location配置为HDFS路径(存储在HDFS上的分区表也不支持修改分区Location为OBS)。 父主题: Hive常见问题
减少OBS服务端压力 MemArtsCC会将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用。 MemArtsCC与Spark的关系 Spark从OBS读取数据,OBS会从MemArtsCC读取数据,如果命中则读本地缓存,否则触发预取。
典型场景:从HDFS/OBS导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
NONE 输出目录 数据导入到HDFS/OBS里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /user/test 文件操作方式 数据导入时的操作行为。
典型场景:从HDFS/OBS导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
NONE 输出目录 数据导入到HDFS/OBS里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考配置项中使用宏定义。 /user/test 文件操作方式 数据导入时的操作行为。
用于merge_on_read存储,以将插入内容发送到日志文件中并控制压缩parquet文件的大小。 0.35 父主题: Hudi常见配置参数
配置NFS服务器存储NameNode元数据 操作场景 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。
配置NFS服务器存储NameNode元数据 操作场景 用户在部署集群前,可根据需要规划Network File System(简称NFS)服务器,用于存储NameNode元数据,以提高数据可靠性。
使用Loader从HDFS/OBS导出数据到SFTP服务器 操作场景 该任务指导用户使用Loader将数据从HDFS/OBS导出到SFTP服务器。 前提条件 创建或获取该任务中创建Loader作业的业务用户和密码。 确保用户已授权访问作业执行时操作的HDFS/OBS目录和数据。
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。
NONE 输出目录 数据导入到HDFS/OBS里存储的保存目录。 说明: 路径参数可以使用宏定义,具体请参考Loader算子配置项中使用宏定义。
org.apache.hadoop.fs.obs.metrics.OBSAMetricsProvider:表示收集统计OBS监控指标 org.apache.hadoop.fs.obs.DefaultMetricsConsumer:表示不收集OBS监控指标 要使用OBS监控功能,需确保上报
安装在集群外的MRS客户端如何访问OBS 操作场景 在OBS存算分离场景下,用户可以通过委托方式获取访问OBS的临时AK、SK,继而访问OBS服务端。对于集群外节点的客户端,如果想要访问OBS,可以通过Guardian组件获取AK、SK实现。
对接OBS场景中,spark-beeline登录后指定loaction到OBS建表失败 问题 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。
单击“服务管理 > HBase > 服务配置”,“参数类别”类型选择“全部配置”,然后在左边窗口选择“HMaster > 系统”。
通过spark-beeline指定location到OBS建表失败 问题现象 对接OBS ECS/BMS集群,spark-beeline登录后,指定location到OBS建表报错失败。 图1 错误信息 原因分析 HDFS上ssl.jceks文件权限不足,导致建表失败。
OBS是否支持ListObjectsV2协议? 问: OBS是否支持ListObjectsV2协议? 答: 不支持。 父主题: 周边生态对接类
配置Hive对接MemArtsCC 操作场景 本章节介绍在存算分离场景下如何配置Hive任务中集成MemArtsCC缓存,MemArtsCC会将热点数据存储在计算侧集群,可以起到降低OBS服务端带宽的作用,利用MemArtsCC的本地存储,访问热点数据不必跨网络,可以提升Hive的数据读取效率
周边云服务对接 使用MRS Spark SQL访问DWS表 使用MRS Hive表对接OBS文件系统 MRS Hive对接CSS服务配置说明