图1 为Flink用户组新增OBS路径读和写的权限 对接OBS后,如需通过Ranger配置组件关于OBS相关路径的权限策略,需确保OBS服务已开启AccessLabel功能,若未开启,需手动开启,详细操作请联系OBS服务运维人员。 父主题: MRS集群服务对接OBS示例
父主题: MRS集群服务对接OBS示例
大数据存算分离场景,请务必使用OBS并行文件系统(并行文件系统),使用普通对象桶会对集群性能产生较大影响。
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 对于配置了冷热分离策略的表,无法读取和写入OBS上的冷数据,同时本地盘上的热数据变冷后,无法移动到OBS上。
配置Hive通过Guardian访问OBS 参考配置Guardian服务不启用Ranger OBS路径鉴权或配置Guardian服务启用Ranger OBS路径鉴权完成Guardian对接OBS后,即可在Hive客户端创建存储在OBS并行文件系统中的表。
步骤2:准备样例程序和数据 创建OBS并行文件系统,用于存放Spark样例程序、样例数据、作业执行结果和日志。 登录华为云管理控制台。 在“服务列表”中,选择“存储 > 对象存储服务”。
创建Catalog所需的obs.region可在获取。 登录“对象存储服务 OBS”管理控制台,单击“并行文件系统”,单击Hive表所在的OBS并行文件系统名称,在概览界面查看“Endpoint”参数值,该值为创建Catalog时设置obs.endpoint参数的值。
登录对象存储服务OBS控制台,单击“并行文件系统 > 创建并行文件系统”,填写以下参数,单击“立即创建”。 表2 并行文件系统参数 参数名称 参数说明 取值样例 区域 桶所属区域。 中国-香港 数据冗余存储策略 多AZ存储:数据冗余存储至多个可用区(AZ),可靠性更高。
云数据迁移服务可以轻松将外部数据源(关系数据库、对象存储服务、文件系统服务等)加载到Hive分区表。
City5 20200101250,王xx,20150315,男,City6 20200101251,李xx,20151201,男,City7 20200101252,孙xx,20150916,女,City8 20200101253,林xx,20150303,男,City9 登录对象存储服务
设置值为配置LakeFormation实例章节获取的hive Catalog在OBS中的存储路径。
登录“对象存储服务 OBS”管理控制台,单击“并行文件系统”,单击Hive表所在的OBS并行文件系统名称,在概览界面查看“Endpoint”参数值,该值为创建Catalog时设置AWS_ENDPOINT(MRS 3.3.1及之后版本变更为obs.endpoint)参数的值。
MRS Hive集群的元数据会默认存储到MRS DBService(华为的Gaussdb数据库),也可以选择RDS(MySQL)作为外置元数据库。 Hive的业务数据,存储在HDFS文件系统或OBS对象存储中。
30天 转换为归档存储天数 指定在对象最后一次更新后多少天,受规则影响的对象将转换为归档存储。若同时设置转换为低频访问存储和转换为归档存储,则转换为归档存储的时间要比转换为低频访问存储的时间至少长30天。若单独设置转换为归档存储,则没有时间限制。
数据存储 MRS集群节点仅用于存储用户业务数据,非业务数据建议保存在对象存储服务或其他弹性云服务器中。 MRS集群节点仅用于运行MRS集群内服务,其他客户端应用程序、用户业务程序建议申请独立弹性云服务器部署。
如需为集群MRS集群绑定委托,需提前创建具有所需权限的IAM委托,系统默认生成了一个“MRS_ECS_DEFAULT_AGENCY”委托,该委托拥有对象存储服务的OBSOperateAccess权限和在集群所在区域拥有CESFullAccess(对开启细粒度策略的用户)、CES Administrator
对系统的影响 OBS元数据接口调用平均时间超过阈值,会影响上层大数据计算业务的性能,导致某些计算任务的执行时间超过阈值。 可能原因 OBS服务端出现卡顿,或OBS客户端到OBS服务端之间的网络不稳定。 处理步骤 检查堆内存使用率。
MRS_ECS_DEFAULT_AGENCY委托拥有对象存储服务的OBS OperateAccess权限和在集群所在区域拥有CES FullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。
MRS_ECS_DEFAULT_AGENCY委托拥有对象存储服务的OBS OperateAccess权限和在集群所在区域拥有CES FullAccess(对开启细粒度策略的用户)、CES Administrator和KMS Administrator权限。
Broker Load则是将导入请求发送给Doris,由Doris主动拉取数据,因此如果要导入的数据存储在对象存储中,使用Broker Load是最便捷的。使用Broker Load方式,数据就不需要经过客户端,而由Doris直接读取导入。