事件有SparkListenerJobStart、SparkListenerJobEnd等,记录了每个重要的过程。
提升HBase BulkLoad工具批量加载效率 操作场景 批量加载功能采用了MapReduce jobs直接生成符合HBase内部数据格式的文件,然后把生成的StoreFiles文件加载到正在运行的集群。使用批量加载相比直接使用HBase的API会节约更多的CPU和网络资源。
图1 Alluxio架构 优势: 提供内存级I/O吞吐率,同时降低具有弹性扩张特性的数据驱动型应用的成本开销 简化云存储和对象存储接入 简化数据管理,提供对多数据源的单点访问 应用程序部署简易 有关Alluxio的详细信息,请参见:https://docs.alluxio.io/os
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 Trigger Condition 系统当前指标取值满足自定义的告警设置条件。 对系统的影响 Guardian TokenServer实例堆内存溢出可能导致业务无法正常访问OBS。
原因分析 当使用load导入数据到Hive表的时候,属于需要跨文件系统的情况(例如原数据在HDFS上,而Hive表数据存放在OBS上),并且文件长度大于阈值(默认32 MB),则会触发使用distcp的MapReduce任务来执行数据迁移操作。
当前用户具备源分组的作业编辑“Jobs Edit”权限或待迁移作业的编辑“Edit”权限。 操作步骤 登录“Loader WebUI”界面。
从SFTP服务器导入数据到HDFS/OBS。 从SFTP服务器导入数据到HBase。 从SFTP服务器导入数据到Phoenix表。 从SFTP服务器导入数据到Hive表。 从FTP服务器导入数据到HDFS/OBS。 从FTP服务器导入数据到HBase。
服务器导入数据到Phoenix表 从SFTP服务器导入数据到Hive表 从FTP服务器导入数据到HDFS/OBS 从FTP服务器导入数据到HBase 从FTP服务器导入数据到Phoenix表 从FTP服务器导入数据到Hive表 从同一集群内HDFS/OBS导入数据到HBase MRS
问:DistCP类型作业在导出时,遇到OBS里已经存在的文件是如何处理的? 答:DistCP类型作业在导出时,遇到OBS里已经存在的文件时会覆盖原始文件。 父主题: 作业管理类
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 导致本地磁盘的部分热数据会移动到OBS上,影响系统的读写性能。 可能原因 ClickHouseServer节点冷热分离配置的本地磁盘容量过小。
服务名 产生告警的服务名称。 角色名 产生告警的角色名称。 主机名 产生告警的主机名。 对系统的影响 如果一直无法获取到新的临时委托凭据,会导致在当前使用的临时委托凭据过期后,系统无法访问OBS,对于配置冷热分离策略的表无法进行OBS冷数据读写等操作。
从关系型数据库导入数据到HDFS/OBS,可以不用配置数据转换,数据将按“,”分隔保存到HDFS/OBS。 从HDFS/OBS导出数据到关系型数据库,可以不用配置数据转换,数据将按“,”分隔保存到关系型数据库。
ECS重置密码插件升级(可选) 华为云ECS服务提供了一键式重置密码功能,弹性云服务器的密码丢失或过期时,可使用该功能进行一键式重置密码。
确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。 获取外部数据源(SFTP服务器或关系型数据库)使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
确保用户已授权访问作业执行时操作的HDFS/OBS目录、HBase表和数据。 获取外部数据源(SFTP服务器或关系型数据库)使用的用户和密码。 检查磁盘空间,确保没有出现告警且余量满足导入、导出数据的大小。
对接OBS存储源 建表时指定Location为OBS路径: 已完成存算分离配置,具体请参考“配置Guardian服务对接OBS”。
com.obs.services.EcsObsCredentialsProvider:通过ECS云服务获取AK/SK信息。 com.obs.services.BasicObsCredentialsProvider:使用用户传入OBS的AK/SK信息。
参数取值: com.huawei.mrs.MrsObsCredentialsProvider:通过MRS云服务委托获取凭证。 com.obs.services.EcsObsCredentialsProvider:通过ECS云服务获取AK/SK信息。
", "wordcount", "obs://obs-test/input/", "obs://obs-test/job/mapreduce/output" ], "properties":{ "fs.obs.endpoint
alluxio fs mount /mnt/obs obs://obs-mrstest/data Mounted obs://obs-mrstest/data at /mnt/obs 通过Alluxio命名空间列出OBS文件系统中的文件。使用ls命令列出OBS挂载目录下的文件。