云服务器内容精选

  • 日志级别 DBService中提供了如表2所示的日志级别。日志级别优先级从高到低分别是ERROR、WARN、INFO、DEBUG。程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少。 表2 日志级别 级别 描述 ERROR ERROR表示当前时间处理存在错误信息。 WARN WARN表示当前事件处理存在异常信息。 INFO INFO表示记录系统及各事件正常运行状态信息。 DEBUG DEBUG表示记录系统及系统的调试信息。
  • 写入操作配置 表1 写入操作重要配置项 参数 描述 默认值 hoodie.datasource.write.table.name 指定写入的hudi表名。 无 hoodie.datasource.write.operation 写hudi表指定的操作类型,当前支持upsert、delete、insert、bulk_insert等方式。 upsert:更新插入混合操作 delete:删除操作 insert:插入操作 bulk_insert: 用于初始建表导入数据, 注意初始建表禁止使用upsert、insert方式 insert_overwrite:对静态分区执行insert overwrite insert_overwrite_table:动态分区执行insert overwrite,该操作并不会立刻删除全表做overwrite,会逻辑上重写hudi表的元数据,无用数据后续由hudi的clean机制清理。效率比bulk_insert + overwrite 高 upsert hoodie.datasource.write.table.type 指定hudi表类型,一旦这个表类型被指定,后续禁止修改该参数,可选值MERGE_ON_READ。 COPY_ON_WRITE hoodie.datasource.write.precombine.field 该值用于在写之前对具有相同的key的行进行合并去重。 ts hoodie.datasource.write.payload.class 在更新过程中,该类用于提供方法将要更新的记录和更新的记录做合并,该实现可插拔,如要实现自己的合并逻辑,可自行编写。 org.apache.hudi.common.model.DefaultHoodieRecordPayload hoodie.datasource.write.recordkey.field 用于指定hudi的主键,hudi表要求有唯一主键。 uuid hoodie.datasource.write.partitionpath.field 用于指定分区键,该值配合hoodie.datasource.write.keygenerator.class使用可以满足不同的分区场景。 无 hoodie.datasource.write.hive_style_partitioning 用于指定分区方式是否和hive保持一致,建议该值设置为true。 true hoodie.datasource.write.keygenerator.class 配合hoodie.datasource.write.partitionpath.field,hoodie.datasource.write.recordkey.field产生主键和分区方式。 说明: 写入设置KeyGenerator与表保存的参数值不一致时将提示需要保持一致。 org.apache.hudi.keygen.ComplexKeyGenerator 父主题: 配置参考
  • 前提条件 待安装客户端节点为集群外节点时,该节点必须能够与集群内节点网络互通,否则安装会失败。 待安装客户端节点必须启用NTP服务,并保持与服务端的时间一致,否则安装会失败。 在节点上安装客户端可以使用root或任意操作系统用户进行操作,要求该用户对客户端文件存放目录和安装目录具有操作权限,两个目录的权限为“755”。 本章节以使用操作系统用户“user_client”安装客户端进行举例,安装目录为“/opt/hadoopclient”。 使用omm和root以外的用户安装客户端时,若“/var/tmp/patch”目录已存在,需将此目录权限修改为“777”,将此目录内的日志权限修改为“666”。
  • 对系统的影响 已检测到JobServer任务队列中存在过多任务数(详细的任务队列使用情况,请参考本告警的附加信息字段),将导致如下影响: 当JobServer任务队列中的任务数达到队列最大值(默认为1000)时,新的任务将无法添加,将会影响用户的大数据任务提交。 在JobServer任务队列中的任务数达到队列最大值之前,JobServer队列中任务的提交速度将会恶化,如:用户已添加任务提交到Yarn组件的时间会变长,可能达到小时级别;用户新添加任务提交到Yarn组件的时间变长,可能达到小时级别。
  • 操作场景 大数据管理平台支持通过静态服务资源池对没有运行在Yarn上的服务资源进行管理和隔离。系统支持基于时间的静态服务资源池自动调整策略,使集群在不同的时间段自动调整参数值,从而更有效地利用资源。 系统管理员可以在FusionInsight Manager查看静态服务池各个服务使用资源的监控指标结果,包含监控指标如下: 服务总体CPU使用率 服务总体磁盘IO读速率 服务总体磁盘IO写速率 服务总体内存使用大小
  • 集群Master节点规格升级(一键升级) 登录MRS管理控制台。 选择 “现有集群” ,选中需要升级Master节点规格的集群并单击集群名,进入集群信息页面。 在“节点管理”页签Master节点组的“操作”列选择“升级规格”,进入“升级Master规格”页面。 选择升级后的规格,单击“提交”成功提交升级Master规格任务。 节点规格升级过程需要时间,升级成功后集群状态更新为“运行中”,请您耐心等待。 升级过程中集群会自动关闭升级的虚拟机,升级完成后自动开启该虚拟机 。 因用户对组件使用需求不同,节点规格升级成功后不会自动更新组件内存配置,用户可根据实际使用情况自行调整各组件内存配置。
  • 使用限制 支持2个及以上Master节点的集群升级Master节点规格 。 不支持使用BMS类型规格的集群升级Master节点规格 。 MRS 1.8.2及之后版本至MRS 3.x之前版本、MRS 3.1.0及之后版本,请参考集群Master节点规格升级(一键升级)。 MRS 1.8.2之前版本和MRS 3.0.5版本,请参考集群Master节点规格升级(分步升级)操作。 升级过程中请勿对集群进行其他操作。
  • 数据库用户 系统数据库用户包含OMS数据库用户、DBService数据库用户。 类别 默认用户 初始密码 描述 密码修改方法 OMS数据库 ommdba MRS 3.2.0之前版本:dbChangeMe@123456 MRS 3.2.0及之后版本:随机密码 OMS数据库管理员用户,用于创建、启动和停止等维护操作。 请参见修改OMS数据库管理员密码。 omm MRS 3.2.0之前版本:ChangeMe@123456 MRS 3.2.0及之后版本:随机密码 OMS数据库数据访问用户。 请参见修改OMS数据库访问用户密码。 DBService数据库 omm MRS 3.2.0之前版本:dbserverAdmin@123 MRS 3.2.0及之后版本:随机密码 DBService组件中GaussDB数据库的管理员用户。 请参见重置DBService数据库omm用户密码。 compdbuser 随机密码 MRS 3.1.2及之后版本中存在,DBService组件中GaussDB数据库的管理员用户,用于业务运维场景。该账户密码首次使用需重置。 请参见修改DBService数据库compdbuser用户密码。 hetu 随机密码 HetuEngine连接DBService数据库hetumeta的用户。 该用户仅在MRS 3.1.2及之后版本中存在。 MRS 3.1.2之前版本:请参见修改组件数据库用户密码。 MRS 3.1.2及之后版本:请参见重置组件数据库用户密码。 hive MRS 3.1.2之前版本:HiveUser@ MRS 3.1.2及之后版本:随机密码 Hive连接DBService数据库hivemeta的用户。 hue MRS 3.1.2之前版本:HueUser@123 MRS 3.1.2及之后版本:随机密码 Hue连接DBService数据库hue的用户。 sqoop MRS 3.1.2之前版本:SqoopUser@ MRS 3.1.2及之后版本:随机密码 Loader连接DBService数据库sqoop的用户。 oozie MRS 3.1.2之前版本:OozieUser@ MRS 3.1.2及之后版本:随机密码 Oozie连接DBService数据库oozie的用户。 rangeradmin MRS 3.1.2之前版本:Admin12! MRS 3.1.2及之后版本:随机密码 Ranger连接DBservice数据库ranger的用户。 kafkaui 随机密码 KafkaUI连接DBService数据库kafka的用户。 该用户仅在MRS 3.1.2及之后版本中存在。 flink 随机密码 Flink连接DBService数据库flink的用户。 该用户仅在MRS 3.1.2及之后版本中存在。 cdl 随机密码 CDL连接DBService数据库cdl的用户。 该用户仅在MRS 3.2.0及之后版本中存在。 jobgateway 随机密码 JobGateway连接DBService数据库jobmeta的用户。 该用户仅在MRS 3.3.0及之后版本中存在。
  • 用户分类 MRS集群提供以下3类用户,请系统管理员定期修改密码,不建议使用默认密码。 本章节介绍MRS集群内的相关默认用户信息。 用户类型 使用说明 系统用户 通过FusionInsight Manager创建,是系统操作运维与业务场景中主要使用的用户,包含两种类型: “人机”用户:用于在FusionInsight Manager的操作运维场景,以及在组件客户端操作的场景。创建此类型用户时需要参考创建用户设置“密码”和“确认密码”。 “机机”用户:用于系统应用开发的场景。 用于OMS系统进程运行的用户。 系统内部用户 集群提供的用于Kerberos认证、进程通信、保存用户组信息和关联用户权限的内部用户。系统内部用户不建议在操作与维护的场景下使用。请通过admin用户操作,或联系系统管理员根据业务需要创建新用户。 数据库用户 用于OMS数据库管理和数据访问的用户。 用于业务组件(Hue、Hive、HetuEngine、Loader、Oozie、Ranger、JobGateway和DBService)数据库的用户。
  • 系统用户 需要使用操作系统中root用户,所有节点root用户需设置为统一的密码。 需要使用操作系统中ldap用户,此账号不能删除,否则可能导致集群无法正常工作。密码管理策略由操作系统管理员维护。 类别 用户名称 初始密码 描述 密码修改方法 系统管理员 admin 用户创建集群时自定义 FusionInsight Manager的管理员。 说明: admin用户默认不具备其他组件的管理权限,例如访问组件原生界面时,需要使用具备对应组件管理权限的用户才可以访问到完整内容。 请参见修改admin密码。 节点操作系统用户 ommdba 随机密码 创建系统数据库的用户。在管理节点生成,属于操作系统用户,无需设置为统一的密码。该用户不能用于远程登录。 请参见修改操作系统用户密码。 omm 随机密码 系统的内部运行用户。在全部节点生成,属于操作系统用户,无需设置为统一的密码。
  • CarbonData关键技术和优势 快速查询响应:高性能查询是CarbonData关键技术的优势之一。CarbonData查询速度大约是Spark SQL查询的10倍。CarbonData使用的专用数据格式围绕高性能查询进行设计,其中包括多种索引技术、全局字典编码和多次的Push down优化,从而对TB级数据查询进行最快响应。 高效率数据压缩:CarbonData使用轻量级压缩和重量级压缩的组合压缩算法压缩数据,可以减少60%~80%数据存储空间,大大节省硬件存储成本。 关于CarbonData的架构和详细原理介绍,请参见:https://carbondata.apache.org/。
  • CarbonData结构 CarbonData作为Spark内部数据源运行,不需要额外启动集群节点中的其他进程,CarbonData Engine在Spark Executor进程之中运行。 图2 CarbonData结构 存储在CarbonData Table中的数据被分成一些CarbonData数据文件,每一次数据查询时,CarbonData Engine模块负责执行数据集的读取、过滤等实际任务。CarbonData Engine作为Spark Executor进程的一部分运行,负责处理数据文件块的一个子集。 Table数据集数据存储在HDFS中。同一Spark集群内的节点可以作为HDFS的数据节点。
  • CarbonData特性 SQL功能:CarbonData与Spark SQL完全兼容,支持所有可以直接在Spark SQL上运行的SQL查询操作。 简单的Table数据集定义:CarbonData支持易于使用的DDL(数据定义语言)语句来定义和创建数据集。CarbonData DDL十分灵活、易于使用,并且足够强大,可以定义复杂类型的Table。 便捷的数据管理:CarbonData为数据加载和维护提供多种数据管理功能,支持加载历史数据以及增量加载新数据。CarbonData加载的数据可以基于加载时间进行删除,也可以撤销特定的数据加载操作。 CarbonData文件格式是HDFS中的列式存储格式。该格式具有许多新型列存储文件的特性。例如,分割表,压缩模式等。CarbonData具有以下独有的特点: 伴随索引的数据存储:由于在查询中设置了过滤器,可以显著加快查询性能,减少I/O扫描次数和CPU资源占用。CarbonData索引由多个级别的索引组成,处理框架可以利用这个索引来减少需要安排和处理的任务,也可以通过在任务扫描中以更精细的单元(称为blocklet)进行skip扫描来代替对整个文件的扫描。 可选择的数据编码:通过支持高效的数据压缩和全局编码方案,可基于压缩/编码数据进行查询,在将结果返回给用户之前,才将编码转化为实际数据,这被称为“延迟物化”。 支持一种数据格式应用于多种用例场景:例如交互式OLAP-style查询,顺序访问(big scan),随机访问(narrow scan)。
  • HBase开源增强特性:HFS HBase文件存储模块(HBase FileStream,简称HFS)是HBase的独立模块,它作为对HBase与HDFS接口的封装,应用在MRS的上层应用,为上层应用提供文件的存储、读取、删除等功能。 在Hadoop生态系统中,无论是HDFS,还是HBase,均在面对海量文件的存储的时候,在某些场景下,都会存在一些很难解决的问题: 如果把海量小文件直接保存在HDFS中,会给NameNode带来极大的压力。 由于HBase接口以及内部机制的原因,一些较大的文件也不适合直接保存到HBase中。 HFS的出现,就是为了解决需要在Hadoop中存储海量小文件,同时也要存储一些大文件的混合的场景。简单来说,就是在HBase表中,需要存放大量的小文件(10MB以下),同时又需要存放一些比较大的文件(10MB以上)。 HFS为以上场景提供了统一的操作接口,这些操作接口与HBase的函数接口类似。
  • HBase开源增强特性:HBase热点自愈 该功能适用于MRS 3.3.0及之后版本。 HBase是一个分布式的KV数据库,Region是HBase数据管理的最小单元。如果用户在规划表和设计rowkey不合理,请求过于集中在少量固定Region时,会导致业务压力集中在单节点,造成业务侧可感知的性能下降甚至请求失败。 HBase服务增加了MetricController实例,开启热点检测能力,能够监控每个RegionServer节点的请求流量,通过聚合分析,识别出请求偏高的节点和Region,有助于快速发现热点问题;并提供一定的热点问题自愈能力,比如热点Region自动转移或Split。对于无法提供自愈的热点场景(单rowkey热点、顺序写热点等),提供了热点限流的能力,避免单点问题影响同节点的其他正常业务。