华为云用户手册

  • 添加租户目录 在 FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击需要修改HDFS存储目录的租户。 单击“资源”页签。 在“HDFS存储”表格,单击“添加目录”。 图1 添加目录 “父目录”,表示当前租户对应父租户的存储目录。 当前租户不是子租户则不显示此参数。 “路径”,填写租户目录的路径。 当前租户不是子租户则新路径将在HDFS的根目录下创建。 “文件\目录数上限”填写文件和目录数量配额。 文件数阈值配置 (%),只有设置了“文件\目录数上限”才会生效。表示当已使用的文件数超过了设置的“文件\目录数上限”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 当前已使用的文件数的数据采集周期为1个小时,因此超过文件数阈值的告警上报会存在延迟。 “存储空间配额”,填写租户目录的存储空间大小。 存储空间阈值配置 (%),表示已使用存储空间超过了设置的“存储空间配额”的百分数后将会产生告警。不设置则不会根据实际使用情况上报告警。 已使用的存储空间的数据采集周期为1个小时,因此超过存储空间阈值的告警上报会存在延迟。 单击“确定”完成租户目录添加。
  • 操作步骤 登录FusionInsight Manager,单击“租户资源”。 在左侧租户列表,单击某个租户节点。 检查租户数据状态。 在“概述”,查看“租户资源状态”,绿色表示租户可用,灰色表示租户不可用。 单击“资源”,查看“Yarn”和“HDFS存储”左侧的圆圈,绿色表示资源可用,灰色表示资源不可用。 单击“服务关联”,查看关联的服务表格的“状态”列,“良好”表示组件可正常为关联的租户提供服务,“故障”表示组件无法为租户提供服务。 任意一个检查结果不正常,需要恢复租户数据,请执行4。 单击,在弹出的确认窗中输入当前登录的用户密码确认身份,单击“确定”。 在“恢复租户资源数据”窗口,选择一个或多个需要恢复数据的组件,单击“确定”,等待系统自动恢复租户数据。
  • 对系统的影响 调度器切换过程中,由于要重启Resource Manager,因此切换期间向Yarn提交任务会失败。 调度器切换过程中,正在Yarn上面执行的Job的Task任务会继续执行,但不会启动新的Task。 调度器切换完成后,在Yarn上面执行的任务有可能会失败进而导致业务中断。 调度器切换完成后,在租户管理中将使用Superior的相关参数。 调度器切换完成后,Capacity调度器中“资源容量”为“0”的租户队列在Superior调度器中分配不到资源,提交到该租户队列的任务会执行失败。建议在Capacity调度器中不要将租户队列的“资源容量”配置为“0”。 调度器切换完成后,在观察期内,不允许对资源池、Yarn节点标签(Label)和租户做添加、删除的操作。若添加或者删除了资源池、Yarn节点标签(Label)或租户,将不支持回退到Capacity调度器。 切换调度器观察期建议为一周,如果对资源池、Yarn节点标签(Label)或租户做了添加、删除的操作,将视为观察期结束。 回退可能会丢失部分或者所有的Yarn任务信息。
  • 基本信息 FusionInsight Manager支持显示当前 OMS 的关联信息,包含如表1所示内容: 表1 OMS信息说明 项目 说明 版本 表示OMS版本,与FusionInsight Manager版本相同。 IP模式 表示当前集群网络的IP地址模式。 HA模式 表示OMS工作模式,由安装FusionInsight Manager时的配置文件指定。 当前主用 表示OMS主进程节点主机名,即主管理节点主机名。单击主机名可进入对应的主机详情页面。 当前备用 表示OMS备进程节点主机名,即备管理节点主机名。单击主机名可进入对应的主机详情页面。 持续时间 表示OMS进程启动持续的时间。
  • 数据格式 配置完成后,监控上报功能会将集群中监控数据周期性地写入到文本文件中,并根据用户配置的上报周期,将这些文件上报到对应的FTP/SFTP服务中。 监控文件产生规则 按照指标的采集周期,监控指标会被分别写入到每30s,60s,以及300s产生的文件 30s周期:默认采集周期为30s的实时指标。 60s周期:默认采集周期为60s的实时指标。 300s周期:非30s、60s采集的所有指标。 文件名格式:metirc_{周期}_{文件创建时间YYYYMMDDHHMMSS }.log 例如:metric_60_20160908085915.log metric_300_20160908085613.log 监控文件内容 监控写入文件格式: “集群ID|集群名称|显示名称|服务名称|指标ID|采集时间|采集主机@m@子指标|单位|指标值”,其中:各字段间以“|”分隔,例如: 1|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-146|KB/s|309.9101|xx1|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-152|KB/s|72.8702|xx2|Host|Host|10000413|2019/06/18 10:05:00|189-66-254-163|KB/s|100.650 说明:实际的文件中不存在对应的文件格式标题。 监控文件上传间隔: 监控文件上传时间间隔可以在页面通过“转储时间间隔(秒)”配置,目前支持30s-300s之间均可。配置完成后,系统会按照指定的时间间隔,将文件定期上传到对应的FTP/SFTP服务器。 监控指标说明文件 指标全集文件 指标全集文件all-shown-metric-zh_CN包括了所有指标的详细信息。第三方系统从上报的文件内容中解析出指标id后,可以通过查询指标全集文件获取指标详细信息。 指标全集文件位置: 主备OMS节点:{FusionInsight安装路径}/om-server/om/etc/om/all-shown-metric-zh_CN 指标全集文件内容参考: 实时指标ID,5分钟指标ID,指标名称,指标采集周期(秒),是否默认采集,指标所属服务,指标所属角色 00101,10000101,JobHistoryServer非堆内存使用量,30,false,Mapreduce,JobHistoryServer 00102,10000102,JobHistoryServer非堆内存分配量,30,false,Mapreduce,JobHistoryServer 00103,10000103,JobHistoryServer堆内存使用量,30,false,Mapreduce,JobHistoryServer 00104,10000104,JobHistoryServer堆内存分配量,30,false,Mapreduce,JobHistoryServer 00105,10000105,阻塞线程数,30,false,Mapreduce,JobHistoryServer 00106,10000106,运行线程数,30,false,Mapreduce,JobHistoryServer 00107,10000107,GC时间,30,false,Mapreduce,JobHistoryServer 00110,10000110,JobHistoryServer的CPU使用率,30,false,Mapreduce,JobHistoryServer ... 重要指标字段说明 实时指标ID:指标的采集周期为30s/60s的指标ID,一个独立的指标项只可能存在30s或者60s的实时指标项。 5分钟指标ID:指标对应的5分钟(300s)的指标ID。 指标采集周期(秒):主要是针对实时指标的采集周期,可选值为30或60。 指标所属服务:指标所属的服务名名称,标明指标所属的服务类型,如HDFS、HBase等。 指标所属角色:指标所属的角色名名称,标明指标所属的实际角色类型,如JobServer、RegionServer等。 解析说明 针对采集周期为30s/60s的指标,参考该指标说明文件的是第1列,即实时指标ID即可找到对应的指标说明。 针对采集周期为300s的指标,参考该指标说明文件对应的第2列,即5分钟指标ID即可找到对应的指标说明。
  • 特性描述 域 每个系统用户安全使用的范围定义为“域”,不同的Manager系统需要定义唯一的域名。跨Manager访问实际上就是用户跨域使用。 用户加密 配置跨Manager互信,当前Kerberos服务端仅支持并使用“aes256-cts-hmac-sha1-96:normal”和“aes128-cts-hmac-sha1-96:normal”加密类型加密跨域使用的用户,不支持修改。 用户认证 配置跨Manager集群互信后,两个系统中只要存在同名用户,且对端系统的同名用户拥有访问自身系统中某个资源的对应权限,则可以使用当前系统用户访问远程资源。 直接互信 系统在配置互信的两个集群分别保存对端系统的互信票据,通过互信票据访问对端系统。
  • 操作步骤 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上配置定时备份。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,配置定时备份Manager告警、审计或者服务审计信息。 ./setNorthBound.sh -t 信息类型 -i 远程服务器IP -p 服务器使用的SFTP或FTP端口 -u 用户名 -d 保存信息的路径 -c 时间间隔(分钟) -m 每个保存文件的信息记录数 -s 备份启停开关 -e 指定的协议 例如: ./setNorthBound.sh -t alarm -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改告警信息备份配置文件“alarm_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改审计信息备份配置文件“audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 ./setNorthBound.sh -t service_audit -i 10.0.0.10 -p 22 -u sftpuser -d /tmp/ -c 10 -m 100 -s true -e sftp 此脚本将修改服务审计信息备份配置文件“service_audit_collect_upload.properties”。文件存储路径为“${BIGDATA_HOME}/om-server/tomcat/webapps/web/WEB-INF/classes/config”。 根据界面提示输入用户的密码。密码将加密保存在配置文件中。 Please input sftp/ftp server password: 显示如下结果,说明修改成功。备管理节点将自动同步配置文件。 execute command syncfile successfully. Config Succeed.
  • 参考信息 表2 “安全级别”和“Facility”字段数值编码 安全级别 Facility 数值编码 Emergency kernel messages 0 Alert user-level messages 1 Critical mail system 2 Error system daemons 3 Warning security/authorization messages (note 1) 4 Notice messages generated internally by syslog 5 Informational line printer subsystem 6 Debug network news subsystem 7 - UUCP subsystem 8 - clock daemon (note 2) 9 - security/authorization messages (note 1) 10 - FTP daemon 11 - NTP subsystem 12 - log audit (note 1) 13 - log alert (note 1) 14 - clock daemon (note 2) 15 - local use 0~7 (local0 ~ local7) 16~23 表3 报文格式信息域表 信息域 描述 dn 集群名称 id 告警ID name 告警名称 serialNo 告警序列号 说明: 故障告警及其对应的恢复告警的告警序列号相同。 category 告警类型,取值范围: 0:故障告警 1:恢复告警 2:事件 occurTime 告警产生时间 clearTime 告警清除时间 isAutoClear 告警是否自动清除,取值范围: 1:是 0:否 locationInfo 告警位置信息 clearType 告警清除类型,取值范围: -1:未清除 0:自动清除 2:手动清除 level 告警级别,取值范围: 1:紧急告警 2:重要告警 3:次要告警 4:提示告警 cause 告警原因 additionalInfo 附加信息 object 告警对象
  • 操作步骤 以omm用户登录主管理节点。 用户只需在主管理节点执行此操作,不支持在备管理节点上修改审计日志备份文件数,否则可能造成集群无法正常工作。 执行以下命令,切换目录。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,修改审计日志备份文件数。 ./modifyLogConfig.sh -m 最大保留个数 OMS备份组件审计日志默认最大保留90个,可选值为“0”到“365”,如果设置的保留个数越大,会占用更多的磁盘空间。 显示如下结果,说明修改成功: Modify log config successfully
  • 启用系统创建的路由信息 以omm用户登录到主管理节点。 执行以下命令,启用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh enable Activating Route. Route operation (enable) successful. 执行以下命令,查看运行结果。 如下例,如产生路由表名为“ntp_rt”和“om_rt”的两条路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 禁用系统创建的路由信息 以omm用户登录到主管理节点。执行以下命令,禁用系统创建的路由信息。 cd ${BIGDATA_HOME}/om-server/om/sbin ./autoroute.sh disable Deactivating Route. Route operation (disable) successful. 执行以下命令,查看运行结果。如下例 ip rule list 0:from all lookup local 32766:from all lookup main 32767:from all lookup default 执行以下命令,输入root用户密码,切换到root用户下。 su - root 分别执行以下命令,手动创建新的WS浮动IP路由信息。 ip route add WS浮动IP网段号/WS浮动IP子网掩码 scope link src WS浮动IP dev WS浮动IP对应网卡 table om_rt ip route add default via WS浮动IP网关 dev WS浮动IP对应网卡 table om_rt ip rule add from WS浮动IP table om_rt 例如: ip route add 192.168.0.0/255.255.255.0 scope link src 192.168.0.117 dev eth0:ws table om_rt ip route add default via 192.168.0.254 dev eth0:ws table om_rt ip rule add from 192.168.0.117 table om_rt 当前网络的IP地址模式为IPv6时,应执行ip -6 route add命令。 分别执行以下命令,手动创建新的ntp服务路由信息。未配置外部NTP时钟源时,跳过此步骤。 ip route add default via NtpIP网关 dev 本机IP对应网卡 table ntp_rt ip rule add to ntpIP table ntp_rt 本机IP对应网卡是指可与NTP服务器所在网段互通的网卡。 例如: ip route add default via 10.10.100.254 dev eth0 table ntp_rt ip rule add to 10.10.100.100 table ntp_rt 执行以下命令,查看运行结果。 如下例,如产生路由表名为“om_rt”和“ntp_rt”的路由信息,则操作成功。 ip rule list 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #未配置外部NTP时钟源时无此信息32765:from 192.168.0.117 lookup om_rt 32766:from all lookup main 32767:from all lookup default
  • 操作场景 安装FusionInsight Manager时系统会自动在主管理节点上创建2条路由信息,执行ip rule list可以查看,如下示例: 0:from all lookup local 32764:from all to 10.10.100.100 lookup ntp_rt #FusionInsight Manager创建的ntp路由信息(未配置外部NTP时钟源时无此信息) 32765:from 192.168.0.117 lookup om_rt #FusionInsight Manager创建的om路由信息 32766:from all lookup main 32767:from all lookup default 没有配置ntp外部服务器时只会有一条om路由信息“om_rt”。 如果FusionInsight Manager创建的路由信息与企业网络规划配置的路由信息发生冲突时,集群管理员可以使用“autoroute.sh”工具禁用或启用Manager创建的路由信息。
  • 修改FusionInsight Manager日志级别 以omm用户登录主管理节点。 执行以下命令,切换路径。 cd ${BIGDATA_HOME}/om-server/om/sbin 执行以下命令,修改日志级别。 ./setLogLevel.sh 日志级别参数 日志级别参数如下,优先级从高到低分别是FATAL、ERROR、WARN、INFO、DEBUG,程序会打印高于或等于所设置级别的日志,设置的日志等级越高,打印出来的日志就越少: “DEFAULT”:设置后恢复到默认日志级别。 “FATAL”:严重错误日志级别,设置后日志只会打印输出“FATAL”信息。 “ERROR”:错误日志级别,设置后日志打印输出“ERROR”和“FATAL”信息。 “WARN”:警告日志级别,设置后日志打印输出“WARN”、“ERROR”和“FATAL”信息。 “INFO”(默认):提示信息日志级别,设置后日志打印输出“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “DEBUG”:调试日志级别,设置后日志打印输出“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 “TRACE”:跟踪日志级别,设置后日志打印输出"TRACE"、“DEBUG”、“INFO”、“WARN”、“ERROR”和“FATAL”信息。 由于开源中定义的不同,组件的日志级别定义略有差异。 验证日志级别设置已生效,请下载日志并查看。请参见日志。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 HBase的“fs.defaultFS”配置参数需要与Yarn、HDFS的配置保持一致。 如果HBase数据存储在本地HDFS,支持将HBase元数据备份到OBS。如果HBase数据存储在OBS,则不支持数据备份。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 操作场景 为了确保HBase元数据(主要包括tableinfo文件和HFile)安全,防止因HBase的系统表目录或者文件损坏导致HBase服务不可用,或者系统管理员需要对HBase系统表进行重大操作(如升级或迁移等)时,需要对HBase元数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manager创建备份HBase任务并备份元数据。支持创建任务自动或手动备份数据。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份任务的类型、周期、备份对象、备份目录和备份任务需要使用的Yarn队列等策略规格。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。 使用HDFS客户端,以“hdfs”用户执行hdfs lsSnapshottableDir检查当前集群中已创建HDFS快照的目录清单,确保待备份的数据文件所在HDFS路径的父目录或子目录不存在HDFS快照,否则无法创建备份任务。 如果数据要备份至NAS中,需要提前部署好NAS服务端。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份任务的类型、周期、备份对象、备份目录和备份任务需要使用的Yarn队列等策略规格。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。 使用HDFS客户端,以hdfs用户执行hdfs lsSnapshottableDir检查当前集群中已创建HDFS快照的目录清单,确保待备份的数据文件所在HDFS路径的父目录或子目录不存在HDFS快照,否则无法创建备份任务。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 HBase的“fs.defaultFS”配置参数需要与Yarn,HDFS的配置保持一致。
  • 操作场景 为了确保HBase日常数据安全,或者系统管理员需要对HBase进行重大操作(如升级或迁移等),需要对HBase业务数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manager创建备份HBase任务并备份数据。支持创建任务自动或手动备份数据。 HBase备份业务数据时,可能存在以下场景: 用户创建HBase表时,“KEEP_DELETED_CELLS”属性默认值为“false”,备份该HBase表时会将已经删除的数据备份,可能导致恢复后出现垃圾数据。请根据业务需要,在创建HBase表时手动修改参数值为“true”。 用户在HBase表写入数据时手动指定了时间戳,且时间早于上一次该HBase表的备份时间,则在增量备份任务中可能无法备份新数据。 HBase备份功能不支持对HBase的global或者命名空间的读取、写入、执行、创建和管理权限的访问控制列表(ACL)进行备份,恢复HBase数据后需要管理员在FusionInsight Manager上重新设置角色的权限。 已创建的HBase备份任务,如果本次备份任务在备集群的备份数据丢失,当下次执行增量备份时备份任务将失败,需要重新创建HBase的备份任务。若下次执行全量则备份正常。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份的类型、周期和策略等规格,并检查主备管理节点“数据存放路径/LocalBackup/”是否有充足的空间。 如果数据要备份至NAS中,需要提前部署好NAS服务端。 如果数据要备份至OBS中,需要当前集群已对接OBS,并具有访问OBS的权限。
  • 前提条件 如果数据要备份至远端HDFS中,需要准备一个用于备份数据的备集群,认证模式需要与主集群相同。其他备份方式不需要准备备集群。 如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 根据业务需要,规划备份任务的类型、周期、备份对象、备份目录和备份任务需要使用的Yarn队列等策略规格。 检查备集群HDFS是否有充足的空间,备份文件保存的目录建议使用用户自定义的目录。 使用HDFS客户端,以“hdfs”用户执行hdfs lsSnapshottableDir检查当前集群中已创建HDFS快照的目录清单,确保待备份的数据文件所在HDFS路径的父目录或子目录不存在HDFS快照,否则无法创建备份任务。 如果数据要备份至NAS中,需要提前部署好NAS服务端。
  • 操作场景 为了确保Hive日常用户的业务数据安全,或者系统管理员需要对Hive进行重大操作(如升级或迁移等),需要对Hive数据进行备份,从而保证系统在出现异常或未达到预期结果时可以及时进行数据恢复,将对业务的影响降到最低。 系统管理员可以通过FusionInsight Manager创建备份Hive任务。支持创建任务自动或手动备份数据。 Hive备份恢复功能不支持识别用户的Hive表、索引、视图等对象在业务和结构上存在的关联关系。用户在执行备份恢复任务时,需要根据业务场景管理统一的恢复点,防止影响业务正常运行。 Hive备份恢复功能不支持Hive on RDB数据表,需要在外部数据库中单独备份恢复原始数据表。 已创建的Hive备份任务且包含Hive on HBase表,如果本次备份任务在备集群的备份数据丢失,当下次执行增量备份时备份任务将失败,需要重新创建Hive的备份任务。若下次执行全量则备份正常。 通过Manager备份功能对Hive表层级的HDFS目录做备份后,Hive表将无法被删除重建。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查OMS资源状态是否正常,检查各集群的LdapServer实例状态是否正常。如果不正常,不能执行恢复操作。 检查集群主机和服务的状态是否正常。如果不正常,不能执行恢复操作。 检查恢复数据时集群主机拓扑结构与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份。 检查恢复数据时集群中已添加的服务与备份数据时是否相同。如果不相同,不能执行恢复操作,必须重新备份。 停止依赖集群运行的上层业务应用。
  • 对系统的影响 恢复过程中需要重启Controller,重启时FusionInsight Manager无法登录和操作。 恢复过程中需要重启所有集群,集群重启时无法访问。 Manager数据恢复后,会丢失从备份时刻到恢复时刻之间的数据,例如系统设置、用户信息、告警信息或审计信息。可能导致无法查询到数据,或者某个用户无法访问集群。 Manager数据恢复后,系统将强制各集群的LdapServer从OLadp同步一次数据。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对FusionInsight Manager系统进行重大数据调整等操作后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,需要对Manager进行恢复数据操作。 管理员可以通过FusionInsight Manager创建恢复Manager任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的Manager数据。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 主备集群上的时间必须一致,而且主备集群上的NTP服务必须使用同一个时间源。 检查DBService主备实例状态是否正常。如果不正常,不能执行恢复操作。
  • 操作场景 在用户意外修改、删除或需要找回数据时,系统管理员对DBService进行重大操作(如升级、重大数据调整等)后,系统数据出现异常或未达到预期结果,模块全部故障无法使用,或者迁移数据到新集群的场景中,需要对DBService进行恢复数据操作。 系统管理员可以通过FusionInsight Manager创建恢复DBService任务。只支持创建任务手动恢复数据。 只支持进行数据备份时的系统版本与当前系统版本一致时的数据恢复。 当业务正常时需要恢复数据,建议手动备份最新管理数据后,再执行恢复数据操作。否则会丢失从备份时刻到恢复时刻之间的DBService数据。 MRS 集群中默认使用DBService保存Hive、Hue、Loader、Spark、Oozie、CDL的元数据。恢复DBService的数据将恢复全部相关组件的元数据。
  • 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置跨Manager集群互信。如果主集群部署为普通模式,则不需要配置互信。 主备集群必须已配置跨集群拷贝,请参见启用集群间拷贝功能。 检查HBase元数据备份文件保存路径。 恢复HBase元数据需要先停止HBase服务。
共100000条