华为云用户手册

  • 取消告警通知 开启主机安全防护后,若您不想收到HSS的告警通知,您可以取消设置HSS告警通知。取消告警通知后,无论是否有风险,您都只能登录管理控制台自行查看,无法收到告警短信或邮件。 取消设置HSS告警通知方式,如下所示: 方式一:删除 消息通知 主题 删除主题后,您配置的告警通知将不会生效。 方式二:删除消息通知主题中的订阅 删除订阅后,您将不会收到告警通知。 方式三:取消或关闭消息通知主题中的订阅 取消订阅后,您将不会收到告警通知。
  • 关闭弱口令策略后,之前扫描的弱口令事件为什么还会重复出现? 若您在关闭弱口令策略前,已经修改弱口令事件,进行重新检测并符合弱口令检测要求,该弱口令事件不会在重复出现。 若您在关闭弱口令策略前,未修改弱口令事件,已经检测出来的结果不会改变,系统也将不再进行新的检测且历史检测结果会保留30天。 为保障您的主机安全,请您及时修改登录主机系统时使用弱口令的帐号,如SSH帐号。 为保障您主机内部数据信息的安全,请您及时修改使用弱口令的软件帐号,如MySQL帐号和FTP帐号等。 验证:完成弱口令修复后,建议您立即执行手动检测,查看弱口令修复结果。如果您未进行手动验证且未关闭弱口令检测,HSS会在次日凌晨执行自动验证。 父主题: 弱口令和风险帐号问题
  • 购买了主机安全版本为什么没有生效? 购买了主机安全版本后您还需要做以下操作才可为目标主机开启防护: 安装Agent:为目标主机安装Agent,安装后可实现HSS对数据的监测以及告警的上报,若已安装可忽略此步骤,安装Agent操作详情请参见安装Agent。 绑定配额:将购买的版本配额绑定至需要防护的服务器,绑定后目标服务器才会开启对应版本支持的防护能力,绑定配额开启主机防护操作详情请参见开启主机安全防护,开启 容器安全 防护操作详情请参见开启器防护。 开启防护后建议开启告警通知确保在发现告警的第一时间收到通知,同时对服务器进行安全配置,进一步提升服务器的安全性。 父主题: 配额问题
  • HSS到期后不续费,对主机和业务有影响吗? 不会产生直接影响。 停止续费说明 企业主机安全 是提升主机整体安全性的服务,到期后不续费会自动停止防护。 停止续费风险 不续费会降低服务器的防护能力,遭受破解、入侵的风险会增加,会有很大的安全隐患,例如我们的数据、程序都是运行在云服务器上,一旦系统被入侵成功,数据将面临被窃取或被篡改的风险,企业的业务将面临中断,造成重大损失。 企业主机安全服务提供事前预防、事中防护、实时/每日告警的全方位保护措施,提高主机的安全性,保护企业的业务安全。更多详细信息请参见产品介绍。 父主题: 计费、续费与退订
  • Windows操作系统 windows操作系统可以使用镜像的方式批量安装Agent,操作步骤如下: 购买华为云弹性云服务器,选定所需使用的Windows系统镜像,详细操作请参见购买华为云弹性云服务器。 在购买的弹性云服务器中安装HSS Agent,详细操作请参见安装Windows版本客户端。 除在主机中安装HSS的Agent外,请勿开启其他服务或执行相关配置操作。 在任务管理器中关闭HostGuard进程。 关闭弹性云服务器,使用该弹性云服务器制作镜像,详细操作请参见创建镜像。 关闭弹性云服务器后,在制作镜像前,请勿重启弹性云服务器,否则您需重新执行步骤3。 使用步骤4制作的镜像为Windows弹性云服务器批量安装Agent。 安装成功后,需要等待5~10分钟左右Agent才会自动刷新Agent状态。
  • Linux操作系统 Linux操作系统可以通过如下方式批量安装Agent: 购买华为云弹性云服务器,选定所需使用的Linux系统镜像,详细操作请参见购买弹性云服务器。 在购买的弹性云服务器中安装HSS的Agent,详细操作请参见安装Linux Agent。 除在主机中安装HSS的Agent外,请勿开启其他服务或执行相关配置操作。 在服务器中关闭HSS进程。 使用ps -ef命令确定HSS的PID,使用kill -pid命令关闭Linux系统中的hostguard进程。 关闭弹性云服务器,使用该弹性云服务器制作镜像,详细操作请参见创建镜像。 关闭弹性云服务器后,在制作镜像前,请勿重启弹性云服务器,否则您需重新执行步骤3和步骤4。 使用步骤4制作的镜像为Linux弹性云服务器批量安装Agent。 安装成功后,需要等待5~10分钟左右Agent才会自动刷新Agent状态。
  • Kafka API简单说明 新Producer API 指org.apache.kafka.clients.producer.KafkaProducer中定义的接口,在使用“kafka-console-producer.sh”时,默认使用此API。 旧Producer API 指kafka.producer.Producer中定义的接口,在使用“kafka-console-producer.sh”时,加“--old-producer”参数会调用此API。 新Consumer API 指org.apache.kafka.clients.consumer.KafkaConsumer中定义的接口,在使用“kafka-console-consumer.sh”时,加“--new-consumer”参数会调用此API。 旧Consumer API 指kafka.consumer.ConsumerConnector中定义的接口,在使用“kafka-console-consumer.sh”时,默认使用此API。 新Producer API和新Consumer API,在下文中统称为新API。
  • 问题背景与现象 使用Kafka过程中常常需要对特定Topic进行配置或者修改。 Topic级别可以修改参数列表: cleanup.policycompression.typedelete.retention.msfile.delete.delay.msflush.messagesflush.msindex.interval.bytesmax.message.bytesmin.cleanable.dirty.ratiomin.insync.replicaspreallocateretention.bytesretention.mssegment.bytessegment.index.bytessegment.jitter.mssegment.msunclean.leader.election.enable
  • 解决方案 通常不建议使用本地文件加载数据到hive表。 建议先将本地文件放入HDFS,然后从集群中加载数据。 Hive对load data local inpath命令有如下权限要求,请对照下述要求是否满足: 由于所有的命令都是发送到主HiveServer上去执行的,所以要求此文件在HiveServer节点上。 HiveServer进程是以操作系统上的omm用户启动的,所以要求omm用户对此文件有读权限,对此文件的目录有读、执行权限。 文件的owner需要为执行命令的用户。 当前用户需要对该文件有读、写权限。 要求文件的格式与表指定的存储格式相同。如创建表时指定stored as rcfile,但是文件格式为txt,则不符合要求。 文件名不能以下横线(_)或点(.)开头,以这些开头的文件会被忽略。
  • 原因分析 登录到集群的Core节点查看RegionServer日志,报错: “Region‘3b3ae24c65fc5094bc2acfebaa7a56de’”打开失败,Region状态被设置为FAILED_OPEN。 “Region‘b7b3faab86527b88a92f2a248a54d3dc’”下的一个文件找不到报错FileNotFoundException。 在HBase客户端中执行hbase hbck命令检查Region,报错: ERROR: Found lingering reference file hdfs://hacluster/hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc 从引用文件可以看出,‘3b3ae24c65fc5094bc2acfebaa7a56de’Region是‘ b7b3faab86527b88a92f2a248a54d3dc’的子Region,子Region引用了父Region的文件,父Region的文件在迁移过程中因为未知原因丢失了,导致子Region找不到引用文件。 这种异常并不能通过简单的重试可解决,所以Region会长时间处于RIT状态。
  • 原因分析 通过查看RegionServer日志(/var/log/Bigdata/hbase/rs/hbase-omm-xxx.log)。 使用lsof -i:21302( MRS 1.7.X及以后端口号是16020)查看到pid,然后根据pid查看到相应的进程,发现RegionServer的端口被DFSZkFailoverController占用。 查看“/proc/sys/net/ipv4/ip_local_port_range”显示为“9000 65500”,临时端口范围与MRS产品端口范围重叠,因为安装时未进行preinstall操作。
  • 处理步骤 在HDFS客户端执行以下命令删除2查看到的残留文件: hdfs dfs -rmr 残留文件所在的HDFS路径 例如: hdfs dfs -rmr /hbase/news_user_actions/3b3ae24c65fc5094bc2acfebaa7a56de/meta/0f47cda55fa44cf9aa2599079894aed6.b7b3faab86527b88a92f2a248a54d3dc
  • 问题1:报没权限(Access denied)执行balance 问题详细:执行start-balancer.sh,“hadoop-root-balancer-主机名.out”日志显示“Access denied for user test1. Superuser privilege is required” cat /opt/client/HDFS/hadoop/logs/hadoop-root-balancer-host2.outTime Stamp Iteration# Bytes Already Moved Bytes Left To Move Bytes Being MovedINFO: Watching file:/opt/client/HDFS/hadoop/etc/hadoop/log4j.properties for changes with interval : 60000org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Access denied for user test1. Superuser privilege is requiredat org.apache.hadoop.hdfs.server.namenode.FSPermissionChecker.checkSuperuserPrivilege(FSPermissionChecker.java:122)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkSuperuserPrivilege(FSNamesystem.java:5916) 问题根因: 执行balance需要使用管理员账户 解决方法 安全版本 使用hdfs或者其他属于supergroup组的用户认证后,执行balance 普通版本 执行HDFS的balance命令前,需要在客户端执行su - hdfs命令。
  • 问题2:执行balance失败,/system/balancer.id文件异常 问题详细: 在HDFS客户端启动一个Balance进程,该进程被异常停止后,再次执行Balance操作,操作会失败。 org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.protocol.RecoveryInProgressException): Failed to APPEND_FILE /system/balancer.id for DFSClient because lease recovery is in progress. Try again later. 问题根因: 通常,HDFS执行Balance操作结束后,会自动释放“/system/balancer.id”文件,可再次正常执行Balance。 但在上述场景中,由于第一次的Balance操作是被异常停止的,所以第二次进行Balance操作时,“/system/balancer.id”文件仍然存在,则会触发append /system/balancer.id操作,进而导致Balance操作失败。 解决方法 方法1:等待硬租期超过1小时后,原有客户端释放租约,再执行第二次Balance操作。 方法2:删除HDFS中的“/system/balancer.id”文件,再执行下次Balance操作。
  • 原因分析 查看/var/log/Bigdata/dbservice/DB/gaussdb.log日志没有内容。 查看/var/log/Bigdata/dbservice/scriptlog/preStartDBService.log日志,发现如下信息,判断为配置信息丢失。 The program "gaussdb" was found by "/opt/Bigdata/MRS_xxx/install/dbservice/gaussdb/bin/gs_guc)But not was not the same version as gs_guc.Check your installation. 比对主备DBServer节点/srv/BigData/dbdata_service/data目录下的配置文件发现差距比较大。
  • 原因分析 查看DBService的备份页面错误信息,有如下错误信息提示: Clear temporary files at backup checkpoint DBService_test_DBService_DBService_20180326155921 that fialed last time.Temporyary files at backup checkpoint DBService_test_DBService_DBService20180326155921 that failed last time are cleared successfully. 查看/var/log/Bigdata/dbservice/scriptlog/backup.log文件,发现日志停止打印,并没有备份相关信息。 查看主 OMS 节点 /var/log/Bigdata/controller/backupplugin.log日志发现如下错误信息: result error is ssh:connect to host 172.16.4.200 port 22 : Connection refused (172.16.4.200是DBService的浮动IP)DBService backup failed.
  • 问题背景 新安装的集群HBase启动失败,查看RegionServer日志报如下错误: 2018-02-24 16:53:03,863 | ERROR | regionserver/host3/187.6.71.69:21302 | Master passed us a different hostname to use; was=host3, but now=187-6-71-69 | org.apache.hadoop.hbase.regionserver.HRegionServer.handleReportForDutyResponse(HRegionServer.java:1386)
  • 解决办法 停止HBase组件。 在HBase客户端使用hbase用户登录认证,执行如下命令。 例如: hadoop03:~ # source /opt/client/bigdata_envhadoop03:~ # kinit hbasePassword for hbase@HADOOP.COM: hadoop03:~ # hbase zkcli 删除zk中acl表信息。 例如: [zk: hadoop01:24002,hadoop02:24002,hadoop03:24002(CONNECTED) 0] deleteall /hbase/table/hbase:acl[zk: hadoop01:24002,hadoop02:24002,hadoop03:24002(CONNECTED) 0] deleteall /hbase/table-lock/hbase:acl 启动HBase组件。
  • 问题分析 查询到客户集群id,先要到运维授权,登录客户master节点,进入/var/log/Bigdata下找presto的日志进行查找。 其中报错和客户报障界面相同。 根据报错信息在到192.168.0.243节点去查看presto worker实例的进程日志。日志显示: java.lang.OutOfMemoryError: Java heap space 根据报错预判发生了oom导致查询报错。
  • 处理步骤 通过root用户登录Master1或Master2其中任意一节点,执行以下命令切换到omm用户。 su - omm 执行以下命令,修改“catalina.sh”脚本。 vim /opt/executor/bin/catalina.sh 搜索“JAVA_OPTS” ,找到类似JAVA_OPTS=“-Xms1024m -Xmx4096m”的配置,将其值根据需要进行修改,保存修改。 重启manager-executor进程,该进程在Master1和Master2节点上为主备部署,同一时刻只有一个节点上运行该进程,首先确认节点上是否有该进程,如果有该进程则进行重启操作。 分别登录Master1节点和Master2节点,执行以下命令确认当前节点是否存在该进程。当有输出时则进程存在。 ps -ef | grep "/opt/executor" | grep -v grep 重启命令如下。 sh /opt/executor/bin/shutdown.shsh /opt/executor/bin/startup.sh 重新访问Manager页面。
  • 问题现象 MRS 3.x版本集群,ResourceManager日志显示TimelineServer数据目录数量到达上限打印大量错误日志。 异常日志内容如下: The directory item limit of /tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot is exceeded: limit=1048576 items=1048576
  • 原因分析 TimelineServer在MRS 3.x版本会使用一个HDFS的目录(例如以上报错中的“/tmp/hadoop-omm/yarn/timeline/generic-history/ApplicationHistoryDataRoot”路径)来存放历史任务信息,导致该目录下的文件不断累积,直到到达HDFS配置的目录数量上限(“dfs.namenode.fs-limits.max-directory-items”默认为“1048576”)。 此时请将“yarn.timeline-service.generic-application-history.enabled”(客户端查询app任务数据时是否从TimelineServer服务获取)参数设置为“false”,直接从ResourceManager上面获取app任务数据。
  • 处理步骤 清除浏览器缓存 切换至浏览器窗口(以Chrome为例),通过键盘按下“Ctrl+Shift+Delete”弹出“清除浏览数据”对话框。 勾选待清除的浏览记录,单击“清除数据”,完成浏览器缓存清理。 检查是否可以访问Manager。 是,操作结束。 否,执行4。 修改“/opt/Bigdata/tmp”目录权限 以root用户依次登录Master1、Master2节点。 查看Master1、Master2节点的“/opt/Bigdata/tmp”路径权限是否被修改。(权限默认为770) 如果被修改请执行以下命令恢复“/opt/Bigdata/tmp”路径权限。 chmod 1770 /opt/Bigdata/tmp 登录主OMS节点,执行以下命令重启OMS。 sh ${BIGDATA_HOME}/om-server/om/sbin/restart-oms.sh 提示以下信息表示命令执行成功: start HA successfully. 等待一段时间后重新登录Manager。
  • 处理步骤 登录kadmin后台管理控制台。 以root用户登录安装了客户端的节点,执行以下命令,切换到客户端目录,例如“/opt/client”。 cd /opt/client 执行以下命令,配置环境变量。 source bigdata_env 执行以下命令,输入kadmin/admin用户密码后进入kadmin控制台。 kadmin -p kadmin/admin 3.x及之后版本默认密码:Admin@123。3.x之前版本默认密码:KAdmin@123。 首次登录后会提示该密码过期,请按照提示修改密码并妥善保存。 执行以下命令 ,查看被锁用户数据密码错误次数“Failed password attempts”参数值是否大于或等于5,如果是,则证明账户被锁。 getprinc 被锁用户名 如果账户被锁,执行以下命令解锁用户后,重新登录Manager。 modprinc -unlock 被锁用户名
  • 处理步骤 以omm用户登录主管理节点。 执行以下命令打开application.properties文件。 vi ${BIGDATA_HOME}/om-server_*/OMS/workspace0/conf/pms/application.properties 将PMS进程的内存配置参数“pms.mem”根据实际情况调大,保存并退出。 ...pms.mem=800m 修改的新值的增长量不能大于操作系统可用剩余内存。 执行以下命令查找PMS进程的PID,并终止PMS进程,等待进程重启启动。 ps -ef | grep pms kill -9 PID 登录Manager页面,查看卡顿情况消失。
  • 用户问题 在History Server页面中访问某个Spark应用的页面时,发现访问时出错。 查看相应的HistoryServer日志后,发现有“FileNotFound”异常,相关日志如下所示: 2020-11-22 23:58:03,694 | WARN | [qtp55429210-232] | /history/application_1479662594976_0001/stages/stage/ | org.sparkproject.jetty.servlet.ServletHandler.doHandle(ServletHandler.java:628)java.io.FileNotFoundException: ${BIGDATA_HOME}/tmp/spark/jobHistoryTemp/blockmgr-5f1f6aca-2303-4290-9845-88fa94d78480/09/temp_shuffle_11f82aaf-e226-46dc-b1f0-002751557694 (No such file or directory)
  • 原因分析 在History Server页面加载Task个数较多的Spark应用时,由于无法把全部的数据放入内存中,导致数据溢出到磁盘时,会产生前缀为“temp_shuffle”的文件。 HistoryServer默认会缓存50个Spark应用(由配置项“spark.history.retainedApplications”决定),当内存中的Spark应用个数超过这个数值时,HistoryServer会回收最先缓存的Spark应用,同时会清理掉相应的“temp_shuffle”文件。 当用户正在查看即将被回收的Spark应用时,可能会出现找不到“temp_shuffle”文件的错误,从而导致当前页面无法访问。
  • 操作步骤 以root用户登录主OMS所在节点,执行以下命令获取RegionServer对应的URL。 cat /opt/Bigdata/Apache-httpd*/conf/whitelist.txt |grep RegionServer 修改HBase WebUI的HMaser的访问地址,将“/HMaster/ID/master-status”修改为“/RegionServer/ID/rs-status”,即可直接访问RegionServer信息页。其中,“/RegionServer/ID/rs-status”中的“ID”为1查看到的RegionServer主机名称对应的ID。 例如,若查看到的RegionServer的URL为“/HBase/RegionServer/44”,则访问地址为“https://100.94.xxx.xxx:9022/component/HBase/RegionServer/44/rs-status”。
  • 处理步骤 复制MRS Manager的登录链接,使用Chrome浏览器访问。 显示MRS Manager登录页面,此时Chrome浏览器暂时还不能登录MRS Manager页面,请继续操作后续步骤。 查找证书。 单击浏览器左上角,单击“证书无效”所在行的。 获取证书。 选中该证书拖动到电脑桌面,即可获得证书。 在Mac应用中选择钥匙串访问。 “钥匙串”选择“登录”,“种类”选择“证书”。 将步骤3获得的证书拖动到钥匙串列表中。 双击证书将该证书设置为“始终信任”并关闭弹窗。 在出现的确认框中输入登录密码,此时在Chrome中即可访问MRS Manager。
  • 原因分析 安全集群需要进行Kerberos认证,需要在客户端节点的hosts中配置信息,访问速度才不会收到影响。例如,hosts配置信息为: 1.1.1.1 hadoop.782670e3_1364_47e2_8c70_1b61bb80479c.com1.1.1.1 hadoop.hadoop.com1.1.1.1 hacluster1.1.1.1 haclusterX1.1.1.1 haclusterX11.1.1.1 haclusterX21.1.1.1 haclusterX31.1.1.1 haclusterX41.1.1.1 ClusterX1.1.1.1 managerip1 hostname1ip2 hostname2ip3 hostname3ip4 hostname4
共100000条