云服务器内容精选

  • 如何查看所有集群? MRS所有的集群都展示在MRS管理控制台的“MRS集群”页面中,进入“MRS集群”页面,可查看所有集群。集群数量较多时,可采用翻页显示,您可以查看任何状态下的集群。 现有集群:包括除了“失败”和“已删除”状态以外的所有集群。 历史集群:仅包含“已删除”状态的集群,目前界面只显示6个月内创建且已删除的集群,如果需要查看6个月以前删除的集群,请联系技术支持人员。 失败任务管理:仅包含“失败”状态的任务。 集群创建失败的任务 集群删除失败的任务 集群扩容失败的任务 集群缩容失败的任务 父主题: 集群管理类
  • 问题现象 在MRS 2.x集群详情页面调整集群Task节点,将Task节点调整成0个,最终缩容失败,提示如下: This operation is not allowed because the number of instances of NodeManager will be less than the minimum configuration after scale-in, which may cause data loss.
  • MRS集群节点时间信息不正确如何处理? 如果集群内节点时间不正确,请分别登录集群内时间不正确的节点,并从2开始执行。 如果集群内节点与集群外节点时间不同步,请登录集群外节点,并从1开始执行。 执行vi /etc/ntp.conf命令编辑NTP客户端配置文件,并增加MRS集群中Master节点的IP并注释掉其他server的地址。 server master1_ip prefer server master2_ip 图1 增加Master节点的IP 执行service ntpd stop命令关闭NTP服务。 执行/usr/sbin/ntpdate 主Master节点的IP地址 命令手动同步一次时间。 执行service ntpd start或systemctl restart ntpd命令启动NTP服务。 执行ntpstat命令查看时间同步结果。 父主题: 集群管理类
  • Hive服务运行状态为亚健康是否会影响上层业务? 问: MRS集群内的Hive服务运行状态显示为“亚健康”,是否会影响上层业务? 答: 集群中服务运行状态为“亚健康”表示服务部分增强功能无法正常工作。 在本示例场景中,登录Manager查看集群其它服务状态,发现HBase服务被停止。当HBase已安装且状态不正常时,Hive、Spark和Loader服务将处于“亚健康”状态。 此时并不会影响基于Hive服务的上层业务,手动重启HBase服务后,Hive服务运行状态恢复正常。 父主题: 集群管理类
  • 原因分析 PostgreSQL缓存:除了常见的执行计划缓存、数据缓存,PostgreSQL为了提高生成执行计划的效率,还提供了catalog,relation等缓存机制。长连接场景下这些缓存中的某些缓存是不会主动释放的,因此可能导致长连接占用大量的内存不释放。 PMS是MRS的监控进程,此进程会经常创建表分区或者新表,由于PostgreSQL会缓存当前会话访问过的对象的元数据,且PMS的数据库连接池连接会长时间存在,所以连接占用的内存会逐渐上升。
  • 处理步骤 登录MRS控制台,单击集群名称进入集群详情页面查看集群状态,确保集群状态为“运行中”。 单击“节点管理”,查看所有节点的状态,确保所有节点的状态为“运行中”。 登录集群的podMaster节点跳转到MRS的deployer节点,查看api-gateway.log的日志。 用kubectl get pod -n mrs命令查看MRS对应的deployer节点的pod。 用kubectl exec -ti ${deployer节点的pod} -n mrs /bin/bash命令登录相应的pod,如执行kubectl exec -ti mrsdeployer-78bc8c76cf-mn9ss -n mrs /bin/bash命令进入MRS的deployer容器。 在/opt/cloud/logs/apigateway目录下查看最新的api-gateway.log日志,检索里面的关键信息(如:ERROR,scaling,clusterScaling,HostState,state-check,集群ID等)查看报错类型。 根据报错提示信息进行相应处理,然后再次执行扩容操作。 扩容成功,则处理完成。 扩容失败,则执行4。 用/opt/cloud/mysql -u${用户名} -P${端口} -h${地址} -p${密码}登录数据库。 执行select cluster_state from cluster_detail where cluster_id="集群ID";查看cluster_state。 cluster_state为2,则集群状态正常,执行6。 cluster_state不为2,说明集群状态在数据库中异常,可用update cluster_detail set cluster_state=2 where cluster_id="集群ID";刷新集群状态,并查看cluster_state。 cluster_state为2,则集群状态正常,执行6 cluster_state不为2,则请提交工单进行处理。 执行select host_status from host where cluster_di="clusterID";命令查询集群主机状态。 如果主机状态为started,则处理完成。 如果主机状态不为started,则可执行update host set host_status='started' where cluster_id="集群ID";命令更新主机状态到数据库。 如果主机状态为started,则处理完成。 如果主机状态不为started,则请提交工单进行处理。