云服务器内容精选

  • 响应示例 状态码: 200 OK { "count" : 1000000, "page_info" : { "offset" : 1000000, "limit" : 1000 }, "clusters" : [ { "cluster_id" : "123343534", "cluster_name" : "test-cluster", "description" : "this is a test cluster", "version" : "string", "state" : "string", "create_time" : "string", "update_time" : "string", "is_upgradeable" : true } ] }
  • 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 count Integer 总记录数 最小值:0 最大值:1000000 page_info PageInfoDTO object 分页信息 clusters Array of QueryClusterBriefResponseDTO objects 每页记录数 数组长度:0 - 1000000 表5 PageInfoDTO 参数 参数类型 描述 offset Integer 页码 最小值:0 最大值:1000000 limit Integer 每页记录数 最小值:1 最大值:1000 表6 QueryClusterBriefResponseDTO 参数 参数类型 描述 cluster_id String 集群ID cluster_name String 集群名称 最小长度:4 最大长度:32 description String 集群描述 version String 边缘集群版本 state String 边缘集群状态 create_time String 创建时间 最小长度:0 最大长度:256 update_time String 最后一次修改时间 最小长度:0 最大长度:256 is_upgradeable Boolean 是否可升级
  • URI GET /v3/{project_id}/clusters 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 项目ID。获取方法请参见 获取项目ID。 表2 Query参数 参数 是否必选 参数类型 描述 cluster_name 否 String 边缘集群名称 最小长度:1 最大长度:32 state 否 String 边缘集群状态 最小长度:1 最大长度:32 cluster_ids 否 Array 边缘集群ID列表 数组长度:0 - 1000 limit 否 Integer 每页记录数,默认值为10,取值区间为1-1000。 最小值:1 最大值:1000 缺省值:10 offset 否 Integer 查询的起始位置,取值范围为非负整数,默认为0。 最小值:0 最大值:1000000 缺省值:0
  • 集群任务信息 表3 任务信息说明 状态 说明 创建快照中 表示集群正在执行创建快照的操作。 创建快照失败 表示集群执行快照创建操作失败。 观察中 表示集群在用户自助升级操作后待提交阶段。 配置中 表示系统正在保存集群参数的修改。 重启中 表示集群正在重启过程中。 重启失败 表示集群重启操作失败。 转加密集群中 表示集群正在转加密集群过程中。 转加密集群失败 表示集群转加密失败。 节点扩容 表示集群正在扩容中。 扩容失败 表示集群扩容失败。 磁盘扩容中 表示集群正在磁盘扩容中。 磁盘扩容失败 表示集群磁盘扩容失败。 弹性负载均衡绑定中 表示集群正在绑定弹性负载均衡。 弹性负载均衡绑定失败 表示集群绑定弹性负载均衡失败。 弹性负载均衡解绑中 表示集群正在解绑弹性负载均衡。 弹性负载均衡解绑失败 表示集群解绑弹性负载均衡失败。 缩容检测中 表示集群正在检测是否满足缩容条件。 缩容检测失败 表示集群目前的状态不满足缩容: 集群default_storage_nodegroup参数值不为installation。 集群数据库下data_redis为预留重分布schema,该schema中存在用户表。 用户集群磁盘空间不满足缩容条件,详情请参见集群缩容。 缩容中 表示集群正在缩容中。 缩容失败 表示集群缩容失败,需要用户尽快手动重新执行缩容,否则会影响业务。 主备恢复中 表示集群正在主备恢复中。 主备恢复失败 表示集群主备恢复失败,失败原因有以下几种情况,详情请参见管控面错误码参考: 正在执行DN REDO,请稍后重试, 等待redo做完之后重试主备恢复。 查询DN REDO失败,请查看租户侧日志分析失败原因。 存在主备追赶,请稍后重试,等待主备追赶做完之后重试主备恢复。 查询主备追赶失败,请查看租户侧日志分析失败原因。 主备恢复失败,请联系技术支持人员或稍后重试。请查看租户侧日志分析失败原因。 集群状态异常,无法进行主备恢复操作,请检查集群状态是否是normal状态。 弹性变更规格中 表示集群正在弹性变更集群规格中。 弹性变更规格失败 表示集群弹性规格变更失败。 订单待支付 表示按需集群转包周期集群订单未支付,完成订单支付或取消订单该状态消失。 经典变更规格 表示集群正在进行经典变更规格中。 经典变更规格失败 表示经典变更规格失败,其中配额、用户权限以及集群状态都有可能导致失败。 维护中 表示集群正在进行维护变更操作,如集群升级、插件升级等。 维护失败 表示集群升级操作失败。 停止中 表示集群正在停止中。 启动中 表示集群正在启动中。 巡检中 表示集群正在做变更前的巡检。 巡检失败 表示集群巡检操作失败。
  • 包年/包月计费模式 表4 包年/包月计费模式显示说明 状态 说明 XX后到期 包周期集群剩余时长。可进行续费、转按需、退订操作。 已过期, XX后冻结 包周期集群购买时长到期,未续费时会进入宽限期。宽限期包周期集群正常使用,可进行续费操作,不可进行转按需、退订操作。 已冻结, XX后删除 包周期集群宽限期结束,进入保留期。可进行续费操作,不可进行转按需、退订操作。 XX后转按需 包周期集群购买时长到期后转成按需集群。可进行续费、退订操作,不可进行转按需操作。 已冻结(违规) 公安冻结资源。可进行续费操作,不可进行转按需、退订操作。冻结期间会继续收取费用。 已冻结(违规), XX后删除 违规冻结资源。可进行续费操作,不可进行转按需、退订操作。冻结期间会继续收取费用。
  • 集群状态 表2 集群状态说明 状态 说明 可用 表示集群工作正常。 只读 集群存储容量使用率或单节点磁盘使用率大于90%时会进入此状态,该状态下集群仍可工作但只能支持查询操作,不支持任何写操作。当集群进入只读状态时,可通过解除只读功能进行解除,如解除失败请联系技术支持人员解除只读状态。 解除集群只读状态后,建议您参考以下措施进行处理: 使用SQL客户端工具,以管理员用户连接数据库,执行以下命令定期清理和回收存储空间。 1 VACUUM FULL; GaussDB(DWS) 数据仓库中保存的数据在删除后,可能没有释放占用的磁盘空间形成脏数据,导致磁盘浪费,建议定期清理存储空间。 建议用户检查磁盘容量,分析现有集群规格是否满足业务需求,若不满足,建议您对集群进行扩容,具体操作请参见集群扩容。 非均衡 如果集群中存在gtm或dn的角色和初始角色不一致,就认为处于非均衡状态。 非均衡状态下会出现某些节点主实例增多,从而负载压力较大。这种情况下集群状态是正常的,但整体性能要不如均衡状态。建议业务低峰期,切换为可用状态,详情操作请参见集群主备恢复。 重分布中 集群扩容时新节点添加完成后,原节点存储的业务数据明显多于新节点,此时系统自动在所有节点重新分布保存数据。该状态下集群仍可工作。 重分布失败 调整数据分布情况失败,但没有数据丢失。该状态下集群仍可工作。建议用户联系技术支持人员进行处理。 节点故障 表示集群中个别节点出现问题无法正常工作,但整个集群正常。建议用户联系技术支持人员进行处理。 不可用 表示集群无法提供数据库服务。建议用户联系技术支持人员进行处理。 创建中 表示集群正在创建中。 创建失败 表示集群创建失败。 创建中,恢复中 表示集群正在创建中,且该集群是快照恢复而创建的集群,此时集群正在恢复中。当对快照执行了恢复操作时,会恢复快照到新集群,此时该新集群会进入此状态。 删除中 表示集群正在删除中。 公安冻结 表示集群被公安冻结,公安冻结情况下不允许删除或退订集群,且不支持修改集群名称。 已冻结 表示集群被冻结(除公安冻结之外的冻结场景),不支持修改集群名称。 当您的账户余额不足导致系统扣费失败时,您的服务资源将会进入保留期,保留期内服务资源将被冻结而无法使用,但资源和数据会为您保留。当集群状态为“已冻结”时,您需要给账户充值以确保账户余额不为0才能解冻,详细操作请参见如何续费?。 待重启 表示集群修改过GUC参数,需重启才能生效。若并未重启集群,此时部分运维操作会被限制。在用户手动重启集群后,GUC参数生效,集群状态将恢复为“可用”。 已停止 表示集群已停止。
  • 场景介绍 如果在不同时段内业务流量差异非常大,3节点集群又无法满足高峰期的吞吐量要求,但扩容至6节点又存在资源浪费或费用较高问题。用户可通过本章教程再结合定时增删DWS 3.0逻辑集群功能,实现类似于“晚上低峰期3节点,白天6节点,高峰期9节点”的弹性扩展功能。 本章演示了一组新扩容逻辑集群(无业务数据)配置为只读,并将部分用户切换到此只读逻辑集群上,实现用户创建的表都仍然在其原始的NodeGroup上,但计算逻辑都切到只读逻辑集群上执行效果。
  • 配置只读逻辑集群,并将用户切换到只读逻辑集群上 以系统管理员dbadmin连接数据库,执行以下SQL语句查看逻辑集群创建成功。 1 SELECT group_name FROM PGXC_GROUP; 设置逻辑集群lc1为只读。 1 2 3 SET xc_maintenance_mode=on; ALTER NODE GROUP lc1 SET READ ONLY; SET xc_maintenance_mode=off; 创建用户。 1 create user testuser password 'testuser12#$%'; 绑定用户到逻辑集群lc1,如下语句中的testuser、lc1等变量需结合实际情况替换。 首先我们需要找到用户的NodeGroup,如果能查到记录,将其设置到该用户的default_storage_nodegroup上,以便该用户创建的表都仍然在其原始的NodeGroup上;若查不到记录,直接进行后面的两条alter语句即可。 1 2 SELECT nodegroup FROM pg_user WHERE usename='testuser'; ALTER USER testuser SET default_storage_nodegroup='nodegroup'; //这里nodegroup需替换为上述SQL查到的NodeGroup名 同时将用户绑定到新的只读逻辑集群上,这样该用户的计算逻辑都会切到只读逻辑集群上执行。 1 2 ALTER USER testuser NODE GROUP lc1; ALTER USER testuser SET enable_cudesc_streaming=ON;
  • 操作步骤 登录FusionInsight Manager,查看是否存在未清除的告警? 是,请修复告警。告警处理完毕后,执行2。 否,执行2。 以omm用户分别登录主备管理节点。 在主管理节点执行以下命令查看管理平面网关。 cat ${BIGDATA_HOME}/om-server/OMS/workspace/conf/oms-config.ini | grep om_gateway 在主备管理节点分别执行ping 管理平面网关,检查节点是否与管理平面网关连通? 是,执行5。 否,请联系网络管理员修复网络故障,处理完毕后,执行5。 在主管理节点执行以下命令,获取当前环境NTP服务器域名。 本章节后续步骤中将以“ntp.myhuaweicloud.com”为例 cat /opt/Bigdata_func/cloudinit/cloudinit_params | grep ntpserver 在主管理节点执行以下命令,检查集群时间与新的NTP服务器时间偏差。单位为秒。 例如,检查与NTP服务器“ntp.myhuaweicloud.com”的时间差,执行ntpdate -d ntp.myhuaweicloud.com命令,界面显示: 6 Dec 15:16:10 ntpdate[2861453]: step time server 10.79.3.251 offset +2.118107 sec 其中+2.118107 sec表示时间偏差。正数表示NTP服务器时间比集群当前时间快,负数表示NTP服务器时间比集群当前时间慢。 ntp的版本号可以使用ntpq -v或者ntpq --version命令查询,具体显示信息以实际环境为准。 ntpq -v界面显示: 10.1.1.112: ~# ntpq -v ntpq - standard NTP query program - Ver. 4.2.4p8 ntpq --version界面显示: 10.1.1.112: ~# ntpq --version ntpq 4.2.8p10@1.3728-o Mon Jun 6 08:01:59 UTC 2016 (1) 检查时间偏差的绝对值是否超过“150”。 是,执行8。 否,时间偏差的绝对值不超过“150”,以omm用户执行10。 确认是否可以停止集群。 是,停止上层业务并停止集群,然后执行9。 否,任务结束。 确认NTP服务器时间是否比集群当前时间慢? 是,NTP服务器时间慢,停止集群界面显示“操作成功”后需等待,间隔大约为6得到的时间偏差,再以omm用户执行11。 否,NTP服务器时间快,停止集群界面显示“操作成功”后直接以omm用户执行11。 在主管理节点执行以下命令,更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com NTP服务器IP地址不可以设置为集群内节点IP地址,否则可能会导致节点与主备oms节点业务网络断连。 在主管理节点执行以下命令,从NTP服务器“ntp.myhuaweicloud.com”立即强制同步时间并更换NTP服务器,任务结束。 sh ${BIGDATA_HOME}/om-server/om/bin/tools/modifyntp.sh --ntp_server_ip ntp.myhuaweicloud.com --force_sync_time 如果停止了集群,在更换NTP服务器后需要重新启动集群。 执行强制同步时间命令后,集群节点大约需要5分钟完成时间同步。
  • 集群升级 前提条件 8.1.1及以上集群版本支持用户自助通过console下发集群升级操作。 操作步骤 登录GaussDB(DWS)管理控制台。 在集群列表中单击指定集群名称。 进入“集群详情”页面,切换至“升级管理”页签。 根据想要升级的操作,在“类型”一栏中选择升级或热补丁。 在升级管理页面,通过目标版本下拉菜单选择集群要升级的版本。 图2 升级集群 在升级操作前如果集群满足巡检条件,需单击“巡检”按钮先完成一次巡检,并保证巡检检查通过,通过后可进行下一步变更操作,详情请参见查看巡检。 集群安装热补丁后无法建立容灾。 单击“升级”按钮,根据提示单击“确定”按钮,下发升级操作。 查看集群是否升级成功: 如果集群升级成功:8.1.3及以上集群版本,集群升级任务完成后进入业务观察期,若用户验证业务无问题,通过升级管理页面单击“提交”按钮,完成集群升级;如果用户验证集群使用性能等有影响,可通过集群升级页面单击“回滚”按钮,下发升级回退操作。 8.1.3以前集群版本下发升级任务后,完成集群升级前不支持回滚或提交操作。 用户下发升级任务成功后,如果没有进行提交操作,则在未提交版本期间会产生wlm线程占用系统存储空间并对性能有一定影响。 图3 集群升级成功 如果集群升级失败:可单击“回滚”操作,回退到原集群版本;或单击“重试”按钮重复下发升级操作。 图4 集群升级失败
  • 升级版本说明 集群版本说明如下图所示: 图1 版本说明 服务补丁升级:表示集群版本X.X.X最后一位数字的升级更新,例如,集群版本从1.1.0升级到1.1.1。 持续时间:整个升级过程将花费不到10分钟。 业务影响:在此期间,如果升级源版本至8.1.3及以上版本,则支持在线补丁,补丁升级期间不要求用户停止业务,业务存在秒级闪断。如果在8.1.3以下版本业务会中断1至3分钟,建议在业务低峰期进行。 服务升级:表示集群版本X.X.X前面两位数字的升级更新,例如,集群版本从1.1.0升级到1.2.0。 持续时间:整个升级过程将花费不到30分钟。 业务影响:在此期间,如果升级源版本至8.1.1及以上版本,则支持在线升级,升级期间不要求用户停止业务,业务存在秒级闪断,建议在业务低峰期进行。 热补丁升级:表示在当前集群版本的基础上扩展一位版本号(格式为0001-9999)进行升级操作。 持续时间:单个热补丁升级过程中花费不到10分钟。 业务影响:热补丁升级过程中不影响业务,卸载热补丁后当前热补丁修复的问题可能再次出现。
  • MRS集群数据备份与恢复 MRS集群提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。 MRS 3.x版本支持将数据备份至本地磁盘(LocalDir)、本端HDFS(LocalHDFS)、远端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服务器(SFTP)、OBS。对于支持多服务的组件,支持同服务多个实例的备份恢复功能且备份恢复操作与自身服务实例一致。 备份恢复任务的使用场景如下: 用于日常备份,确保系统及组件的数据安全。 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。 表1 根据业务需要备份元数据(MRS 2.x及之前版本) 备份类型 备份内容 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LdapServer 备份用户信息,包括用户名、密码、密钥、密码策略、组信息。 DBService 备份DBService管理的组件(Hive)的元数据。 NameNode 备份HDFS元数据。 表2 根据业务需要备份Manager配置数据(MRS 3.x版本) 备份类型 备份内容 备份目录类型 OMS 默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS SFTP OBS 表3 根据业务需要备份组件元数据或其他数据(MRS 3.x版本) 备份类型 备份内容 备份目录类型 DBService 备份DBService管理的组件(Loader、Hive、Spark、Oozie、Hue、CDL)的元数据。对于安装了多服务的集群,包含多个Hive和Spark服务实例的元数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS SFTP OBS Flink (适用于MRS 3.2.0及以后版本) Flink的元数据。 LocalDir LocalHDFS RemoteHDFS Kafka Kafka的元数据。 LocalDir LocalHDFS RemoteHDFS NFS CIFS OBS NameNode 备份HDFS元数据。添加多个NameService后,支持不同NameService的备份恢复功能且备份恢复操作与默认实例“hacluster”一致。 LocalDir RemoteHDFS NFS CIFS SFTP OBS Yarn 备份Yarn服务资源池相关信息。 HBase HBase系统表的tableinfo文件和数据文件。 IoTDB IoTDB的元数据。 LocalDir NFS RemoteHDFS CIFS SFTP ClickHouse ClickHouse的元数据。 LocalDir RemoteHDFS 表4 根据业务需要备份特定组件业务数据(MRS 3.x版本) 备份类型 备份内容 备份目录类型 HBase 备份表级别的用户数据。对于安装了多服务的集群,支持多个HBase服务实例的备份恢复功能且备份恢复操作与HBase服务实例一致。 RemoteHDFS NFS CIFS SFTP HDFS 备份用户业务对应的目录或文件。 说明: 加密目录不支持备份恢复。 Hive 备份表级别的用户数据。对于安装了多服务的集群,支持多个Hive服务实例的备份恢复功能且备份恢复操作与Hive服务实例一致。 IoTDB 备份IoTDB业务数据。 RemoteHDFS ClickHouse 备份表级别的用户数据。 RemoteHDFS 需要特别说明的是,部分组件不提供单独的数据备份与恢复功能: Kafka支持副本特性,在创建主题时可指定多个副本来备份数据。 CDL的数据存储在DBService与Kafka服务中,系统管理员可以通过创建备份DBService和Kafka的任务来备份数据。 Mapreduce和Yarn的数据存放在HDFS上,故其依赖HDFS提供备份与恢复即可。 ZooKeeper中存储的业务数据,其备份恢复能力由各上层组件按需独立实现。 父主题: MRS集群管理
  • 使用spark-submit提交任务 使用root用户登录客户端节点,执行如下命令: cd 客户端安装目录 source bigdata_env source Spark2x/component_env 安全集群(开启kerberos认证)执行命令kinit spark_test,普通模式(关闭kerberos认证)无需执行。 输入密码,完成认证(第一次登录需要修改密码)。 cd Spark2x/spark/bin sh spark-submit --queue tenant_spark --class org.apache.spark.examples.SparkPi --master yarn-client ../examples/jars/spark-examples_*.jar
  • 添加租户 在集群详情页,单击“租户管理”。 单击“添加租户”,打开添加租户的配置页面,参见以下表格内容为租户配置属性(以MRS 3.x版本集群为例)。 表2 租户参数一览表 参数名 描述 名称 例如:tenant_spark 租户类型 选择“叶子租户”。当选中“叶子租户”时表示当前租户为叶子租户,无法再添加子租户。当选中“非叶子租户”时表示当前租户可以再添加子租户。 计算资源 选择“Yarn”,系统将自动在Yarn中以租户名称创建任务队列。计算资源不选择“Yarn”时,系统不会自动创建任务队列。 配置模式 计算资源选择“Yarn”时,“配置模式”可选“基础”或“高级”。 基础:需配置“默认资源池容量 (%)”,配置当前租户在“default”资源池中使用的计算资源百分比。 高级:需配置如下参数。 权重:资源分配权重,取值范围从0到100。租户资源占比=租户权重/同级别租户总权重之和。 最小资源:保证租户能获得的资源(有抢占支持)。取值可以是父租户资源的百分比或绝对值。当租户作业量比较少时,资源会自动借给其他租户,当租户能使用的资源不满足最小资源时,可以通过抢占来要回之前借出的资源。 最大资源:租户最多能使用的资源,租户不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。 预留资源:租户最多能使用的资源,租户不能得到比最大资源设定更多的资源。取值可以是父租户资源的百分比或绝对值。 默认资源池容量 (%) 配置当前租户在“default”资源池中使用的计算资源百分比,例如“20%”。 储存资源 选择“HDFS”,第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。存储资源不选择“HDFS”时,系统不会在HDFS中创建存储目录。 文件/目录数上限 例如:100000000000 存储空间配额 配置当前租户使用的HDFS存储空间配额。最小值为“1”,最大值为父租户的全部存储配额。单位为MB或GB。例如:50000,单位为MB。此参数值表示租户可使用的HDFS存储空间上限,不代表一定使用了这么多空间。如果参数值大于HDFS物理磁盘大小,实际最多使用全部的HDFS物理磁盘空间。 说明: 为了保证数据的可靠性,HDFS中每保存一个文件则自动生成1个备份文件,即默认共2个副本。HDFS存储空间表示所有副本文件在HDFS中占用的磁盘空间大小总和。例如“存储空间配额”设置为“500MB”,则实际只能保存约500/2=250MB大小的文件。 存储路径 例如:“tenant/spark_test”,系统默认将自动在“/tenant”目录中以租户名称创建文件夹。例如租户“spark_test”,默认HDFS存储目录为“tenant/spark_test”。第一次创建租户时,系统自动在HDFS根目录创建“/tenant”目录。支持自定义存储路径。 服务 配置当前租户关联使用的其他服务资源,支持HBase。单击“关联服务”,在“服务”选择“HBase”。在“关联类型”选择“独占”表示独占服务资源,选择“共享”表示共享服务资源。 描述 配置当前租户的描述信息。 单击“确定”保存,完成租户添加。 保存配置需要等待一段时间,界面右上角弹出提示“租户创建成功。”,租户成功添加。 创建租户时将自动创建租户对应的角色、计算资源和存储资源。 新角色包含计算资源和存储资源的权限。此角色及其权限由系统自动控制,不支持通过“角色管理”进行手动管理。 使用此租户时,请创建一个系统用户,并分配Manager_tenant角色以及租户对应的角色。
  • 添加Task节点 在MRS自定义类型集群的集群详情页面,选择“节点管理”页签,单击“新增节点组”,进入“新增节点组”页面。 根据需求配置参数。 表1 新增节点组参数说明 参数名称 描述 节点规格 选择节点组内主机的规格类型。 节点数量 设置新增节点组内的节点数量。 系统盘 设置新增节点的系统盘的规格与容量。 数据盘/数据盘数量 设置新增节点的数据盘的规格与容量及数量。 部署角色 添加“NodeManager”角色。 单击“确定”。