华为云用户手册

  • 删除容灾 登录 GaussDB (DWS) 管理控制台。 在左侧导航栏中,单击“容灾管理”。 在容灾列表中,在指定容灾所在行的“操作”列,单击“删除”按钮。 在弹出框单击“确定”。 此时容灾的“容灾状态”显示为“删除中”,删除需要时间请耐心等待。 容灾状态为“创建失败”、“未启动”、“启动失败”、“已停止”、“停止失败”和“异常”时可以执行删除容灾操作。 删除后,将无法进行数据同步,且不可恢复,请谨慎操作。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1。 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-2-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-11-26 11:14:58; 节点10分钟内的平均数据磁盘使用率为84%,超过阈值80%。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警解释 GaussDB(DWS)每30秒采集集群各节点所有磁盘的使用情况。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过80%(可配置),则上报节点数据盘使用率超阈值的重要告警;如果平均使用率低于75%(即上报阈值减去5%),则消除该重要告警。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过85%(可配置),则上报节点数据盘使用率超阈值的紧急告警;如果平均使用率低于80%(即上报阈值减去5%),则消除该紧急告警。 如果存在磁盘的最大使用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
  • 前提条件 集群快照是GaussDB(DWS)集群在某一时间点的完整备份,记录了这一时刻指定集群的所有配置数据和业务数据。用户根据业务需要备份集群数据时,可以在“快照管理”页面创建集群的快照。 手动快照可以随时创建,在创建成功后会一直保存,直到GaussDB(DWS)控制台将此快照删除。由于创建手动快照采用全量备份的方式,因此备份时间较长。 手动创建的集群粒度快照支持备份到OBS服务。 待创建的集群粒度快照的集群状态必须为“可用”、“待重启”或“非均衡”中的任意一种,当版本低于8.1.3.101时,“只读”状态的集群也可创建集群粒度的快照。
  • 缩容对系统的影响 缩容前,需退出创建了临时表的客户端连接,因为在缩容过程中及缩容成功之前创建的临时表将会失效,操作临时表也会失败。但是缩容后创建的临时表不受影响。 在执行缩容操作后,集群会进行一次自动快照,快照创建成功后进行集群缩容,若用户不想自动创建快照,可以在缩容界面选择取消自动备份功能。 缩容前,需确保倾斜率不超过10%,脏页率没有硬性指标,但对于50G以上的大表,不要超过20%~30%。 正在缩容的集群将禁用重启集群、扩容集群、创建快照、节点管理、智能运维、资源管理、参数修改、安全设置、日志服务、重置数据库管理员密码和删除集群的功能。 离线缩容过程中,应该停止所有业务或运行少量查询语句。表重分布期间会对表加共享锁,所有插入、更新、删除操作和表DDL操作都会长时间阻塞,会出现等锁超时情况。一旦表重分布完成后方可正常访问该表。在重分布执行过程中,应当避免执行超过20分钟的查询(在重分布执行时申请写锁的默认时间为20分钟)。否则可能导致重分布出现等待加锁超时失败的问题。 在线缩容过程中,表重分布期间用户可以对该表执行插入、更新、删除等操作,但重分布过程仍然会短时间阻塞用户的数据更新操作,会影响用户语句的执行性能。缩容重分布过程会消耗大量的CPU和IO资源,因此会对用户作业性能影响较大,应该尽可能在停止业务或业务轻载的情况下执行缩容重分布。 在线缩容删除节点的瞬间,如果有用户的DDL语句,例如创建schema或function并发执行,这些DDL可能因为DN不存在而报错,用户重试即可成功。 如果集群缩容失败,数据库不会在后台自动执行缩容回滚操作,此时数据库所有运维操作不可用,需要用户在管理控制台页面上单击缩容按钮来重新执行数据库缩容操作。 在云原生9.0.2版本缩容场景下,新集群的bucket数量不满足条件:每个DN分配的bucket数量在[3, 20]之间时,系统会触发调整bucket的缩容。bucket数量可以通过GUC参数table_buckets查看。 此bucket缩容目前仅支持离线模式,使用方式与现有缩容相同,触发修改bucket的缩容过程为系统自动判断和执行。 触发过程集群会重启,关闭所有连接,重启会花费数分钟。 重启完毕后,数据库可以读,但不允许写,直到数据重分布结束。
  • 前提条件 集群状态需为可用状态,不支持只读状态,并且确保集群没有进行重分布操作。 集群配置文件已经生成,配置的信息正确并且和当前集群状态一致。 缩容前用户需要确保default_storage_nodegroup参数值为installation。 集群按照环的方式配置,比如4个或5个主机组成一个环,这些主机上的DN主节点、备节点和从节点都部署在这个环里, 缩容的最小单元是一个环。 缩容的主机不能包含ETCD组件,GTM组件,CM Server组件。 缩容不支持包括CN的节点,如果包括CN,先进行删除CN操作后再缩容。 缩容不支持回滚,支持重入。缩容数据重分布失败,不影响业务,用户可选择合适的时间尽快完成重分布,否则会导致数据长期分布不均匀。 重分布前,需要保证对应数据库下的data_redis为重分布预留schema,不允许用户操作该schema和其内部表。因为在重分布过程中,会使用到data_redis并且重分布。结束后会删除该schema,如果存在用户表,则可能会出现数据误删。 缩容过程不支持gs_cgroup操作。 缩容后的节点必须有足够的存储空间存放整个集群的数据,否则缩容无法正常进行,执行缩容前,需对集群剩余容量进行检查,条件满足后可进行缩容。 所有节点已使用物理磁盘空间均小于80%。 所有用户和角色的使用量均小于配额的80%。 总数据量缩容后的空间预估要小于80%。 所有剩余可用空间均是最大单表大小的1.5倍以上。 请参考巡检工具部署后执行此巡检项,即可获取最大单表的大小: 1 gs_check -i CheckBiggestTable -L 缩容过程中系统将关闭“自动剔除故障CN”功能,在缩容完成后系统再次打开该功能。
  • 告警解释 GaussDB(DWS)开启实时查询监控时,默认每60秒通过GS_WLM_SESSION_STATIS TICS 视图检测CN上正在执行作业的排队状态。 如果10分钟(可配置)内检测集群中处于排队等待状态的SQL语句数量超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。 如果一直存在能够引发告警的查询语句堆积数量,那么在24小时(可配置)后将再次发起告警。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类。 集群名称 产生告警的集群。 定位信息 产生告警的集群ID,集群名称。 详细信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在10分钟内堆积的查询语句数量平均值为30,超过阈值10。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如,DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的日志盘I/O使用率为90.54%,超过阈值90% 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制,并基于优先级调度机制实现资源管理和分配,对用户业务提供资源负载管理服务。某种资源紧张时,可能出现SQL语句阻塞排队,等待其他语句执行完毕后才能执行的现象,详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(默认20分钟,可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类。 集群名称 产生告警的集群。 定位信息 产生告警的集群ID,集群名称。 告警信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在20分钟内出现默认资源池队列阻塞。 告警时间 告警的产生时间。 状态 告警当前的活动状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58; 集群存在vacuum_full操作[query_id],执行超过20分钟。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 创建Region内集群级容灾 前提条件 集群处于可用状态或者非均衡状态才可进行创建容灾操作。 操作步骤 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“容灾管理”。 在“容灾管理”页面,单击“创建容灾”。 选择“容灾类型”。 “容灾类型”:选择“Region内容灾”类型。 “容灾名称”:容灾名称在4位到64位之间,不区分大小写,必须以字母开头,可以包含字母、数字、中划线或者下划线,不能包含其他的特殊字符。 选择生产集群信息。 “集群名称”:提供下拉列表选择已创建的生产集群。 “可用区”:生产集群的可用区,用户在选择生产集群后自动显示其对应的可用区信息。 选择灾备集群信息。 “可用区”:选择灾备集群工作区域下的关联可用区。 灾备集群可用区支持与生产集群可用区相同,3AZ集群在其中的任一AZ都可以作为灾备集群选中。 “集群名称”:用户选择灾备集群可用区后,会自动过滤出灾备集群列表(符合逻辑同构要求),如果没有符合条件的灾备集群,单击创建与生产集群配置相同的集群。 设置高级配置。选择“自定义”时,您可以设置以下高级配置参数,若选择“默认配置”,以下参数将使用它们的默认值。 “容灾同步周期”:容灾同步周期决定了生产集群间隔多长时间向灾备集群同步增量数据,请结合实际业务数据量设置合理值。 容灾同步周期默认值为30分钟。 单击“确定”,开始为集群创建容灾。 此时容灾的“容灾状态”显示为“创建中”,创建需要时间请耐心等待。创建成功后“容灾状态”显示为“未启动”。
  • 功能说明 用户需要查看集群的监控指标信息时,可以通过 云监控 (Cloud Eye)确认集群各项指标情况。通过监控集群运行时的各项指标,用户可以识别出数据库集群状态异常的时间段,然后在数据库日志中,分析可能存在问题的活动,从而优化数据库性能。本章节定义了 数据仓库 服务上报 云监控服务 的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索数据仓库服务产生的监控指标和告警信息。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58; 集群 test_dws的SQL探针阈值为 2倍。该集群sql探针超过阈值的SQL探针有:'select xxx from xxxx'。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 资源池 DMS可显示用户定义的资源池名称,实时/历史资源消耗以及资源池资源配额。 资源池:资源池名称。 监控:单击弹出侧拉栏展示CPU,内存,磁盘等资源池资源的消耗历史趋势。 CPU使用率(%):资源池的实时CPU计算资源使用率。 CPU配额(%):资源池的CPU资源使用率配额。 实时短查询并发:资源池的简单查询并发数使用量(判定为简单并发的查询不受资源池的管控)。 短查询并发:资源池的简单并发数配额。 实时查询并发:资源池的复杂查询并发数使用量(判定为复杂并发的查询受资源池的管控)。 查询并发:资源池的复杂并发数配额。 存储资源(MB):资源池的存储空间。 磁盘使用率(%):资源池的实时磁盘使用率。 内存资源(%):资源池的内存配置的百分比。 内存使用率(%):资源池实时内存使用率。 操作
  • 熔断查询 用户可以通过熔断查询查看资源池上的熔断规则的触发情况。 查询ID:熔断语句的查询ID。 查询语句:熔断查询语句。 阻塞时间(ms):熔断语句的阻塞时间,单位ms。 执行时间(ms):熔断语句的执行时间,单位ms。 CPU时间(ms):熔断语句消耗的CPU时间,单位ms。 CPU倾斜率(%):熔断语句在各个DN上的CPU消耗倾斜率。 异常处理方式:熔断语句的异常处理方式。 处理状态:处理熔断语句的实时状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如,DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的数据盘I/O使用率为90.54%,超过阈值90% 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 快照参数详情 表1 快照参数说明 参数名称 参数类型 参数描述 默认值 parallel-process 备份参数 指定Roach备份时每个节点的并发进程。 说明: 该参数支持8.2.0之前版本集群配置。 为本节点主DN个数 compression-type 备份参数 压缩算法类型: zlib LZ4 说明: 该参数支持8.2.0之前版本集群配置。 LZ4 compression-level 备份参数 压缩级别,取值范围为0~9: 0代表快速或无压缩。 9代表慢速或最大压缩。 说明: 该参数支持8.2.0之前版本集群配置。 6 buffer-size 备份参数 指定Roach上传介质的buffer大小,取值范围为256~16384,单位是MB。 256 buffer-block-size 备份参数 指定Roach读取数据文件的数据块大小,取值范围为5242880~268435456,单位是Byte。 67108864 cpu-cores 备份参数 Roach启动多线程并发时,可以使用的CPU核数。 为节点CPU逻辑核数总和的1/2 master-timeout 备份参数 指定Roach master节点和agent节点的通信超时时间,取值范围为600~3600,单位是s。 3600 max-backup-io-speed 备份参数 指定Roach备份时的IO流控,取值范围为0~2048,单位是MB/s。必须大于buffer-block-size,0表示不限制。 0 backup-mode 备份参数 全量备份的模式: 0 :一阶段的备份 1 :两阶段的备份 0 cbm-parse-mode 备份参数 增量备份的模式: 0 :一次扫描cbm(内存占用大,性能快) 1 :多次扫描cbm(内存占用稳定,性能差) 0 parallel-process 恢复参数 指定Roach备份时每个节点的并发进程,默认当前节点主DN数 + 1 1 cpu-cores 恢复参数 Roach启动多线程并发时,可以使用的CPU核数。 默认是1/2 cpu核数 logging-level 恢复参数 日志级别: FATAL(致命):导致系统停止工作的、无法恢复的故障。该级别为最严重级别。 ERROR(错误):重大错误。 WARNING(警告):异常情况。系统在该情况下可能会继续处理任务。 INFO(提示):日志记录过程中的提示性日志。 DEBUG(调试):用于调试的详细信息。 DEBUG2(调试2):最详细的日志信息,通常会过滤不显示。该级别严重程度最轻。 INFO restore-by-insert 恢复参数 该参数用于指定细粒度恢复时使用的方式。当发起细粒度恢复时携带该参数,则使用INSERT命令恢复目标表;否则,使用ALTER命令恢复目标表。 ALTER
  • 扩容对系统的影响 扩容前,需退出创建了临时表的客户端连接,因为在扩容过程中及扩容成功之前创建的临时表将会失效,操作临时表也会失败。但是扩容后创建的临时表不受影响。 在执行“扩容”操作后,集群会进行一次自动快照,快照创建成功后进行集群扩容。 正在扩容的集群将禁用重启集群、扩容集群、创建快照、重置数据库管理员密码和删除集群的功能。 离线扩容过程中,集群会自动重启,因此集群会有一段时间变为“不可用”状态,重启成功后集群变回“可用”状态。然后在扩容结束阶段,系统会将集群中用户数据在全部节点重新动态分布。 离线扩容过程中,应该停止所有业务或运行少量查询语句。表重分布期间会对表加共享锁,所有插入、更新、删除操作和表DDL操作都会长时间阻塞,会出现等锁超时情况。一旦表重分布完成,用户可以正常访问该表。在重分布执行过程中,应当避免执行超过20分钟的查询(在重分布执行时申请写锁的默认时间为20分钟)。否则可能导致重分布出现等待加锁超时失败的问题。 在线扩容过程中,节点添加期间会执行锁集群操作。锁集群操作时又会进行数据库对象检查,为保证锁集群成功,在节点添加期间不要执行database和tablespace的创删语句。 在线扩容过程中,表重分布期间可以对该表执行插入、更新、删除,但重分布过程仍然会短时间阻塞用户的数据更新操作,会影响语句的执行性能。扩容重分布过程会消耗大量的CPU和IO资源,因此会对作业性能影响较大,应该尽可能在停止业务或业务轻载的情况下执行扩容重分布。也可以考虑分段扩容重分布策略,在系统负载很小的情况下采用高并发进行扩容重分布,在系统负载大的情况下停止扩容重分布或采用低并发进行扩容重分布。 扩容后,如果集群创建新快照,将包含扩容节点上的数据。 如果集群扩容失败,数据库会在后台自动执行扩容回滚操作,集群会恢复到扩容前的节点个数。 如果回滚成功,集群仍可以正常使用,用户可以重新执行“扩容”操作,如果仍扩容失败,请及时联系技术支持人员进行处理。 如果数据库因为某些异常原因后台回滚失败,则集群可能会变为“不可用”状态,此时无法再执行“扩容”或重启集群的操作,请及时联系技术支持人员进行处理。
  • 磁盘扩容概述 随着客户业务的发展,磁盘空间往往最先出现资源瓶颈,在其他资源尚且充足的情况下,执行传统扩容操作不仅耗时久,还伴随着资源浪费问题。通过磁盘扩容可快速缓解存储资源瓶颈现象,操作过程中无需暂停业务,并且不会造成CPU、内存等资源浪费。用户可在没有其他业务情况下选择磁盘扩容操作,扩容成功后如果磁盘空间仍不足可以继续磁盘扩容,若扩容失败用户可尝试重新进行磁盘扩容操作。 磁盘扩容功能仅8.1.1.203及以上版本支持,并且创建集群规格需要为标准数仓SSD云盘、实时数仓或IoT数仓类型。 集群状态为“可用”、“待重启”、“只读”、“非均衡”、“节点故障”或者 “不可用”的情况下才能下发磁盘扩容。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如,DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 详细信息 产生告警的详细信息,包括集群、实例、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的平均CPU使用率为90.54%,超过阈值90% 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 修改告警规则 登录GaussDB(DWS) 管理控制台。 在左侧导航栏,单击“告警管理”,切换至“告警”页签。 单击左上角的“告警规则管理”按钮,进入告警规则页面。 在指定告警规则名称所在行操作列,单击“修改”按钮进入修改告警规则页面。 用户只能修改部分默认规则的选项(规则绑定集群、告警策略的触发阈值、数据抓取区间和告警抑制条件),可修改自定义规则的全部选项。 表1 告警规则参数 名称 说明 样例值 告警规则名称 规则名称长度为6到64个字符,且只能是首位非数字的中文、英文、数字、斜线组合。 - 规则描述 自定义描述,不超过490个字符。 - 规则绑定集群 可在该下拉框中选择当前租户下的集群作为告警模块的监控集群。 所有集群 策略触发关系 策略触发关系包括: 相互独立:各个告警策略之间互相独立触发。 按优先级:各个告警策略之间按照排列的先后顺序触发,当高优先级策略触发后低优先级策略就不会再做判断。 相互独立 告警策略 告警策略包括: 指标名称:GaussDB(DWS) 数据仓库的监控指标,告警引擎用来做阈值判断的数据源。 告警对象(自定义告警规则参数):选择的当前集群中包含的数据库,及其已选择的数据库中所包含的SCHEMA。 触发条件:定义对监控指标做阈值判断的计算规则。目前主要使用一段时间内的平均值来降低告警震荡的几率。 抑制条件:在指定的时间段内,抑制同类型告警的反复触发和消除。 告警级别:告警的严重程度,包含紧急、重要、次要和提示。 - 确认无误后,单击“确认”。
  • 概述 阈值告警相关概念: 告警规则:告警规则由告警规则名称,告警规则描述,规则绑定集群列表,告警策略触发关系,告警策略项构成。一条告警规则可绑定某个指定集群或所有集群,拥有一个或多个告警策略。其中,告警策略之间组合关系由“策略触发关系”选项描述。告警规则的阈值触发和抑制条件由每条告警策略描述。 告警策略:为某个告警指标指定的触发条件,抑制条件,告警级别的组合称为告警策略。 告警指标:数据库集群的某个指标项,一般是一个时间序列数据,例如:节点CPU使用率,查询触发下盘量等。 告警规则分类: 默认规则:GaussDB(DWS)阈值告警模块的最佳实践。 自定义规则:用户可自由选择或组合监控指标形成个性化的告警规则。目前版本仅支持用户自定义schema使用率告警规则。 告警规则操作: 修改:修改告警规则的选项。所有告警规则都可以修改编辑,但默认告警规则只能修改部分选项,而自定义告警规则可以修改全部选项。 启用/停用:启用或停用告警规则。所有的告警规则都可以启用/停用,启用后告警规则会被告警引擎纳入检查列表,可以正常触发。停用后的告警规则将被告警引擎移出检查列表,不会触发该规则检查。 删除:删除告警规则。只有自定义告警规则可以被删除,用户无法删除默认告警规则。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类。 集群名称 产生告警的集群。 定位信息 产生告警的集群ID,集群名称。 附加信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,数据库名称,连接后端的用户名称,查询Id;first_alarm_time表示告警的首次出现时间;查询语句则表示引发此告警的查询语句,最后附带由此查询语句引发的下盘量。示例:CloudService=DWS,resourceId:xxxx-xxxx-xxxx-xxxx,resourceIdName:test_dws,db_name:test_db,user_name:test_user,query_id:756942385413326696,first_alarm_time:2022-12-30:12:42:77:查询语句(ID=756942385413326696) select num,value,cnt,rk,cnt/sumcnt as ratio,sum(ratio) over (over by rk) as cumuratio from ......;触发结果集下盘,且下盘量为15GB。 告警时间 告警的产生时间。 状态 告警当前的活动状态。 关于附加信息中下盘量,可连接数据库执行SELECT * FROM GS_WLM_SESSION_STATISTI CS 查看该视图中的max_spill_size字段。
  • 告警解释 用户业务查询执行过程中,数据库可能会选择将临时结果暂存到磁盘,简称算子下盘。 GaussDB(DWS)每60秒通过GS_WLM_SESSION_STATISTICS视图检测CN上正在执行的作业的负载管理记录,并计算所有下盘DN的最大下盘数据量。 如果10分钟(可配置)内存在SQL的下盘量超过5GB(可配置),则上报查询语句触发下盘量超阈值;当集群不存在符合告警条件的SQL语句时,自动消除该告警。修改告警配置详情请参见修改告警规则。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
  • 概述 GaussDB(DWS) 使用 SMN (Simple Message Notification, 消息通知 服务)发送GaussDB(DWS) 事件的通知,订阅GaussDB(DWS) 事件即可启用通知。在订阅中,用户需要指定一个或多个事件筛选条件。每当发生与所有筛选条件匹配的事件时,GaussDB(DWS) 就会通过该订阅发送通知。筛选条件包含事件类别(例如:管理、监控或安全)、事件级别(例如:正常或警告)和事件源类型(例如:集群或快照)。
  • 支持的事件类别和事件 事件是用户集群状态发生变化的记录。它可以是由用户操作触发的(比如审计事件),也有可能是集群服务状态变化引起的(比如集群修复成功或集群修复失败)。以下为当前GaussDB(DWS)支持的事件和事件类别列表。 下表显示了事件源类型为集群的事件 表1 事件源类型为集群的事件 事件类别 事件名称 事件级别 事件 管理 createClusterFail 警告 集群创建失败 管理 createClusterSuccess 正常 集群创建成功 管理 createCluster 正常 开始创建集群 管理 extendCluster 正常 开始扩容集群 管理 extendClusterSuccess 正常 集群扩容成功 管理 extendClusterFail 警告 集群扩容失败 管理 deleteClusterFail 警告 集群删除失败 管理 deleteClusterSuccess 正常 集群删除成功 管理 deleteCluster 正常 开始删除集群 管理 restoreClusterFail 警告 集群恢复失败 管理 restoreClusterSuccess 正常 集群恢复成功 管理 restoreCluster 正常 开始恢复集群 管理 restartClusterFail 警告 集群重启失败 管理 restartClusterSuccess 正常 集群重启成功 管理 restartCluster 正常 开始重启集群 管理 configure MRS ExtDataSources 正常 开始配置集群的MRS外部数据源 管理 configureMRSExtDataSourcesFail 警告 配置集群的MRS外部数据源失败 管理 configureMRSExtDataSourcesSuccess 正常 配置集群的MRS外部数据源成功 管理 deleteMRSExtDataSources 正常 开始删除集群MRS外部数据源 管理 deleteMRSExtDataSourcesFail 警告 删除集群MRS外部数据源失败 管理 deletedMRSExtDataSourcesSuccess 正常 删除集群MRS外部数据源成功 管理 bindEipToCluster 正常 集群绑定EIP 管理 bindEipToClusterFail 警告 集群绑定EIP失败 管理 unbindEipToCluster 正常 集群解绑EIP 管理 unbindEipToClusterFail 警告 集群解绑EIP失败 管理 refreshEipToCluster 正常 集群刷新EIP 管理 refreshEipToClusterFail 警告 集群刷新EIP失败 管理 dmsClusterMonitoringEnabledSuccessfully 正常 打开DMS集群监控开关成功 管理 failedToEnableDmsClusterMonitoring 正常 打开DMS集群监控开关失败 管理 dmsClusterMonitoringDisabledSuccessfully 正常 关闭DMS集群监控开关成功 管理 failedToDisableDmsClusterMonitoring 正常 关闭DMS集群监控开关失败 管理 dmsMetricCollectionEnabledSuccessfully 正常 打开DMS采集成功 管理 failedToEnableDmsMetricCollection 正常 打开DMS采集失败 管理 dmsMetricCollectionDisabledSuccessfully 正常 关闭DMS采集成功 管理 failedToDisableDmsMetricCollection 正常 关闭DMS采集失败 管理 dmsMetricCollectionResetSuccessfully 正常 重置DMS采集成功 管理 failedToResetDmsMetricCollection 正常 重置DMS采集失败 管理 dmsMetricCollectionUpdatedSuccessfully 正常 更新DMS采集成功 管理 failedToUpdateDmsMetricCollection 正常 更新DMS采集失败 管理 dmsMetricDataRetentionPeriodUpdatedSuccessfully 正常 更新DMS采集存储时间成功 管理 failedToUpdateTheDmsMetricDataRetentionPeriod 正常 更新DMS采集存储时间失败 管理 dmsSessionsTerminatedSuccessfully 正常 DMS终止会话成功 管理 failedToTerminateDmsSessions 正常 DMS终止会话失败 管理 dmsQueriesTerminatedSuccessfully 正常 DMS终止查询成功 管理 failedToTerminateDmsQueries 正常 DMS终止查询失败 管理 dmsCreateWDRSuccessfully 正常 DMS生成负荷报告任务下发成功 管理 failedToCreateWDR 警告 DMS生成负荷报告任务下发失败 管理 dmsDeleteWDRSuccessfully 正常 DMS删除负荷报告成功 管理 failedToDeleteWDR 警告 DMS删除负荷报告失败 管理 dmsUpdateWDRConfigSuccessfully 正常 DMS更新负荷报告参数成功 管理 failedToUpdateWDRConfig 警告 DMS更新负荷报告参数失败 管理 dmsCreateWorkloadSnapshotSuccessfully 正常 DMS新增负荷快照任务下发成功 管理 failedToCreateWorkloadSnapshot 警告 DMS新增负荷快照任务下发失败 安全 resetPasswordFail 警告 集群密码重置失败 安全 resetPasswordSuccess 正常 集群密码重置成功 安全 updateConfiguration 正常 开始更新集群安全参数 安全 updateConfigurationFail 警告 更新集群安全参数失败 安全 updateConfigurationSuccess 正常 更新集群安全参数成功 监控 repairCluster 正常 节点故障,开始修复集群 监控 repairClusterFail 警告 集群修复失败 监控 repairClusterSuccess 正常 集群修复成功 下表显示了事件源类型为快照的事件 表2 事件源类型为快照的事件 事件类别 事件名称 事件级别 事件 管理 deleteBackup 正常 快照删除成功 管理 deleteBackupFail 警告 快照删除失败 管理 createBackup 正常 开始创建快照 管理 createBackupSuccess 正常 快照创建成功 管理 createBackupFail 警告 快照创建失败
  • 添加监控视图 目前DMS提供集群、数据库两和节点三种维度的监控视图,用户可根据需求单击“添加监控视图”按钮添加。监控指标如下所示: 集群维度的监控指标:CPU使用率,内存使用率,磁盘使用率,磁盘I/O,网络I/O,状态,CN异常数量,只读,会话数量,查询数量,死锁数量,DN异常数量,DN实例CPU使用率,平均每秒事务数,平均每秒查询数。 数据库维度的监控指标:查询等待队列长度,会话数量,查询数量,插入行数,更新行数,删除行数,容量。 节点维度的监控指标:CPU使用率、CPU使用情况、内存使用率、内存使用情况、平均磁盘使用率、磁盘I/O、TCP协议栈重传率、网络IO、磁盘容量、磁盘使用率、磁盘读速率、磁盘写速率、I/O等待时间、I/O服务时间、I/O使用率、网卡状态、接收包数、发送包数、接收丢包数、接收速率、发送速率 每个监控面板上最多可以添加20个监控视图,添加过多的视图会导致页面请求数据增多,所需的渲染时间增大,因此请合理的控制监控视图规模。 节点维度中最多可以勾选20个监控对象,该特性仅8.1.3.310及以上集群版本支持。
  • 操作场景 用户需要查看集群过去某个时刻的快照数据时,必须先恢复快照到新集群。 恢复快照到新集群时,恢复时长是由快照备份的数据量所决定的。如果快照备份的数据量大,恢复就比较慢。如果快照备份的数据量小,恢复就相对比较快。 自动快照是增量备份,在恢复快照时,GaussDB(DWS)会将最近一次的全量备份到本次快照之间的所有快照一起用于恢复集群。自动快照的备份频率是可以设置的,如果一周只备份一次,当增量数据量较大时,就会出现备份慢的情况,因此,建议适当地增加备份频率。 恢复快照到新集群的功能目前仅支持备份设备为OBS的快照。 恢复快照时默认创建一个与原始集群规格相同、节点数也相同的新集群。 当前恢复到新集群操作可保证原业务不中断。 使用冷热表后,不支持使用快照将冷数据恢复到新集群。 暂不支持细粒度恢复绝对表空间或相对表空间下的表。 不支持恢复逻辑集群与资源池到新集群。
共100000条