华为云用户手册

  • 约束限制 如果使用Spark 3.1访问元数据,则必须新建队列。 不支持的场景: 在SQL作业中创建了数据库(database),编写程序代码指定在该数据库下创建表。 例如在 DLI 的SQL编辑器中的某SQL队列下,创建了数据库testdb。后续通过编写程序代码在testdb下创建表testTable,编译打包后提交的Spark Jar作业则会运行失败。 支持的场景 在SQL作业中创建数据库(database),表(table) , 通过SQL或Spark程序作业读取插入数据。 在Spark程序作业中创建数据库(database),表(table), 通过SQL或Spark程序作业读取插入数据。
  • 环境准备 在进行Spark 作业访问DLI元数据开发前,请准备以下开发环境。 表1 Spark Jar作业开发环境 准备项 说明 操作系统 Windows系统,支持Windows7以上版本。 安装JDK JDK使用1.8版本。 安装和配置IntelliJ IDEA IntelliJ IDEA为进行应用开发的工具,版本要求使用2019.1或其他兼容版本。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。
  • 步骤4:编写代码 编写DliCatalogTest程序创建数据库、DLI表和OBS表。 完整的样例请参考Java样例代码,样例代码分段说明如下: 导入依赖的包。 import org.apache.spark.sql.SparkSession; 创建SparkSession会话。 创建SparkSession会话时需要指定Spark参数:"spark.sql.session.state.builder"、"spark.sql.catalog.class"和"spark.sql.extensions",按照样例配置即可。 Spark 2.x和3.1.x版本 SparkSession spark = SparkSession .builder() .config("spark.sql.session.state.builder", "org.apache.spark.sql.hive.UQueryHiveACLSessionStateBuilder") .config("spark.sql.catalog.class", "org.apache.spark.sql.hive.UQueryHiveACLExternalCatalog") .config("spark.sql.extensions","org.apache.spark.sql.DliSparkExtension") .appName("java_spark_demo") .getOrCreate(); Spark 3.3.x版本 SparkSession spark = SparkSession .builder() .config("spark.sql.session.state.builder", "org.apache.spark.sql.hive.DliLakeHouseBuilder") .config("spark.sql.catalog.class", "org.apache.spark.sql.hive.DliLakeHouseCatalog") .appName("java_spark_demo") .getOrCreate(); 创建数据库。 如下样例代码演示,创建名为test_sparkapp的数据库。 spark.sql("create database if not exists test_sparkapp").collect(); 创建DLI表并插入测试数据。 spark.sql("drop table if exists test_sparkapp.dli_testtable").collect(); spark.sql("create table test_sparkapp.dli_testtable(id INT, name STRING)").collect(); spark.sql("insert into test_sparkapp.dli_testtable VALUES (123,'jason')").collect(); spark.sql("insert into test_sparkapp.dli_testtable VALUES (456,'merry')").collect(); 创建OBS表。如下示例中的OBS路径需要根据步骤2:OBS桶文件配置中的实际数据路径修改。 spark.sql("drop table if exists test_sparkapp.dli_testobstable").collect(); spark.sql("create table test_sparkapp.dli_testobstable(age INT, name STRING) using csv options (path 'obs://dli-test-obs01/testdata.csv')").collect(); 关闭SparkSession会话spark。 spark.stop();
  • 步骤5:调试、编译代码并导出Jar包 双击IntelliJ IDEA工具右侧的“Maven”,参考下图分别双击“clean”、“compile”对代码进行编译。 编译成功后,双击“package”对代码进行打包。 图10 编译打包 打包成功后,生成的Jar包会放到target目录下,以备后用。本示例将会生成到:“D:\DLITest\SparkJarMetadata\target”下名为“SparkJarMetadata-1.0-SNAPSHOT.jar”。 图11 导出jar包
  • 开发流程 DLI进行Spark作业访问DLI元数据开发流程参考如下: 图1 Spark作业访问DLI元数据开发流程 表2 开发流程说明 序号 阶段 操作界面 说明 1 创建DLI通用队列 DLI控制台 创建作业运行的DLI队列。 2 OBS桶文件配置 OBS控制台 如果是创建OBS表,则需要上传文件数据到OBS桶下。 配置Spark创建表的元数据信息的存储路径。该文件夹路径用来存储Spark创建表的元数据信息“spark.sql.warehouse.dir”。 3 新建Maven工程,配置pom文件 IntelliJ IDEA 参考样例代码说明,编写程序代码创建DLI表或OBS表。 4 编写程序代码 5 调试,编译代码并导出Jar包 6 上传Jar包到OBS和DLI OBS控制台 将生成的Spark Jar包文件上传到OBS目录下和DLI程序包中。 7 创建Spark Jar作业 DLI控制台 在DLI控制台创建Spark Jar作业并提交运行作业。 8 查看作业运行结果 DLI控制台 查看作业运行状态和作业运行日志。
  • 步骤2:OBS桶文件配置 如果需要创建OBS表,则需要先上传数据到OBS桶目录下。 本次演示的样例代码创建了OBS表,测试数据内容参考如下示例,创建名为的testdata.csv文件。 12,Michael 27,Andy 30,Justin 进入OBS管理控制台,在“桶列表”下,单击已创建的OBS桶名称,本示例桶名为“dli-test-obs01”,进入“概览”页面。 单击左侧列表中的“对象”,选择“上传对象”,将testdata.csv文件上传到OBS桶根目录下。 在OBS桶根目录下,单击“新建文件夹”,创建名为“warehousepath”的文件夹。该文件夹路径用来存储Spark创建表的元数据信息“spark.sql.warehouse.dir”。
  • 步骤1:创建DLI通用队列 第一次提交Spark作业,需要先创建队列,例如创建名为“sparktest”的队列,队列类型选择为“通用队列”。 在DLI管理控制台的左侧导航栏中,选择“队列管理”。 单击“队列管理”页面右上角“购买队列”进行创建队列。 创建名为“sparktest”的队列,队列类型选择为“通用队列”。创建队列详细介绍请参考创建队列。 图2 创建队列 单击“立即购买”,确认配置。 配置确认无误,单击“提交”完成队列创建。
  • 创建订阅 登录 GaussDB (DWS)管理控制台。 在左侧导航树,单击“告警管理”,切换至“订阅”页签。 在页面左上角单击“创建订阅”按钮。 在“订阅设置”区域,设置订阅基本信息及告警过滤。 表1 订阅参数 参数名 参数解释 是否开启 设置是否开启告警订阅。 关闭后停止发送已订阅告警的通知消息,但不会删除该订阅。 订阅名称 设置订阅告警的名称。 名称只能包含大写字母、小写字母、数字、-和_,且必须由大写字母、小写字母或数字开头。 名称长度为1~256字符。 告警级别 选择订阅告警的级别:紧急、重要、次要和提示。 “订阅告警列表”区域显示系统根据订阅设置筛选出的告警。在“ 消息通知 主题名称”下拉框中,选择一个消息通知主题。 如需创建新主题,请单击“创建新主题”按钮,系统将跳转到消息通知服务控制台页面,具体请参见《消息通知服务用户指南》中的创建主题章节。 所选择的消息通知主题,必须已授予GaussDB(DWS) 服务向该主题发布消息的权限。如果所选主题尚未给GaussDB(DWS) 授权,请前往消息通知服务的主题管理页面设置主题策略授权。详细操作请参见《消息通知服务用户指南》中的设置主题策略章节。设置主题策略时,“可发布消息的服务”需勾选“DWS”。 确认无误后,单击“确定”,完成创建订阅。
  • 查看快照信息 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“快照管理”。 在快照列表中,默认显示用户所有的快照。 在快照列表中,查看快照的“快照名称”、“快照状态”、“集群名称”、“备份方式”、“快照类型”、“快照介质”和“快照创建时间”。 用户也可以在快照列表的右上角,输入快照名称或集群名称并单击,搜索指定的快照。支持模糊搜索名称的部分字符。 快照状态如表1所示。 表1 快照状态说明 状态 说明 “可用” 表示当前快照工作正常。 “创建中” 表示当前快照正在创建中。 “不可用” 表示当前快照无法提供服务。 备份方式如表 备份方式所示。 表2 备份方式 类型 说明 手动 用户通过GaussDB(DWS) 管理控制台或者API接口手动创建的快照。用户可以删除手动快照。 自动 用户为集群开启快照自动备份策略后,系统自动创建的快照。用户不能删除自动快照,自动快照的保留天数超期后,系统会自动进行删除。 快照类型如表3所示。 表3 快照类型 类型 说明 全量 该快照为全量备份。 增量 该快照为增量备份。 快照介质如表4所示。 表4 快照介质 快照介质 说明 OBS 策略中配置备份设备为:OBS,则创建出的快照为OBS快照,备份数据保存在OBS服务器上
  • 启动容灾 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“容灾管理”。 在容灾列表中,在指定容灾所在 行的“操作”列,单击“启动”按钮。 在弹出框单击“确定”。 此时容灾的“容灾状态”显示为“启动中”,启动需要时间请耐心等待。启动成功后“容灾状态”显示为“运行中”。 容灾状态为“未启动”、“启动失败”和“已停止”时可以执行启动容灾操作。 启动容灾后,生产集群和灾备集群将无法进行恢复、扩容、升级、重启、节点变更、节点管理、更新密码等操作,此外,灾备集群将无法进行备份操作,请谨慎操作。 当容灾启动后,如果灾备集群容灾正常运行且容灾处于恢复状态中,此状态的集群会计费。
  • 删除容灾 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“容灾管理”。 在容灾列表中,在指定容灾所在行的“操作”列,单击“删除”按钮。 在弹出框单击“确定”。 此时容灾的“容灾状态”显示为“删除中”,删除需要时间请耐心等待。 容灾状态为“创建失败”、“未启动”、“启动失败”、“已停止”、“停止失败”和“异常”时可以执行删除容灾操作。 删除后,将无法进行数据同步,且不可恢复,请谨慎操作。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1。 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-2-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-11-26 11:14:58; 节点10分钟内的平均数据磁盘使用率为84%,超过阈值80%。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警解释 GaussDB(DWS)每30秒采集集群各节点所有磁盘的使用情况。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过80%(可配置),则上报节点数据盘使用率超阈值的重要告警;如果平均使用率低于75%(即上报阈值减去5%),则消除该重要告警。 如果存在磁盘最近10分钟(可配置)内的最大使用率超过85%(可配置),则上报节点数据盘使用率超阈值的紧急告警;如果平均使用率低于80%(即上报阈值减去5%),则消除该紧急告警。 如果存在磁盘的最大使用率一直大于上报阈值,那么在24小时(可配置)后将再次发起告警。
  • 前提条件 集群快照是GaussDB(DWS)集群在某一时间点的完整备份,记录了这一时刻指定集群的所有配置数据和业务数据。用户根据业务需要备份集群数据时,可以在“快照管理”页面创建集群的快照。 手动快照可以随时创建,在创建成功后会一直保存,直到GaussDB(DWS)控制台将此快照删除。由于创建手动快照采用全量备份的方式,因此备份时间较长。 手动创建的集群粒度快照支持备份到OBS服务。 待创建的集群粒度快照的集群状态必须为“可用”、“待重启”或“非均衡”中的任意一种,当版本低于8.1.3.101时,“只读”状态的集群也可创建集群粒度的快照。
  • 缩容对系统的影响 缩容前,需退出创建了临时表的客户端连接,因为在缩容过程中及缩容成功之前创建的临时表将会失效,操作临时表也会失败。但是缩容后创建的临时表不受影响。 在执行缩容操作后,集群会进行一次自动快照,快照创建成功后进行集群缩容,若用户不想自动创建快照,可以在缩容界面选择取消自动备份功能。 缩容前,需确保倾斜率不超过10%,脏页率没有硬性指标,但对于50G以上的大表,不要超过20%~30%。 正在缩容的集群将禁用重启集群、扩容集群、创建快照、节点管理、智能运维、资源管理、参数修改、安全设置、日志服务、重置数据库管理员密码和删除集群的功能。 离线缩容过程中,应该停止所有业务或运行少量查询语句。表重分布期间会对表加共享锁,所有插入、更新、删除操作和表DDL操作都会长时间阻塞,会出现等锁超时情况。一旦表重分布完成后方可正常访问该表。在重分布执行过程中,应当避免执行超过20分钟的查询(在重分布执行时申请写锁的默认时间为20分钟)。否则可能导致重分布出现等待加锁超时失败的问题。 在线缩容过程中,表重分布期间用户可以对该表执行插入、更新、删除等操作,但重分布过程仍然会短时间阻塞用户的数据更新操作,会影响用户语句的执行性能。缩容重分布过程会消耗大量的CPU和IO资源,因此会对用户作业性能影响较大,应该尽可能在停止业务或业务轻载的情况下执行缩容重分布。 在线缩容删除节点的瞬间,如果有用户的DDL语句,例如创建schema或function并发执行,这些DDL可能因为DN不存在而报错,用户重试即可成功。 如果集群缩容失败,数据库不会在后台自动执行缩容回滚操作,此时数据库所有运维操作不可用,需要用户在管理控制台页面上单击缩容按钮来重新执行数据库缩容操作。 在云原生9.0.2版本缩容场景下,新集群的bucket数量不满足条件:每个DN分配的bucket数量在[3, 20]之间时,系统会触发调整bucket的缩容。bucket数量可以通过GUC参数table_buckets查看。 此bucket缩容目前仅支持离线模式,使用方式与现有缩容相同,触发修改bucket的缩容过程为系统自动判断和执行。 触发过程集群会重启,关闭所有连接,重启会花费数分钟。 重启完毕后,数据库可以读,但不允许写,直到数据重分布结束。
  • 前提条件 集群状态需为可用状态,不支持只读状态,并且确保集群没有进行重分布操作。 集群配置文件已经生成,配置的信息正确并且和当前集群状态一致。 缩容前用户需要确保default_storage_nodegroup参数值为installation。 集群按照环的方式配置,比如4个或5个主机组成一个环,这些主机上的DN主节点、备节点和从节点都部署在这个环里, 缩容的最小单元是一个环。 缩容的主机不能包含ETCD组件,GTM组件,CM Server组件。 缩容不支持包括CN的节点,如果包括CN,先进行删除CN操作后再缩容。 缩容不支持回滚,支持重入。缩容数据重分布失败,不影响业务,用户可选择合适的时间尽快完成重分布,否则会导致数据长期分布不均匀。 重分布前,需要保证对应数据库下的data_redis为重分布预留schema,不允许用户操作该schema和其内部表。因为在重分布过程中,会使用到data_redis并且重分布。结束后会删除该schema,如果存在用户表,则可能会出现数据误删。 缩容过程不支持gs_cgroup操作。 缩容后的节点必须有足够的存储空间存放整个集群的数据,否则缩容无法正常进行,执行缩容前,需对集群剩余容量进行检查,条件满足后可进行缩容。 所有节点已使用物理磁盘空间均小于80%。 所有用户和角色的使用量均小于配额的80%。 总数据量缩容后的空间预估要小于80%。 所有剩余可用空间均是最大单表大小的1.5倍以上。 请参考巡检工具部署后执行此巡检项,即可获取最大单表的大小: 1 gs_check -i CheckBiggestTable -L 缩容过程中系统将关闭“自动剔除故障CN”功能,在缩容完成后系统再次打开该功能。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类。 集群名称 产生告警的集群。 定位信息 产生告警的集群ID,集群名称。 详细信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在10分钟内堆积的查询语句数量平均值为30,超过阈值10。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警解释 GaussDB(DWS)开启实时查询监控时,默认每60秒通过GS_WLM_SESSION_STATIS TICS 视图检测CN上正在执行作业的排队状态。 如果10分钟(可配置)内检测集群中处于排队等待状态的SQL语句数量超过10个(可配置),则上报查询语句堆积数量超阈值告警;当集群处于等待状态的SQL语句数量小于10时,自动消除该告警。 如果一直存在能够引发告警的查询语句堆积数量,那么在24小时(可配置)后将再次发起告警。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如,DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的日志盘I/O使用率为90.54%,超过阈值90% 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 告警解释 GaussDB(DWS)通过资源池实现对内存、IO和CPU等资源的控制,并基于优先级调度机制实现资源管理和分配,对用户业务提供资源负载管理服务。某种资源紧张时,可能出现SQL语句阻塞排队,等待其他语句执行完毕后才能执行的现象,详情请参见动态负载管理下的CCN排队。 GaussDB(DWS)固定每5分钟检查默认资源池default_pool的队列阻塞情况。如果存在长时间阻塞无法执行的SQL语句(默认20分钟,可配置),则触发集群默认资源池队列阻塞告警;当集群不存在符合告警条件的SQL语句时,自动消除该告警。 如果一直存在能够引发告警的阻塞SQL,那么在24小时(可配置)后将再次发起告警。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称,告警的详细分类。 集群名称 产生告警的集群。 定位信息 产生告警的集群ID,集群名称。 告警信息 CloudService表示产生告警的云服务,依次为服务名,资源标识,资源名称,首次告警时间;格式化告警信息。示例:CloudServiceDWS,resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws,first_alarm_time:2023-01-11:19:02:09;集群test_dws在20分钟内出现默认资源池队列阻塞。 告警时间 告警的产生时间。 状态 告警当前的活动状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58; 集群存在vacuum_full操作[query_id],执行超过20分钟。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 创建Region内集群级容灾 前提条件 集群处于可用状态或者非均衡状态才可进行创建容灾操作。 操作步骤 登录GaussDB(DWS) 管理控制台。 在左侧导航栏中,单击“容灾管理”。 在“容灾管理”页面,单击“创建容灾”。 选择“容灾类型”。 “容灾类型”:选择“Region内容灾”类型。 “容灾名称”:容灾名称在4位到64位之间,不区分大小写,必须以字母开头,可以包含字母、数字、中划线或者下划线,不能包含其他的特殊字符。 选择生产集群信息。 “集群名称”:提供下拉列表选择已创建的生产集群。 “可用区”:生产集群的可用区,用户在选择生产集群后自动显示其对应的可用区信息。 选择灾备集群信息。 “可用区”:选择灾备集群工作区域下的关联可用区。 灾备集群可用区支持与生产集群可用区相同,3AZ集群在其中的任一AZ都可以作为灾备集群选中。 “集群名称”:用户选择灾备集群可用区后,会自动过滤出灾备集群列表(符合逻辑同构要求),如果没有符合条件的灾备集群,单击创建与生产集群配置相同的集群。 设置高级配置。选择“自定义”时,您可以设置以下高级配置参数,若选择“默认配置”,以下参数将使用它们的默认值。 “容灾同步周期”:容灾同步周期决定了生产集群间隔多长时间向灾备集群同步增量数据,请结合实际业务数据量设置合理值。 容灾同步周期默认值为30分钟。 单击“确定”,开始为集群创建容灾。 此时容灾的“容灾状态”显示为“创建中”,创建需要时间请耐心等待。创建成功后“容灾状态”显示为“未启动”。
  • 功能说明 用户需要查看集群的监控指标信息时,可以通过 云监控 (Cloud Eye)确认集群各项指标情况。通过监控集群运行时的各项指标,用户可以识别出数据库集群状态异常的时间段,然后在数据库日志中,分析可能存在问题的活动,从而优化数据库性能。本章节定义了 数据仓库 服务上报 云监控服务 的监控指标的命名空间、监控指标列表和维度定义。用户可以通过云监控服务提供的管理控制台或API接口来检索数据仓库服务产生的监控指标和告警信息。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如:DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws。 详细信息 产生告警的详细信息,包括集群、阈值信息。例如:CloudService=DWS, resourceId: xxxx-xxxx-xxxx-xxxx, resourceIdName: test_dws, first_alarm_time: 2022-11-26 11:14:58; 集群 test_dws的SQL探针阈值为 2倍。该集群sql探针超过阈值的SQL探针有:'select xxx from xxxx'。 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 资源池 DMS可显示用户定义的资源池名称,实时/历史资源消耗以及资源池资源配额。 资源池:资源池名称。 监控:单击弹出侧拉栏展示CPU,内存,磁盘等资源池资源的消耗历史趋势。 CPU使用率(%):资源池的实时CPU计算资源使用率。 CPU配额(%):资源池的CPU资源使用率配额。 实时短查询并发:资源池的简单查询并发数使用量(判定为简单并发的查询不受资源池的管控)。 短查询并发:资源池的简单并发数配额。 实时查询并发:资源池的复杂查询并发数使用量(判定为复杂并发的查询受资源池的管控)。 查询并发:资源池的复杂并发数配额。 存储资源(MB):资源池的存储空间。 磁盘使用率(%):资源池的实时磁盘使用率。 内存资源(%):资源池的内存配置的百分比。 内存使用率(%):资源池实时内存使用率。 操作
  • 熔断查询 用户可以通过熔断查询查看资源池上的熔断规则的触发情况。 查询ID:熔断语句的查询ID。 查询语句:熔断查询语句。 阻塞时间(ms):熔断语句的阻塞时间,单位ms。 执行时间(ms):熔断语句的执行时间,单位ms。 CPU时间(ms):熔断语句消耗的CPU时间,单位ms。 CPU倾斜率(%):熔断语句在各个DN上的CPU消耗倾斜率。 异常处理方式:熔断语句的异常处理方式。 处理状态:处理熔断语句的实时状态。
  • 告警参数 参数名称 参数含义 告警源 产生告警的系统名称。例如,DWS。 集群名称 产生告警的集群名称。 定位信息 产生告警的集群ID、集群名称、实例ID、实例名称。例如,cluster_id: xxxx-xxxx-xxxx-xxxx,cluster_name: test_dws,instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1 详细信息 产生告警的详细信息,包括集群、实例、磁盘、阈值信息。例如:CloudService=DWS, resourceId=xxxx-xxxx-xxxx-xxxx,resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx,instance_name: test_dws-dws-cn-cn-1-1,host_name: host-192-168-1-122,disk_name: /dev/vdb,first_alarm_time: 2022-01-30 10:30:00; 节点10分钟内的数据盘I/O使用率为90.54%,超过阈值90% 产生日期 产生告警的时间。 状态 当前告警的处理状态。
  • 快照参数详情 表1 快照参数说明 参数名称 参数类型 参数描述 默认值 parallel-process 备份参数 指定Roach备份时每个节点的并发进程。 说明: 该参数支持8.2.0之前版本集群配置。 为本节点主DN个数 compression-type 备份参数 压缩算法类型: zlib LZ4 说明: 该参数支持8.2.0之前版本集群配置。 LZ4 compression-level 备份参数 压缩级别,取值范围为0~9: 0代表快速或无压缩。 9代表慢速或最大压缩。 说明: 该参数支持8.2.0之前版本集群配置。 6 buffer-size 备份参数 指定Roach上传介质的buffer大小,取值范围为256~16384,单位是MB。 256 buffer-block-size 备份参数 指定Roach读取数据文件的数据块大小,取值范围为5242880~268435456,单位是Byte。 67108864 cpu-cores 备份参数 Roach启动多线程并发时,可以使用的CPU核数。 为节点CPU逻辑核数总和的1/2 master-timeout 备份参数 指定Roach master节点和agent节点的通信超时时间,取值范围为600~3600,单位是s。 3600 max-backup-io-speed 备份参数 指定Roach备份时的IO流控,取值范围为0~2048,单位是MB/s。必须大于buffer-block-size,0表示不限制。 0 backup-mode 备份参数 全量备份的模式: 0 :一阶段的备份 1 :两阶段的备份 0 cbm-parse-mode 备份参数 增量备份的模式: 0 :一次扫描cbm(内存占用大,性能快) 1 :多次扫描cbm(内存占用稳定,性能差) 0 parallel-process 恢复参数 指定Roach备份时每个节点的并发进程,默认当前节点主DN数 + 1 1 cpu-cores 恢复参数 Roach启动多线程并发时,可以使用的CPU核数。 默认是1/2 cpu核数 logging-level 恢复参数 日志级别: FATAL(致命):导致系统停止工作的、无法恢复的故障。该级别为最严重级别。 ERROR(错误):重大错误。 WARNING(警告):异常情况。系统在该情况下可能会继续处理任务。 INFO(提示):日志记录过程中的提示性日志。 DEBUG(调试):用于调试的详细信息。 DEBUG2(调试2):最详细的日志信息,通常会过滤不显示。该级别严重程度最轻。 INFO restore-by-insert 恢复参数 该参数用于指定细粒度恢复时使用的方式。当发起细粒度恢复时携带该参数,则使用INSERT命令恢复目标表;否则,使用ALTER命令恢复目标表。 ALTER
  • 扩容对系统的影响 扩容前,需退出创建了临时表的客户端连接,因为在扩容过程中及扩容成功之前创建的临时表将会失效,操作临时表也会失败。但是扩容后创建的临时表不受影响。 在执行“扩容”操作后,集群会进行一次自动快照,快照创建成功后进行集群扩容。 正在扩容的集群将禁用重启集群、扩容集群、创建快照、重置数据库管理员密码和删除集群的功能。 离线扩容过程中,集群会自动重启,因此集群会有一段时间变为“不可用”状态,重启成功后集群变回“可用”状态。然后在扩容结束阶段,系统会将集群中用户数据在全部节点重新动态分布。 离线扩容过程中,应该停止所有业务或运行少量查询语句。表重分布期间会对表加共享锁,所有插入、更新、删除操作和表DDL操作都会长时间阻塞,会出现等锁超时情况。一旦表重分布完成,用户可以正常访问该表。在重分布执行过程中,应当避免执行超过20分钟的查询(在重分布执行时申请写锁的默认时间为20分钟)。否则可能导致重分布出现等待加锁超时失败的问题。 在线扩容过程中,节点添加期间会执行锁集群操作。锁集群操作时又会进行数据库对象检查,为保证锁集群成功,在节点添加期间不要执行database和tablespace的创删语句。 在线扩容过程中,表重分布期间可以对该表执行插入、更新、删除,但重分布过程仍然会短时间阻塞用户的数据更新操作,会影响语句的执行性能。扩容重分布过程会消耗大量的CPU和IO资源,因此会对作业性能影响较大,应该尽可能在停止业务或业务轻载的情况下执行扩容重分布。也可以考虑分段扩容重分布策略,在系统负载很小的情况下采用高并发进行扩容重分布,在系统负载大的情况下停止扩容重分布或采用低并发进行扩容重分布。 扩容后,如果集群创建新快照,将包含扩容节点上的数据。 如果集群扩容失败,数据库会在后台自动执行扩容回滚操作,集群会恢复到扩容前的节点个数。 如果回滚成功,集群仍可以正常使用,用户可以重新执行“扩容”操作,如果仍扩容失败,请及时联系技术支持人员进行处理。 如果数据库因为某些异常原因后台回滚失败,则集群可能会变为“不可用”状态,此时无法再执行“扩容”或重启集群的操作,请及时联系技术支持人员进行处理。
共100000条