数据仓库服务 GAUSSDB(DWS)-华为云

数据仓库服务 GAUSSDB(DWS)-CREATE MATERIALIZED VIEW:参数说明

参数说明 BUILD DEFERRED | IMMEDIATE IMMEDIATE表示创建物化视图时即包含最新数据。 DEFERRED表示创建物化视图时需要等到第一次refresh时才会包含数据。 REFRESH 指定物化视图的刷新方式。创建物化视图后，物化视图中的数据只反映创建时刻基表的状态。当基表中的数据发生变化时，需要通过刷新物化视图（REFRESH MATERIALIZED VIEW）更新物化视图中的数据。目前只支持COMPLETE全量刷新这一种刷新方式。执行物化视图定义的查询语句并更新物化视图。刷新触发方式。 ON DEMAND：手动按需刷新。 START WITH (timestamptz) | EVERY (interval)：定时刷新。START WITH指定首次刷新时间，EVERY 指定刷新间隔，根据指定的时间定时刷新。 ENABLE | DISABLE QUERY REWRITE 是否支持查询重写。默认不支持。在指定ENABLE QUERY REWRITE时，需要设置GUC参数 mv_rewrite_rule才能启用物化视图查询重写功能。查询重写是指在对基表进行查询时，如果基表上创建有物化视图，数据库系统自动判断是否可以使用物化视图中的预计算结果处理查询。如果可以使用某个物化视图，会直接从该物化视图读取预计算结果，起到加速查询的作用。 WITH ( { storage_parameter = value } [, ... ] ) ORIENTATION 指定表数据的存储方式，即行存方式、列存方式，该参数设置成功后就不再支持修改。取值范围： ROW，表示表的数据将以行式存储。行存储适合于OLTP业务，此类型的表上交互事务比较多，一次交互会涉及表中的多个列，用行存查询效率较高。 COLUMN，表示表的数据将以列式存储。列存储适合于数据仓库业务，此类型的表上会做大量的汇聚计算，且涉及的列操作较少。默认值：由GUC参数default_orientation决定。 row表示创建行存表。 column表示创建列存表。 column enabledelta表示创建开启delta表的列存表。物化视图不支持的存储类型：分区表、h-store表、外表、时序表。 enable_foreign_table_query_rewrite 指定是否允许包含外表的物化视图进行查询重写，需要与ENABLE QUERY REWRITE一起使用。外表数据有变化，物化视图无法感知。如果需要对包含外表的物化视图使用查询重写功能，需要指定此选项。取值范围： on，允许包含外表的物化视图进行查询重写。 off，不允许包含外表的物化视图进行查询重写。默认值：off DISTRIBUTE BY 指定表如何在节点之间分布或者复制。取值范围： REPLICATION：表的每一行存在所有数据节点（DN）中，即每个数据节点都有完整的表数据。 ROUNDROBIN：表的每一行被轮番地发送给各个DN，因此数据会被均匀地分布在各个DN中。（ROUNDROBIN仅8.1.2及以上版本支持） HASH：对指定的列进行Hash，通过映射，把数据分布到指定DN。默认值：由参数default_distribution_mode决定。 AS query 基于query的结果创建物化视图。

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-CREATE MATERIALIZED VIEW:示例

示例创建基表，并向基表插入数据： 1 2 CREATE TABLE t1 (a int, b int) DISTRIBUTE BY HASH(a); INSERT INTO t1 SELECT x,x FROM generate_series(1,10) x; 创建默认BUILD IMMEDIATE方式的物化视图： 1 CREATE MATERIALIZED VIEW mv1 AS SELECT * FROM t1; 创建指定列存方式的物化视图： 1 CREATE MATERIALIZED VIEW mv2 WITH(orientation = column) AS SELECT * FROM t1; 创建手动按需刷新的物化视图： 1 CREATE MATERIALIZED VIEW mv3 BUILD DEFERRED REFRESH ON DEMAND AS SELECT * FROM t1; 创建指定刷新时间的物化视图： 1 CREATE MATERIALIZED VIEW mv4 BUILD DEFERRED REFRESH START WITH(trunc(sysdate)) EVERY (interval ‘1 day’) AS SELECT * FROM t1;

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-CREATE MATERIALIZED VIEW:注意事项

注意事项物化视图的基表可以是行存表、列存表、hstore表、分区表或者指定某个分区、外表，不支持包含临时表（包括全局临时表、volatile临时表和普通临时表），不支持冷热表、不支持对自动分区表指定分区。物化视图禁止INSERT/UPDATE/MERGE INTO/DELETE对数据进行修改。物化视图执行一次将结果并保存，每次查询结果是一致的。BUILD IMMEDIATE或REFRESH后，物化视图可以查询出正确结果。物化视图不能通过语法指定Node Group。支持物化视图的基表指定Node Group创建，物化视图会继承基表NodeGroup信息创建，需要多个基表的NodeGroup相同。创建物化视图时需要schema的CREATE权限和基表或列的SELECT权限。查询物化视图需要物化视图的SELECT权限。刷新需要物化视图的INSERT和基表或列的SELECT权限。物化视图支持ANALYZE/VACUUM/ALTER/DROP等细粒度权限。物化视图支持with grant option的权限传递操作。物化视图不支持更高级别的安全控制，如果基表存在行级访问控制、脱敏策略或owner为私有用户等限制SELECT权限的场景，则禁止创建物化视图；如果已存在物化视图，基表增加RLS、脱敏策略或修改owner为私有用户，则物化视图可以执行查询，但无法刷新。

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-CREATE MATERIALIZED VIEW:语法格式

语法格式 1 2 3 4 5 6 7 CREATE MATERIALIZED VIEW [view_name] [ ( column_name [, ...] ) ] {{ BUILD { DEFERRED | IMMEDIATE }| { REFRESH { COMPLETE }{ ON DEMAND }|{ START WITH (timestmaptz) | EVERY (interval) }…}…| { ENABLE | DISABLE } QUERY REWRITE}| { WITH ( { storage_parameter = value } [, ... ] ) }| { DISTRIBUTE BY { HASH (column [ , ... ]) | ROUNDROBIN | REPLICATION }] AS query

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-VACUUM:示例

示例清理当前数据库中的所有表： 1 VACUUM; 仅回收表tpcds.web_returns_p1分区P2的空间，不更新统计信息： 1 VACUUM FULL tpcds.web_returns_p1 PARTITION(P2); 回收表tpcds.web_returns_p1空间，并更新统计信息： 1 VACUUM FULL ANALYZE tpcds.web_returns_p1; 清理当前数据库中的所有表并收集查询优化器的统计信息： 1 VACUUM ANALYZE; 仅清理特定表reason： 1 VACUUM (VERBOSE, ANALYZE) tpcds.reason; 对列存表table_delta进行DELTAMERGE操作： 1 VACUUM DELTAMERGE tpcds.table_delta; 仅对列存表table_delta的分区p1进行DELTAMERGE操作： 1 VACUUM DELTAMERGE tpcds.table_delta partition(p1);

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-VACUUM:参数说明

参数说明 FULL 选择“FULL”清理，这样可以恢复更多的空间，但是需要耗时更多，并且在表上施加了排他锁。 FULL选项还可以带有COMPACT参数，该参数只针对HDFS表，指定该参数的VACUUM FULL操作性能要好于未指定该参数的VACUUM FULL操作。 COMPACT和PARTITION参数不能同时使用。使用FULL参数会导致统计信息丢失，如果需要收集统计信息，请在VACUUM FULL语句中加上analyze关键字。 FREEZE 指定FREEZE相当于执行VACUUM时将vacuum_freeze_min_age参数设为0。 VERBOSE 为每个表打印一份详细的清理工作报告。 ANALYZE | ANALYSE 更新用于优化器的统计信息，以决定执行查询的最有效方法。 table_name 要清理的表的名称（可以有模式修饰）。取值范围：要清理的表的名称。缺省时为当前数据库中的所有表。 column_name 要分析的具体的字段名称。取值范围：要分析的具体的字段名称。缺省时为所有字段。 PARTITION HDFS表不支持PARTITION参数，PARTITION参数不能和COMPACT同时使用。 PARTITION参数和COMPACT同时使用会报错：COMPACT can not be used with PARTITION. partition_name 要清理的表的分区名称。缺省时为所有分区。 DELTAMERGE 只针对HDFS表，将HDFS表的delta table中的数据转移到主表存储上。对HDFS表而言，当delta表中数据量小于六万行，则不作迁移，只有在大于或者等于六万行数据时，将delta表中所有数据迁移到HDFS上，并通过truncate清理delta表的存储空间。 HDFSDIRECTORY 只针对HDFS表，删除HDFS表在HDFS存储上表目录下的空值分区目录。

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-VACUUM:注意事项

注意事项如果没有参数，VACUUM处理当前数据库里用户拥有相应权限的每个表。如果参数指定了一个表，VACUUM只处理指定的那个表。要对一个表进行VACUUM操作，通常用户必须是表的所有者，被授予了指定表VACUUM权限的用户或者被授予了gs_role_vacuum_any角色的用户，系统管理员默认拥有此权限。数据库的所有者允许对数据库中除了共享目录以外的所有表进行VACUUM操作（该限制意味着只有系统管理员才能真正对一个数据库进行VACUUM操作）。VACUUM命令会跳过那些用户没有权限的表进行垃圾回收操作。 VACUUM不能在事务块内执行。建议生产数据库经常清理（至少每晚一次），以保证不断地删除失效的行。尤其是在增删了大量记录之后，对受影响的表执行VACUUM ANALYZE命令是一个很好的习惯。这样将更新系统目录为最近的更改，并且允许查询优化器在规划用户查询时有更好的选择。不建议日常使用FULL选项，但是可以在特殊情况下使用。例如在用户删除了一个表的大部分行之后，希望从物理上缩小该表以减少磁盘空间占用。VACUUM FULL通常要比单纯的VACUUM收缩更多的表尺寸。如果执行此命令后所占用物理空间无变化（未减少），请确认是否有其他活跃事务（删除数据事务开始之前开始的事务，并在VACUUM FULL执行前未结束）存在，如果有等其他活跃事务退出进行重试。 VACUUM会导致I/O流量的大幅增加，这可能会影响其他活动会话的性能。因此，有时候会建议使用基于开销的VACUUM延迟特性。如果指定了VERBOSE选项，VACUUM将打印处理过程中的信息，以表明当前正在处理的表。各种有关当前表的统计信息也会打印出来。语法格式中含有带括号的选项列表时，选项可以以任何顺序写入。如果没有括号，则选项必须按语法显示的顺序给出。 VACUUM和VACUUM FULL时，会根据参数vacuum_defer_cleanup_age延迟清理行存表记录，即不会立即清理刚刚删除的元组。 VACUUM ANALYZE先执行一个VACUUM操作，然后给每个选定的表执行一个ANALYZE。对于日常维护脚本而言，这是一个很方便的组合。简单的VACUUM（不带FULL选项）只是简单地回收空间并且令其可以再次使用。这种形式的命令可以和对表的普通读写并发操作，因为没有请求排他锁。VACUUM FULL执行更广泛的处理，包括跨块移动行，以便把表压缩到最少的磁盘块数目里。这种形式要慢许多并且在处理的时候需要在表上施加一个排他锁。 VACUUM列存表内部执行的操作包括三个：迁移delta表中的数据到主表、VACUUM主表的delta表、VACUUM主表的desc表。该操作不会回收delta表的存储空间，如果要回收delta表的冗余存储空间，需要对该列存表执行VACUUM DELTAMERGE。 VACUUM FULL系统表只能离线操作，在线VACUUM FULL系统表除了会锁表，还可能导致一些异常情况并产生报错。如果有长查询访问系统表，此时执行VACUUM FULL，长查询可能会阻塞VACUUM FULL连接访问系统表，导致连接超时报错。对列存分区表执行VACUUM FULL，会同时锁表和锁分区。对不同的系统表执行VACUUM FULL并发操作可能会导致本地死锁。 VACUUM FULL操作分区表时与用户DML语句在如下特定场景有并发时可能发生分布式死锁，请谨慎操作： VACUUM FULL子分区与insert/update/delete主表。 VACUUM FULL全表与select全表/select子分区。对表执行VACUUM FULL操作时会触发表重建（表重建过程中会先把数据转储到一个新的数据文件中，重建完成之后会删除原始文件），当表比较大时，重建会消耗较多的磁盘空间。当磁盘空间不足时，要谨慎对待大表VACUUM FULL操作，防止触发集群只读。

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-VACUUM:语法格式

语法格式回收空间并更新统计信息，关键字顺序必须按语法显示的顺序给出。 1 2 VACUUM [ ( { FULL | FREEZE | VERBOSE | {ANALYZE | ANALYSE }} [,...] ) ] [ table_name [ (column_name [, ...] ) ] ] [ PARTITION ( partition_name ) ]; 仅回收空间，不更新统计信息。 1 VACUUM [ FULL [COMPACT] ] [ FREEZE ] [ VERBOSE ] [ table_name ] [ PARTITION ( partition_name ) ]; 回收空间并更新统计信息，且对关键字顺序有要求。 1 2 VACUUM [ FULL ] [ FREEZE ] [ VERBOSE ] { ANALYZE | ANALYSE } [ VERBOSE ] [ table_name [ (column_name [, ...] ) ] ] [ PARTITION ( partition_name ) ]; 针对HDFS表，将delta table中的数据转移到主表存储。（partition_name参数仅8.2.1.300及以上集群版本支持） 1 VACUUM DELTAMERGE [ table_name ][partition_name]; 针对HDFS表，删除HDFS表在HDFS存储上的空值分区目录。 1 VACUUM HDFSDIRECTORY [ table_name ];

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-ALTER MATERIALIZED VIEW:语法格式

语法格式 ALTER MATERIALIZED VIEW [ IF EXISTS ] { materialized_view_name } [ ENABLE | DISABLE ] QUERY REWRITE; ALTER MATERIALIZED VIEW [ IF EXISTS ] { materialized_view_name } REFRESH [ COMPLETE ] [ ON DEMAND ] [ [ START WITH (timestamptz) ] | [ EVERY (interval) ] ]; ALTER MATERIALIZED VIEW { materialized_view_name } OWNER TO new_owner;

数据仓库服务 GAUSSDB(DWS) DDL语法

数据仓库服务 GAUSSDB(DWS)-ALTER MATERIALIZED VIEW:参数说明

参数说明 ENABLE | DISABLE QUERY REWRITE 是否对本物化视图启动查询重写。在启用启用物化视图的查询重写后需刷新物化视图，保证物化视图数据是最新的。 REFRESH [ COMPLETE ] [ ON DEMAND ] [ [ START WITH (timestamptz) ] | [EVERY (interval)] ] 修改物化视图的刷新方式。 OWNER TO new_owner 修改物化视图的owner。

数据仓库服务 GAUSSDB(DWS) DDL语法

数据仓库服务 GAUSSDB(DWS)-做源表:示例

示例该示例是从GaussDB(DWS)数据源中读取数据，并写入到Print结果表中，其具体步骤参考如下：在GaussDB(DWS)中创建相应的表，表名为dws_order，SQL语句参考如下： 1 2 3 4 5 6 7 8 9 10 create table public.dws_order( order_id VARCHAR, order_channel VARCHAR, order_time VARCHAR, pay_amount FLOAT8, real_pay FLOAT8, pay_time VARCHAR, user_id VARCHAR, user_name VARCHAR, area_id VARCHAR); 在GaussDB(DWS)中执行以下SQL语句，向dws_order表中插入数据： 1 2 3 4 5 6 7 8 9 10 11 12 insert into public.dws_order (order_id, order_channel, order_time, pay_amount, real_pay, pay_time, user_id, user_name, area_id) values ('202103241000000001', 'webShop', '2021-03-24 10:00:00', '100.00', '100.00', '2021-03-24 10:02:03', '0001', 'Alice', '330106'), ('202103251202020001', 'miniAppShop', '2021-03-25 12:02:02', '60.00', '60.00', '2021-03-25 12:03:00', '0002', 'Bob', '330110'); 执行Flink SQL： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 CREATE TABLE dwsSource ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'dws', 'url' = 'jdbc:gaussdb://DWSIP:DWSPort/DWSdbName', 'tableName' = 'dws_order', 'username' = 'DWSUserName', 'password' = 'DWSPassword' ); CREATE TABLE printSink ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'print' ); insert into printSink select * from dwsSource; 执行结果如下：

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-做源表:语法格式

语法格式用DWS-Connector做源表时，DWS-Connector实现了SupportsLimitPushDown和SupportsFilterPushDown接口，支持将limit和where条件下推到数据库执行。 1 2 3 4 5 6 7 8 9 10 11 12 13 create table dwsSource ( attr_name attr_type (',' attr_name attr_type)* (','PRIMARY KEY (attr_name, ...) NOT ENFORCED) (',' watermark for rowtime_column_name as watermark-strategy_expression) ) with ( 'connector' = 'dws', 'url' = '', 'tableName' = '', 'username' = '', 'password' = '' );

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-做源表:参数说明

参数说明表1 数据库配置参数说明默认值 connector flink框架区分connector参数，固定为dws。 - url 数据库连接地址。 - username 配置连接用户。 - password 配置密码。 - tableName 对应dws表。 - 表2 查询参数参数说明默认值 fetchSize jdbc statement中fetchSize参数，用于控制查询数据库返回条数。 1000 enablePushDown 开启条件下推：开启后limit 和where条件会下推到数据库执行。 true

数据仓库服务 GAUSSDB(DWS)

数据仓库服务 GAUSSDB(DWS)-引入依赖:概述

概述 dws-connector-flink是在dws-client的基础上对接Flink的一个工具，工具为对dws-client的包装，整体入库能力跟dws-client一致。dws-connector-flink为GaussDB(DWS)团队自研工具，后续将根据GaussDB(DWS)数据库持续优化。 dws-flink-connector的DWS-Connector只支持单并发查询存量数据，暂不支持并行读取。

数据仓库服务 GAUSSDB(DWS) dws-connector-flink

数据仓库服务 GAUSSDB(DWS)-做结果表:示例

示例该示例是从kafka数据源中读取数据，写入DWS结果表中，并指定攒批时间不超过10秒，每批数据最大30000条，其具体步骤如下：在GaussDB(DWS)数据库中创建表public.dws_order： 1 2 3 4 5 6 7 8 9 10 11 create table public.dws_order( order_id VARCHAR, order_channel VARCHAR, order_time VARCHAR, pay_amount FLOAT8, real_pay FLOAT8, pay_time VARCHAR, user_id VARCHAR, user_name VARCHAR, area_id VARCHAR ); 消费Kafka中order_test topic中的数据作为数据源，public.dws_order作为结果表，Kafka数据为JSON格式，并且字段名称和数据库字段名称一一对应： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 CREATE TABLE kafkaSource ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'kafka', 'topic' = 'order_test', 'properties.bootstrap.servers' = 'KafkaAddress1:KafkaPort,KafkaAddress2:KafkaPort', 'properties.group.id' = 'GroupId', 'scan.startup.mode' = 'latest-offset', 'format' = 'json' ); CREATE TABLE dwsSink ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'dws', 'url' = 'jdbc:gaussdb://DWSAddress:DWSPort/DWSdbName', 'tableName' = 'dws_order', 'username' = 'DWSUserName', 'password' = 'DWSPassword', 'autoFlushMaxInterval' = '10s', 'autoFlushBatchSize' = '30000' ); insert into dwsSink select * from kafkaSource; 给Kafka写入测试数据： 1 {"order_id":"202103241000000001", "order_channel":"webShop", "order_time":"2021-03-24 10:00:00", "pay_amount":"100.00", "real_pay":"100.00", "pay_time":"2021-03-24 10:02:03", "user_id":"0001", "user_name":"Alice", "area_id":"330106"} 等10秒后在GaussDB(DWS)表中查询结果： 1 select * from dws_order 结果如下：

数据仓库服务 GAUSSDB(DWS)

云服务器内容精选

数据仓库服务 GAUSSDB(DWS)

7*24

备案

专业服务

退订

建议反馈

售前咨询热线