定义数据库对象-华为云

数据仓库服务 GAUSSDB(DWS)-创建和管理索引:索引类型

索引类型 btree：B-tree索引使用一种类似于B+树的结构来存储数据的键值，通过这种结构能够快速的查找索引。btree适合支持比较查询以及查询范围。 gin：GIN索引是倒排索引，可以处理包含多个键的值（比如数组）。 gist：Gist索引适用于几何和地理等多维数据类型和集合数据类型。 Psort：Psort索引。针对列存表进行局部排序索引。行存表支持的索引类型：btree（行存表缺省值）、gin、gist。列存表支持的索引类型：Psort（列存表缺省值）、btree、gin。对于点查询场景，推荐建立btree索引。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理索引:索引的选择原则

索引的选择原则索引建立在数据库表中的某些列上。因此，在创建索引时，应该仔细考虑在哪些列上创建索引。在经常需要搜索查询的列上创建索引，可以加快搜索的速度。在作为主键的列上创建索引，强制该列的唯一性和组织表中数据的排列结构。在经常使用连接的列上创建索引，这些列主要是一些外键，可以加快连接的速度。在经常需要根据范围进行搜索的列上创建索引，因为索引已经排序，其指定的范围是连续的。在经常需要排序的列上创建索引，因为索引已经排序，这样查询可以利用索引的排序，加快排序查询时间。在经常使用WHERE子句的列上创建索引，加快条件的判断速度。为经常出现在关键字ORDER BY、GROUP BY、DISTINCT后面的字段建立索引。索引创建成功后，系统会自动判断何时引用索引。当系统认为使用索引比顺序扫描更快时，就会使用索引。索引创建成功后，必须和表保持同步以保证能够准确地找到新数据，这样就增加了数据操作的负荷。因此请定期删除无用的索引。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理索引:索引类型

索引类型 btree：B-tree索引使用一种类似于B+树的结构来存储数据的键值，通过这种结构能够快速的查找索引。btree适合支持比较查询以及查询范围。 gin：GIN索引是倒排索引，可以处理包含多个键的值（比如数组）。 gist：Gist索引适用于几何和地理等多维数据类型和集合数据类型。 Psort：Psort索引。针对列存表进行局部排序索引。行存表支持的索引类型：btree（行存表缺省值）、gin、gist。列存表支持的索引类型：Psort（列存表缺省值）、btree、gin。对于点查询场景，推荐建立btree索引。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理索引:索引的选择原则

索引的选择原则索引建立在数据库表中的某些列上。因此，在创建索引时，应该仔细考虑在哪些列上创建索引。在经常需要搜索查询的列上创建索引，可以加快搜索的速度。在作为主键的列上创建索引，强制该列的唯一性和组织表中数据的排列结构。在经常使用连接的列上创建索引，这些列主要是一些外键，可以加快连接的速度。在经常需要根据范围进行搜索的列上创建索引，因为索引已经排序，其指定的范围是连续的。在经常需要排序的列上创建索引，因为索引已经排序，这样查询可以利用索引的排序，加快排序查询时间。在经常使用WHERE子句的列上创建索引，加快条件的判断速度。为经常出现在关键字ORDER BY、GROUP BY、DISTINCT后面的字段建立索引。索引创建成功后，系统会自动判断何时引用索引。当系统认为使用索引比顺序扫描更快时，就会使用索引。索引创建成功后，必须和表保持同步以保证能够准确地找到新数据，这样就增加了数据操作的负荷。因此请定期删除无用的索引。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理表:删除表数据

删除表数据在使用表的过程中，可能需要删除已过期的数据，删除数据必须从表中整行的删除。 SQL不能直接访问独立的行，只能通过声明被删除行匹配的条件进行。如果表中有一个主键，用户可以指定准确的行。用户可以删除匹配条件的一组行或者一次删除表中的所有行。使用DELETE命令删除行，如果删除表customer_t1中所有c_customer_sk为3869的记录： 1 DELETE FROM customer_t1 WHERE c_customer_sk = 3869; 如果执行如下命令，会删除表中所有的行。 1 DELETE FROM customer_t1; 1 TRUNCATE TABLE customer_t1; 全表删除的场景下，建议使用truncate，不建议使用delete。进行大批量删除操作，truncate的删除速度比delete快得多。删除创建的表。 1 DROP TABLE customer_t1;

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理表:表分布的定义

表分布的定义 GaussDB(DWS)支持的分布方式：复制表（Replication）、哈希表（Hash）和轮询表（Roundrobin）。轮询表（Roundrobin）分布方式仅8.1.2及以上集群版支持。策略描述适用场景优势与劣势复制表（Replication）集群中每一个DN实例上都有一份全量表数据。小表、维度表。 Replication优点是每个DN上都有此表的全量数据，在join操作中可以避免数据重分布操作，从而减小网络开销，同时减少了plan segment(每个plan segment都会起对应的线程) Replication缺点是每个DN都保留了表的完整数据，造成数据的冗余。一般情况下只有较小的维度表才会定义为Replication表。哈希表（Hash）表数据通过hash方式散列到集群中的所有DN实例上。数据量较大的事实表。在读/写数据时可以利用各个节点的IO资源，大幅度提升表的读/写速度。一般情况下大表（1000000条记录以上）定义为Hash表。轮询表（Roundrobin）表的每一行被轮番地发送给各个DN，数据会被均匀地分布在各个DN中。数据量较大的事实表，且使用Hash分布时找不到合适的分布列。 Roundrobin优点是保证了数据不会发生倾斜，从而提高了集群的空间利用率。 Roundrobin缺点是无法像Hash表一样进行DN本地化优化，查询性能通常不如Hash表。一般在大表无法找到合适的分布列时，定义为Roundrobin表，若大表能够找到合适的分布列，优先选择性能更好的Hash分布。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-创建和管理表:查看表数据

查看表数据使用系统表pg_tables查询数据库所有表的信息。 1 SELECT * FROM pg_tables; 使用gsql的\d+命令查询表的属性。 1 \d+ customer_t1; 执行如下命令查询表customer_t1的数据量。 1 SELECT count(*) FROM customer_t1; 执行如下命令查询表customer_t1的所有数据。 1 SELECT * FROM customer_t1; 执行如下命令只查询字段c_customer_sk的数据。 1 SELECT c_customer_sk FROM customer_t1; 执行如下命令过滤字段c_customer_sk的重复数据。 1 SELECT DISTINCT( c_customer_sk ) FROM customer_t1; 执行如下命令查询字段c_customer_sk为3869的所有数据。 1 SELECT * FROM customer_t1 WHERE c_customer_sk = 3869; 执行如下命令按照字段c_customer_sk进行排序。 1 SELECT * FROM customer_t1 ORDER BY c_customer_sk;

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-查看系统表:查看数据库中包含的表

查看数据库中包含的表例如，在PG_TABLES系统表中查看public schema中包含的所有表。 1 SELECT distinct(tablename) FROM pg_tables WHERE SCHEMANAME = 'public'; 结果类似如下这样： 1 2 3 4 5 6 7 8 9 tablename ------------------- err_hr_staffs test err_hr_staffs_ft3 web_returns_p1 mig_seq_table films4 (6 rows)

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-查看系统表:查看和停止正在运行的查询语句

查看和停止正在运行的查询语句通过视图PG_STAT_ACTIVITY可以查看正在运行的查询语句。方法如下：设置参数track_activities为on。 1 SET track_activities = on; 当此参数为on时，数据库系统才会收集当前活动查询的运行信息。查看正在运行的查询语句。以查看正在运行的查询语句所连接的数据库名、执行查询的用户、查询状态及查询对应的PID为例： 1 SELECT datname, usename, state,pid FROM pg_stat_activity; 如果state字段显示为idle，则表明此连接处于空闲，等待用户输入命令。如果仅需要查看非空闲的查询语句，则使用如下命令查看： 1 SELECT datname, usename, state FROM pg_stat_activity WHERE state != 'idle'; 若需要取消运行时间过长的查询，通过PG_TERMINATE_BACKEND函数，根据线程ID结束会话。 1 SELECT PG_TERMINATE_BACKEND(139834759993104); 显示类似如下信息，表示结束会话成功。 1 2 3 4 PG_TERMINATE_BACKEND ---------------------- t (1 row) 显示类似如下信息，表示用户执行了结束当前会话的操作。 1 2 FATAL: terminating connection due to administrator command FATAL: terminating connection due to administrator command gsql客户端使用PG_TERMINATE_BACKEND函数结束当前会话后台线程时，客户端不会退出而是自动重连。即还会返回“The connection to the server was lost. Attempting reset: Succeeded.” 1 2 3 FATAL: terminating connection due to administrator command FATAL: terminating connection due to administrator command The connection to the server was lost. Attempting reset: Succeeded.

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:查询分区

查询分区查询分区p2019。 1 2 SELECT * FROM web_returns_p1 PARTITION (p2019); SELECT * FROM web_returns_p1 PARTITION FOR (20201231); 查看分区表信息，可使用系统表dba_tab_partitions。 1 SELECT * FROM dba_tab_partitions where table_name='web_returns_p1';

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:对已有的表进行分区

对已有的表进行分区表只能在创建时被分区。如果用户有一个表想要分区，用户必须创建一个分过区的表，把原始表的数据载入到新表，再删除原始表并且把分过区的表重命名为原始表的名称。用户还必须重新授权表上的权限。例如： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 CREATE TABLE web_returns_p2 ( wr_returned_date_sk integer, wr_returned_time_sk integer, wr_item_sk integer NOT NULL, wr_refunded_customer_sk integer ) WITH (orientation = column) DISTRIBUTE BY HASH (wr_item_sk) PARTITION BY RANGE(wr_returned_date_sk) ( PARTITION p2016 START(20161231) END(20191231) EVERY(10000), PARTITION p0 END(maxvalue) ); 1 2 3 4 5 INSERT INTO web_returns_p2 SELECT * FROM web_returns_p1; DROP TABLE web_returns_p1; ALTER TABLE web_returns_p2 RENAME TO web_returns_p1; GRANT ALL PRIVILEGES ON web_returns_p1 TO dbadmin; GRANT SELECT ON web_returns_p1 TO jack;

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:分割一个分区

分割一个分区范围分区表和列表分区表分割分语法有所区别：使用ALTER TABLE语句为范围分区表分割一个分区。例如，将表web_returns_p1分区pxxxx以20201231为分割点分割为p2020和p20xx两个分区。 1 ALTER TABLE web_returns_p1 SPLIT PARTITION pxxxx AT(20201231) INTO (PARTITION p2020,PARTITION p20xx); 使用ALTER TABLE语句为列表分区表分割一个分区。例如，将表sales_info分区province2_202201分割为province3_202201和province4_202201两个分区。 1 ALTER TABLE sales_info SPLIT PARTITION province2_202201 VALUES(('202201', 'city5')) INTO (PARTITION province3_202201,PARTITION province4_202201);

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:分区策略选择

分区策略选择当表有以下特征时，可以考虑使用表分区策略：数据具有明显区间性的字段。分区表需要根据有明显区间性字段进行表分区。比如按照日期、区域、数值等字段进行分区，时间字段是最常见的分区字段。业务查询有明显的区间范围特征。查询数据可落到区间范围指定的分区内，这样才能通过分区剪枝，只扫描查询需要的分区，从而提升数据扫描效率，降低数据扫描的IO开销。表数据量比较大。小表扫描本身耗时不大，分区表的性能收益不明显，因此只建议对大表采取分区策略。列存储模式下因为每个列是单独的文件存储，且最小的存储单元CU可存储6w行数据，因此对于列存分区表，建议每个分区的数据不小于DN个数*6w。

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:创建范围(range)分区表

创建范围(range)分区表示例：创建一个按wr_returned_date_sk范围分区的表web_returns_p1。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 CREATE TABLE web_returns_p1 ( wr_returned_date_sk integer, wr_returned_time_sk integer, wr_item_sk integer NOT NULL, wr_refunded_customer_sk integer ) WITH (orientation = column) DISTRIBUTE BY HASH (wr_item_sk) PARTITION BY RANGE (wr_returned_date_sk) ( PARTITION p2016 VALUES LESS THAN(20161231), PARTITION p2017 VALUES LESS THAN(20171231), PARTITION p2018 VALUES LESS THAN(20181231), PARTITION p2019 VALUES LESS THAN(20191231), PARTITION pxxxx VALUES LESS THAN(maxvalue) ); 对于分区间隔固定、批量创建分区的场景。可使用如下示例： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 CREATE TABLE web_returns_p2 ( wr_returned_date_sk integer, wr_returned_time_sk integer, wr_item_sk integer NOT NULL, wr_refunded_customer_sk integer ) WITH (orientation = column) DISTRIBUTE BY HASH (wr_item_sk) PARTITION BY RANGE(wr_returned_date_sk) ( PARTITION p2016 START(20161231) END(20191231) EVERY(10000), PARTITION p0 END(maxvalue) );

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

数据仓库服务 GAUSSDB(DWS)-表分区定义:创建列表(list)分区表

创建列表(list)分区表 LIST分区表可以使用任意允许值比较的列作为分区键列。创建LIST分区表时，必须要为每一个分区声明每一个值分区。示例：创建LIST分区表sales_info。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 CREATE TABLE sales_info ( sale_time timestamptz, period int, city text, price numeric(10,2), remark varchar2(100) ) DISTRIBUTE BY HASH(sale_time) PARTITION BY LIST (period, city) ( PARTITION province1_202201 VALUES (('202201', 'city1'), ('202201', 'city2')), PARTITION province2_202201 VALUES (('202201', 'city3'), ('202201', 'city4'), ('202201', 'city5')), PARTITION rest VALUES (DEFAULT) );

数据仓库服务 GAUSSDB(DWS) 定义数据库对象

云服务器内容精选

定义数据库对象

7*24

备案

专业服务

退订

建议反馈

售前咨询热线