云服务器内容精选

  • 索引设计规范 使用数据库索引实践推荐的索引类型。 索引设计建议使用推荐类型,如果需要使用禁用、不推荐、限制使用的索引类型,建议联系GaussDB数据库专家进行评估。 表1 数据库索引实践推荐 索引类型 说明 是否推荐 主键/唯一索引 单列或多列主键/唯一索引 推荐 表达式索引 索引列为表的一列或多列计算而来的一个函数或者标量表达式 限制使用 对于HASH分布表,主键和唯一索引必须包含分布键。 当设计组合索引时,优化器会通过计算代价来选择合适的执行计划。例如:在组合索引(a,b,c)下,当查询时如果只使用过滤条件b,优化器经过计算索引成本较低时,会选择索引。 不建议单表创建多个唯一索引。 同时维护多个唯一索引的开销远大于维护一个多列唯一索引,如果业务逻辑上多个唯一索引,与一个多列唯一索引等价,应使用多列唯一索引。 组合索引字段个数不超过5个。 禁止组合索引组合字符串的总长度超过200。 索引(包括单列索引和复合索引)字段应为NOT NULL字段。 同字段上创建索引的维护效率不同。数值类型字段优于字符类型及其他数据类型,因此对于考虑创建索引的ID、时间等字段,建议使用数值类型进行存储。 建议在关联列上创建索引。 GaussDB支持HASH JOIN,但是当内表较小等RESCAN代价较低的情况下,仍然可能选择NESTLOOP JOIN来完成关联。如果通过EXPLAIN可以查看到NESTLOOP JOIN计划,则可以通过在关联列上创建索引,提高NESTLOOP JOIN效率。 父主题: 数据库设计规范
  • 数据库特性规范 表1 数据库价值特性推荐 特性分类 特性列表 说明 表类型 HASH分布表 自动分片的表,建议数据量大的表使用(如交易记录)。 REPLICATE分布表 不分片的普通表,建议数据少的表使用(如国家名称表)。 事务 分布式事务(弱一致) GTM Free模式,在sharding场景下可保证强一致,不保证跨DN分片读一致性。建议完美sharding业务使用。 分布式事务(强一致) GTM Lite模式,保证跨DN读写一致性,建议非完美sharding业务使用。 扩容 在线平滑扩容 在线业务的最大阻塞小于5s,主要是为了追增切换期间写入日志,扩容速度100G/小时。 部署 3AZ3副本 建议默认采用3AZ3副本部署。 数据类型 整数类型 TINYINT, SMALLINT, INTEGER, BIGINT 任意精度类型 NUMERIC/DECIMAL 浮点类型 REAL/FLOAT4,DOUBLE PRECISION/FLOAT8,FLOAT 布尔类型 BOOLEAN 定长字符 CHAR(n) 变长字符 VARCHAR(n),NVARCHAR2(n), TEXT 时间类型 DATE, TIME, TIMETZ, TIMESTAMP, TIMESTAMPTZ, SMALLDATETIME, INTERVAL, REALTIME 二进制类型 BYTEA(变长二进制类型) 位串类型 BIT(n), VARBIT(n) 函数 字符处理函数 字符类数据类型处理函数 二进制字符串函数 二进制字符类型处理函数 数字操作函数 数值类型处理函数 时间和日期处理函数 时间和日期类型处理函数 索引 主键/唯一索引 单列或多列主键/唯一索引 BTREE索引 索引类型 未包含在价值列表中的特性(包括但不限于自定义,UUID等数据类型,触发器等特性),如需使用建议联系GaussDB 数据库技术人员进行评估。
  • 表引擎选择建议 自助报表分析、行为数据分析,在不涉及重复数据聚合的情况下,建议使用ReplicatedMergeTree表引擎。 涉及到物化视图等聚合函数的场景,建议使用ReplicatedAggregatingMergeTree表引擎。 经常有数据去重或有update修改数据的场景下,建议使用ReplacingMergeTree表引擎,配合使用argMax函数获取最新数据。 表1 应用场景列表 引擎名称 应用场景 MergeTree ClickHouse中最重要的引擎,基于分区键(partitioning key)的数据分区分块存储、前缀稀疏索引(order by和primary key)。 ReplacingMergeTree 相对于MergeTree,它会用最新的数据覆盖具有相同主键的重复项。 删除老数据的操作是在分区异步merge的时候进行处理,只有同一个分区的数据才会被去重,分区间及shard间重复数据不会被去重,所以应用侧想要获取到最新数据,需要配合argMax函数一起使用。 SummingMergeTree 当合并SummingMergeTree表的数据片段时,ClickHouse会把所有具有相同主键的行进行汇总,将同一主键的行替换为包含sum后的一行记录。 如果主键的组合方式使得单个键值对应于大量的行,则可以显著的减少存储空间并加快数据查询的速度。 AggregatingMergeTree 该引擎继承自MergeTree,并改变了数据片段的合并逻辑。 ClickHouse会将一个数据片段内所有具有相同主键(准确的说是排序键)的行替换成一行,这一行会存储一系列聚合函数的状态。可以使用AggregatingMergeTree表引擎来做增量数据的聚合统计,包括物化视图的数据聚合。 CollapsingMergeTree 在创建时与MergeTree基本一样,除了最后多了一个参数,需要指定Sign位(必须是Int8类型)。 CollapsingMergeTree会异步地删除(折叠)除了特定列Sign1和-1值以外的所有字段的值重复的行。 VersionedCollapsingMergeTree 是CollapsingMergeTree的升级,使用不同的collapsing算法,该算法允许使用多个线程以任何顺序插入数据。 Replicated*MergeTree 只有Replicated*MergeTree系列引擎是上面介绍的引擎的多副本版本,为了提升数据和服务的可靠性,建议使用副本引擎: ReplicatedMergeTree ReplicatedSummingMergeTree ReplicatedReplacingMergeTree ReplicatedAggregatingMergeTree ReplicatedCollapsingMergeTree ReplicatedVersionedCollapsingMergeTree ReplicatedGraphiteMergeTree
  • 字段设计规范 字段设计应使用推荐类型。 字段设计需使用推荐字段,如果需要使用禁用、不推荐的字段类型,建议联系技术支持进行评估。 这些数据类型不推荐或禁止的原因是业务使用场景较少,未大规模商用。 对于业务上有迫切字段类型要求的,联系技术支持,提交需求。 表1 数据库数据类型最佳实践 数据类型 说明 是否推荐 UUID 不同集群可能产生相同UUID 禁止,建议业务直接采用中间件平台提供的分布式ID 序列整型 即自增列,包括SMALLSERIAL,SERIAL,BIGSERIAL 禁止 整数类型 TINYINT, SMALLINT, INTEGER, BIGINT 推荐 任意精度类型 NUMERIC/DEMICAL 推荐 浮点类型 REAL/FLOAT4,DOUBLE PRECISION/FLOAT8,FLOAT 推荐 布尔类型 BOOLEAN 推荐 定长字符 CHAR(n) 推荐 变长字符 VARCHAR(n),NVARCHAR2(n) VARCHAR/TEXT 推荐 时间类型 DATE, TIME, TIMESTAMP, SMALLDATETIME, INTERVAL, REALTIME 推荐 TIMETZ,TIMESTAMPTZ 不推荐 二进制类型 BYTEA(变长二进制类型) 推荐 CLOB(字符大对象),BLOB(二进制大对象),RAW(变长十六进制) 禁止 位串类型 BIT(n), VARBIT(n) 推荐 特殊字符类型 NAME,"CHAR",通常供数据库系统内部使用 禁止 JSON类型 JSON类型目前不支持操作符 禁止 自定义类型 可用于定义枚举EMU等类型 禁止 HLL数据类型 建议直接使用HLL相关函数,减少性能影响 禁止 货币类型 MONEY 存储带有固定小数精度的货币金额 禁止 几何类型 POINT, LSEG, BOX, PATH, POLYGON, CIRCLE 禁止 网络地址类型 存储IPV4 IPV6 MAC地址数据类型 禁止 文本搜索类型 用于支持全文检索 禁止 合理选用字符串数据类型。优先使用变长字符类VARCHAR。只有该字段输入确定为固定字符则使用定长字符类型,或需要自动补充空格,才使用CHAR(n)。 典型的定长字段类型,例如“sex”字段,仅允许输入“f”或“m”一个字节长度的字符。这类字段建议使用定长数据类型(如CHAR(n))。 如果不存在此特点,或者后续可能扩展需要输入更长的字符,请优先使用变长字符类型(如VARCHAR, TEXT),且不建议指定变长类型的长度。 原因如下: 定长字段会对不够长度的输入数据补充空格,然后存入数据库中,产生不必要的存储空间浪费。 如果定义为定长字符类型,后续扩展长度,需要对全表进行扫描重写,性能开销大,影响在线业务。 对于指定固定长度的变长字段,每次插入时会检查是否长度越界,带来性能开销。 字符类型字段不应存储数字类型的数据。 如果对存储在字符类型字段中的数据进行数值计算,或者与数值进行比较操作(如置于过滤条件中),会带来不必要的数据类型转换的开销,同时该字段上的索引可能失效,影响查询性能。 字符类型字段不应存储时间或日期类数据。 如果对存储在字符类型字段中的数据与日期类数据进行计算或比较操作(如置于过滤条件中),会带来不必要的数据类型转换的开销,同时该字段上的索引可能失效,影响查询性能。 对于明确不存在NULL值的字段加上NOT NULL约束。 对于NOT NULL字段,优化器在某些场景下会进行特殊优化,可较大提升查询性能。 相关联字段的数据类型应保持一致。 在进行关联操作时,如果字段类型不一致,会带来数据类型转换开销。 大字段(例如varchar(1000)、varchar(4000))不建议超过8个。 字段定义时建议同时创建COMMENT注释信息,以便于未来维护。 不同类型字段说明、取值范围及使用方法请参考数据类型章节。 用于WHERE条件过滤和关联的字段都应设置NOT NULL约束。 对于NOT NULL字段,优化器在某些场景下会进行特殊优化,可较大提升查询性能。 不建议对表预留字段。大部分场景下可支持快速新增、删除表字段,或者修改字段的DEFAULT值。 新增列必须符合以下要求,否则会带来全表更新开销,影响在线业务。 数据类型为以下类型中的一种:BOOL, BYTEA, SMALLINT, BIGINT, SMALLINT, INTEGER, NUMERIC, FLOAT, DOUBLE PRECISION, CHAR, VARCHAR, TEXT, TIMESTAMPTZ, TIMESTAMP, DATE, TIME, TIMETZ, INTERVAL; 新增列的DEFAULT值长度不超过128个字节; 新增列DEFAULT值不包含volatile函数; 新增列设置有DEFAULT值,且DEFAULT值不为NULL。 如果不确定是否满足条件,请联系数据库技术人员进行评估。 尽量使用高效的数值类数据类型。在满足业务精度的情况下,选择的优先级从高到低依次为整数、浮点数、NUMERIC。 合理设置数值字段的数据类型,根据取值范围选择合适的数值类型,尽量少用NUMERIC/DECIMAL类型。 NUMERIC和DECIMAL等价,NUMERIC(或DECIMAL)数据类型操作对CPU消耗较高。 表2 数值类数据类型存储空间及取值范围 类型 存储空间/Byte 最小值 最大值 TINYINT 1 0 255 SMALLINT 2 -32768 32767 INTEGER 4 -2,147,483,648 2,147,483,647 BIGINT 8 -9,223,372,036,854,775,808 9,223,372,036,854,775,807 REAL/FLOAT4 4 6位十进制数字精度 DOUBLE PRECISION/FLOAT8 8 15位十进制数字精度 父主题: 数据库设计规范