数据仓库服务 GAUSSDB(DWS)-DWS最佳实践汇总

时间:2025-05-27 16:35:15

DWS最佳实践汇总

本文汇总了DWS服务的常见应用场景,并为每个场景提供详细的方案描述和操作指南,您可以根据本文查看适合您业务的实践教程文档。

表1 DWS最佳实践

分类

文档名

描述

导入导出

导入数据到DWS最佳实践

描述导入数据到DWS、从DWS导出数据的方法及使用工具的最佳实践方法论。

从GDS导入数据到DWS实践指南

描述使用GDS导入数据到DWS的最佳实践方法论。

导入OBS桶数据到 GaussDB (DWS)集群及从GaussDB(DWS)导出数据到OBS桶

将样例数据上传OBS,并通过OBS外表访问OBS桶内的数据或导入数据到DWS,同时也支持将GaussDB(DWS)的某张表数据导出到OBS桶。

使用GDS从远端服务器上导入表数据到GaussDB(DWS)集群

使用GDS工具将远端服务器上的数据导入GaussDB(DWS)

MRS Hive导入表数据到GaussDB(DWS)集群

通过建立HDFS外表实现GaussDB(DWS)远端访问或读取MRS数据源。

使用EXTERNAL SCHEMA跨集群访问HiveMetaStore元数据

存算分离集群通过建立EXTERNAL SCHEMA实现远端访问HiveMetaStore元数据。

DLI 导入表数据到GaussDB(DWS)集群

使用GaussDB(DWS)外表功能从 数据湖探索 服务DLI导入数据到GaussDB(DWS)。

从GaussDB(DWS)集群导出ORC数据到MRS集群

通过HDFS外表导出ORC格式数据至MRS。

数据迁移

使用 CDM 迁移Oracle数据至GaussDB(DWS)集群

将Oracle业务相关的表数据迁移到GaussDB(DWS)。

使用CDM迁移MySQL数据至GaussDB(DWS)集群

通过 云数据迁移 服务CDM将MySQL数据批量迁移到GaussDB(DWS)。

使用DLI Flink作业实时同步MySQL数据至(GaussDB)DWS集群

使用华为云DLI服务的Flink作业,将MySQL数据实时同步到GaussDB(DWS)。

使用CDM迁移Hologres至GaussDB(DWS)集群

使用云数据迁移服务CDM将Hologres数据迁移到GaussDB(DWS)。

使用Kettle迁移AWS Redshift小表到GaussDB(DWS)集群

使用开源工具Kettle将Redshift数据迁移到GaussDB(DWS)。

使用CDM迁移AnalyticDB for MySQL至GaussDB(DWS)集群

使用云数据迁移服务CDM将AnalyticDB for MySQL数据迁移到GaussDB(DWS)。

使用DLI Flink作业实时同步Kafka数据至(GaussDB)DWS集群

通过 数据湖 探索服务 DLI Flink作业将分布式消息服务 Kafka的消费数据实时同步至GaussDB(DWS)。

使用GDS互联互通功能实现GaussDB(DWS)集群间数据迁移

基于GDS导入导出的高并发能力,实现两套DWS集群之间1500万行数据的分钟级迁移。

数据分析

使用GaussDB(DWS)秒级查询交通卡口通行车辆行驶路线

加载8.9亿条交通卡口车辆通行模拟数据到 数据仓库 单个数据库表中,并进行车辆精确查询和车辆模糊查询,展示GaussDB(DWS)对于历史详单数据的高性能查询能力。

使用GaussDB(DWS)分析某公司供应链需求

从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。

使用GaussDB(DWS)分析零售业百货公司经营状况

从OBS加载各个零售商场每日经营的业务数据到数据仓库对应的表中,然后对商铺营业额、客流信息、月度销售排行、月度客流转化率、月度租售比、销售坪效等KPI信息进行汇总和查询。

GaussDB(DWS)对接Power BI操作指导

在弹性 云服务器ECS 上的Windows环境下安装Power BI,并使用On-premises Data Gateway(本地数据网关)模式与GaussDB(DWS)进行对接。

存算分离

GaussDB(DWS) 3.0 存算分离使用建议及性能优化

描述存算分离版本特有的性能优化和注意事项。

数据开发

使用GaussDB(DWS) Turbo引擎提升数据查询性能

Turbo引擎相比原列存执行引擎,对字符串、numeric类型做了内存和磁盘存储格式优化,且对常用sort/agg/join/scan等算子做了极致性能优化,使得执行器整体性能提升1倍左右,可显著降低业务计算费用。

使用GaussDB(DWS)冷热数据切换功能降低业务成本

在数据量激增的场景下,根据业务对数据的使用频率,将数据按时间划分为热数据和冷数据进行分级管理,可提升分析性能并降低成本。

使用GaussDB(DWS)分区自动管理功能降低电商和物联网行业数据分区维护成本

GaussDB(DWS)的分区自动管理功能通过设置表级参数(period、ttl),可自动创建新分区和删除过期分区,适用于时间分区表(如订单、物联网数据等)。该功能解决了传统分区表需人工维护的问题,显著降低运维成本,同时提升查询性能。

使用GaussDB(DWS)视图重建功能实现视图解耦以提升开发效率

为了解决因存在视图和表依赖而无法单独修改表对象的问题,GaussDB(DWS)实现了视图的解耦与重建功能。本文重点介绍视图自动重建功能的使用场景与使用方法。

HStore表使用优秀实践

HStore表通过delta表机制解决传统列存表的更新/删除问题,优化存储与性能。

时序表转HStore表最佳实践

由于新的列存HStore表在入库性能,压缩比和查询性能都优于时序表(TimeSeries表),所以推荐使用HStore表替代TimeSeries表。

GIN索引使用实践

介绍如何使用GIN索引查询数组类型、JSONB类型,如何进行全文检索。

实现数据列的加解密

数据加密 作为有效防止未授权访问和防护数据泄露的技术,在各种信息系统中广泛使用。作为信息系统的核心,GaussDB(DWS)数仓也提供数据加密功能,包括透明加密和使用SQL函数加密,本章节主要讨论SQL函数加密。

通过视图管控数据权限

介绍如何通过视图实现给不同的用户授予查询同一表中不同数据的权限,提供数据的权限管理和安全性。

数据库管理

基于角色的权限管理(RBAC)

提供RBAC模型在DWS的应用示例,基于角色的用户管理(Role-Based Access Control,简称RBAC)是通过为角色赋予权限,使用户成为适当的角色而获取相应角色的权限。

只读用户配置权限

指导如何配置只读权限的 IAM 用户。

用户管理优秀实践

描述了系统管理员和普通用户的权限,以及如何创建以及如何查询用户相关信息。

查看表和数据库的信息

提供常见的查询表和数据库的相关信息的SQL示例。

数据库SEQUENCE优秀实践

描述创建与管理SEQUENCE的优秀实践和示例。

性能调优

基于表结构设计和调优提升GaussDB(DWS)查询性能

介绍如何设计GaussDB(DWS)表结构,包括:选择表模型、选择存储方式、压缩级别、分布方式、分布列以及使用分区表和局部聚簇等,从而实现表性能的优化。

SQL查询优秀实践

介绍通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。

数据倾斜查询优秀实践

提供查询数据倾斜的方法。

分析正在执行的SQL以处理GaussDB(DWS)业务阻塞

在开发过程中,开发者常遇到SQL连接数超限、SQL查询时间过长、SQL查询阻塞等问题,介绍通过PG_STAT_ACTIVITY视图来分析和定位SQL问题的方法。

集群管理

为两种作业绑定不同资源池以实现GaussDB(DWS)资源负载能力

将演示GaussDB(DWS)的资源管理功能,帮助企业客户解决数据分析过程中,多用户查询作业遇到的性能瓶颈,最终实现多用户执行SQL作业互不影响,节省资源消耗。

GaussDB(DWS)存算一体架构弹性伸缩系统性介绍

弹性伸缩是云服务一个非常重要的特性,可以使云服务根据算力需求和资源负荷情况调整计算和存储资源配置,以达到性能最优和降低成本的目的。

安全管理

安全最佳实践

提供了GaussDB(DWS)使用过程中的安全最佳实践,旨在为提高用户业务数据的整体安全能力提供可操作的规范性指导。

support.huaweicloud.com/bestpractice-dws/dws_05_1000.html