数据仓库服务 GAUSSDB(DWS)-DWS最佳实践汇总
DWS最佳实践汇总
本文汇总了DWS服务的常见应用场景,并为每个场景提供详细的方案描述和操作指南,您可以根据本文查看适合您业务的实践教程文档。
分类 |
文档名 |
描述 |
---|---|---|
导入导出 |
描述导入数据到DWS、从DWS导出数据的方法及使用工具的最佳实践方法论。 |
|
描述使用GDS导入数据到DWS的最佳实践方法论。 |
||
将样例数据上传OBS,并通过OBS外表访问OBS桶内的数据或导入数据到DWS,同时也支持将GaussDB(DWS)的某张表数据导出到OBS桶。 |
||
使用GDS工具将远端服务器上的数据导入GaussDB(DWS)。 |
||
通过建立HDFS外表实现GaussDB(DWS)远端访问或读取MRS数据源。 |
||
存算分离集群通过建立EXTERNAL SCHEMA实现远端访问HiveMetaStore元数据。 |
||
使用GaussDB(DWS)外表功能从 数据湖探索 服务DLI导入数据到GaussDB(DWS)。 |
||
通过HDFS外表导出ORC格式数据至MRS。 |
||
数据迁移 |
将Oracle业务相关的表数据迁移到GaussDB(DWS)。 |
|
通过 云数据迁移 服务CDM将MySQL数据批量迁移到GaussDB(DWS)。 |
||
使用华为云DLI服务的Flink作业,将MySQL数据实时同步到GaussDB(DWS)。 |
||
使用云数据迁移服务CDM将Hologres数据迁移到GaussDB(DWS)。 |
||
使用开源工具Kettle将Redshift数据迁移到GaussDB(DWS)。 |
||
使用云数据迁移服务CDM将AnalyticDB for MySQL数据迁移到GaussDB(DWS)。 |
||
通过 数据湖 探索服务 DLI Flink作业将分布式消息服务 Kafka的消费数据实时同步至GaussDB(DWS)。 |
||
基于GDS导入导出的高并发能力,实现两套DWS集群之间1500万行数据的分钟级迁移。 |
||
数据分析 |
加载8.9亿条交通卡口车辆通行模拟数据到 数据仓库 单个数据库表中,并进行车辆精确查询和车辆模糊查询,展示GaussDB(DWS)对于历史详单数据的高性能查询能力。 |
|
从OBS加载样例数据集到GaussDB(DWS) 集群中并查询数据的流程,从而向您展示GaussDB(DWS) 在数据分析场景中的多表分析与主题分析。 |
||
从OBS加载各个零售商场每日经营的业务数据到数据仓库对应的表中,然后对商铺营业额、客流信息、月度销售排行、月度客流转化率、月度租售比、销售坪效等KPI信息进行汇总和查询。 |
||
在弹性 云服务器ECS 上的Windows环境下安装Power BI,并使用On-premises Data Gateway(本地数据网关)模式与GaussDB(DWS)进行对接。 |
||
存算分离 |
描述存算分离版本特有的性能优化和注意事项。 |
|
数据开发 |
Turbo引擎相比原列存执行引擎,对字符串、numeric类型做了内存和磁盘存储格式优化,且对常用sort/agg/join/scan等算子做了极致性能优化,使得执行器整体性能提升1倍左右,可显著降低业务计算费用。 |
|
在数据量激增的场景下,根据业务对数据的使用频率,将数据按时间划分为热数据和冷数据进行分级管理,可提升分析性能并降低成本。 |
||
GaussDB(DWS)的分区自动管理功能通过设置表级参数(period、ttl),可自动创建新分区和删除过期分区,适用于时间分区表(如订单、物联网数据等)。该功能解决了传统分区表需人工维护的问题,显著降低运维成本,同时提升查询性能。 |
||
为了解决因存在视图和表依赖而无法单独修改表对象的问题,GaussDB(DWS)实现了视图的解耦与重建功能。本文重点介绍视图自动重建功能的使用场景与使用方法。 |
||
HStore表通过delta表机制解决传统列存表的更新/删除问题,优化存储与性能。 |
||
由于新的列存HStore表在入库性能,压缩比和查询性能都优于时序表(TimeSeries表),所以推荐使用HStore表替代TimeSeries表。 |
||
介绍如何使用GIN索引查询数组类型、JSONB类型,如何进行全文检索。 |
||
数据加密 作为有效防止未授权访问和防护数据泄露的技术,在各种信息系统中广泛使用。作为信息系统的核心,GaussDB(DWS)数仓也提供数据加密功能,包括透明加密和使用SQL函数加密,本章节主要讨论SQL函数加密。 |
||
介绍如何通过视图实现给不同的用户授予查询同一表中不同数据的权限,提供数据的权限管理和安全性。 |
||
数据库管理 |
提供RBAC模型在DWS的应用示例,基于角色的用户管理(Role-Based Access Control,简称RBAC)是通过为角色赋予权限,使用户成为适当的角色而获取相应角色的权限。 |
|
指导如何配置只读权限的 IAM 用户。 |
||
描述了系统管理员和普通用户的权限,以及如何创建以及如何查询用户相关信息。 |
||
提供常见的查询表和数据库的相关信息的SQL示例。 |
||
描述创建与管理SEQUENCE的优秀实践和示例。 |
||
性能调优 |
介绍如何设计GaussDB(DWS)表结构,包括:选择表模型、选择存储方式、压缩级别、分布方式、分布列以及使用分区表和局部聚簇等,从而实现表性能的优化。 |
|
介绍通过一定的规则调整SQL语句,在保证结果正确的基础上,能够提高SQL执行效率。 |
||
提供查询数据倾斜的方法。 |
||
在开发过程中,开发者常遇到SQL连接数超限、SQL查询时间过长、SQL查询阻塞等问题,介绍通过PG_STAT_ACTIVITY视图来分析和定位SQL问题的方法。 |
||
集群管理 |
将演示GaussDB(DWS)的资源管理功能,帮助企业客户解决数据分析过程中,多用户查询作业遇到的性能瓶颈,最终实现多用户执行SQL作业互不影响,节省资源消耗。 |
|
弹性伸缩是云服务一个非常重要的特性,可以使云服务根据算力需求和资源负荷情况调整计算和存储资源配置,以达到性能最优和降低成本的目的。 |
||
安全管理 |
提供了GaussDB(DWS)使用过程中的安全最佳实践,旨在为提高用户业务数据的整体安全能力提供可操作的规范性指导。 |