云数据库 GaussDB-关于并行导入:概述

时间:2023-11-01 16:22:50

概述

并行导入将存储在服务器普通文件系统中的数据导入到GaussDB数据库中。

并行导入功能通过外表设置的导入策略、导入数据格式等信息来识别数据源文件,利用多DN并行的方式,将数据从数据源文件导入到数据库中,从而提高整体导入性能。如图1所示:

  • CN只负责任务的规划及下发,把数据导入的工作交给了DN,释放了CN的资源,使其有能力处理其他外部请求。
  • 所有DN都参与数据导入,这样可以充分利用各设备的计算能力及网络带宽,提升导入效率。
外表灵活的OPTION设置,有利于在数据入库前对数据做预处理,例如非法字符替换、容错处理等。更多信息请参考CREATE FOREIGN TABLE (导入导出)
图1 数据并行导入示意图

上图中所涉及的相关概念说明如下:

  • CN(Coordinator Node)GaussDB协调节点。在导入场景下,接收到应用或客户端的导入SQL指令后,负责任务的规划及下发到DN。
  • DN(Data Node)GaussDB数据节点。接收CN下发的导入任务,将数据源文件中的数据通过外表写入数据库目标表中。
  • 数据源文件:存有数据的文件。文件中保存的是待导入数据库的数据。
  • 数据服务器:数据源文件所在的服务器称为数据服务器。基于安全考虑,建议数据服务器和GaussDB集群处于同一内网。
  • 外表Foreign Table:用于识别数据源文件的位置、文件格式、存放位置、编码格式、数据间的分隔符等信息。是关联数据文件与数据库实表(目标表)的对象。
  • 目标表:数据库中的实表。数据源文件中的数据最终导入到这些表中存储,包括行存表和列存表。
support.huaweicloud.com/distributed-devg-v2-opengauss/gaussdb-v5r2c10-0191.html