数据湖探索 DLI-迁移Elasticsearch数据至DLI:步骤二:数据迁移

时间:2024-04-30 09:46:21

步骤二:数据迁移

  1. 配置CDM数据源连接。
    1. 配置源端CSS的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“云搜索服务”,单击“下一步”。
        图1 创建CSS数据源
      3. 配置源端CSS的数据源连接,具体参数配置如下。详细参数配置可以参考CDM上配置CSS连接
        表1 CSS数据源配置

        参数

        名称

        自定义CSS数据源名称。例如当前配置为“source_css”。

        Elasticsearch服务器列表

        单击输入框旁边的“选择”按钮,选择当前CSS集群即可自动关联出来Elasticsearch服务器列表。

        安全模式认证

        如果所需连接的CSS集群在创建时开启了“安全模式”,该参数需设置为“是”,否则设置为“否”。

        本示例选择为“否”。

        图2 CDM配置CSS数据源
      4. 单击“保存”完成CSS数据源配置。
    2. 配置目的端DLI的数据源连接。
      1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
      2. 在作业管理界面,选择“连接管理”,单击“新建连接”,连接器类型选择“数据湖探索(DLI)”,单击“下一步”。
        图3 创建DLI数据源连接
      3. 配置目的端DLI数据源连接连接参数。具体参数配置可以参考在CDM上配置DLI连接
        图4 配置DLI数据源连接参数
      4. 配置完成后,单击“保存”完成DLI数据源配置。
  2. 创建CDM迁移作业。
    1. 登录CDM控制台,选择“集群管理”,选择已创建的CDM集群,在操作列选择“作业管理”。
    2. 在“作业管理”界面,选择“表/文件迁移”,单击“新建作业”。
    3. 在新建作业界面,配置当前作业配置信息,具体参数参考如下:
      图5 新建CDM作业作业配置
      1. 作业名称:自定义数据迁移的作业名称。例如,当前定义为:css_to_dli。
      2. 源端作业配置,具体参考如下:
        表2 源端作业配置

        参数名

        参数值

        源连接名称

        选择1.a中已创建的数据源名称。

        索引

        选择CSS集群中创建的Elasticsearch索引名。当前示例为CSS集群上创建索引并导入数据中创建的索引“my_test”。

        索引名称只能全部小写,不能有大写。

        类型

        Elasticsearch的类型,类似关系数据库中的表名称。类型名称只能全部小写,不能有大写。当前示例为:“_doc”。

        更多其他参数说明可以参考:CDM配置CSS源端参数

      3. 目的端作业配置,具体参考如下:
        表3 目的端作业配置

        参数名

        参数值

        目的连接名称

        选择1.b已创建的DLI数据源连接。

        资源队列

        选择已创建的DLI SQL类型的队列。

        数据库名称

        选择DLI下已创建的数据库。当前示例为在DLI上创建数据库和表中创建的数据库名,即为“testdb”。

        表名

        选择DLI下已创建的表名。当前示例为在DLI上创建数据库和表中创建的表名,即为“tablecss”。

        导入前清空数据

        选择导入前是否清空目的表的数据。当前示例选择为“否”。

        如果设置为是,任务启动前会清除目标表中数据。

        详细的参数配置可以参考:CDM配置DLI目的端参数

  3. 单击“下一步”,进入到字段映射界面,CDM会自动匹配源和目的字段。
    • 如果字段映射顺序不匹配,可通过拖拽字段调整。
    • 如果选择在目的端自动创建类型,这里还需要配置每个类型的字段类型、字段名称。
    • CDM支持迁移过程中转换字段内容,详细请参见字段转换
      图6 字段映射
  4. 单击“下一步”配置任务参数,一般情况下全部保持默认即可。

    该步骤用户可以配置如下可选功能:

    • 作业失败重试:如果作业执行失败,可选择是否自动重试,这里保持默认值“不重试”。
    • 作业分组:选择作业所属的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。
    • 是否定时执行:如果需要配置作业定时自动执行,请参见配置定时任务。这里保持默认值“否”。
    • 抽取并发数:设置同时执行的抽取任务数。这里保持默认值“1”。
    • 是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
  5. 单击“保存并运行”,回到作业管理界面,在作业管理界面可查看作业执行进度和结果。
    图7 迁移作业进度和结果查询
support.huaweicloud.com/bestpractice-dli/dli_05_0033.html