数据治理中心 DATAARTS STUDIO-通过CDM节点批量创建分表迁移作业:创建数据开发作业

时间:2024-05-31 19:04:50

创建数据开发作业

  1. 单击工作空间的“数据开发”,进入DataArts Studio数据开发模块。
  2. 创建子作业“分表作业”,选择CDM节点,节点属性中作业类型配置为“创建新作业”,并将步骤2中复制的作业JSON粘贴到“CDM作业消息体”中。

    图7 配置CDM作业消息体

  3. 编辑“CDM作业消息体”。

    1. 由于源表有三个,分别为mail001、mail002、mail003,因此需要将作业JSON中的“fromJobConfig.tableName”属性值配置为“mail${num}”,即源表名是通过参数配置。如下图所示:
      图8 编辑JSON
    2. 由于数据迁移作业名不能重复,因此修改JSON中作业名称“name”属性值配置为“mail${num}”,目的是创建多个CDM集成作业,避免作业名称重复。如下图所示:

      如果需要创建分库的作业,也可将作业JSON中的源连接修改为变量,方便替换。

      图9 编辑JSON

  4. 添加作业参数num,用于作业JSON中调用。如下图所示:

    图10 添加作业参数num

    添加完成后单击“保存并提交版本”,以保存子作业。

  5. 创建主作业“集成管理”,选择For Each节点,每次循环调用分表作业,分别将参数001、002、003传递给子作业,生成不同的分表抽取任务。

    关键配置如下:
    • 子作业:选择“分表作业”
    • 数据集:[['001'],['002'],['003']]
    • 子作业参数:@@#{Loop.current[0]}@@

      此处子作业参数的EL表达式需要添加@@。如果不加@@包围,数据集001会被识别为1,导致源表名不存在的问题。

    如下图所示:

    图11 配置关键参数

    配置完成后点击“保存并提交版本”,以保存主作业。

  6. 创建主作业和子作业完成后,通过测试运行主作业“集成管理”,检查数据集成作业创建情况。运行成功后,创建并运行CDM子作业成功。

    图12 查看作业创建情况

support.huaweicloud.com/bestpractice-dataartsstudio/dataartsstudio_05_0002.html