数据治理中心 DATAARTS STUDIO-创建数据集成作业:新建MySQL到OBS迁移作业

时间:2025-04-27 14:57:10

新建MySQL到OBS迁移作业

正式业务流程中,需要将MySQL中的原始样例数据需要导入OBS中,并标准化为点数据集和边数据集。

  1. DataArts Studio 数据集成控制台,进入“集群管理”页面,在集群列表中找到所需要的集群,单击“作业管理”
  2. “作业管理”页面,单击“表/文件迁移”,再单击“新建作业”

    图13 表/文件迁移

  3. 按照如下步骤将MySQL中的4张原始数据表,依次迁移到OBS桶中。

    1. 配置作业vertex_user_rds2obs。

      源端的“表名”选择在新建OBS到MySQL迁移作业中迁移到MySQL的vertex_user。目的端的“写入目录”注意选择非原始数据所在目录以避免文件覆盖,“文件格式”按照GES图导入格式要求设置为“ CS V格式”,由于表中有中文字符还需额外配置高级属性“编码类型”为“GBK”。

      注意:目的端高级属性需要额外配置“自定义文件名”,取值为“${tableName}”。如果不配置,则迁移到OBS的CSV文件名会带上时间戳等额外字段,导致每次运行迁移作业获取的文件名不一致,无法每次迁移后自动导入GES图数据。

      其他高级属性无需配置,单击“下一步”
      图14 vertex_user_rds2obs作业基础配置

      图15 vertex_user_rds2obs作业高级配置

    2. 在字段映射中,根据GES图数据的要求,此处需要新增字段label,作为图文件的标签。
      • vertex_user:label取值为user,并将此字段调整至第2列。
      • vertex_movie:label取值为movie,并将此字段调整至第2列。
      • edge_friends:label取值为friends,并将此字段调整至第3列。
      • edge_rate:label取值为rate,并将此字段调整至第3列。

      将原始数据结构根据GES图导入的要求标准化。则点表vertex_user和vertex_movie需要在第二列补充标签label,边表edge_rate和edge_friends需要在第三列补充标签label。

      点数据集和边数据集应符合GES图数据格式要求。图数据格式要求简要介绍如下,详情可参见一般图数据格式
      • 点数据集罗列了各个点的数据信息。一行为一个点的数据。格式如下所示,id是点数据的唯一标识。
        id,label,property 1,property 2,property 3,…
      • 边数据集罗列了各个边的数据信息,一行为一条边的数据。GES中图规格是以边的数量进行定义的,如一百万边。格式如下所示,id 1、id 2是一条边的两个端点的id。
        id 1, id 2, label, property 1, property 2, …
      图16 vertex_user_rds2obs新增字段映射

    3. 调整字段顺序,点数据集将label调整至第2列,边数据集将label调整至第3列。调整完成后如图18所示,然后单击下一步。
      图17 vertex_user_rds2obs调整字段顺序

      图18 vertex_user_rds2obs字段映射

    4. 任务配置无需修改,直接保存并运行即可。
      图19 任务配置

  4. 等待作业运行完成后,如果作业成功,则vertex_user.csv表已成功写入到OBS桶中。

    图20 vertex_user_rds2obs作业运行成功

  5. 参考24,完成vertex_movie_rds2obs、edge_friends_rds2obs和edge_rate_rds2obs作业的创建,将4张原始表从MySQL标准化到OBS桶中。
support.huaweicloud.com/bestpractice-dataartsstudio/dataartsstudio_05_0304.html