数据治理中心 DATAARTS STUDIO-文件格式介绍:文件格式问题解决方法

时间:2024-05-17 10:57:30

文件格式问题解决方法

  1. 数据库的数据导出到CSV文件,由于数据中含有分隔符逗号,造成导出的CSV文件中数据混乱。

    CDM提供了以下几种解决方法:

    • 指定字段分隔符

      使用数据库中不存在的字符,或者是极少见的不可打印字符来作为字段分隔符。例如可以在目的端指定“字段分隔符”“%01”,这样导出的字段分隔符就是“\u0001”,详情可见表1

    • 使用包围符

      在目的端作业参数中开启“使用包围符”,这样数据库中如果字段包含了字段分隔符,在导出到CSV文件的时候,CDM会使用包围符将该字段括起来,使之作为一个字段的值写入CSV文件。

  2. 数据库的数据包含换行符
    • 场景:使用CDM先将MySQL中的某张表(表的某个字段值中包含了换行符\n)导出到CSV格式的文件中,然后再使用CDM将导出的CSV文件导入到MRS HBase,发现导出的CSV文件中出现了数据被截断的情况。
    • 解决方法:指定换行符。

      在使用CDM将MySQL的表数据导出到CSV文件时,指定目的端的换行符为“%01”(确保这个值不会出现在字段值中),这样导出的CSV文件中换行符就是“%01”。然后再使用CDM将CSV文件导入到MRS HBase时,指定源端的换行符为“%01”,这样就避免了数据被截断的问题。

support.huaweicloud.com/usermanual-dataartsstudio/dataartsstudio_01_0108.html