数据湖探索 DLI-导出查询结果:注意事项

时间:2023-11-14 15:34:57

注意事项

  • 通过配置“spark.sql.shuffle.partitions”参数可以设置非DLI表在OBS桶中插入的文件个数,同时,为了避免数据倾斜,在INSERT语句后可加上“distribute by rand()”,可以增加处理作业的并发量。例如:
    insert into table table_target select * from table_source distribute by cast(rand() * N as int);
  • 配置项为OPTIONS('DELIMITER'=',')时,可以指定分隔符,默认值为“,”

    对于CSV数据,支持如下所述分隔符:

    • 制表符tab,例如:'DELIMITER'='\t'。
    • 任意的二进制字符,例如:'DELIMITER'='\u0001(^A)'。
    • 单引号('),单引号必须在双引号(" ")内。例如:'DELIMITER'= "'"。
    • DLI表还支持\001(^A)和\017(^Q),例如:'DELIMITER'='\001(^A)','DELIMITER'='\017(^Q)'。
support.huaweicloud.com/sqlreference-dli/dli_08_0205.html