数据湖探索 DLI-Hive源表:注意事项

时间:2024-04-23 20:19:33

注意事项

  • 创建Flink OpenSource SQL作业时,在作业编辑界面的“运行参数”处,“Flink版本”需要选择“1.15”,勾选“保存作业日志”并设置保存作业日志的OBS桶,方便后续查看作业日志。
  • 数据类型的使用,请参考Format章节。
  • Hive 方言支持的 DDL 语句,Flink 1.15 当前仅支持使用Hive语法创建OBS表和使用hive语法的DLI Lakehouse表。
    • 使用Hive语法创建OBS表
      • defalut方言: with 属性中需要设置hive.is-external为true。
      • 使用hive 方言:建表语句需要使用EXTERNAL关键字。
    • 使用hive语法的DLI Lakehouse表
      • 使用hive 方言:表属性中需要添加'is_lakehouse'='true'。
  • 开启checkpoint功能。
  • 建议切换到Hive方言来创建Hive兼容表。如果你想用默认的方言创建Hive兼容表,确保在你的表属性中设置'connector'='hive',否则在HiveCatalog中一个表默认被认为是通用的。注意,如果你使用Hive方言,就不需要connector属性了。
  • 监视策略是扫描当前位置路径中的所有目录/文件。许多分区可能会导致性能下降。
  • 对未分区表进行流式读取时,要求将每个文件以原子方式写入目标目录。
  • 分区表的流式读取要求在 hive 元存储的视图中以原子方式添加每个分区。否则,将使用添加到现有分区的新数据。
  • 流式读取不支持 Flink DDL 中的水印语法。这些表不能用于窗口运算符。
support.huaweicloud.com/sqlref-flink-dli/dli_08_15049.html