华为云用户手册

数据湖探索 DLI-Hbase

Hbase HBase连接器支持读取和写入HBase集群。本文档介绍如何使用HBase连接器基于HBase进行SQL查询。 HBase连接器在upsert模式下运行，可以使用 DDL 中定义的主键与外部系统交换更新操作消息。但是主键只能基于HBase的rowkey字段定义。如果没有声明主键，HBase连接器默认取rowkey作为主键。详情可参考HBase SQL 连接器 Hbase源表 Hbase结果表 Hbase维表父主题： Connector列表

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS结果表:示例2

示例2 使用datagen随机生成数据写入obs的bucketName桶下的fileName目录中。文件生成时间与checkpoint有关，达到checkpoint间隔或达到100MB时，生成新文件。 create table orders( name string, num INT ) with ( 'connector' = 'datagen', 'rows-per-second' = '100', 'fields.name.kind' = 'random', 'fields.name.length' = '5' ); CREATE TABLE sink_table ( name string, num INT ) WITH ( 'connector' = 'filesystem', 'path' = 'obs://bucketName/fileName', 'format' = 'parquet', 'sink.rolling-policy.file-size'='128m', 'sink.rolling-policy.rollover-interval'='30 min', 'auto-compaction'='true', 'compaction.file-size'='100m' ); INSERT into sink_table SELECT * from orders;

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS结果表:语法格式

语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE sink_table ( name string, num INT, p_day string, p_hour string ) partitioned by (p_day, p_hour) WITH ( 'connector' = 'filesystem', 'path' = 'obs://*** ', 'format' = 'parquet', 'auto-compaction' = 'true' );

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS结果表:示例1

示例1 使用datagen随机生成数据写入obs的bucketName桶下的fileName目录中。文件生成时间与checkpoint有关，达到30min或128MB时，生成新文件。 create table orders( name string, num INT ) with ( 'connector' = 'datagen', 'rows-per-second' = '100', 'fields.name.kind' = 'random', 'fields.name.length' = '5' ); CREATE TABLE sink_table ( name string, num INT ) WITH ( 'connector' = 'filesystem', 'path' = 'obs://bucketName/fileName', 'format' = 'csv', 'sink.rolling-policy.file-size'='128m', 'sink.rolling-policy.rollover-interval'='30 min' ); INSERT into sink_table SELECT * from orders;

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS结果表:参数说明

参数说明表1 参数说明参数是否必选默认值类型说明 connector 是无 String 固定位filesystem。 path 是无 String OBS路径。 format 是无 String 文件格式。支持csv、parquet格式。 sink.rolling-policy.file-size 否 128MB MemorySize 单个part文件最大大小，超过该数值会滚动产生新文件。说明： RollingPolicy 定义了何时关闭给定的In-progress Part文件，并将其转换为Pending状态，然后再转换为Finished状态。 Finished状态的文件，可供查看并且可以保证数据的有效性，在出现故障时不会恢复。在STREAMING模式下，滚动策略结合Checkpoint间隔（到下一个Checkpoint成功时，文件的Pending状态才转换为Finished状态）共同控制Part文件对下游readers是否可见以及这些文件的大小和数量。 sink.rolling-policy.rollover-interval 否 30 min Duration 单个Part文件处于打开状态的最长时间，超过该时间会滚动产生新文件（默认值30分钟，以避免产生大量小文件）。检查频率是通过sink.rolling-policy.check-interval参数控制的。说明：该参数数字与单位之间必须要有空格。支持的时间单位包括: d,h,min,s,ms等。对于bulk格式的文件(parquet、orc、avro)，checkpoint的时间间隔也会控制单个part文件打开的最长时间。 sink.rolling-policy.check-interval 否 1 min Duration 基于时间的滚动策略的检查间隔。该属性控制了基于sink.rolling-policy.rollover-interval属性检查文件是否该被滚动的检查频率。 auto-compaction 否 false Boolean 在流式 sink 中是否开启自动合并功能。数据首先会被写入临时文件。当checkpoint完成后，该checkpoint产生的临时文件会被合并。 compaction.file-size 否 `sink.rolling-policy.file-size`的大小 MemorySize 合并目标文件大小，默认值为滚动文件大小。说明：只有在同个checkpoint内的文件会被合并，因此最终文件的数量至少等于checkpoint的数量。如果合并时间较长，可能会引起反压，延长checkpoint所需时间。开启该功能后，checkpoint时会产生最终文件，并打开新的文件接收下个checkpoint产生的数据。

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS结果表:功能描述

功能描述 FileSystem sink用于将数据输出到分布式文件系统HDFS或者对象存储服务 OBS等文件系统。适用于数据转储、大数据分析、备份或活跃归档、深度或冷归档等场景。考虑到输入流可以是无界的，每个桶中的数据被组织成有限大小的Part文件。完全可以配置为基于时间的方式往桶中写入数据，比如可以设置每个小时的数据写入一个新桶中。即桶中将包含一个小时间隔内接收到的记录。桶目录中的数据被拆分成多个Part文件。对于相应的接收数据的桶的Sink的每个Subtask，每个桶将至少包含一个Part文件。将根据配置的滚动策略来创建其他Part文件。对于Row Formats默认的策略是根据Part文件大小进行滚动，需要指定文件打开状态最长时间的超时以及文件关闭后的非活动状态的超时时间。对于Bulk Formats在每次创建Checkpoint时进行滚动，并且用户也可以添加基于大小或者时间等的其他条件。更多信息参考文件系统 SQL 连接器在STREAMING模式下使用FileSink需要开启Checkpoint功能。Part文件只在Checkpoint成功时生成。如果没有开启Checkpoint功能，文件将永远停留在in-progress或者pending的状态，并且下游系统将不能安全读取该文件数据。 sink end算子的接受记录数为checkpoint的个数，非实际的发送数据，实际发送数据量请参考streaming-writer或StreamingFileWriter算子的记录数。

数据湖探索 DLI
数据湖探索 DLI-对象存储OBS源表:语法格式

语法格式 1 2 3 4 5 6 7 8 9 10 11 CREATE TABLE sink_table ( name string, num INT, p_day string, p_hour string ) partitioned by (p_day, p_hour) WITH ( 'connector' = 'filesystem', 'path' = 'obs://*** ', 'format' = 'parquet', 'source.monitor-interval'='' );

数据湖探索 DLI 对象存储OBS
数据湖探索 DLI-对象存储OBS源表:示例

示例从obs表作为数据源读取数据，输出到print connector。 CREATE TABLE obs_source( name string, num INT, `file.path` STRING NOT NULL METADATA ) WITH ( 'connector' = 'filesystem', 'path' = 'obs://demo/sink_parquent_obs', 'format' = 'parquet', 'source.monitor-interval'='1 h' ); CREATE TABLE print ( name string, num INT, path STRING ) WITH ( 'connector' = 'print' ); insert into print select * from obs_source;

数据湖探索 DLI 对象存储OBS
数据湖探索 DLI-Elasticsearch:示例

示例该示例是从Kafka数据源中读取数据，并写入到Elasticsearch结果表中（本次所使用Elasticsearch版本为7.10.2），其具体步骤如下：参考增强型跨源连接，在 DLI 上根据Elasticsearch和Kafka所在的虚拟私有云和子网分别创建相应的增强型跨源连接，并绑定所要使用的Flink弹性资源池。设置Elasticsearch和Kafka的安全组，添加入向规则使其对Flink的队列网段放通。参考测试地址连通性分别根据Elasticsearch和Kafka的地址测试队列连通性。如果能连通，则表示跨源已经绑定成功，否则表示未成功。登录Elasticsearch集群的Kibana，并选择Dev Tools，输入下列语句并执行，以创建值为orders的index： PUT /orders { "settings": { "number_of_shards": 1 }, "mappings": { "properties": { "order_id": { "type": "text" }, "order_channel": { "type": "text" }, "order_time": { "type": "text" }, "pay_amount": { "type": "double" }, "real_pay": { "type": "double" }, "pay_time": { "type": "text" }, "user_id": { "type": "text" }, "user_name": { "type": "text" }, "area_id": { "type": "text" } } } } 参考创建Flink OpenSource作业，创建flink opensource sql作业，输入以下作业运行脚本，提交运行作业。如下脚本中的加粗参数请根据实际环境修改。 CREATE TABLE kafkaSource ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'kafka', 'topic' = 'KafkaTopic', 'properties.bootstrap.servers' = 'KafkaAddress1:KafkaPort,KafkaAddress2:KafkaPort', 'properties.group.id' = 'GroupId', 'scan.startup.mode' = 'latest-offset', 'format' = 'json' ); CREATE TABLE elasticsearchSink ( order_id string, order_channel string, order_time string, pay_amount double, real_pay double, pay_time string, user_id string, user_name string, area_id string ) WITH ( 'connector' = 'elasticsearch-7', 'hosts' = 'ElasticsearchAddress:ElasticsearchPort', 'index' = 'orders' ); insert into elasticsearchSink select * from kafkaSource; 连接Kafka集群，向kafka中插入如下测试数据： {"order_id":"202103241000000001", "order_channel":"webShop", "order_time":"2021-03-24 10:00:00", "pay_amount":"100.00", "real_pay":"100.00", "pay_time":"2021-03-24 10:02:03", "user_id":"0001", "user_name":"Alice", "area_id":"330106"} {"order_id":"202103241606060001", "order_channel":"appShop", "order_time":"2021-03-24 16:06:06", "pay_amount":"200.00", "real_pay":"180.00", "pay_time":"2021-03-24 16:10:06", "user_id":"0001", "user_name":"Alice", "area_id":"330106"} 在Elasticsearch集群的Kibana中输入下述语句并查看相应结果： GET orders/_search { "took" : 201, "timed_out" : false, "_shards" : { "total" : 1, "successful" : 1, "skipped" : 0, "failed" : 0 }, "hits" : { "total" : { "value" : 2, "relation" : "eq" }, "max_score" : 1.0, "hits" : [ { "_index" : "orders", "_type" : "_doc", "_id" : "fopyx4sBUuT2wThgYGcp", "_score" : 1.0, "_source" : { "order_id" : "202103241606060001", "order_channel" : "appShop", "order_time" : "2021-03-24 16:06:06", "pay_amount" : 200.0, "real_pay" : 180.0, "pay_time" : "2021-03-24 16:10:06", "user_id" : "0001", "user_name" : "Alice", "area_id" : "330106" } }, { "_index" : "orders", "_type" : "_doc", "_id" : "f4pyx4sBUuT2wThgYGcr", "_score" : 1.0, "_source" : { "order_id" : "202103241000000001", "order_channel" : "webShop", "order_time" : "2021-03-24 10:00:00", "pay_amount" : 100.0, "real_pay" : 100.0, "pay_time" : "2021-03-24 10:02:03", "user_id" : "0001", "user_name" : "Alice", "area_id" : "330106" } } ] } }

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:主键处理

主键处理 Elasticsearch sink 可以根据是否定义了一个主键来确定是在 upsert 模式还是 append 模式下工作。如果定义了主键，Elasticsearch sink 将以upsert模式工作，该模式可以消费包含UPDATE/DELETE消息的查询。如果未定义主键，Elasticsearch sink 将以append模式工作，该模式只能消费包含INSERT消息的查询。在Elasticsearch连接器中，主键用于计算Elasticsearch 的文档ID，文档ID为最多512字节且不包含空格的字符串。 Elasticsearch连接器通过使用 document-id.key-delimiter 指定的键分隔符按照 DDL 中定义的顺序连接所有主键字段，为每一行记录生成一个文档ID字符串。某些类型不允许作为主键字段，因为它们没有对应的字符串表示形式，例如，BYTES，ROW，ARRAY，MAP 等。如果未指定主键，Elasticsearch 将自动生成文档ID。

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:动态索引

动态索引 Elasticsearch sink同时支持静态索引和动态索引。如果您想使用静态索引，则index选项值应为纯字符串，例如 'myusers'，所有记录都将被写入到“myusers”索引中。如果您想使用动态索引，您可以使用 {field_name} 来引用记录中的字段值来动态生成目标索引。可以使用 '{field_name|date_format_string}' 将 TIMESTAMP/DATE/TIME 类型的字段值转换为 date_format_string 指定的格式。 date_format_string 与 Java 的 DateTimeFormatter 兼容。例如，如果选项值设置为 'myusers-{log_ts|yyyy-MM-dd}'，则 log_ts 字段值为 2020-03-27 12:25:55 的记录将被写入到 “myusers-2020-03-27” 索引中。可以使用 '{now()|date_format_string}' 将当前的系统时间转换为 date_format_string 指定的格式。now() 对应的时间类型是 TIMESTAMP_WITH_LTZ 。在将系统时间格式化为字符串时会使用 session 中通过 table.local-time-zone 中配置的时区。使用 NOW(), now(), CURRENT_TIMESTAMP, current_timestamp 均可以。使用当前系统时间生成的动态索引时，对于changelog的流，无法保证同一主键对应的记录能产生相同的索引名, 因此使用基于系统时间的动态索引，只能支持 append only 的流。

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:参数说明

参数说明表2 Elasticsearch结果表参数说明参数是否必选默认值类型说明 connector 是无 String 指定要使用的连接器，固定为：elasticsearch-7。表示连接到 Elasticsearch 7.x 及更高版本集群。 hosts 是无 String Elasticsearch所在集群的主机名，多个以';'间隔。 index 是无 String 每条记录的 Elasticsearch 索引。可以是静态索引（例如'myIndex'）或动态索引（例如'index-{log_ts|yyyy-MM-dd}'）。更多详细信息，请参见下面的动态索引。 username 否无 String Elasticsearch所在集群的账号。该账号参数需和密码“password”参数同时配置。 password 否无 String Elasticsearch所在集群的密码。该密码参数需和“username”参数同时配置。 document-id.key-delimiter 否 _ String 复合键的分隔符（默认为"_"），例如，指定为"$"将导致文档 ID 为"KEY1$KEY2$KEY3"。 failure-handler 否 fail String 对 Elasticsearch 请求失败情况下的失败处理策略。有效策略为： fail：如果请求失败并因此导致作业失败，则抛出异常。 ignore：忽略失败并放弃请求。 retry-rejected：重新添加由于队列容量饱和而失败的请求。自定义类名称：使用 ActionRequestFailureHandler 的子类进行失败处理。 sink.flush-on-checkpoint 否 true Boolean 在进行 checkpoint 时是否保证刷出缓冲区中的数据。如果关闭这一选项，在进行checkpoint时 sink 将不再为所有进行中的请求等待 Elasticsearch 的执行完成确认。因此，在这种情况下 sink 将不对至少一次的请求的一致性提供任何保证。 sink.bulk-flush.max-actions 否 1000 Interger 每个批量请求的最大缓冲操作数。可以设置'0'为禁用它。 sink.bulk-flush.max-size 否 2mb MemorySize 每个批量请求的缓冲操作在内存中的最大值。单位必须为 MB。可以设置为'0'来禁用它。 sink.bulk-flush.interval 否 1s Duration flush 缓冲操作的间隔。可以设置为'0'来禁用它。注意，'sink.bulk-flush.max-size'和'sink.bulk-flush.max-actions'都设置为'0'的这种 flush 间隔设置允许对缓冲操作进行完全异步处理。 sink.bulk-flush.backoff.strategy 否 DISABLED String 指定在由于临时请求错误导致任何 flush 操作失败时如何执行重试。有效策略为： DISABLED：不执行重试，即第一次请求错误后失败。 CONSTANT：等待重试之间的回退延迟。 EXPONENTIAL：先等待回退延迟，然后在重试之间指数递增。 sink.bulk-flush.backoff.max-retries 否无 Integer 最大回退重试次数。 sink.bulk-flush.backoff.delay 否无 Duration 每次退避尝试之间的延迟。对于 CONSTANT 退避策略，该值是每次重试之间的延迟。对于 EXPONENTIAL 退避策略，该值是初始的延迟。 connection.path-prefix 否无 String 添加到每个REST通信中的前缀字符串，例如， '/v1'。 connection.request-timeout 否无 Duration 从连接管理器请求连接的超时时间。超时时间必须大于或者等于 0，如果设置为 0 则是无限超时。 connection.timeout 否无 Duration 建立请求的超时时间。超时时间必须大于或者等于 0 ，如果设置为 0 则是无限超时。 socket.timeout 否无 Duration 等待数据的 socket 的超时时间 (SO_TIMEOUT)。超时时间必须大于或者等于 0，如果设置为 0 则是无限超时。 format 否 json String Elasticsearch连接器支持指定格式。该格式必须生成有效的 json 文档。默认情况下使用内置'json'格式。请参考Format页面以获取更多详细信息和格式参数。 certificate 否无 String Elasticsearch集群的证书在OBS中的位置。仅在开启安全模式，且开启https下需要配置该参数。请先在 CSS 管理控制台下载证书后将证书上传至OBS，该参数配置的是OBS地址。例如：obs://bucket/path/CloudSearchService.cer

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:语法格式

语法格式 create table esSink ( attr_name attr_type (',' attr_name attr_type)* (','PRIMARY KEY (attr_name, ...) NOT ENFORCED) ) with ( 'connector' = 'elasticsearch-7', 'hosts' = '', 'index' = '' );

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:功能描述

功能描述 DLI将Flink作业的输出数据输出到云搜索服务 CSS的Elasticsearch 引擎的索引中。 Elasticsearch是基于Lucene的当前流行的企业级搜索服务器，具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。适用于日志分析、站内搜索等场景。云搜索服务（Cloud Search Service，简称 CS S）为DLI提供托管的分布式搜索引擎服务，完全兼容开源Elasticsearch搜索引擎，支持结构化、非结构化文本的多条件检索、统计、报表。云搜索服务的更多信息，请参见《云搜索服务用户指南》。更多具体使用可参考开源社区文档：Elasticsearch SQL 连接器。表1 支持类别类别详情支持表类型结果表支持数据格式 JSON

数据湖探索 DLI
数据湖探索 DLI-Elasticsearch:注意事项

注意事项创建Flink OpenSource SQL作业时，在作业编辑界面的“运行参数”处，“Flink版本”需要选择“1.15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险，建议使用DEW管理凭证。配置文件或者环境变量中密文存放，使用时解密，确保安全。Flink Opensource SQL使用DEW管理访问凭据 with参数中字段只能使用单引号，不能使用双引号。当前只支持CSS集群7.X及以上版本。如果未开启安全模式，语法中hosts字段值以http开头。如果开启安全模式，未开启https，需要配置用户名username、密码password，且语法中hosts字段值以http开头。如果开启安全模式，开启https，需要配置用户名username、密码password、证书位置certificate。请注意该场景hosts字段值以https开头。 CSS集群安全组入向规则必须开启ICMP。 with参数中字段只能使用单引号，不能使用双引号。数据类型的使用，请参考Format章节。

数据湖探索 DLI
数据湖探索 DLI-DWS Connector概述

DWS Connector概述数据仓库服务（Data Warehouse Service，简称DWS）是一种基于基础架构和平台的在线数据处理数据库，为用户提供海量数据挖掘和分析服务。DLI将Flink作业从数据仓库服务（DWS）中读取数据。DWS数据库内核兼容PostgreSQL，PostgreSQL数据库可存储更加复杂类型的数据，支持空间信息服务、多版本并发控制（MVCC）、高并发，适用场景包括位置应用、金融保险、互联网电商等。 DWS的更多信息，请参见《数据仓库服务管理指南》。 DLI Flink 1.15版本支持两种DWS Connector方式用于接入 GaussDB 数据：（推荐使用）DWS服务自研的DWS Connector：更关注于直接与DWS的性能与交互，用户能够更加灵活便捷的与DWS进行数据的读写操作。您可以通过自定义函数（UDF）的方式使用DWS自研的DWS Connector。自定义函数操作请参考自定义函数。 DWS-Connector的使用方法请参考dws-connector-flink。（废弃，不推荐使用）DLI服务的DWS Connector：支持自定义sink和source函数，允许用户根据具体需求实现相应的sink或source函数，以实现特定的数据读写逻辑。 DLI提供的DWS Connector使用方法请参考表1 表1 DWS Connector支持类别类别操作指导源表 DWS源表（不推荐使用）结果表 DWS结果表（不推荐使用）维表 DWS维表（不推荐使用）父主题： DWS

数据湖探索 DLI
数据湖探索 DLI-DataGen:注意事项

注意事项创建DataGen表时，表字段类型不支持Array，Map和Row复杂类型，可以通过CREATE TABLE语句中的“COMPUTED COLUMN”来进行类似功能构造。创建Flink OpenSource SQL作业时，在作业编辑界面的“运行参数”处，“Flink版本”需要选择“1.15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险，建议使用DEW管理凭证。配置文件或者环境变量中密文存放，使用时解密，确保安全。Flink Opensource SQL使用DEW管理访问凭据

数据湖探索 DLI
数据湖探索 DLI-DataGen:参数说明

参数说明表2 参数说明参数是否必选默认值数据类型参数说明 connector 是无 String 指定要使用的连接器，这里是'datagen'。 rows-per-second 否 10000 Long 每秒生成的行数，用以控制数据发出速率。 number-of-rows 否无 Long 生成数据的总行数。默认条件下，不限制生成数据的总行数。如果有字段生成器类型为序列生成器，则当生成数据的行数达到上限或者序列数字达到结束值时，都不会再生成数据。 fields.#.kind 否 random String 指定 '#' 字段的生成器。 '#' 字段必须是DataGen表中的字段，实际使用时需要将'#'替换为相应字段名。其他各参数的'#'号意义相同，不再重复描述。参数值可以是 'sequence' 或 'random'，具体含义如下： random是默认值，表示无界的随机生成器。您可以通过“fields.#.max”和“fields.#.min”参数指定随机生成数的最大和最小值。当指定的字段类型为char、varchar、string时，可以通过“fields.#.length”参数指定长度。当指定的字段类型为时间戳类型时，可以通过“fields.#.max-past”参数指定相对当前时间向过去偏移的最大值。 sequence表示有界的序列生成器。您可以通过“fields.#.start”和“fields.#.end”指定序列的起始和结束值，当序列数字达到结束值时，就不会再生成数据。 fields.#.min 否 '#'号指定的字段类型的最小值 '#'号指定的字段类型当“fields.#.kind”字段为：random时有效。表示随机生成器的最小值，'#' 指定的字段仅适用于数字类型。 fields.#.max 否 '#'号指定的字段类型的最大值 '#'号指定的字段类型当“fields.#.kind”字段为：random时有效。随机生成数的最大值，'#' 指定的字段仅适用于数字类型。 fields.#.max-past 否 0 Duration 当“fields.#.kind”字段为：random时有效。随机生成器生成相对当前时间向过去偏移的最大值，'#' 指定的字段仅适用于时间戳类型。 fields.#.length 否 100 Integer 当“fields.#.kind”字段为：random时有效。随机生成器生成字符的长度，'#' 指定的字段仅适用于char、varchar、string。 fields.#.start 否无 '#'号指定的字段类型当“fields.#.kind”字段为：sequence时有效。序列生成器的起始值。 fields.#.end 否无 '#'号指定的字段类型当“fields.#.kind”字段为：sequence时有效。序列生成器的结束值。

数据湖探索 DLI
数据湖探索 DLI-BlackHole:功能描述

功能描述 BlackHole Connector允许接收所有输入记录，常用于高性能测试和UDF输出，其不是实质性Sink。Blackhole结果表是系统内置的Connector。例如，如果您在注册其他类型的Connector结果表时报错，但您不确定是系统问题还是结果表WITH参数错误，您可以将WITH参数修改为'connector' = 'blackhole'后，单击运行。如果不再报错，则证明系统没有问题，您需要排查确认修改WITH参数是否正确。表1 支持类别类别详情支持表类型结果表

数据湖探索 DLI
数据湖探索 DLI-BlackHole:注意事项

注意事项创建Flink OpenSource SQL作业时，在作业编辑界面的“运行参数”处，“Flink版本”需要选择“1.15”，勾选“保存作业日志”并设置保存作业日志的OBS桶，方便后续查看作业日志。认证用的username和password等硬编码到代码中或者明文存储都有很大的安全风险，建议使用DEW管理凭证。配置文件或者环境变量中密文存放，使用时解密，确保安全。Flink Opensource SQL使用DEW管理访问凭据

数据湖探索 DLI
数据湖探索 DLI-BlackHole:示例

示例通过DataGen源表产生数据，BlackHole结果表接收传来的数据。 create table datagenSource ( user_id string, user_name string, user_age int ) with ( 'connector' = 'datagen', 'rows-per-second'='1' ); create table blackholeSink ( user_id string, user_name string, user_age int ) with ( 'connector' = 'blackhole' ); insert into blackholeSink select * from datagenSource;

数据湖探索 DLI
数据湖探索 DLI-Connector概述:表类型

表类型源表：源表是Flink作业的数据输入表，例如Kafka等实时流数据输入。维表：数据源表的辅助表，用于丰富和扩展源表的数据。在Flink作业中，因为数据采集端采集到的数据往往比较有限，在做数据分析之前，就要先将所需的维度信息补全，而维表就是代表存储数据维度信息的数据源。常见的用户维表有 MySQL，Redis等。结果表：Flink作业输出的结果数据表，将每条实时处理完的数据写入的目标存储，如 MySQL，HBase 等数据库。

数据湖探索 DLI Connector列表
数据湖探索 DLI-Connector概述:Connector支持列表

Connector支持列表表1 Connector支持列表 Connector 源表维表结果表 BlackHole 不支持不支持支持 ClickHouse 不支持不支持支持 DataGen 支持不支持不支持 Doris 支持支持支持 DWS 支持支持支持 Elasticsearch 不支持不支持支持 FileSystem 支持不支持支持 Hbase 支持支持支持 Hive 支持支持支持 JDBC 支持支持支持 Kafka 支持不支持支持 Print 不支持不支持支持 Redis 支持支持支持 Upsert Kafka 支持不支持支持

数据湖探索 DLI Connector列表
数据湖探索 DLI-Raw Format:功能描述

功能描述 Raw format 允许读写原始（基于字节）值作为单个列。 Raw Format将 null 值编码成 byte[] 类型的 null。这样在 upsert-kafka 中使用时可能会有限制，因为 upsert-kafka 将 null 值视为墓碑消息（在键上删除）。因此，如果该字段可能具有 null 值，我们建议避免使用 upsert-kafka 连接器和 raw format 作为 value.format。 Raw format 连接器是内置的。更多具体使用可参考开源社区文档：Raw Format。

数据湖探索 DLI
数据湖探索 DLI-Raw Format:参数说明

参数说明表1 参数是否必选默认值类型描述 format 是 (none) String 指定要使用的格式, 这里应该是 'raw'。 raw.charset 否 UTF-8 String 指定字符集来编码文本字符串。 raw.endianness 否 big-endian String 指定字节序来编码数字值的字节。有效值为'big-endian'和'little-endian'。更多细节可查阅字节序。

数据湖探索 DLI
数据湖探索 DLI-Raw Format:数据类型映射

数据类型映射下表详细说明了这种格式支持的 SQL 类型，包括用于编码和解码的序列化类和反序列化类的详细信息。表2 数据类型映射 Flink SQL 类型值 CHAR / VARCHAR / STRING UTF-8（默认）编码的文本字符串。编码字符集可以通过 'raw.charset' 进行配置。 BINARY / VARBINARY / BYTES 字节序列本身。 BOOLEAN 表示布尔值的单个字节，0表示 false, 1 表示 true。 TINYINT 有符号数字值的单个字节。 SMALLINT 采用big-endian（默认）编码的两个字节。字节序可以通过 'raw.endianness' 配置。 INT 采用 big-endian （默认）编码的四个字节。字节序可以通过 'raw.endianness' 配置。 BIGINT 采用 big-endian （默认）编码的八个字节。字节序可以通过 'raw.endianness' 配置。 FLOAT 采用 IEEE 754 格式和 big-endian （默认）编码的四个字节。字节序可以通过 'raw.endianness' 配置。 DOUBLE 采用 IEEE 754 格式和 big-endian （默认）编码的八个字节。字节序可以通过 'raw.endianness' 配置。 RAW 通过 RAW 类型的底层 TypeSerializer 序列化的字节序列。

数据湖探索 DLI
数据湖探索 DLI-Parquet Format:数据类型映射

数据类型映射目前，Parquet 格式类型映射与 Apache Hive 兼容，但与 Apache Spark 有所不同： Timestamp：不论精度，映射 timestamp 类型至 int96。 Decimal：根据精度，映射 decimal 类型至固定长度字节的数组。下表列举了 Flink 中的数据类型与 JSON 中的数据类型的映射关系。注意：复合数据类型暂只支持写不支持读（Array、Map 与 Row）。表2 数据类型映射 Flink数据类型 Parquet类型 Parquet逻辑类型 CHAR / VARCHAR / STRING BINARY UTF8 BOOLEAN BOOLEAN - BINARY / VARBINARY BINARY - DECIMAL FIXED_LEN_BYTE_ARRAY DECIMAL TINYINT INT32 INT_8 SMALLINT INT32 INT_16 INT INT32 - BIGINT INT64 - FLOAT FLOAT - DOUBLE DOUBLE - DATE INT32 DATE TIME INT32 TIME_MILLIS TIMESTAMP INT96 - ARRAY - LIST MAP - MAP ROW - STRUCT

数据湖探索 DLI
数据湖探索 DLI-Orc Format:数据类型映射

数据类型映射 Orc 格式类型的映射和 Apache Hive 是兼容的。下面的表格列出了 Flink 类型的数据和 Orc 类型的数据的映射关系。表2 数据类型映射 Flink数据类型 Orc物理类型 Orc逻辑类型 CHAR bytes CHAR VARCHAR bytes VARCHAR STRING bytes STRING BOOLEAN long BOOLEAN BYTES bytes BINARY DECIMAL decimal DECIMAL TINYINT long BYTE SMALLINT long SHORT INT long INT BIGINT long LONG FLOAT double FLOAT DOUBLE double DOUBLE DATE long DATE TIMESTAMP timestamp TIMESTAMP ARRAY - LIST MAP - MAP ROW - STRUCT

数据湖探索 DLI
数据湖探索 DLI-Ogg Format:参数说明

参数说明表1 参数说明参数是否必须默认值类型描述 format 是 (none) String 指定要使用的格式，此处应为 'ogg-json'。 ogg-json.ignore-parse-errors 否 false Boolean 当解析异常时，是跳过当前字段或行，还是抛出错误失败（默认为 false，即抛出错误失败）。如果忽略字段的解析异常，则会将该字段值设置为null。 debezium-json.timestamp-format.standard 否 'SQL' String 声明输入和输出的时间戳格式。当前支持的格式为'SQL' 以及 'ISO-8601'：可选参数 'SQL' 将会以 "yyyy-MM-dd HH:mm:ss.s{precision}" 的格式解析时间戳, 例如 '2020-12-30 12:13:14.123'，且会以相同的格式输出。可选参数 'ISO-8601' 将会以 "yyyy-MM-ddTHH:mm:ss.s{precision}" 的格式解析输入时间戳, 例如 '2020-12-30T12:13:14.123' ，且会以相同的格式输出。 ogg-json.map-null-key.mode 否 'FAIL' String 指定处理 Map 中 key 值为空的方法. 当前支持的值有 'FAIL', 'DROP' 和 'LITERAL': Option 'FAIL' 将抛出异常。 Option 'DROP' 将丢弃 Map 中 key 值为空的数据项。 Option 'LITERAL' 将使用字符串常量来替换 Map 中的空 key 值。字符串常量的值由 ogg-json.map-null-key.literal 定义。 ogg-json.map-null-key.literal 否 'null' String 当 'ogg-json.map-null-key.mode' 是 LITERAL 的时候，指定字符串常量替换 Map 中的空 key 值。

数据湖探索 DLI
数据湖探索 DLI-Ogg Format:功能描述

功能描述 Oracle GoldenGate (a.k.a ogg) 是一个实现异构 IT 环境间数据实时数据集成和复制的综合软件包。该产品集支持高可用性解决方案、实时数据集成、事务更改数据捕获、运营和分析企业系统之间的数据复制、转换和验证。Ogg 为变更日志提供了统一的格式结构，并支持使用 JSON 序列化消息。 Flink 支持将 Ogg JSON 消息解析为 INSERT/UPDATE/DELETE 消息到 Flink SQL 系统中。在很多情况下，利用这个特性非常有用，例如将增量数据从数据库同步到其他系统日志审计数据库的实时物化视图关联维度数据库的变更历史，等等 Flink 还支持将 Flink SQL 中的 INSERT/UPDATE/DELETE 消息编码为 Ogg JSON 格式的消息, 输出到 Kafka 等存储中。但需要注意, 目前 Flink 还不支持将 UPDATE_BEFORE 和 UPDATE_AFTER 合并为一条 UPDATE 消息. 因此, Flink 将 UPDATE_BEFORE 和 UPDATE_AFTER 分别编码为 DELETE 和 INSERT 类型的 Ogg 消息。

数据湖探索 DLI

共100000条

undefined

意见反馈

0/200

提交取消

提交成功！非常感谢您的反馈，我们会继续努力做到更好反馈提交失败！请稍后重试！