数据湖探索 DLI-开源Kafka输入流:关键字

时间：2023-11-10 09:20:52

数据湖探索 DLI

关键字

表1 关键字说明
参数	是否必选	说明
type	是	数据源类型，“Kafka”表示数据源。
kafka_bootstrap_servers	是	Kafka的连接端口，需要确保能连通（需要通过增强型跨源开通DLI队列和Kafka集群的连接）。
kafka_group_id	否	group id。
kafka_topic	是	读取的Kafka的topic。目前只支持读取单个topic。
encode	是	数据编码格式，可选为“csv”、“json”、“blob”和“user_defined”。若编码格式为“csv”，则需配置“field_delimiter”属性。若编码格式为“json”，则需配置“json_config”属性。当编码格式为"blob"时，表示不对接收的数据进行解析，当前表仅能有一个且为Array[TINYINT]类型的表字段。若编码格式为“user_defined”，则需配置“encode_class_name”和“encode_class_parameter”属性。
encode_class_name	否	当encode为user_defined时，需配置该参数，指定用户自实现解码类的类名（包含完整包路径），该类需继承类DeserializationSchema。
encode_class_parameter	否	当encode为user_defined时，可以通过配置该参数指定用户自实现解码类的入参，仅支持一个string类型的参数。
json_config	否	当encode为json时，用户可以通过该参数指定json字段和流属性字段的映射关系。格式："field1=json_field1;field2=json_field2" 格式说明：field1、field2为创建的表字段名称。json_field1、json_field2为kafka输入数据json串的key字段名称。具体使用方法可以参考示例说明。说明：如果定义的source stream中的属性和json中的属性名称相同，json_configs可以不用配置。
field_delimiter	否	当encode为csv时，用于指定csv字段分隔符，默认为逗号。
quote	否	可以指定数据格式中的引用符号，在两个引用符号之间的属性分隔符会被当做普通字符处理。当引用符号为双引号时，请设置quote = "\u005c\u0022"进行转义。当引用符号为单引号时，则设置quote = "'"。说明：目前仅适用于CSV格式。设置引用符号后，必须保证每个字段中包含0个或者偶数个引用符号，否则会解析失败。
start_time	否	kafka数据读取起始时间。当该参数配置时则从配置的时间开始读取数据，有效格式为yyyy-MM-dd HH:mm:ss。start_time要不大于当前时间，若大于当前时间，则不会有数据读取出。该参数配置后，只会读取Kafka topic在该时间点后产生的数据。
kafka_properties	否	可通过该参数配置kafka的原生属性，格式为"key1=value1;key2=value2"。具体的属性值可以参考Apache Kafka中的描述。
kafka_certificate_name	否	跨源认证信息名称。跨源认证信息类型为“Kafka_SSL”时，该参数有效。说明：指定该配置项时，服务仅加载该认证下指定的文件和密码，系统将自动设置到“kafka_properties”属性中。 Kafka SSL认证需要的其他配置信息，需要用户手动在“kafka_properties”属性中配置。