云服务器内容精选

华为云首页用户手册

创建数据集

智能数据洞察 DATAARTS INSIGHT-自定义SQL创建数据集:修改SQL代码

修改SQL代码根据分析场景的改变，存在需要对SQL代码进行修改。登录智能数据洞察控制台。单击管理控制台左上角的，选择区域。单击左下角的企业项目选择企业项目。选择项目，单击项目名称进入项目。在项目中选择数据集。在数据集列表选择由自定义SQL创建的数据集，单击操作列的“编辑”进入数据编辑页面。由自定义SQL创建的数据集，在数据集页面名称列，数据集名称后会有“SQL”字样。单击“SQL编辑”，在SQL编辑页可以对SQL语句进行编辑修改。 SQL编辑器提供了格式化工具，可以对您输入的SQL语句格式化。支持设置SQL参数。参数说明参考设置SQL参数。图2 配置字段单击“运行”，测试运行成功后，您可以在运行页签看到运行后的数据。单击“完成并退出”，保存修改后的数据集。

智能数据洞察 DATAARTS INSIGHT 创建数据集
应用与数据集成平台 ROMA CONNECT-配置任务完成后执行（可选）:配置任务完成后执行

配置任务完成后执行在创建任务页面中配置任务完成后执行信息。表1 任务完成后执行参数配置说明执行动作选择任务完成后是否发送消息。不发送消息：表示任务完成后不发送消息通知。发送消息至Kafka：表示任务完成后发送消息至Kafka。发送消息至MRS Kafka：表示任务完成后发送消息至MRS Kafka。 FDI任务：FDI任务结束后，支持同时自动手工调度最多五个其它普通定时任务。应用选择对应的集成应用。数据源根据“执行动作”选择的数据源类型，选择相同类型数据源。例如执行动作选择的是“发送消息至Kafka”，此处数据源则选择“Kafka”。 Topic 名称选择用户接收消息的Topic。自定义消息内容可以通过${}来引用变量，自定义发送消息的内容。支持的变量如下： taskName：任务名称。 dataCount：数据量。 targetTable：目标表。 dataSize：数据大小。例如，内容${taskName}，表示只发送任务名称。 FDI任务当“执行动作”选择“FDI任务”时需要配置。选择需要执行的下一个FDI任务。如当前任务执行完成而选择的FDI任务如果处于运行中，跳过本次调度。完成配置后，单击“保存”，完成数据集成任务的配置。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（普通任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:SQL Server

SQL Server 返回页首任务的“集成模式”为“定时”时，可以选择SQL Server作为源端数据源，具体配置如下。表13 源端SQL Server信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择SQL Server数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以选择只需要集成的数据列字段。按字段排序仅当“插入SQL”选择不开启时需要配置。要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择SQL Server数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启时需要配置。选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如，上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如，条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为SQL Server的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:Oracle

Oracle 返回页首任务的“集成模式”为“定时”时，可以选择Oracle作为源端数据源，具体配置如下。表10 源端Oracle信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择Oracle数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以选择只需要集成的数据列字段。按字段排序仅当“插入SQL”选择不开启时需要配置。要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择Oracle数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启时需要配置。选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如，上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如，条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为Oracle的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:RabbitMQ

RabbitMQ 返回页首任务的“集成模式”为“实时”时，可以选择RabbitMQ作为源端数据源，具体配置如下。表12 源端RabbitMQ信息参数配置说明是否创建新队列选择是否在源端RabbitMQ数据源创建一个新队列。选择是，表示创建一个新队列，并从该队列获取数据。选择否，表示从已有队列中获取数据。交换方式仅当“是否创建新队列”选择“是”时需要配置。选择RabbitMQ中交换器将消息转发到新队列的路由方式。 Direct：若消息的路由关键字与队列完全匹配，则消息会转发到队列。 Topic：若消息的路由关键字与队列模糊匹配，则消息会转发到队列。 Fanout：所有消息都会转发到队列。 Headers：若消息的Headers属性与队列完全匹配，则消息会转发到队列。交换机名称仅当“是否创建新队列”选择“是”时需要配置。填写RabbitMQ中新队列的交换器名称，自定义。路由关键字仅当“交换方式”选择“Direct”或“Topic”时需要配置。填写新队列的路由关键字，RabbitMQ把路由关键字作为判断条件，符合条件的消息将转发到新队列。消息参数仅当“交换方式”选择“Headers”时需要配置。填写新队列的Headers键值对，RabbitMQ把Headers作为判断条件，符合条件的消息将转发到新队列。队列名称填写要获取数据的消息队列名称。若“是否创建新队列”选择“是”，则自定义一个新的队列名称。若“是否创建新队列”选择“否”，则填写RabbitMQ数据源中已有队列的名称，并确保该队列已存在。自动删除当没有客户端连接队列时，队列是否自动删除。持久化队列中的消息是否持久化保存。元数据指从源端获取到的JSON格式数据中，要集成到目标端的每一个底层key-value型数据元素。别名：对元数据的自定义名称。类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。解析路径：元数据的完整路径，具体请参见元数据解析路径配置说明。元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 以上面JSON格式数据中不含数组的样例为例，源端为RabbitMQ的配置示例如下图所示。图9 RabbitMQ配置示例

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:PostgreSQL

PostgreSQL 返回页首任务的“集成模式”为“定时”时，可以选择PostgreSQL作为源端数据源，具体配置如下。表11 源端PostgreSQL信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择PostgreSQL数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以选择只需要集成的数据列字段。按字段排序仅当“插入SQL”选择不开启时需要配置。要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择PostgreSQL数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启时需要配置。选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如，上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如，条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为PostgreSQL的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:OBS

OBS 返回页首任务的“集成模式”为“定时”时，可以选择OBS（对象存储服务）作为源端数据源，具体配置如下。表9 源端OBS信息参数配置说明 Path 填写OBS数据源中，要获取数据所在的对象名。Path的值不能以斜杠（/）结尾。文件名前缀填写文件名前缀，与“时间格式”配合使用，用于筛选要集成的数据文件。时间格式选择文件名中的时间格式，与“文件名前缀”配合使用，用于筛选要集成的数据文件。文件类型选择从OBS数据源获取的数据文件格式，可选择“txt”，“csv”和“zip”。字段分隔符填写数据文件中的字段分隔符，用于区分每行数据中的不同字段。编码方式选择从OBS数据源获取的数据文件编码方式，可选择“UTF-8”和“GBK”。是否跳过标题选择是否跳过数据文件中的标题行信息。标题为添加在文件中的首行或者开头若干行信息，帮助识别和区分文件内容。标题行数填写数据文件中标题信息的行数，方便ROMA Connect识别文件中的数据起始行。元数据指从源端获取到的数据文件中，要集成到目标端的每一个数据字段。元数据必须按照文件中的字段顺序填写。别名：对元数据的自定义名称。类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。源端为OBS的配置示例如下图所示，id、name和info为从OBS数据源获取，并要集成到目标端的数据字段。图8 OBS配置示例

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:MySQL

MySQL 返回页首任务的“集成模式”为“定时”时，可以选择MySQL作为源端数据源，具体配置如下。表7 源端MySQL信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择MySQL数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以选择只需要集成的数据列字段。按字段排序仅当“插入SQL”选择不开启时需要配置。要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择MySQL数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启且“插入SQL”不开启时需要配置。用于校验数据行是否符合数据集成条件，请选择一个“DATE”类型的字段。如果时间戳字段和时间戳初始值填写不完整，此任务默认为全量集成。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如，上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如，条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。以上面JSON格式数据中含数组的样例为例，目标端为MySQL的配置示例如下所示。增量迁移配置示例，数据表中需包含DATE、TIME或TIMESTAMP类型的字段，用作时间戳字段。图6 MySQL增量迁移配置示例扩展元数据配置示例，从数据表的desc字段中获取子元素c和d。图7 MySQL扩展元数据配置示例

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:MongoDB

MongoDB 返回页首任务的“集成模式”为“定时”时，可以选择MongoDB作为源端数据源，具体配置如下。表8 源端MongoDB信息参数配置说明源表选择MongoDB数据源中要获取数据的数据集合（数据集合相当于关系型数据库的数据表）。选择数据集合后，单击“选择集合字段”，可以选择只需要集成的数据列字段。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时间戳字段仅当“是否增量迁移”选择开启时需要配置。选择数据表中DATE、TIME或TIMESTAMP类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。时区仅当“是否增量迁移”选择开启时需要配置。选择MongoDB数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如，上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为MongoDB的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:DWS

DWS 返回页首任务的“集成模式”为“定时”时，可以选择DWS（数据仓库服务）作为源端数据源，具体配置如下。表5 源端DWS信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如：语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择DWS数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以选择只需要集成的数据列字段。按字段排序仅当“插入SQL”选择不开启时需要配置。要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择DWS数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启且“插入SQL”不开启时需要配置。选择数据表中“DATE”类型的字段作为源端数据的时间戳，用来判断数据是否满足增量集成的条件。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如：上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如：条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为DWS的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:DB2

DB2 返回页首任务的“集成模式”为“定时”时，可以选择DB2作为源端数据源，具体配置如下。表4 源端DB2信息参数配置说明插入SQL 选择是否使用SQL语句来获取源端数据。开启，表示ROMA Connect根据填写的SQL语句来获取源端数据。不开启，表示ROMA Connect根据界面配置的条件来获取源端数据。若选择开启，则还需要填写查询数据的SQL语句。填写的语句必须为select语句并包含where条件，不能使用insert、update、delete、drop等语句。单击“检测SQL”，可以检测语句的有效性。例如，语句SELECT col01, col02 FROM table01 WHERE col02 IN('A', 'B', 'C') ORDER BY col01，表示从table01数据表中选取col01和col02这两列的数据，筛选列col02中值为A、B或C的数据行，并按照列col01的值进行顺序排列。源端表仅当“插入SQL”选择不开启时需要配置。选择DB2数据源中要获取数据的数据表。选择数据表后，单击“选择表字段”，可以只选择需要集成的数据列字段，例如：ID。按字段排序仅当“插入SQL”选择不开启时需要配置。配置要集成的数据是否按字段排序。若需要对集成的数据进行排序，则需要选择排序的参照字段，并选择“升序”或“降序”排序。是否增量迁移选择是否只集成指定时间段内的数据。首次调度采集是采集时间戳初始值到当前调度时间之间的数据，后续每一次调度采集的数据为上次采集成功的时间到当前时间之间的数据。时区仅当“是否增量迁移”选择开启时需要配置。选择DB2数据源使用的时区，以便ROMA Connect识别数据的时间戳。时间戳字段仅当“是否增量迁移”选择开启且“插入SQL”不开启时需要配置。用于校验数据行是否符合增量集成条件，请选择一个“DATE”类型的字段。如果时间戳字段和时间戳初始值填写不完整，此任务默认为全量集成。时间戳初始值仅当“是否增量迁移”选择开启时需要配置。首次集成数据时，要集成数据的起始时间，即只集成该时间点之后的数据。重置迁移时间初始值该参数仅在编辑FDI任务时可配置。选择是否开启重置迁移时间初始值。开启：开启后，增量迁移时每次调度时开始的时间为时间戳初始值配置的时间。关闭：关闭时，增量迁移时每次调度的开始时间为上一次调度的结束时间。时间补偿(毫秒) 仅当“是否增量迁移”选择开启时需要配置。为了避免源端生成数据时存在滞后，导致ROMA Connect查询源端增量数据出现遗漏，可通过时间补偿进行调整。获取数据的结束时间为当前系统时间减去时间补偿值。例如：上一次增量迁移任务的结束时间是15:05，本次定时任务在17:00触发，时间补偿设为100ms，则本次增量迁移任务要集成数据的时间区间为“15:05~（17:00-100ms）”。条件筛选仅当“插入SQL”选择不开启时需要配置。添加要集成数据的筛选条件，只把满足条件的源端数据集成到目标端。例如：条件“and | col02 | equal | A”表示只集成列col02中，值为“A”的数据行。扩展元数据仅当“插入SQL”选择不开启时需要配置。当数据库中某个字段的值为JSON格式，且需要采集该JSON格式值中的底层key-value型数据元素时需要配置。字段名：选择源表中需要采集子元素的数据字段名称。类型：JSON格式字段值中，要采集的数据元素的数据类型。解析路径：数据元素在JSON格式值中的完整路径，具体请参见扩展元数据解析路径配置说明。扩展元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。 { "a": { "b": { "c": "xx", "d": "xx" } } } JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。此场景下，元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 增量迁移不支持将源端数据表中的物理删除操作同步给目标端，建议在源端使用逻辑删除。对于源端的数据变更，需要同步更新数据行的时间戳，ROMA Connect通过时间戳与任务执行时间点进行对比，识别需增量迁移的数据。源端为DB2的配置与MySQL的类似，配置示例可参考MySQL配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:Kafka

Kafka 返回页首任务的“集成模式”为“实时”时，可以选择Kafka作为源端数据源，具体配置如下。表6 源端Kafka信息参数配置说明 Topic名称选择要获取数据的Topic名称。数据根字段指从源端获取到的JSON格式数据中，元数据集上层公共字段的路径。“数据根字段”与元数据的“解析路径”组合，即为元数据的完整路径，具体请参见元数据解析路径配置说明。数据类型选择从Kafka数据源获取的数据格式类型，需要与Kafka实际存储的数据格式一致，可选择格式为“JSON”。消费偏移设置选择集成最早获取的消息数据还是最新获取的消息数据。时区选择Kafka数据源使用的时区，以便ROMA Connect识别数据的时间戳。元数据指从源端获取到的JSON格式数据中，要集成到目标端的每一个底层key-value型数据元素。别名：对元数据的自定义名称。类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。解析路径：元数据的完整路径中，不包含数据根字段的路径部分，具体请参见元数据解析路径配置说明。元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": { "c": "xx", "d": "xx" } } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b.c，元素d的解析路径需设置为b.d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为c，元素d的解析路径需设置为d。 JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b[i].c，元素d的解析路径需设置为b[i].d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为[i].c，元素d的解析路径需设置为[i].d。以上面JSON格式数据中不含数组的样例为例，源端为Kafka的配置示例如下图所示。图5 Kafka配置示例

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:ArtemisMQ

ArtemisMQ 返回页首任务的“集成模式”为“实时”时，可以选择ArtemisMQ作为源端数据源。在创建任务页面中配置源端信息。表3 源端ArtemisMQ信息参数配置说明目标端类型选择ArtemisMQ数据源的消息传递模型，可选择“Topic”和“Queue”。目标端名称填写要获取数据的Topic或Queue名称，请确保该Topic或Queue已存在。数据根字段指从源端获取到的JSON格式数据中，元数据集上层公共字段的路径。“数据根字段”与元数据的“解析路径”组合，即为元数据的完整路径，具体请参见元数据解析路径配置说明。元数据指从源端获取到的JSON格式数据中，要集成到目标端的每一个底层key-value型数据元素。别名：对元数据的自定义名称。类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。解析路径：元数据的完整路径中，不包含数据根字段的路径部分，具体请参见元数据解析路径配置说明。元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": { "c": "xx", "d": "xx" } } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b.c，元素d的解析路径需设置为b.d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为c，元素d的解析路径需设置为d。 JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b[i].c，元素d的解析路径需设置为b[i].d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为[i].c，元素d的解析路径需设置为[i].d。源端为ArtemisMQ的配置与ActiveMQ的类似，配置示例可参考ActiveMQ配置示例。

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:ActiveMQ

ActiveMQ 返回页首任务的“集成模式”为“实时”时，可以选择ActiveMQ作为源端数据源，具体配置如下。表2 源端ActiveMQ信息参数配置说明目标端类型选择ActiveMQ数据源的消息传递模型，支持“Topic”和“Queue”两种消息传递模型。目标端名称填写要获取数据的Topic或Queue名称，请确保该Topic或Queue已存在。数据根字段指从源端获取到的JSON格式数据中，元数据集上层公共字段的路径。“数据根字段”与元数据的“解析路径”组合，即为元数据的完整路径，具体请参见元数据解析路径配置说明。元数据指从源端获取到的JSON格式数据中，要集成到目标端的每一个底层key-value型数据元素。别名：对元数据的自定义名称。类型：元数据的数据类型，需要与源端数据中对应字段的数据类型一致。解析路径：元数据的完整路径中，不包含数据根字段的路径部分，具体请参见元数据解析路径配置说明。元数据解析路径配置说明： JSON格式数据中不含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b.c，元素d的完整路径为a.b.d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": { "c": "xx", "d": "xx" } } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b.c，元素d的解析路径需设置为a.b.d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b.c，元素d的解析路径需设置为b.d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为c，元素d的解析路径需设置为d。 JSON格式数据中含数组如以下JSON格式数据，元素a的完整路径定义为a，元素b的完整路径为a.b，元素c的完整路径为a.b[i].c，元素d的完整路径为a.b[i].d。元素c和d为底层数据元素，即需要通过ROMA Connect集成到目标端的数据。 { "a": { "b": [{ "c": "xx", "d": "xx" }, { "c": "yy", "d": "yy" } ] } } 此场景下，对于数据根字段和解析路径有三种配置方案：数据根字段不设置元素c的解析路径需要设置为a.b[i].c，元素d的解析路径需设置为a.b[i].d。数据根字段设置为a 元数据的解析路径从元素a的下层路径开始。元素c的解析路径需要设置为b[i].c，元素d的解析路径需设置为b[i].d。数据根字段设置为a.b 元数据的解析路径从元素b的下层路径开始。元素c的解析路径需要设置为[i].c，元素d的解析路径需设置为[i].d。以上面JSON格式数据中不含数组的样例为例，源端为ActiveMQ的配置示例如下图所示。图4 ActiveMQ配置示例

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）
应用与数据集成平台 ROMA CONNECT-配置源端数据信息:概述

概述本节主要介绍编排任务连接后的连接配置。提供了编排任务源端信息的配置说明。源端信息用于告诉ROMA Connect如何从源端获取待集成的数据，包括数据源、数据格式、数据范围等。对于不同的数据源类型，其源端信息配置有所差异。支持“定时”模式的源端数据类型支持“实时”模式的源端数据类型 API DB2 DWS MySQL MongoDB OBS Oracle PostgreSQL SQL Server ActiveMQ ArtemisMQ Kafka RabbitMQ

应用与数据集成平台 ROMA CONNECT 创建数据集成任务（编排任务）