是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
除了系统默认路由,您可以根据需要添加自定义路由规则,将指向目的地址的流量转发到指定的下一跳地址。具体操作请参考添加增强型跨源连接的路由信息 测试网络连通性:验证队列与数据源网络连通性。测试队列与数据源网络连通性。
是否写入脏数据:如果需要将作业执行过程中处理失败的数据、或者被清洗过滤掉的数据写入OBS中,以便后面查看,可通过该参数配置,写入脏数据前需要先配置好OBS连接。这里保持默认值“否”即可,不记录脏数据。
流量费用:用户使用自定义域名通过公网访问OBS时产生的流量费用。 实际产生的费用与存储的文件大小、用户访问所产生的请求次数和流量大小有关,请根据自己的业务进行预估。 DLI 在创建SQL作业前需购买队列,使用DLI的队列资源时,按照队列CU时进行计费。
计费模式 按量付费 按弹性资源池计费 按弹性资源池计费 作业类型 SQL作业 仅SQL作业 Spark作业、Flink OpenSource SQL作业、Flink Jar作业 适用场景 功能测试验证 开发环境调试 小规模数据处理 临时查询任务 交互式SQL查询 数据分析报表 定期数据清洗
Compaction作业是将存量的parquet文件内的数据与新增的log中的数据进行合并,需要消耗较高的内存资源,按照之前的表设计规范以及实际流量的波动结合考虑,建议Compaction作业CPU与内存的比例按照1:4~1:8配置,保证Compaction作业稳定运行。
支持编辑“并行数”,“流量”和“命中率”。 并行数:一个任务的并发数。 流量:算子的数据流量,单位:条/s。 命中率:数据经过算子处理之后的保留率。命中率=算子的数据流出量/流入量,单位:%。 图4 静态流图 父主题: 在DLI管理控制台提交Flink作业
static_estimator_config 否 String 每个算子的流量/命中率配置,json格式的字符串。
分时按需弹性 分钟级别扩缩容,从容应对流量洪峰和资源诉求。 支持分时设置队列优先级和配额,提高资源利用率。 作业级资源隔离(暂未实现,后续版本支持) 支持独立Spark实例运行SQL作业,减少作业间相互影响。