检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
input_row_count Long Insert作业执行过程中扫描记录条数。 bad_row_count Long Insert作业执行过程中扫描到的错误记录数。 input_size Long 作业执行过程中扫描文件的大小,单位字节。
分区扫描参数,具体请参考分区扫描功能介绍。 scan.partition.num 否 无 Integer 分区的个数。分区扫描参数,具体请参考分区扫描功能介绍。 scan.partition.lower-bound 否 无 Integer 第一个分区的最小值。
套餐包类型及适用场景 表1 套餐包类型及适用场景 类型 说明 适用场景 重置规则 扫描数据量套餐包 按照用户每个作业的数据扫描量(单位为“GB”)收取计算费用。 仅适用于default 队列。 扫描数据量套餐的额度按订购周期会重置。
导入数据(load data)作业(作业类型:IMPORT),包括以下信息:队列,作业ID,用户名,类型,状态,执行语句,运行时长,创建时间,结束时间,参数设置,标签,结果条数,已扫描数据,扫描数据条数,错误记录条数,存储路径,数据格式,数据库,表,表头,分隔符,引用字符,转义字符
如果在2023年05月20日15时之前扫描此表(不到一天),则不会回收表分区。如果2023年05月20日回收扫描时发现表分区最后一次表数据被修改的时间(LAST_ACCESS_TIME)超过生命周期指定的时间,则上述分区会被回收。
input_row_count 否 Long Insert作业执行过程中扫描的记录条数。 bad_row_count 否 Long Insert作业执行过程中扫描到的错误记录数。 input_size 是 Long 作业执行过程中扫描文件的大小。
扫描数据量资费=执行SQL时产生的扫描数据量*单价。如果计算任务超时或失败,则本次计算不收取费用。 Flink作业和Spark作业的计费只有计算计费,具体计费规则与SQL作业相同。 具体计费规则可以参考华为云官网价格详情。 。 步骤1:获取消费数据 获取消费明细数据。
input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of objects 作业结果集。
如果使用的是default队列执行作业,则按照扫描量计费。 计费详情可参考《数据湖探索价格详情》。 如果在扣费时间段内没有执行过作业,则请继续排查是否是因为存储了大量数据而产生的计费。具体操作请参考数据存储。 Spark作业 进入“作业管理”>“Spark作业”页面。
input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of objects 作业结果集。
input_size 否 long 作业执行过程中扫描的数据量。 schema 否 Array of Map 作业结果列名称和类型。 rows 否 Array of Objects 作业结果集。
图1 DLI Serverless架构 与传统自建Hadoop集群相比,Serverless架构的DLI还具有以下优势: 表1 Serverless DLI与传统自建Hadoop集群对比的优势 优势 维度 数据湖探索 DLI 自建Hadoop系统 低成本 资金成本 按照实际扫描数据量或者
running spark 熔断 单位:秒 取值范围:1-43200 否 NA Spark 3.3.1 running_0004 Scan data(GB) 扫描数据量的限制。
按照扫描量计费。 1:表示按照CU时收费。 resource_id 否 String 队列的资源ID。 resource_mode 否 Integer 资源模式。 0:共享队列 1:专属队列 enterprise_project_id 否 String 企业项目ID。
相关操作链接:配置SQL防御规则 升级计算引擎到最新版本 开源社区会不定期披露新发现的漏洞,DLI会评估Spark和Flink引擎内核版本的实际风险,发布新的内核版本。为了提升易用性和安全性,建议建立定期版本检查机制,并将大数据作业使用的引擎版本升级为最新。
全局共享模式: 全局共享模式是一种根据SQL查询中实际扫描的数据量来分配计算资源的模式,不支持指定或预留计算资源。 DLI服务预置的“default”队列即为全局共享模式的计算资源,资源的大小是按需分配的。
在预览库表时请选择limit,否则分区表将全表扫描。 父主题: 使用BI工具连接DLI分析数据
initial(默认):在第一次启动时,会先扫描历史全量数据,然后读取最新的Binlog数据。 latest-offset:在第一次启动时,不会扫描历史全量数据,直接从Binlog的末尾(最新的Binlog处)开始读取,即只读取该Connector启动以后的最新变更。
按照扫描量计费。 1:表示按照CU时收费。 resource_id 否 String 队列的资源ID。 enterprise_project_id 否 String 企业项目ID。0”表示default,即默认的企业项目。
在缓存过期后,将重新扫描Hive表以加载最新的数据。 参数 默认值 类型 说明 lookup.join.cache.ttl 60 min Duration 查找连接中构建表的缓存 TTL(例如 10 分钟)。默认情况下,TTL 为 60 分钟。