数据湖探索 DLI-华为云

数据湖探索 DLI-查询配额:响应示例

响应示例 { "quotas": { "resources": [ { "type": "CU", "min": 0, "max": 100000, "quota": 2500, "used": 992 }, { "type": "QUEUE", "min": 0, "max": 1000, "quota": 50000, "used": 53 }, { "type": "DATABASE", "min": 0, "max": 500, "quota": 1000, "used": 593 }, { "type": "TABLE", "min": 0, "max": 10000, "quota": 50000, "used": 8548 }, { "type": "TEMPLATE", "min": 0, "max": 10000, "quota": 1000, "used": 130 }, { "type": "SL_PKG_RESOURCE", "min": 0, "max": 2000, "quota": 50000, "used": 525 }, { "type": "SL_SESSION", "min": 0, "max": 1000, "quota": 300, "used": 2 }, { "type": "JOB_CU", "min": 0, "max": 400, "quota": 400, "used": 0 }, { "type": "ELASTIC_RESOURCE_POOL", "min": 0, "max": 1024, "quota": 5000, "used": 3 } ] }, "is_success": true }

数据湖探索 DLI 配额相关API

数据湖探索 DLI-查询配额:响应参数

响应参数状态码： 200 表2 响应Body参数参数参数类型描述 is_success Boolean 是否查询成功。 quotas object 配额信息列表。请参考表3 表3 quotas 参数参数类型描述 resources Array of objects 配额资源详细信息。请参考表4 表4 resources 参数参数类型描述 type String 配额类型。 min Integer 配额的最小值。 max Integer 配额的最大值。 quota Integer 目前的配额。 used Integer 已用的配额。状态码： 400 表5 响应Body参数参数参数类型描述 error_code String 错误码。 error_msg String 错误描述信息。状态码： 500 表6 响应Body参数参数参数类型描述 error_code String 错误码。 error_msg String 错误描述信息。

数据湖探索 DLI 配额相关API

数据湖探索 DLI-批量停止作业:请求消息

请求消息表2 请求参数说明参数名称是否必选参数类型说明 job_ids 是 Array of Long 作业ID。 trigger_savepoint 否 Boolean 在停止作业之前，用户可以选择是否对作业创建保存点，保存作业的状态信息。类型为boolean。当triggerSavePoint为true时，表示创建保存点。当triggerSavePoint为false时，表示不创建保存点。默认为false。

数据湖探索 DLI

数据湖探索 DLI-更新SQL拦截规则:请求参数

请求参数表2 请求Body参数参数是否必选参数类型描述 rule_name 是 String 规则名称。最小长度：1 最大长度：32 rule_id 是 String 规则类型。枚举值： static_0001 static_0002 static_0003 static_0004 static_0005 static_0006 static_0007 dynamic_0001 dynamic_0002 running_0002 running_0003 running_0004 category 是 String 规则状态类型。枚举值： static dynamic running engine_rules 是 Object 规则详情。 queueNames 是 Array of strings 队列名称。

数据湖探索 DLI

数据湖探索 DLI-批量运行作业:响应示例

响应示例 [ { "is_success": "true", "message": "作业提交请求下发成功" }, { "is_success": "true", "message": "作业提交请求下发成功" }, { "is_success": "true", "message": "作业提交请求下发成功" }, { "is_success": "true", "message": "作业提交请求下发成功" } ]

数据湖探索 DLI Flink作业相关API

数据湖探索 DLI-批量运行作业:请求消息

请求消息表2 请求参数说明参数名称是否必选参数类型说明 job_ids 是 Array of Long 批量作业ID。作业ID可以通过创建作业接口或者查询作业接口获取。 resume_savepoint 否 Boolean 是否将作业从最近创建的保存点恢复。当“resume_savepoint”为“true”时，表示作业从最近创建的保存点恢复。当“resume_savepoint”为“false”时，表示不恢复正常启动。默认为“false”。

数据湖探索 DLI Flink作业相关API

数据湖探索 DLI-绑定/解绑catalog映射信息:响应示例

响应示例状态码： 403 Forbidden { "error_code" : " DLI .0003", "error_msg" : "Forbidden" } 状态码： 404 Not Found { "error_code" : "DLI.0002", "error_msg" : "Not Found" } 状态码： 500 Internal Server Error { "error_code" : "DLI.0999", "error_msg" : "Internal Server Error" }

数据湖探索 DLI 数据目录相关API

数据湖探索 DLI-绑定/解绑catalog映射信息:响应参数

响应参数状态码： 200 表4 响应Body参数参数参数类型描述 message String 系统提示信息，执行成功时，信息可能为空。状态码： 400 表5 响应Body参数参数参数类型描述 error_code String 错误码。 error_msg String 错误描述信息。状态码： 500 表6 响应Body参数参数参数类型描述 error_code String 错误码 error_msg String 失败原因

数据湖探索 DLI 数据目录相关API

数据湖探索 DLI-创建SQL拦截规则:请求参数

请求参数表2 请求参数参数是否必选参数类型描述 rule_name 否 String 规则名称。请参考数据湖探索用户指南中“SQL防御系统规则”。最小长度：1 最大长度：32 rule_id 否 String 规则类型。枚举值： static_0001 static_0002 static_0003 static_0004 static_0005 static_0006 static_0007 dynamic_0001 dynamic_0002 running_0002 running_0003 running_0004 category 否 String 规则状态类型。支持以下枚举值： static dynamic running engine_rules 否 Object 规则详情。 queueNames 否 Array of strings 队列名称。

数据湖探索 DLI SQL作业拦截规则

数据湖探索 DLI-数据湖探索简介:DLI产品结构

DLI产品结构 DLI的产品结构如下：图2 DLI Serverless架构其中核心模块介绍如下：表2 DLI架构核心模块简介模块名称功能说明计算引擎 Spark：支持大规模数据的批处理和交互式分析，提供高性能的分布式计算能力。 Flink：支持实时流处理，能够处理大规模的实时数据流，支持事件时间处理和状态管理。 HetuEngine：支持交互式数据分析，能够快速处理复杂的SQL查询，支持多种数据源的连接和查询。更多HetuEngine请参考产品优势。存储服务使用OBS、数据库存储用于数据分析的结构化或非结构化数据，提供数据的持久化存储服务。数据源连接支持对接云上数据源，例如OBS：对象存储服务，用于存储和管理非结构化数据。RDS关系型数据库服务，用于存储和管理结构化数据。DWS 数据仓库服务，用于高效的数据查询和分析。支持对接云下数据源，例如自建数据库场景，如MySQL、PostgreSQL、HDFS数据。统一资源管理资源解耦：DLI采用存算分离架构，将计算资源和存储资源解耦，您可以根据实际需求灵活调整计算资源和存储资源的配比，提高资源利用率，降低成本。弹性伸缩：DLI计算资源基于容器化Kubernetes，具有极致的弹性伸缩能力。能够根据作业需求自动调整资源配置，响应作业需求。多租户支持：支持计算资源按租户隔离，确保不同租户之间的资源独立。每个租户可以独立管理自己的计算资源，实现资源的精细化管理，帮助企业实现部门间的数据共享和权限管理。计算资源按量付费：您只需为实际使用的计算资源付费，无需预先购买和管理服务器，提高资源的使用效率。统一元数据管理多源元数据整合：DLI支持对多种数据源的元数据进行统一管理，包括云上数据源（如OBS、RDS、DWS、 CSS 等）和云下数据源（如自建数据库、Redis等）。您无需将数据搬迁到统一的数据湖中，即可实现对不同数据源的元数据的管理和分析。元数据同步：DLI提供的元数据管理功能确保元数据的实时性和一致性。元数据查询与管理：DLI提供标准SQL接口，用户可以使用SQL语句查询和管理元数据。支持对元数据的增删改查操作，方便用户进行数据治理和分析。数据安全与权限管理：支持数据目录、数据库和表的权限管理。用户可以对不同租户和用户组设置不同的权限，确保数据的安全性和合规性。行业生态拓展华为云数据湖探索（DLI）通过其强大的Serverless架构和多模引擎支持，能够满足不同行业的多样化需求，推动各行业的数字化转型和创新。

数据湖探索 DLI

数据湖探索 DLI-数据湖探索简介:HetuEngine

HetuEngine 功能特点 HetuEngine是高性能交互式SQL分析及数据虚拟化引擎，能够与大数据生态无缝融合，实现海量数据的秒级交互式查询。 HetuEngine+Lakeformation能够快速处理大规模数据集的查询请求，迅速和高效从大数据中提取信息，极大地简化了数据的管理和分析流程，提升大数据环境下的索引和查询性能。了解更多HetuEngine请参考HetuEngine语法参考。图1 DLI支持HetuEngine+Lakeformation TB级数据秒级响应： HetuEngine通过自动优化资源与负载的配比，能够对TB级数据实现秒级响应，极大提升了数据查询的效率。 Serverless资源开箱即用： Serverless服务模式无需关注底层配置、软件更新和故障问题，资源易维护，易扩展。多种资源类型满足不同场景业务需求：共享资源池：按量计费，提供更具性价比的计算资源。独享资源池：提供独享资源池，满足高性能资源需求。数据生态增强： HetuEngine+Lakeformation支持与永洪BI、FineBI、DBeaver等主流BI工具的对接，增强数据分析领域的应用能力。实时数据处理性能提升5倍： HetuEngine+Lakeformation支持Apache Hudi的COW和MOR表。点查性能上相较于开源的Trino提升5倍，可以更快地响应查询请求，提供实时的数据访问。适用场景适用于大规模数据存储中进行数据查询和分析。

数据湖探索 DLI

数据湖探索 DLI-数据湖探索简介:核心功能

核心功能 DLI详细的功能清单请参考DLI功能总览。表1 DLI核心功能功能分类功能描述 DLI是基于Serverless架构的数据处理和分析服务 DLI是无服务器化的大数据查询分析服务，使用DLI服务您只需为实际使用的弹性计算资源付费，无需维护和管理云服务器。计算资源按量计费：真正的按使用量（扫描量/CU时）计费，不运行作业时0费用。自动扩缩容：根据业务负载，对计算资源进行预估和自动扩缩容。 DLI支持多种类型的计算引擎完全兼容Apache Spark、Apache Flink、HetuEngine等生态，支持标准SQL、Spark SQL、Flink SQL，兼容 CS V、JSON、Parquet和ORC主流数据格式。 Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。 Flink是一款分布式的计算引擎，可以用来做批处理，即处理静态的数据集、历史的数据集；也可以用来做流处理，即实时地处理一些实时数据流，实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强，提供了数据处理所必须的Stream SQL特性。 HetuEngine是提供交互式查询分析能力的开源分布式SQL查询引擎，具备高性能、低延迟的查询处理能力，支持在大规模数据存储中进行数据查询和分析。了解更多HetuEngine请参考产品优势。 DLI支持多种连接方式 DLI提供了多种连接方式满足不同的用户需求和使用场景。 DLI支持的链接方式：控制台方式 API方式 SDK方式客户端工具使用DataArts服务提交DLI作业对接BI工具的可视化分析更多DLI连接方式的介绍请参考DLI连接方式。 DLI支持对接多种数据源的跨源分析 Spark跨源连接：可通过DLI访问CloudTable，DWS，RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》。 Flink跨源支持与多种云服务连通，形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态：云服务生态：数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据。如DIS、OBS、CloudTable、 MRS 、RDS、 SMN 、DCS等。开源生态：通过增强型跨源连接建立与其他VPC的网络连接后，用户可以在数据湖探索的租户授权的队列中访问所有Flink和Spark支持的数据源与输出源，如Kafka、Hbase、ElasticSearch等。具体内容请参见《数据湖探索开发指南》。 DLI支持的三大基本作业类型 SQL作业支持SQL查询功能：可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》。 Flink作业支持Flink SQL在线分析功能：支持Window、Join等聚合函数，用SQL表达业务逻辑，简便快捷实现业务。具体内容请参考Flink OpenSource SQL语法参考。 Spark作业提供全托管式Spark计算特性：用户可通过交互式会话(session)和批处理(batch)方式提交计算任务，在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》。 DLI支持存算分离用户将数据存储到OBS后，DLI可以直接和OBS对接进行数据分析。存算分离的架构下，使得存储资源和计算资源可以分开申请和计费，降低了成本并提高了资源利用率。存算分离场景下，DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储，两种存储策略区别如下：选择多AZ存储，数据将冗余存储至多个AZ中，可靠性更高。选择多AZ存储的桶，数据将存储在同一区域的多个不同AZ。当某个AZ不可用时，仍然能够从其他AZ正常访问数据，适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。选择单AZ存储，数据仅存储在单个AZ中，但相比多AZ更加便宜。收费详情请参见OBS产品价格详情。 DLI通过弹性资源池实现对资源的统一的管理和调度弹性资源池后端采用CCE集群的架构，支持异构，对资源进行统一的管理和调度。详细内容可以参考DLI用户指南的弹性资源池和队列简介。

数据湖探索 DLI

数据湖探索 DLI-数据湖探索简介:什么是数据湖探索

什么是数据湖探索数据湖探索（Data Lake Insight，简称DLI）是完全兼容Apache Spark、Apache Flink、HetuEngine生态，提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器，即开即用。 DLI支持标准SQL/Spark SQL/Flink SQL，支持多种接入方式，并兼容主流数据格式。数据无需复杂的抽取、转换、加载，使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。

数据湖探索 DLI

数据湖探索 DLI-数据湖探索简介:Spark引擎

Spark引擎功能特点： Spark是用于大规模数据处理的统一分析引擎，聚焦于查询计算分析。 DLI在开源Spark基础上进行了大量的性能优化与服务化改造，不仅兼容Apache Spark生态和接口，性能较开源提升了2.5倍，在小时级即可实现EB级数据查询分析。 DLI的Spark引擎支持大规模数据的批处理和交互式分析，提供高性能的分布式计算能力。适用场景：适用于需要进行大规模数据批处理和复杂数据分析的场景。适合对历史数据进行深度挖掘和分析，例如数据仓库中的数据查询和报表生成。

数据湖探索 DLI

数据湖探索 DLI-数据湖探索简介:Flink引擎

Flink引擎功能特点 Flink是一款分布式计算引擎，既可以用于批处理，也可以用于流处理。 DLI在开源Flink基础上进行了特性增强和安全增强，提供了数据处理所需的Stream SQL特性。支持实时流处理，能够处理大规模的实时数据流，支持事件时间处理和状态管理适用场景适用于需要实时处理数据流的场景，例如实时监控系统、实时推荐系统。适合对实时数据进行快速分析和响应，例如金融交易监控、物联网设备数据处理。

数据湖探索 DLI

云服务器内容精选

数据湖探索 DLI