[快速入门]数据湖DLI支持何种生态
湖仓构建

提供兼容Ranger的权限接口,一次授权,统一生效。 — 提供迁移工具,支持存量集群相关元数据的平滑迁移。 数智融合 数智融合 打通大数据数据壁垒,实现真正数智融合 —支持数据库、表、UDF模型、非结构化数据集等统一管理。 — 实现统一的细粒度数据权限管理,支持服务/跨集群的数据共享。

表格存储服务

搭配使用 数据湖探索 DLI数据迁移 CDM 消息日志类数据存储和查询 消息日志类数据存储和查询 CloudTable(HBase)满足消息或日志类数据的高速查询后展现或者返回到应用。适用于以下等场景:消息数据、报表数据、推荐类数据、风控类数据、日志数据、订单数据等结构化、半

数据仓库服务 GaussDB(DWS)

逻辑集群,支持一套集群容纳数据集市、数据仓库 搭配使用 数据接入服务 DIS 云数据迁移 CDM 数据湖治理中心 DataArts Studio 一站式BI解决方案 一站式BI解决方案 企业积累的海量数据及各种数据资产,体量庞大,需高性能大数据平台支撑进行全量数据分析和挖掘。依托

数据接入服务 DIS

数据自由流动 支持多种数据支持多种数据源 DIS支持从用户应用系统、kafka系统、Flume系统做实时数据采集 DIS支持从用户应用系统、kafka系统、Flume系统做实时数据采集 多种数据接入方式 多种数据接入方式 提供RestAPI、SDK、Agent等多种数据接入方

MapReduce服务

,海量数据毫秒级点查,数据分钟级更新,填补社区技术空白;Hetu,统一SQL、跨源跨域查询 核心能力提升 软硬结合等垂直协同优化-高可用:首个支持单集群跨AZ的大数据服务 场景适用服务 MapReduce服务 MRS 对象存储服务 OBS 车联网行业 车联网 基于开源生态,提供快

实时流计算服务

实时流计算CS已与数据湖探索DLI进行了合并,同SPU资源下 数据湖探索DLI 价格下降30%,请前往体验> 进入DLI控制台 立即购买 [退市通知] 华为云实时流计算服务于2020年11月1日00:00:00(北京时间)退市,原有功能已合并到DLI [进入DLI] 数据湖探索DLI主页 [退市通知]

智能数据湖_FusionInsight_数据湖应用场景_大数据-华为云

FusionInsight全景图 类别 场景 服务 优势 多元分析 一站式大数据平台 云原生数据湖 MRS 全球累计交付30万+节点,30%性价比提升 全托管大数据服务 数据湖探索 DLI 流、批、交互式一体,AIl in SQL,秒级扩缩容 数据仓库 云数据仓库 GaussDB(DWS) 软硬协同性能提升30%,兼容标准SQL

数据治理中心

了解更多 产品功能 一站式数据入湖 统一数据开发 企业级架构指标 智能数据质量 全域数据资产 全局数据湖安全 一站式数据入湖 DataArts Studio数据集成 支持自建和云上的关系数据库,数据仓库,NoSQL,大数据服务,对象存储等30+同构/异构数据源,基于分布式计算框架,

华为云会议生态硬件

规模的会议室。 Yealink CP50 支持拾音放音一体的视频会议全向麦克风,搭载亿联领先的音频技术及AI算法技术。 了解详情 → Yealink CPE40 支持拾音放音一体的视频会议全向麦克风,为CP50的扩展全向麦克风,最多支持1+7台级联。 了解详情 → 其他配件 华为投屏器IdeaShare

[相关产品]数据湖DLI支持何种生态
51cloudlink

51CloudLink(弹性混合云专线),基于锐速全球骨干传输网,连接企业与大规模公有云,为客户提供的高速专线服务。1、用于搭建企业自有计算环境到公有云用户计算环境的高速、稳定、安全的专属通道。用户可使用专线接入服务将本地数据中心的计算机与云上的云服务器或托管主机实现私网相连,充

华为云智能数据培训服务

.华为云大数据工作级开发者认证培训定位于培养了解一站式大数据平台MRS、数据湖治理中心DGC的架构,掌握MRS常用组件、DGC工作流及华为数据湖探索服务DLI的使用方案,熟知华为大数据搬迁方案的大数据开发工程师及数据治理工程师。课程内容:大数据挑战&发展趋势,华为大数据解决方案,

hadoop生态组件

loudera开源的日志收集系统,具有分布式,高可靠,高容错,易于定制和扩展的特点。他将数据从产生,传输,处理并写入目标的路径的过程抽象为数据流,在具体的数据流中,数据支持在flume中定制数据发送方,从而支持收集各种不同协议数据。spark:spark是个开源的数据 分析集群

鸿蒙生态驻场专业服务

提供鸿蒙生态解决方案服务,协同鸿蒙生态系统协同开发设计,拓展鸿蒙生态建设中级工程师, 1-3年工作经验,服务内容:1、提供面向鸿蒙生态的设备迁移适配、应用软件迁移适配、设备上云适配等开发支持服务,协助客户完成环境搭建、测试工具使用,以及稳定性、功耗、性能等优化服务。2、有鸿蒙项目

河湖生态智慧管护平台

构建“一河一网一平台两中心”服务框架,融合卫星遥感、无人机(船)、物联网、大数据等新一代信息技术,打造河湖生态智慧运营服务体系,实现“管理精细化、巡查标准化、考核指标化”,推动河湖长制“有名”“有实”“有能”“有效”,建设幸福河湖。4、数字集成的核心技术,2、以客户为中心的服务理念,1、产业链级的应用服务体系

WeLink支持服务

辽宁拓云基于华为云WeLink的支持服务,提供产品演示、使用咨询、后台设置、功能指导等服务。商品说明 交付方式: 人工服务适用于: Windows/Linux/Android/iOS 辽宁拓云提供基于华为云WeLink的支持服务,提供产品演示、使用咨询、案例讲解、后台设置、功能指导等服务服务内容: (

WeLink支持服务

武汉德发提供基于华为云WeLink的支持服务,提供产品演示、使用咨询、后台设置、功能指导等服务【基础版】 服务价格: 1人天上门服务,单价2500元/套。 服务内容: (1)上门服务:1对1指导部署,产品操作演示方案讲解;帮助设置考勤、审批等常用应用;分享同行优秀管理案例; (2) 远程支持:管理员后台配置修改;使用咨询。

WeLink支持服务

功能指导等服务服务价格基础版:1人天上门——2500/套;白银版:5人天上门+全年远程支持——10000/套年黄金版:10人天上门+全年远程支持——18000/套年铂金版:15人天上门+全年远程支持——22500/套年全年人员外包模式——1500/人天基础版上门支持:1、WeL

WeLink支持服务

湖南轩利提供基于华为云WeLink的支持服务,可以上门服务,也可以远程支持,多种模式选择。基准版:1人天上门 价格:2500元/次 服务内容: 1、WeLink产品介绍; 2、WeLink产品操作演示及讲解; 3、管理员后台基本功能指导。 交付标准: 1、帮助企业开通WeLink服务; 2、完成常用功能演示;

[相似文章]数据湖DLI支持何种生态
什么是数据湖探索服务_数据湖探索DLI用途与特点

管Spark队列上进行数据分析。 支持数据源分析: Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源。 Flink跨源支持与多种云服务连通,形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态: 开源生态:通过增强型跨源连接建立

什么是跨源连接-数据湖探索DLI跨源连接

跨源连接的特点与用途 DLI支持原生Spark的跨源连接能力,并在其基础上进行了扩展,能够通过SQL语句、Spark作业或者Flink作业访问其他数据存储服务并导入、查询、分析处理其中的数据数据湖探索跨源连接的功能是打通数据源之间的网络连接。 数据湖探索跨源连接的功能是打通数据源之间的网络

什么是Spark SQL作业_数据湖探索DLISpark SQL作业

使用DLI提交SQL作业查询OBS数据 DLI可以查询存储在OBS中的数据,本例介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 DLI可以查询存储在OBS中的数据,本例介绍使用DLI提交SQL作业查询OBS数据的操作步骤。 创建并提交Spark SQL作业 使用DLI提交SQL作业查询RDS MySQL数据

什么是弹性资源池_数据湖探索DLI弹性资源池

更多相关文章精选推荐,带您了解更多华为云数据湖探索的弹性资源池 弹性资源池相关的API 创建弹性资源池 查询所有弹性资源池 删除弹性资源池 修改弹性资源池信息 查询弹性资源池所属队列 Flink OpenSource SQL中弹性资源池的使用 从Kafka读取数据写入到RDS 从Kafka读取数据写入到DWS

什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource SQL

汽车驾驶的实时数据信息为数据源发送到Kafka中,再将Kafka数据的分析结果输出到DWS中 从Kafka读取数据写入到DWS PostgreSQL CDC读取数据写入到DWS 通过创建PostgreSQL CDC来监控Postgres的数据变化,并将数据信息插入到DWS数据库中。 通过创建PostgreSQL

Serverless 应用生态

工具链 Serverless 函数计算 Serverless 触发器 Serverless 应用托管 Serverless 应用中心 函数应用程序由FunctoinGraph函数、触发器和其他资源组合而成,这些资源相互配合,共同执行任务。Serverless应用中心为您提供了丰富的预置应用模板,帮助你一键快速部署函数应用

华为云内容审核服务_内容审核有什么作用_华为云内容审核的优势

什么是跨源连接-数据湖探索DLI跨源连接 什么是数据湖探索服务_数据湖探索DLI用途与特点 什么是Spark SQL作业_数据湖探索DLISpark SQL作业 什么是弹性资源池_数据湖探索DLI弹性资源池 什么是Flink OpenSource SQL_数据湖探索_Flink OpenSource

大数据应用范围有哪些_大数据技术与应用要学习什么课程

运营平台,提供数据集成、数据开发、数据治理、数据服务数据可视化等功能,支持行业知识库智能化建设,支持数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。 数据接入服务 数据接入服务(Data Ingestion Service,简称DIS)可让您轻松收集

数据治理中心_数据开发_数据开发能力_脚本和节点介绍-华为云

种角色。 数据集成集群:一个数据集成集群运行在一个弹性云服务器之上,用户可以在集群中创建数据迁移作业,在云上和云下的同构/异构数据源之间批量迁移数据数据源:即数据的来源,本质是讲存储或处理数据的媒介,比如:关系型数据库、数据仓库、数据湖等。每一种数据源不同,其数据的存储、传输

数据湖DLI支持何种生态

什么是数据湖探索

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache SparkApache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。

DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTableRDSDWS CSS OBS ECS 自建 数据库 以及线下数据库的异构数据进行探索。

视频简介

视频介绍什么是数据湖探索服务。

DLI计算引擎

DLI提供了多种计算引擎,Spark引擎、Flink引擎、HetuEngine,分别适用于不同的数据处理场景。

Spark更适合大规模数据的批处理和复杂分析,而Flink则在实时流处理方面表现出色。HetuEngine是高性能交互式SQL分析及数据虚拟化引擎。

Spark引擎

  • 功能特点

    Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。

    DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。

    DLI的Spark引擎支持大规模数据的批处理和交互式分析,提供高性能的分布式计算能力。

  • 适用场景
    • 适用于需要进行大规模数据批处理和复杂数据分析的场景。
    • 适合对历史数据进行深度挖掘和分析,例如 数据仓库 中的数据查询和报表生成。

Flink引擎

  • 功能特点
    • Flink是一款分布式计算引擎,既可以用于批处理,也可以用于流处理。
    • DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所需的Stream SQL特性。
    • 支持实时流处理,能够处理大规模的实时数据流,支持事件时间处理和状态管理
  • 适用场景
    • 适用于需要实时处理数据流的场景,例如实时监控系统、实时推荐系统。
    • 适合对实时数据进行快速分析和响应,例如金融交易监控、物联网设备数据处理。

HetuEngine

  • 功能特点

    HetuEngine是高性能交互式SQL分析及数据虚拟化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。

    HetuEngine+Lakeformation能够快速处理大规模数据集的查询请求,迅速和高效从大数据中提取信息,极大地简化了数据的管理和分析流程,提升大数据环境下的索引和查询性能。

    了解更多HetuEngine请参考HetuEngine语法参考

    图1 DLI支持HetuEngine+Lakeformation
    • TB级数据秒级响应

      HetuEngine通过自动优化资源与负载的配比,能够对TB级数据实现秒级响应,极大提升了数据查询的效率。

    • Serverless资源开箱即用:

      Serverless服务模式无需关注底层配置、软件更新和故障问题,资源易维护,易扩展。

    • 多种资源类型满足不同场景业务需求:

      共享资源池:按量计费,提供更具性价比的计算资源。

      独享资源池:提供独享资源池,满足高性能资源需求。

    • 数据生态增强:

      HetuEngine+Lakeformation支持与永洪BI、FineBI、DBeaver等主流BI工具的对接,增强数据分析领域的应用能力。

    • 实时数据处理性能提升5倍:

      HetuEngine+Lakeformation支持Apache Hudi的COW和MOR表。点查性能上相较于开源的Trino提升5倍,可以更快地响应查询请求,提供实时的数据访问。

  • 适用场景

    适用于大规模数据存储中进行数据查询和分析。

核心功能

DLI详细的功能清单请参考DLI功能总览

表1 DLI核心功能

功能分类

功能描述

DLI是基于Serverless架构的数据处理和分析服务

DLI是无服务器化的大数据查询分析服务,使用DLI服务您只需为实际使用的弹性计算资源付费,无需维护和管理 云服务器

  • 计算资源按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
  • 自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。

DLI支持多种类型的计算引擎

完全兼容Apache Spark、Apache Flink、HetuEngine等生态,支持标准SQL、Spark SQL、Flink SQL,兼容 CS V、JSON、Parquet和ORC主流数据格式。

  • Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
  • Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream SQL特性。
  • HetuEngine是提供交互式查询分析能力的开源分布式SQL查询引擎,具备高性能、低延迟的查询处理能力,支持在大规模数据存储中进行数据查询和分析。了解更多HetuEngine请参考产品优势

DLI支持多种连接方式

DLI提供了多种连接方式满足不同的用户需求和使用场景。

DLI支持的链接方式:

  • 控制台方式
  • API方式
  • SDK方式
  • 客户端工具
  • 使用DataArts服务提交DLI作业
  • 对接BI工具的可视化分析

更多DLI连接方式的介绍请参考DLI连接方式

DLI支持对接多种数据源的跨源分析

  • Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》
  • Flink跨源支持与多种云服务连通,形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态:
    • 云服务生态:数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据。如DIS、OBS、CloudTable、 MRS 、RDS、 SMN 、DCS等。
    • 开源生态:通过增强型跨源连接建立与其他 VPC 的网络连接后,用户可以在数据湖探索的租户授权的队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。

    具体内容请参见《数据湖探索开发指南》

DLI支持的三大基本作业类型

  • SQL作业支持SQL查询功能:可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》
  • Flink作业支持Flink SQL在线分析功能:支持Window、Join等聚合函数,用SQL表达业务逻辑,简便快捷实现业务。具体内容请参考Flink OpenSource SQL语法参考
  • Spark作业提供全托管式Spark计算特性:用户可通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》

DLI支持存算分离

用户将数据存储到OBS后,DLI可以直接和OBS对接进行数据分析。存算分离的架构下,使得存储资源和计算资源可以分开申请和计费,降低了成本并提高了资源利用率。

存算分离场景下,DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储,两种存储策略区别如下:

  • 选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,仍然能够从其他AZ正常访问数据,适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。
  • 选择单AZ存储,数据仅存储在单个AZ中,但相比多AZ更加便宜。收费详情请参见OBS产品价格详情

DLI通过弹性资源池实现对资源的统一的管理和调度

弹性资源池后端采用 CCE 集群的架构,支持异构,对资源进行统一的管理和调度。

详细内容可以参考DLI用户指南的弹性资源池和队列简介

DLI产品结构

DLI的产品结构如下:

图2 DLI Serverless架构

其中核心模块介绍如下:

表2 DLI架构核心模块简介

模块名称

功能说明

计算引擎

  • Spark:支持大规模数据的批处理和交互式分析,提供高性能的分布式计算能力。
  • Flink:支持实时流处理,能够处理大规模的实时数据流,支持事件时间处理和状态管理。
  • HetuEngine:支持交互式数据分析,能够快速处理复杂的SQL查询,支持多种数据源的连接和查询。更多HetuEngine请参考产品优势

存储服务

使用OBS、数据库存储用于数据分析的结构化或非结构化数据,提供数据的持久化存储服务。

数据源连接

  • 支持对接云上数据源,例如OBS: 对象存储 服务,用于存储和管理非结构化数据。RDS关系型数据库服务,用于存储和管理结构化数据。DWS数据仓库服务,用于高效的数据查询和分析。
  • 支持对接云下数据源,例如自建数据库场景,如MySQL、 PostgreSQL 、HDFS数据。

统一资源管理

  • 资源解耦:DLI采用存算分离架构,将计算资源和存储资源解耦,您可以根据实际需求灵活调整计算资源和存储资源的配比,提高资源利用率,降低成本。
  • 弹性伸缩 :DLI计算资源基于容器化Kubernetes,具有极致的弹性伸缩能力。能够根据作业需求自动调整资源配置,响应作业需求。
  • 多租户支持:支持计算资源按租户隔离,确保不同租户之间的资源独立。每个租户可以独立管理自己的计算资源,实现资源的精细化管理,帮助企业实现部门间的数据共享和权限管理。
  • 计算资源按量付费:您只需为实际使用的计算资源付费,无需预先购买和管理服务器,提高资源的使用效率。

统一元 数据管理

  • 多源元数据整合:DLI支持对多种数据源的元数据进行统一管理,包括云上数据源(如OBS、RDS、DWS、CSS等)和云下数据源(如自建数据库、Redis等)。您无需将数据搬迁到统一的数据湖中,即可实现对不同数据源的元数据的管理和分析。
  • 元数据同步:DLI提供的元数据管理功能确保元数据的实时性和一致性。
  • 元数据查询与管理:DLI提供标准SQL接口,用户可以使用SQL语句查询和管理元数据。支持对元数据的增删改查操作,方便用户进行 数据治理 和分析。
  • 数据安全与权限管理:支持数据目录、数据库和表的权限管理。用户可以对不同租户和用户组设置不同的权限,确保数据的安全性和合规性。

行业生态拓展

华为云数据湖探索(DLI)通过其强大的Serverless架构和多模引擎支持,能够满足不同行业的多样化需求,推动各行业的数字化转型和创新。

如何访问DLI

云服务平台提供了Web化的服务管理平台,既可以通过管理控制台和基于HTTPS请求的API(Application programming interface)管理方式来访问DLI,又可以通过JDBC客户端连接DLI服务端。

更多DLI连接方式请参考DLI连接方式

  • 管理控制台方式

    提交SQL作业、Spark作业或Flink作业,均可以使用管理控制台方式访问DLI服务。

    登录管理控制台,从主页选择“EI企业智能”>“EI大数据”>“数据湖探索”。

  • API方式

    如果用户需要将云平台上的DLI服务集成到第三方系统,用于二次开发,可以使用API方式访问DLI服务。

    具体操作请参见《数据湖探索API参考》

  • JDBC

    DLI支持使用JDBC连接服务端进行数据查询操作。具体内容请参考《数据湖探索开发指南》

  • 数据治理中心 DataArts Studio

    数据治理中心 DataArts Studio 具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

    在DataArts Studio管理中心控制台创建数据连接即可访问DLI,进行数据分析。

    关于DataArts Studio的操作指导请参考《数据治理中心产品文档》。

数据湖DLI支持何种生态常见问题

更多常见问题 >>
  • 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。

  • 数据湖探索DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。

  • 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、Trino生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。

  • DLI服务适用于海量日志分析、异构数据源联邦分析、大数据ETL处理。

  • DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet和ORC主流数据格式。

  • DLI支持原生Spark的DataSource能力,并在其基础上进行了扩展,能够通过SQL语句、Spark作业或者Flink作业进行跨源连接其他数据存储服务并导入、查询、分析处理其中的数据。