[快速入门]数据湖批流一体是什么
数据仓库服务 GaussDB(DWS)

复杂SQL实时查询,10+表格联合运算,秒级返回结果 实时入仓融合60万/秒/节点,T+0完成数据分析 多源数据融合,一站式统一平台,助力非传统数仓工程师便捷使用数据 多应用场景全覆盖,打造大数据时代新型数据仓库 传统数仓替换 一站式BI解决方案 数据湖分析 实时数据分析 传统数仓替换 传统数仓替换

智能数据湖_FusionInsight_数据湖应用场景_大数据-华为云

FusionInsight全景图 类别 场景 服务 优势 多元分析 一站式大数据平台 云原生数据湖 MRS 全球累计交付30万+节点,30%性价比提升 全托管大数据服务 数据湖探索 DLI 、交互式一体,AIl in SQL,秒级扩缩容 数据仓库 云数据仓库 GaussDB(DWS)

MapReduce服务入门

程序和数据到HDFS。 购买集群 进入MapReduce管理控制台,单击“购买集群”并配置相关参数。用户可以指定集群类型用于离线数据分析和处理任务,指定集群中预置的弹性云服务器实例规格、实例数量、数据盘类型、要安装的组件。 提交作业 您可以通过MRS控制台界面提交作业,也可以通过MRS集群节点使用命令提交作业。

湖仓构建

、统一事务的能力,保障云原生数据湖内数据和模型自由流转,湖内数据全触达,实现湖、仓、智融合统一。 立即购买 管理控制台 价格计算器 应用场景 数据湖建设和持续运营 多计算引擎共享元数据 数据湖建设和持续运营 场景描述 数据湖建设和持续运营,是指数据湖的初始化建设及后续日常的海量元

数据仓库服务应用场景_数据仓库服务客户案例_GaussDB(DWS)

建议搭配使用 数据湖探索 DLI MapReduce服务 数据湖治理中心 DGC 实时数据分析 移动互联网、IoT场景下会产生大量实时数据,为了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库 IoT、互联网等数据经过计算及AI服务处理后,可实时写入DWS

华为云Astro大屏应用

统一开发者体验 通过对零码、低码、流程、大屏、高低码结合等场景覆盖,统一开发者体验 华为云Astro工作 快速构建工作应用 满足企业中人财事物的调、转、入、离、审、评、等任务的数智化需求 场景详情 华为云Astro大屏应用 快速搭建大屏应用 满足运营,业务监控,风险预警等多

实时流计算服务

入自定义工作中 提供多种图表类型实时展示作业数据输出,用户可以通过API网关服务自由访问作业数据,接入自定义工作中 应用场景 实时分析场景 物联网IoT场景 实时分析场景 提供易用、低时延、高吞吐的实时分析服务。支持Stream SQL和用户自定义作业做分析 优势 易用

数据治理中心

合能源等新兴业务发展。 华为云助力山东黄金建立国际一矿山运营模式 华为云助力山东黄金实现勘探、化验、地测采选、产供销等全链路数据采集,为矿山的安全生产、经营管理提供实时、精准的数据支撑,建设基于智能决策和远程集中控制的国际一矿山运营模式。 华为云助力深圳机场集团“智慧机场”数字化转型

MapReduce服务

之旅 开始使用 您可能感兴趣的产品 您可能感兴趣的产品 数据治理中心 DataArts Studio 一站式数据开发与治理平台 数据湖探索 DLI 处理、批处理的融合处理分析服务 数据可视化 DLV 提供可视化组件定制和应用数据大屏

[相关产品]数据湖批流一体是什么
华为云智能数据培训服务

批处理、实时检索、实时处理、合一计算平台等。规格:培训时长5天,每班最大人数20人  产品技术培训1.华为云数据治理高级工程师培训面向需要了解数据治理理论,使用华为数据湖治理中心 DGC进行数据治理、建模及集成的工程师。课程内容:深入讲解华为云数据湖治理中心 DGC产品知识

Apache Hudi

Apache Hudi是下一代数据湖平台,它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行处理。Apache Hudi,也被发音为“hoodie”,是下一代数据湖平台。它直接在数据湖中引入了核心的仓库和数据库功

Pulsar分布式消息流平台

Pulsar是Apache软件基金会的顶级项目,也是下一代云原生分布式消息平台。它集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计。Pulsar的主要特性包括:①支持多种消息模型:Pulsar提供了灵活的消息模型和直观的客户端API,支持发布-订阅模式和点对点模

数元灵湖仓数据智能中台LakeInsight

同空间的数据互相隔离,保障企业数据安全。6. 单点登录。支持多种企业内部单点登录系统对接。  数据资产底座,实时数据中台,数智一体化,湖仓一体,一体

天冕数据中台

发:无侵入的实现实时数仓。2.     数据开发平台数据开发平台用于大数据开发的IDE套件;满足用户对于变量开发、任务调度、运维监控以及一体等需求。该平台以丰富的算法组件,实现拖、拉、拽式的开发模式,以全图形化的运维界面,降低数据开发、数据挖掘以及数据运维环节对于使用者技术能

易流运输管理系统

E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。易E-TMS是易科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础设施”,

Elsbiz企业管理云平台

地连接起来,从而为企业提供一套完善的供应链解决方案,实现企业间产销供、业务与财务税务的一体化运作。其社会化协作功能可确保上下游企业,包括供应商、制造商和分销商之间的商业、物流、信息和资金整体运作。通过开放性的生态服务,供应链能提供更全面的供应链服务,帮助企业提升供应链管理能

LDC精益数字云-任务管理系统

数据‘主动沟通’能力,资源协同、变更管理、过程审批7.项目进度可视化 - 随时随地管理项目进度8.过程数据分析 - 多维度数据统计分析,配置型管理看板对全局把控,业数一体反哺企业业务shiyo那个   全方位、多维度看板查看,助力数据分析,透视数据价值,可直接在甘特图中拖拽实现任务创建,直观化、可视化进行任务周期调整、绑定关联关系

G7易流运输管理系统

G7易E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。G7易E-TMS是易科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础

[相似文章]数据湖批流一体是什么
央国企15大行业场景化解决方案_政企深度用云_华为云Stack

数据链路实时性提升至10分钟,支撑实时线损分析、有序用电、负荷预测等 电力计量大数据 实时数据湖,千万级终端采集频率提升到分钟级 实时数据湖,千万级终端采集频率提升到分钟级 电网营销2.0 一体计算,数据读写性能提升8倍,电费测算提效20倍 一体计算,数据读写性能提升8倍,电费测算提效20倍 油气 油气云

大数据分析是什么_使用MapReduce_创建MRS服务

MRS提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微计算)、Storm(计算)、Flink(计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 数据呈现调度 用于数据分

什么是数据湖探索服务_数据湖探索DLI用途与特点

丰富的生态圈。数据湖探索的生态分为云服务生态和开源生态: 开源生态:通过增强型跨源连接建立与其他VPC的网络连接后,用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。 数据湖探索应用场景

MapReduce工作原理_MapReduce是什么意思_MapReduce流程_MRS_华为云

MapReduce提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微计算)、Storm(计算)、Flink(计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 基于预设的数据模型,使用

什么是函数工作流_functiongraph是什么_函数工作流服务

什么是函数工作 什么是函数工作 由浅入深,带您认识华为云函数工作 FunctionGraph 由浅入深,带您认识华为云函数工作 FunctionGraph 函数工作 FunctionGraph 函数工作(FunctionGraph),是一项基于事件驱动的函数托管计算服

DWS产品介绍_DWS产品优势_DWS功能_DWS使用场景_DWS是什么

了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库:IoT、互联网等数据经过计算及AI服务处理后,可实时写入DWS。 实时监控与预测:围绕数据进行分析和预测,对设备进行监控,对行为进行预测,实现控制和优化。 AI融合

ERP软件系统_ERP系统运维_供应链ERP

ERP软件系统 八神ERP,是基于各行业特性,整合商流、物流、信息和资金,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。 八神ERP,是基于各行业特性,整合商流、物流、信息和资金,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。

Hudi服务_什么是Hudi_如何使用Hudi

Hudi服务介绍 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的原语。 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系

领先的云监控_一体化云监控_华为云云监控平台

日志搜索_日志搜索工具_日志搜索平台 ECS是什么意思_ECS存储_便宜ECS ECS_ECS费用_什么是ECS服务器 ECS服务器_ECS免费_ECS怎么用 ECS是什么意思_ECS登录_ECS价格 免费ECS_ECS试用_国内云服务器ECS ECS服务_ECS的优势_ECS云服务器哪家好 ECS是什么_怎么配置ECS_ECS服务器购买

数据湖批流一体是什么

什么是数据湖探索

数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache SparkApache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。

DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTableRDSDWS CSS OBS ECS 自建 数据库 以及线下数据库的异构数据进行探索。

视频简介

视频介绍什么是数据湖探索服务。

DLI计算引擎

DLI提供了多种计算引擎,Spark引擎、Flink引擎、HetuEngine,分别适用于不同的数据处理场景。

Spark更适合大规模数据的批处理和复杂分析,而Flink则在实时流处理方面表现出色。HetuEngine是高性能交互式SQL分析及数据虚拟化引擎。

Spark引擎

  • 功能特点

    Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。

    DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。

    DLI的Spark引擎支持大规模数据的批处理和交互式分析,提供高性能的分布式计算能力。

  • 适用场景
    • 适用于需要进行大规模数据批处理和复杂数据分析的场景。
    • 适合对历史数据进行深度挖掘和分析,例如 数据仓库 中的数据查询和报表生成。

Flink引擎

  • 功能特点
    • Flink是一款分布式计算引擎,既可以用于批处理,也可以用于流处理。
    • DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所需的Stream SQL特性。
    • 支持实时流处理,能够处理大规模的实时数据流,支持事件时间处理和状态管理
  • 适用场景
    • 适用于需要实时处理数据流的场景,例如实时监控系统、实时推荐系统。
    • 适合对实时数据进行快速分析和响应,例如金融交易监控、物联网设备数据处理。

HetuEngine

  • 功能特点

    HetuEngine是高性能交互式SQL分析及数据虚拟化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。

    HetuEngine+Lakeformation能够快速处理大规模数据集的查询请求,迅速和高效从大数据中提取信息,极大地简化了数据的管理和分析流程,提升大数据环境下的索引和查询性能。

    了解更多HetuEngine请参考HetuEngine语法参考

    图1 DLI支持HetuEngine+Lakeformation
    • TB级数据秒级响应

      HetuEngine通过自动优化资源与负载的配比,能够对TB级数据实现秒级响应,极大提升了数据查询的效率。

    • Serverless资源开箱即用:

      Serverless服务模式无需关注底层配置、软件更新和故障问题,资源易维护,易扩展。

    • 多种资源类型满足不同场景业务需求:

      共享资源池:按量计费,提供更具性价比的计算资源。

      独享资源池:提供独享资源池,满足高性能资源需求。

    • 数据生态增强:

      HetuEngine+Lakeformation支持与永洪BI、FineBI、DBeaver等主流BI工具的对接,增强数据分析领域的应用能力。

    • 实时数据处理性能提升5倍:

      HetuEngine+Lakeformation支持Apache Hudi的COW和MOR表。点查性能上相较于开源的Trino提升5倍,可以更快地响应查询请求,提供实时的数据访问。

  • 适用场景

    适用于大规模数据存储中进行数据查询和分析。

核心功能

DLI详细的功能清单请参考DLI功能总览

表1 DLI核心功能

功能分类

功能描述

DLI是基于Serverless架构的数据处理和分析服务

DLI是无服务器化的大数据查询分析服务,使用DLI服务您只需为实际使用的弹性计算资源付费,无需维护和管理 云服务器

  • 计算资源按量计费:真正的按使用量(扫描量/CU时)计费,不运行作业时0费用。
  • 自动扩缩容:根据业务负载,对计算资源进行预估和自动扩缩容。

DLI支持多种类型的计算引擎

完全兼容Apache Spark、Apache Flink、HetuEngine等生态,支持标准SQL、Spark SQL、Flink SQL,兼容 CS V、JSON、Parquet和ORC主流数据格式。

  • Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
  • Flink是一款分布式的计算引擎,可以用来做批处理,即处理静态的数据集、历史的数据集;也可以用来做流处理,即实时地处理一些实时数据流,实时地产生数据的结果。DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所必须的Stream SQL特性。
  • HetuEngine是提供交互式查询分析能力的开源分布式SQL查询引擎,具备高性能、低延迟的查询处理能力,支持在大规模数据存储中进行数据查询和分析。了解更多HetuEngine请参考产品优势

DLI支持多种连接方式

DLI提供了多种连接方式满足不同的用户需求和使用场景。

DLI支持的链接方式:

  • 控制台方式
  • API方式
  • SDK方式
  • 客户端工具
  • 使用DataArts服务提交DLI作业
  • 对接BI工具的可视化分析

更多DLI连接方式的介绍请参考DLI连接方式

DLI支持对接多种数据源的跨源分析

  • Spark跨源连接:可通过DLI访问CloudTable,DWS,RDS和CSS等数据源。具体内容请参考《数据湖探索用户指南》
  • Flink跨源支持与多种云服务连通,形成丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态:
    • 云服务生态:数据湖探索在Flink SQL中支持与其他服务的连通。用户可以直接使用SQL从这些服务中读写数据。如DIS、OBS、CloudTable、 MRS 、RDS、 SMN 、DCS等。
    • 开源生态:通过增强型跨源连接建立与其他 VPC 的网络连接后,用户可以在数据湖探索的租户授权的队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。

    具体内容请参见《数据湖探索开发指南》

DLI支持的三大基本作业类型

  • SQL作业支持SQL查询功能:可为用户提供标准的SQL语句。具体内容请参考《数据湖探索SQL语法参考》
  • Flink作业支持Flink SQL在线分析功能:支持Window、Join等聚合函数,用SQL表达业务逻辑,简便快捷实现业务。具体内容请参考Flink OpenSource SQL语法参考
  • Spark作业提供全托管式Spark计算特性:用户可通过交互式会话(session)和批处理(batch)方式提交计算任务,在全托管Spark队列上进行数据分析。具体内容请参考《数据湖探索API参考》

DLI支持存算分离

用户将数据存储到OBS后,DLI可以直接和OBS对接进行数据分析。存算分离的架构下,使得存储资源和计算资源可以分开申请和计费,降低了成本并提高了资源利用率。

存算分离场景下,DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储,两种存储策略区别如下:

  • 选择多AZ存储,数据将冗余存储至多个AZ中,可靠性更高。选择多AZ存储的桶,数据将存储在同一区域的多个不同AZ。当某个AZ不可用时,仍然能够从其他AZ正常访问数据,适用于对可靠性要求较高的数据存储场景。建议优选使用多AZ存储的策略。
  • 选择单AZ存储,数据仅存储在单个AZ中,但相比多AZ更加便宜。收费详情请参见OBS产品价格详情

DLI通过弹性资源池实现对资源的统一的管理和调度

弹性资源池后端采用 CCE 集群的架构,支持异构,对资源进行统一的管理和调度。

详细内容可以参考DLI用户指南的弹性资源池和队列简介

DLI产品结构

DLI的产品结构如下:

图2 DLI Serverless架构

其中核心模块介绍如下:

表2 DLI架构核心模块简介

模块名称

功能说明

计算引擎

  • Spark:支持大规模数据的批处理和交互式分析,提供高性能的分布式计算能力。
  • Flink:支持实时流处理,能够处理大规模的实时数据流,支持事件时间处理和状态管理。
  • HetuEngine:支持交互式数据分析,能够快速处理复杂的SQL查询,支持多种数据源的连接和查询。更多HetuEngine请参考产品优势

存储服务

使用OBS、数据库存储用于数据分析的结构化或非结构化数据,提供数据的持久化存储服务。

数据源连接

  • 支持对接云上数据源,例如OBS: 对象存储 服务,用于存储和管理非结构化数据。RDS关系型数据库服务,用于存储和管理结构化数据。DWS数据仓库服务,用于高效的数据查询和分析。
  • 支持对接云下数据源,例如自建数据库场景,如MySQL、 PostgreSQL 、HDFS数据。

统一资源管理

  • 资源解耦:DLI采用存算分离架构,将计算资源和存储资源解耦,您可以根据实际需求灵活调整计算资源和存储资源的配比,提高资源利用率,降低成本。
  • 弹性伸缩 :DLI计算资源基于容器化Kubernetes,具有极致的弹性伸缩能力。能够根据作业需求自动调整资源配置,响应作业需求。
  • 多租户支持:支持计算资源按租户隔离,确保不同租户之间的资源独立。每个租户可以独立管理自己的计算资源,实现资源的精细化管理,帮助企业实现部门间的数据共享和权限管理。
  • 计算资源按量付费:您只需为实际使用的计算资源付费,无需预先购买和管理服务器,提高资源的使用效率。

统一元 数据管理

  • 多源元数据整合:DLI支持对多种数据源的元数据进行统一管理,包括云上数据源(如OBS、RDS、DWS、CSS等)和云下数据源(如自建数据库、Redis等)。您无需将数据搬迁到统一的数据湖中,即可实现对不同数据源的元数据的管理和分析。
  • 元数据同步:DLI提供的元数据管理功能确保元数据的实时性和一致性。
  • 元数据查询与管理:DLI提供标准SQL接口,用户可以使用SQL语句查询和管理元数据。支持对元数据的增删改查操作,方便用户进行数据治理和分析。
  • 数据安全与权限管理:支持数据目录、数据库和表的权限管理。用户可以对不同租户和用户组设置不同的权限,确保数据的安全性和合规性。

行业生态拓展

华为云数据湖探索(DLI)通过其强大的Serverless架构和多模引擎支持,能够满足不同行业的多样化需求,推动各行业的数字化转型和创新。

如何访问DLI

云服务平台提供了Web化的服务管理平台,既可以通过管理控制台和基于HTTPS请求的API(Application programming interface)管理方式来访问DLI,又可以通过JDBC客户端连接DLI服务端。

更多DLI连接方式请参考DLI连接方式

  • 管理控制台方式

    提交SQL作业、Spark作业或Flink作业,均可以使用管理控制台方式访问DLI服务。

    登录管理控制台,从主页选择“EI企业智能”>“EI大数据”>“数据湖探索”。

  • API方式

    如果用户需要将云平台上的DLI服务集成到第三方系统,用于二次开发,可以使用API方式访问DLI服务。

    具体操作请参见《数据湖探索API参考》

  • JDBC

    DLI支持使用JDBC连接服务端进行数据查询操作。具体内容请参考《数据湖探索开发指南》

  • 数据治理中心 DataArts Studio

    数据治理中心 DataArts Studio 具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。

    在DataArts Studio管理中心控制台创建数据连接即可访问DLI,进行数据分析。

    关于DataArts Studio的操作指导请参考《数据治理中心产品文档》。

数据湖批流一体是什么常见问题

更多常见问题 >>
  • 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。

  • 数据湖探索DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。

  • 智能数据湖运营平台(DAYU)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。

  • 数据湖探索的计费包括存储计费和计算计费。数据湖探索的计费详情及样例,请参见以下说明。数据湖探索服务目前支持三种作业:SQL作业,Flink作业和Spark作业。 SQL作业的计费包括存储计费和计算计费,其中计算计费包括包年包月计费和按需计费两种。 包年包月计费根据购买周期进行扣费,推荐使用包年包月模式,价格优惠且在周期内独享计算资源。

  • 数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值

  • DAYU智能数据湖运营平台采用基础包+增量包的计费模式。基础包按包年、包月计费;增量包分为批量数据迁移和实时数据接入两类,均采用按需和套餐包的计费模式。