数据湖批流一体是什么
数据湖探索(Data Lake Insight,简称DLI)是一款大数据分析工具,提供标准SQL,完全兼容Spark接口,支持自动弹性扩展,云上多数据源联邦分析,提供资源和数据细粒度管控的多租户能力,广泛应用于IoT,互联网,游戏等行业统计报表,行为日志分析,历史数据查询审计等场景
复杂SQL实时查询,10+表格联合运算,秒级返回结果 实时入仓批流融合60万/秒/节点,T+0完成数据分析 多源数据融合,一站式统一平台,助力非传统数仓工程师便捷使用数据 多应用场景全覆盖,打造大数据时代新型数据仓库 传统数仓替换 一站式BI解决方案 数据湖分析 实时数据分析 传统数仓替换 传统数仓替换
FusionInsight全景图 类别 场景 服务 优势 多元分析 一站式大数据平台 云原生数据湖 MRS 全球累计交付30万+节点,30%性价比提升 全托管大数据服务 数据湖探索 DLI 流、批、交互式一体,AIl in SQL,秒级扩缩容 数据仓库 云数据仓库 GaussDB(DWS)
程序和数据到HDFS。 购买集群 进入MapReduce管理控制台,单击“购买集群”并配置相关参数。用户可以指定集群类型用于离线数据分析和流处理任务,指定集群中预置的弹性云服务器实例规格、实例数量、数据盘类型、要安装的组件。 提交作业 您可以通过MRS控制台界面提交作业,也可以通过MRS集群节点使用命令提交作业。
、统一事务的能力,保障云原生数据湖内数据和模型自由流转,湖内数据全触达,实现湖、仓、智融合统一。 立即购买 管理控制台 价格计算器 应用场景 数据湖建设和持续运营 多计算引擎共享元数据 数据湖建设和持续运营 场景描述 数据湖建设和持续运营,是指数据湖的初始化建设及后续日常的海量元
建议搭配使用 数据湖探索 DLI MapReduce服务 数据湖治理中心 DGC 实时数据分析 移动互联网、IoT场景下会产生大量实时数据,为了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库 IoT、互联网等数据经过流计算及AI服务处理后,可实时写入DWS
统一开发者体验 通过对零码、低码、流程、大屏、高低码结合等场景覆盖,统一开发者体验 华为云Astro工作流 快速构建工作流应用 满足企业中人财事物的调、转、入、离、审、评、批等任务的数智化需求 场景详情 华为云Astro大屏应用 快速搭建大屏应用 满足运营,业务监控,风险预警等多
入自定义工作流中 提供多种图表类型实时展示作业数据输出,用户可以通过API网关服务自由访问作业数据,接入自定义工作流中 应用场景 实时流分析场景 物联网IoT场景 实时流分析场景 提供易用、低时延、高吞吐的实时流分析服务。支持Stream SQL和用户自定义作业做流分析 优势 易用
合能源等新兴业务发展。 华为云助力山东黄金建立国际一流矿山运营模式 华为云助力山东黄金实现勘探、化验、地测采选、产供销等全链路数据采集,为矿山的安全生产、经营管理提供实时、精准的数据支撑,建设基于智能决策和远程集中控制的国际一流矿山运营模式。 华为云助力深圳机场集团“智慧机场”数字化转型
之旅 开始使用 您可能感兴趣的产品 您可能感兴趣的产品 数据治理中心 DataArts Studio 一站式数据开发与治理平台 数据湖探索 DLI 流处理、批处理的融合处理分析服务 数据可视化 DLV 提供可视化组件定制和应用数据大屏
批处理、实时检索、实时流处理、批流合一计算平台等。规格:培训时长5天,每班最大人数20人 产品技术培训1.华为云数据治理高级工程师培训面向需要了解数据治理理论,使用华为数据湖治理中心 DGC进行数据治理、建模及集成的工程师。课程内容:深入讲解华为云数据湖治理中心 DGC产品知识
Apache Hudi是下一代流数据湖平台,它直接在数据湖中引入了核心的仓库和数据库功能。Hudi提供了两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。Apache Hudi,也被发音为“hoodie”,是下一代流数据湖平台。它直接在数据湖中引入了核心的仓库和数据库功
Pulsar是Apache软件基金会的顶级项目,也是下一代云原生分布式消息流平台。它集消息、存储、轻量化函数式计算为一体,采用计算与存储分离架构设计。Pulsar的主要特性包括:①支持多种消息模型:Pulsar提供了灵活的消息模型和直观的客户端API,支持发布-订阅模式和点对点模
同空间的数据互相隔离,保障企业数据安全。6. 单点登录。支持多种企业内部单点登录系统对接。 数据资产底座,实时数据中台,数智一体化,湖仓一体,流批一体
发:无侵入的实现实时数仓。2. 数据开发平台数据开发平台用于大数据开发的IDE套件;满足用户对于变量开发、任务调度、运维监控以及流批一体等需求。该平台以丰富的算法组件,实现拖、拉、拽式的开发模式,以全图形化的运维界面,降低数据开发、数据挖掘以及数据运维环节对于使用者技术能
易流E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。易流E-TMS是易流科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础设施”,
地连接起来,从而为企业提供一套完善的供应链解决方案,实现企业间产销供、业务与财务税务的一体化运作。其社会化协作功能可确保上下游企业,包括供应商、制造商和分销商之间的商业流、物流、信息流和资金流整体运作。通过开放性的生态服务,供应链能提供更全面的供应链服务,帮助企业提升供应链管理能
数据‘主动沟通’能力,资源协同、变更管理、过程审批7.项目进度可视化 - 随时随地管理项目进度8.过程数据分析 - 多维度数据统计分析,配置型管理看板对全局把控,业数一体反哺企业业务流shiyo那个 全方位、多维度看板查看,助力数据分析,透视数据价值,可直接在甘特图中拖拽实现任务创建,直观化、可视化进行任务周期调整、绑定关联关系
G7易流E-TMS,以“互联网+”模式重构物流运输业务,助力企业打造端到端透明的物流业务体系;基于大数据分析赋能,提升运输管理、路径优化等能力,实现高效协同过程可视、智能优化。G7易流E-TMS是易流科技在物流透明管理实践15年,战略全面转型为“供应链物流行业数字化(IoT)基础
数据链路实时性提升至10分钟,支撑实时线损分析、有序用电、负荷预测等 电力计量大数据 实时数据湖,千万级终端采集频率提升到分钟级 实时数据湖,千万级终端采集频率提升到分钟级 电网营销2.0 流批一体计算,数据读写性能提升8倍,电费测算提效20倍 流批一体计算,数据读写性能提升8倍,电费测算提效20倍 油气 油气云
MRS提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 数据呈现调度 用于数据分
丰富的流生态圈。数据湖探索的流生态分为云服务生态和开源生态: 开源生态:通过增强型跨源连接建立与其他VPC的网络连接后,用户可以在数据湖探索的租户独享队列中访问所有Flink和Spark支持的数据源与输出源,如Kafka、Hbase、ElasticSearch等。 数据湖探索应用场景
MapReduce提供多种主流计算引擎:MapReduce(批处理)、Tez(DAG模型)、Spark(内存计算)、SparkStreaming(微批流计算)、Storm(流计算)、Flink(流计算),满足多种大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。 基于预设的数据模型,使用
什么是函数工作流 什么是函数工作流 由浅入深,带您认识华为云函数工作流 FunctionGraph 由浅入深,带您认识华为云函数工作流 FunctionGraph 函数工作流 FunctionGraph 函数工作流(FunctionGraph),是一项基于事件驱动的函数托管计算服
了快速获取数据价值,需要对数据进行实时分析,DWS的快速入库和查询能力可支持实时数据分析 优势 流式数据实时入库:IoT、互联网等数据经过流计算及AI服务处理后,可实时写入DWS。 实时监控与预测:围绕数据进行分析和预测,对设备进行监控,对行为进行预测,实现控制和优化。 AI融合
ERP软件系统 八神ERP,是基于各行业特性,整合商流、物流、信息流和资金流,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。 八神ERP,是基于各行业特性,整合商流、物流、信息流和资金流,助力企业建立扁平化、平台化的供应链;建立以交易为核心、更智能的财务管理与服务体系。
Hudi服务介绍 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力以及消费变化数据的能力。支持多种计算引擎,提供IUD接口,在HDFS的数据集上提供了插入更新和增量拉取的流原语。 MRS Hudi是一种数据湖的存储格式,在Hadoop文件系
日志搜索_日志搜索工具_日志搜索平台 ECS是什么意思_ECS存储_便宜ECS ECS_ECS费用_什么是ECS服务器 ECS服务器_ECS免费_ECS怎么用 ECS是什么意思_ECS登录_ECS价格 免费ECS_ECS试用_国内云服务器ECS ECS服务_ECS的优势_ECS云服务器哪家好 ECS是什么_怎么配置ECS_ECS服务器购买
数据湖批流一体是什么
什么是数据湖探索
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、HetuEngine生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。用户不需要管理任何服务器,即开即用。
DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、 CSS 、 OBS 、 ECS 自建 数据库 以及线下数据库的异构数据进行探索。
视频简介
视频介绍什么是数据湖探索服务。
DLI计算引擎
DLI提供了多种计算引擎,Spark引擎、Flink引擎、HetuEngine,分别适用于不同的数据处理场景。
Spark更适合大规模数据的批处理和复杂分析,而Flink则在实时流处理方面表现出色。HetuEngine是高性能交互式SQL分析及数据虚拟化引擎。
Spark引擎
- 功能特点:
Spark是用于大规模数据处理的统一分析引擎,聚焦于查询计算分析。
DLI在开源Spark基础上进行了大量的性能优化与服务化改造,不仅兼容Apache Spark生态和接口,性能较开源提升了2.5倍,在小时级即可实现EB级数据查询分析。
DLI的Spark引擎支持大规模数据的批处理和交互式分析,提供高性能的分布式计算能力。
- 适用场景:
- 适用于需要进行大规模数据批处理和复杂数据分析的场景。
- 适合对历史数据进行深度挖掘和分析,例如 数据仓库 中的数据查询和报表生成。
Flink引擎
- 功能特点
- Flink是一款分布式计算引擎,既可以用于批处理,也可以用于流处理。
- DLI在开源Flink基础上进行了特性增强和安全增强,提供了数据处理所需的Stream SQL特性。
- 支持实时流处理,能够处理大规模的实时数据流,支持事件时间处理和状态管理
- 适用场景
- 适用于需要实时处理数据流的场景,例如实时监控系统、实时推荐系统。
- 适合对实时数据进行快速分析和响应,例如金融交易监控、物联网设备数据处理。
HetuEngine
- 功能特点
HetuEngine是高性能交互式SQL分析及数据虚拟化引擎,能够与大数据生态无缝融合,实现海量数据的秒级交互式查询。
HetuEngine+Lakeformation能够快速处理大规模数据集的查询请求,迅速和高效从大数据中提取信息,极大地简化了数据的管理和分析流程,提升大数据环境下的索引和查询性能。
了解更多HetuEngine请参考HetuEngine语法参考。
图1 DLI支持HetuEngine+Lakeformation- TB级数据秒级响应:
HetuEngine通过自动优化资源与负载的配比,能够对TB级数据实现秒级响应,极大提升了数据查询的效率。
- Serverless资源开箱即用:
Serverless服务模式无需关注底层配置、软件更新和故障问题,资源易维护,易扩展。
- 多种资源类型满足不同场景业务需求:
共享资源池:按量计费,提供更具性价比的计算资源。
独享资源池:提供独享资源池,满足高性能资源需求。
- 数据生态增强:
HetuEngine+Lakeformation支持与永洪BI、FineBI、DBeaver等主流BI工具的对接,增强数据分析领域的应用能力。
- 实时数据处理性能提升5倍:
HetuEngine+Lakeformation支持Apache Hudi的COW和MOR表。点查性能上相较于开源的Trino提升5倍,可以更快地响应查询请求,提供实时的数据访问。
- TB级数据秒级响应:
- 适用场景
适用于大规模数据存储中进行数据查询和分析。
核心功能
DLI详细的功能清单请参考DLI功能总览。
功能分类 |
功能描述 |
---|---|
DLI是基于Serverless架构的数据处理和分析服务 |
DLI是无服务器化的大数据查询分析服务,使用DLI服务您只需为实际使用的弹性计算资源付费,无需维护和管理 云服务器 。
|
DLI支持多种类型的计算引擎 |
完全兼容Apache Spark、Apache Flink、HetuEngine等生态,支持标准SQL、Spark SQL、Flink SQL,兼容 CS V、JSON、Parquet和ORC主流数据格式。
|
DLI支持多种连接方式 |
DLI提供了多种连接方式满足不同的用户需求和使用场景。 DLI支持的链接方式:
更多DLI连接方式的介绍请参考DLI连接方式。 |
DLI支持对接多种数据源的跨源分析 |
|
DLI支持的三大基本作业类型 |
|
DLI支持存算分离 |
用户将数据存储到OBS后,DLI可以直接和OBS对接进行数据分析。存算分离的架构下,使得存储资源和计算资源可以分开申请和计费,降低了成本并提高了资源利用率。 存算分离场景下,DLI支持OBS在创建桶时数据冗余策略选择单AZ或者多AZ存储,两种存储策略区别如下:
|
DLI通过弹性资源池实现对资源的统一的管理和调度 |
弹性资源池后端采用 CCE 集群的架构,支持异构,对资源进行统一的管理和调度。 详细内容可以参考DLI用户指南的弹性资源池和队列简介。 |
DLI产品结构
DLI的产品结构如下:

其中核心模块介绍如下:
模块名称 |
功能说明 |
---|---|
计算引擎 |
|
存储服务 |
使用OBS、数据库存储用于数据分析的结构化或非结构化数据,提供数据的持久化存储服务。 |
数据源连接 |
|
统一资源管理 |
|
统一元 数据管理 |
|
行业生态拓展 |
华为云数据湖探索(DLI)通过其强大的Serverless架构和多模引擎支持,能够满足不同行业的多样化需求,推动各行业的数字化转型和创新。 |
如何访问DLI
云服务平台提供了Web化的服务管理平台,既可以通过管理控制台和基于HTTPS请求的API(Application programming interface)管理方式来访问DLI,又可以通过JDBC客户端连接DLI服务端。
更多DLI连接方式请参考DLI连接方式。
- API方式
如果用户需要将云平台上的DLI服务集成到第三方系统,用于二次开发,可以使用API方式访问DLI服务。
具体操作请参见《数据湖探索API参考》。
- JDBC
DLI支持使用JDBC连接服务端进行数据查询操作。具体内容请参考《数据湖探索开发指南》。
- 数据治理中心 DataArts Studio
数据治理中心 DataArts Studio 具有数据全生命周期管理、智能数据管理能力的一站式治理运营平台,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业快速构建从数据接入到数据分析的端到端智能数据系统,消除数据孤岛,统一数据标准,加快数据变现,实现数字化转型。
在DataArts Studio管理中心控制台创建数据连接即可访问DLI,进行数据分析。
关于DataArts Studio的操作指导请参考《数据治理中心产品文档》。
数据湖批流一体是什么常见问题
更多常见问题 >>-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值。
-
数据湖探索DLI用户可以通过可视化界面、Restful API、JDBC、ODBC、Beeline等多种接入方式对云上CloudTable、RDS和DWS等异构数据源进行查询分析,数据格式兼容CSV、JSON、Parquet、Carbon和ORC五种主流数据格式。
-
智能数据湖运营平台(DAYU)是数据全生命周期一站式开发运营平台,提供数据集成、数据开发、数据治理、数据服务等功能,支持行业知识库智能化建设,支持大数据存储、大数据计算分析引擎等数据底座,帮助企业客户快速构建数据运营能力。
-
数据湖探索的计费包括存储计费和计算计费。数据湖探索的计费详情及样例,请参见以下说明。数据湖探索服务目前支持三种作业:SQL作业,Flink作业和Spark作业。 SQL作业的计费包括存储计费和计算计费,其中计算计费包括包年包月计费和按需计费两种。 包年包月计费根据购买周期进行扣费,推荐使用包年包月模式,价格优惠且在周期内独享计算资源。
-
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark和Apache Flink生态, 实现批流一体的Serverless大数据计算分析服务。DLI支持多模引擎,企业仅需使用SQL或程序就可轻松完成异构数据源的批处理、流处理等,挖掘和探索数据价值
-
DAYU智能数据湖运营平台采用基础包+增量包的计费模式。基础包按包年、包月计费;增量包分为批量数据迁移和实时数据接入两类,均采用按需和套餐包的计费模式。
数据湖批流一体是什么教程视频
最佳实践视频帮助您快速了解搭建流程 了解更多
更多相关专题
增值电信业务经营许可证:B1.B2-20200593 | 域名注册服务机构许可:黔D3-20230001 | 代理域名注册服务机构:新网、西数