数据治理中心 DATAARTS STUDIO-数据库、数据仓库、数据湖与华为智能数据湖方案:什么是数据湖?

时间:2024-05-22 09:21:27

什么是数据湖?

在企业内部,数据是一类重要资产已经成为了共识。随着企业的持续发展,数据不断堆积,企业希望把生产经营中的所有相关数据都完整保存下来,进行有效管理与集中治理,挖掘和探索数据价值。

数据湖就是在这种背景下产生的。数据湖是一个集中存储各类结构化和非结构化数据的大型数据仓库,它可以存储来自多个数据源、多种数据类型的原始数据,数据无需经过结构化处理,就可以进行存取、处理、分析和传输。数据湖能帮助企业快速完成异构数据源的联邦分析、挖掘和探索数据价值。

数据湖的本质,是由“数据存储架构+数据处理工具”组成的解决方案。
  • 数据存储架构:要有足够的扩展性和可靠性,可以存储海量的任意类型的数据,包括结构化、半结构化和非结构化数据。
  • 数据处理工具,则分为两大类:
    • 第一类工具,聚焦如何把数据“搬到”湖里。包括定义数据源、制定数据同步策略、移动数据、编制数据目录等。
    • 第二类工具,关注如何对湖中的数据进行分析、挖掘、利用。数据湖需要具备完善的数据管理能力、多样化的数据分析能力、全面的数据生命周期管理能力、安全的数据获取和数据发布能力。如果没有这些数据治理工具,元数据缺失,湖里的数据质量就没法保障,最终会由数据湖变质为数据沼泽。

随着大数据和AI的发展,数据湖中数据的价值逐渐水涨船高,价值被重新定义。数据湖能给企业带来多种能力,例如实现数据的集中式管理,帮助企业构建更多优化后的运营模型,也能为企业提供其他能力,如预测分析、推荐模型等,这些模型能刺激企业能力的后续增长。

对于数据仓库与数据湖的不同之处,可以类比为仓库和湖泊的区别:仓库存储着来自特定来源的货物;而湖泊的水来自河流、溪流和其他来源,并且是原始数据。

表2 数据湖与数据仓库的对比

维度

数据湖

数据仓库

应用场景

可以探索性分析所有类型的数据,包括机器学习、数据发现、特征分析、预测等

通过历史的结构化数据进行数据分析

使用成本

起步成本低,后期成本较高

起步成本高,后期成本较低

数据质量

包含大量原始数据,使用前需要清洗和标准化处理

质量高,可作为事实依据

适用对象

数据科学家、数据开发人员为主

业务分析师为主

support.huaweicloud.com/dataartsstudio_faq/dataartsstudio_03_0004.html