什么是数据湖?
数据湖的定义
数据湖是一个中央数据存储库,可以帮助解决数据孤岛问题。重要的是,数据湖可以存储大量原生或原始格式的原始数据,包括结构化、非结构化和半结构化格式的数据。数据湖,尤其是云端的数据湖,具有成本低、易扩展的特点,并且常与实用机器学习分析工具一起使用。
数据湖 VS 数据仓库
与数据湖相比,数据仓库还提供数据管理功能,而且存储的是经过处理和过滤的数据,这些数据事先基于预定义的业务问题或用例进行了处理。
数据仓库与数据湖的对比图
数据仓库与数据湖通常互为补充。例如,当需要存储在数据湖中的原始数据来回答业务问题时,可以将其从数据湖中提取出来,进行清理和转换,然后在数据仓库中进一步分析。
“数据湖仓一体”是近几年出现的新概念,还在不断发展,它在传统数据湖的基础上增添了数据管理功能。从本质上讲,数据湖库就是数据湖和数据仓库的融合。
除上述数据类型和流程差异外,下表还列出了数据湖与数据仓库解决方案的一些其他区别。
总而言之,数据量、数据库性能和存储成本将是客户挑选存储解决方案时重点考虑的因素。
数据湖解决方案的关键要素
- 数据移动:数据湖支持用户以原生格式导入来自多个数据源的任何数据类型。企业可以按需扩展数据规模,无需定义数据结构、模式和转换,因此有助于节省间接成本。
- 安全存储和编录数据:数据湖可以存储不同来源的结构化、半结构化和非结构化数据,比如来自 CRM 或 ERP 软件(了解什么是ERP)的业务数据、物联网设备数据、社交媒体数据,甚至旧系统中的历史数据。另外,数据湖不仅能捕获批处理数据和流式数据,同时还提供数据治理、安全保护和控制。用户可以直接查询数据湖中的数据,也可使用适当的工具将数据摄取到数据仓库中。
- 数据分析与机器学习:数据湖支持用户基于角色访问信息,执行数据分析和机器学习分析,无需将数据移动到另外的分析数据库中。此外,数据湖还支持将历史数据与实时数据相结合,完善机器学习或预测分析模型,进而获得更准确或新的分析结果。
数据湖的工作原理
现代数据湖具备三个主要功能:
- 登陆区:存放原始数据
- 暂存区:转换数据供分析用
- 数据探索区:将数据用于各种分析和应用,或者为机器学习模型提供信息支持
信息从数据湖馈送至不同信息源,比如分析工具或其他业务应用,或者传送至机器学习工具作进一步分析。
数据湖用例
下面例举了两个零售行业的数据湖用例。
将长期销售数据与非结构化数据一起存储在数据湖中,非结构数据包括网站点击流数据、天气数据、新闻数据、宏观和微观经济数据等。通过将这些数据存储在一起并支持用户访问,数据科学家可以轻松地将不同来源的信息整合到一个模型中,对特定产品或产品线的需求进行预测。然后,预测结果将被输入到零售 ERP 系统中,帮助制定增产或减产计划。
与此同时,营销专家可以访问同一数据湖,查看针对网站和社交媒体互动的情绪分析,以及新闻、宏观经济和销售历史数据,确定企业需要重点关注的产品,以及怎样才能有效地尽可能提高销售额、利润和/或采用率。
数据湖的类型
数据湖可以采用本地部署、云部署和混合部署模式,并且可以跨越不同超大型云服务供应商提供的云平台,比如 Amazon Web Services (AWS)、Microsoft Azure 或 Google Cloud 等。
迄今为止,云数据湖是最受欢迎的数据湖类型。云数据湖具备所有常用的数据湖功能,但采用的是完全托管的云服务形式。
- 本地数据湖:借助本地数据湖,内部 IT 工程师可以管理硬件、软件和流程。这种部署方法需要较高的资本支出 (CAPEX) 投入,且容易产生数据孤岛。
- 云数据湖:在云数据湖中,本地基础架构是外包的。这种部署方法需要较高的运营支出 (OPEX) 投入,但更容易扩展,而且还有许多其他优势(见下文)。
- 混合数据湖:在某些情况下,有些企业会选择同时使用本地数据湖和云数据湖。这种情况很少见,主要出现在从本地数据湖迁移至云数据湖的阶段。
- 多云数据湖:在多云数据湖中,组合使用了两个或更多云环境;例如,一家企业同时使用 AWS 和 Azure 来管理和维护云数据湖。使用这种数据湖需要具备大量专业知识,才能确保这些不同的平台之间能够相互通信。
云数据湖的六大优势
为什么选择云数据湖?企业需要将数据转化为高价值的业务资产,推动数字化转型。云与数据湖相结合,可以发挥巨大的优势,帮助企业实现这一点。云数据湖支持企业对历史数据和新数据进行分析,比如日志文件、点击流数据、社交媒体数据、互联网设备数据等,从中获取可据以采取行动的洞察。
以下是部分主要潜在收益:
- 成本效益:云存储提供商提供多种存储与定价选项。
- 自动扩展:云服务具有扩展功能,支持企业按需计算和使用存储容量。
- 中央数据存储库:云数据湖将信息整合在一起,打造统一的真实数据源,并提供数据访问治理,有助于提升各团队的流程效率。
- 数据安全性:云存储提供商采用责任分担模式,保证数据安全。
- 工具:云存储提供商和其他供应商提供了各种 ETL 工具,用于采集数据、构建数据目录,以及执行数据准备、数据转化和数据摄取任务,从而支持数据查询。
- 增强的分析功能,助力企业挖掘新洞察和提升业务成果:云数据湖能够采用新的方式整合数据。例如,CRM系统数据和社交媒体分析可以提供新的客户洞察,指明客户流失的原因或哪些促销活动可以提高客户忠诚度。此外,企业还可以分析物联网数据,提高运营效率。
本系列更多内容
关于数据湖的常见问题
以下是部分数据湖常见问题。如需了解更多定义,请查看我们的数据管理术语表。
数据仓库 (DW) 是一种数字化存储系统,用于连接和协调来自许多不同数据源的大量结构化和格式化数据。而数据湖则是以原始格式存储数据,数据没有结构化或格式化。
数据管理是采集、整理和访问数据的过程,有助于提高生产力和效率,并为决策提供支持。
数据湖仓一体在传统数据湖的基础上,增添了数据管理和仓储功能。这是一个新的、快速发展的领域。
多云是指在一个异构架构中使用多项云计算和存储服务,也就是说,将云资产、软件和应用等分布在多个云托管环境中。
文件存储按文件夹内文件的层次结构整理和表示数据;块存储将数据以块的形式存储到随意组织、大小相等的卷中;而对象存储可以管理数据,并将数据链接到相关的元数据。对象存储系统支持存储大量非结构化数据。