flex-height
text-black

数据中心内的服务器机房

什么是数据仓库?

数据仓库 (DW) 是一种数字化存储系统,用于连接和协调来自众多不同数据源的大量数据。

default

{}

default

{}

primary

default

{}

secondary

数据仓库概览

数据仓库 (DW) 是一个中央资源库,用于收集、整合并存储来自多个数据源的大量当前数据和历史数据。数据仓库通过提供统一且一致的真实数据源,为商业智能 (BI)、报告和高级分析提供支持。通过对数据进行整合与标准化处理,企业能够获得可靠的洞察,满足法规要求,并作出明智的数据驱动决策。

数据通常从运营系统(如 ERPCRM)、内部数据库以及外部来源(如合作伙伴平台、物联网设备、天气信息源和社交媒体)流入数据仓库。随着云计算技术日趋成熟,数据存储已由传统的本地环境逐步转向更加灵活的多云和混合云架构。

现代数据仓库旨在同时管理结构化数据和非结构化数据(如视频、图像和传感器数据流)。许多现代数据仓库整合了集成式分析和内存处理功能,能够实现更快速的查询、实时数据访问,以及更高效的报告和商业智能工作流。如果没有数据仓库,企业将难以整合异构数据源、为分析工作妥善准备数据,并保持对各类数据集的可视性。

数据仓库的优势

设计精良的数据仓库是成功实现商业智能、报告和分析的基石。通过将数据整合为统一的真实数据源,数据仓库能够加快洞察获取速度,帮助企业各部门制定更明智、更有把握的决策。数据仓库的主要优势包括:

数据仓库可存储的数据类型

数据仓库诞生于 20 世纪 80 年代末,最初是用于存储结构化数据,即组织有序的信息,例如客户详情、产品清单和交易记录等。随着业务需求的扩展,企业还希望能够处理非结构化数据,例如文档、图像、视频、电子邮件、社交媒体帖子,以及来自机器和物联网设备的传感器输出数据。

现代数据仓库能够同时处理结构化和非结构化数据,并将二者整合起来,为企业提供更全面和综合的数据视图,帮助他们获得更深入的洞察。

关键概念及其差异

在数据仓库领域,有许多概念需要了解。以下是其中一些最重要的概念。如需了解更多概念定义和常见问题,请查看我们的术语表

数据仓库与数据库

数据库和数据仓库都用于存储数据,但二者扮演的角色不同。数据库负责管理特定业务领域的实时信息,而数据仓库则负责整合企业各部门的当前数据和历史数据,为报告和分析提供支持。尽管数据仓库建立在数据库技术之上,但前者还额外配备了用于持续对数据进行集成、建模和管理的工具。

数据库通过快速处理事务和更新记录来保障日常运营。数据仓库则为分析工作提供支持,帮助团队发现趋势、比较绩效,并制定战略决策。

数据仓库与数据湖

数据仓库和数据湖都存储了海量数据,但二者的用途不同。数据仓库存储的是经过处理的结构化数据,用于报告和分析;而数据湖存储的是未经处理的原始数据,供后续使用。两者通常协同工作:原始数据存储在数据湖中,待需要分析时再进行转换并移入数据仓库。

数据湖适用于以灵活、低成本的方式存储原始数据;数据仓库则适用于对结构化数据进行快速、可靠的分析。大多数企业都能从这两者中获益:从数据湖获取各类数据,再借助数据仓库将其转化为洞察。

数据仓库与数据集市

数据集市是数据仓库的一个子集,专门按部门或业务线(如销售、营销或财务)进行划分。例如,销售数据集市可能侧重于销售线索、销售管道活动和关单,而财务数据集市则关注预算、预测和收入指标。

有些数据集市也可能是为了单独的运营目的而创建。数据仓库是整个企业的数据存储中心,而数据集市则为特定用户群体提供相关数据。这样能够简化数据访问,加快分析速度,并帮助用户管控他们的数据。一个数据仓库内通常部署了多个数据集市。

数据仓库的构成要素

现代数据仓库包含四大核心组件:中央数据库、数据集成与摄取工具、元数据以及访问工具。这些组件协同工作,能够大规模实现快速、可靠的分析。

  1. 中央数据库:中央数据库是数据仓库的核心存储引擎,传统上多为关系型数据库,但为了获得更好的性能,如今越来越多地采用内存计算或云原生系统。
  2. 数据集成与摄取:数据通过 ETL、ELT 等批处理方式获取数据,也可选择通过变更数据捕获复制和流处理管道等方式实时摄取。这些过程还包括数据转换、质量检查和数据充实。
  3. 元数据:用于描述数据的信息,包括数据的来源、结构、含义以及使用方式,涵盖业务和技术两个层面。
  4. 访问工具:支持用户查询和分析仓库中的数据并与之交互的工具,包括报表工具、仪表盘、分析平台和应用开发工具。

数据仓库架构

传统上,数据仓库采用分层架构,这种架构与数据在系统中的流转方式相契合。典型的数据仓库包含三层。为了实现更快的数据移动和分析,现代平台简化了这种架构。

过去,数据仓库通常由 IT 团队构建和管理,而现代平台越来越多地赋能业务用户直接使用数据。推动这一转变的关键功能包括:

数据仓库的工作原理

数据仓库整合企业各部门的信息,以便轻松实现信息探索与分析,并确保信息值得信赖。这一过程通常包括四个简单步骤:

  1. 提取:从应用、数据库和云服务等源系统中提取数据。在这一阶段,数据会按原样收集。
  2. 转换:数据经过清洗、标准化处理和整理,确保一致并可直接使用。这一步可能包括删除错误数据、统一格式或应用业务规则。
  3. 加载:准备好的数据以适合快速报告和分析的结构化格式存储到数据仓库中。
  4. 分析:数据加载完成后,团队可以使用仪表盘、报表和高级分析工具探索数据,从而制定明智的决策。

ETL 与 ELT 有何区别?

ETL(提取 → 转换 → 加载):数据在进入数据仓库 之前 完成转换。这种方式常见于处理能力有限的传统数据仓库。

ELT(提取 → 加载 → 转换):原始数据先加载到数据仓库中,再在仓库 内部 完成转换。现代云平台能够高效处理大规模数据转换,因此更倾向于采用这种方式。

数据仓库的四大关键特征

数据仓库基于若干核心原则构建,这些原则确保其能够在整个企业范围内提供可靠、一致且可用于分析的信息。数据仓库的四大关键特征分别是:

  1. 以主题为导向:围绕核心业务主题(如客户或销售)组织数据,为数据分析提供支持。
  2. 集成:来自 ERP、CRM 等不同系统的数据经过清洗和标准化处理,实现一致整合。
  3. 时变性:长期存储历史数据,从而支持趋势分析和绩效分析。
  4. 非易失性:数据一旦加载便保持稳定,可读取但不会被更新或删除,从而确保可靠的真实数据源。

云数据仓库的优势

与传统本地系统相比,云数据仓库具有显著优势,日益受到青睐。以下是将数据仓库迁移至云端的七大优势:

  1. 快速部署:无论身处何地,都能在数分钟内启动存储空间、计算资源以及数据集市或沙盒等新环境。
  2. 更低的总体拥有成本 (TCO):只需为实际使用的资源付费,还可免去硬件、设施和维护成本,并通过将存储与计算分离来降低支出。
  3. 弹性灵活:无需人工干预,即可快速扩大或缩小规模,从容应对不断变化的工作负载和海量数据。
  4. 安全保障和灾难恢复:云平台通常提供更强大的安全管控措施、加密机制和自动备份功能,防止数据丢失。
  5. 实时性能:内存计算引擎和云原生引擎能够提供高速处理能力,助力实现实时洞察。
  6. 接入新技术:轻松集成机器学习、自动化洞察和高级分析等功能。
  7. 赋能业务用户:为团队提供统一的数据视图和直观的分析工具,使他们无需大量依赖 IT 部门即可开展数据分析并连接新的数据源。

数据仓库卓越实践

在构建新的数据仓库或扩展现有数据仓库时,遵循久经验证的实践有助于在节省时间和成本的同时实现目标。有些实践侧重于业务需求,而有些则属于更广泛的 IT 指导范畴。建议从以下实践清单入手,并在后续与技术和服务合作伙伴协作的过程中进一步完善。

卓越业务实践

IT 卓越实践

总结

现代数据仓库(尤其是基于云的数据仓库)能够整合来自企业内外部的数据,为企业提供完整、及时的业务视图,因此在数字化转型中发挥着核心作用。这些数据仓库为整个企业的仪表盘、KPI、警报和报表提供数据支持,并能在不影响运营系统的前提下,实现快速、复杂的数据分析。

由于现代数据仓库支持从小规模起步并轻松扩展,因此能够帮助企业各团队和业务部门提升决策水平和绩效。

常见问题

什么是数据湖?
数据湖是用于存储各类大数据的存储库,这些数据包括来自业务应用的结构化数据,以及来自移动应用、社交媒体或物联网设备的非结构化数据。数据在数据湖中以其原始格式(结构化、非结构化、半结构化或二进制)存储,因此可能需要经过转换、规范化或其他处理,才能实现对多种数据类型的分析。大多数数据湖都基于云端构建,因为它们需要存储海量数据、高速连接到分布式数据源,并且还要具备可扩展性。数据湖能够存储海量原始数据,这使其成为数据仓库灵活且低成本的补充方案。
什么是 ETL 和 ELT?
ETL 是“提取、转换和加载”的缩写,是指从源系统中提取数据,清洗并整理成可用格式后加载到数据仓库或其他数据存储中的过程。许多现代系统还采用 ELT(提取、加载、转换)模式,即先加载数据,再进行转换。这两种方法都能帮助将原始数据转化为可分析的数据资产,无论这些数据来自事务系统还是更复杂的非结构化数据源。
什么是数据集市?
数据集市是数据仓库的子集,专注于特定业务领域或团队(例如财务部门或市场部门)。数据集市能帮助特定团队快速访问与其工作最相关的数据,并在更大的数据仓库范围内管理自身精心整理的数据集。例如,财务数据集市可能包含根据财务团队报表编制需求定制的预算、预测和收入数据。
什么是数据建模?
数据建模是定义数据如何组织与关联的过程,目的是让数据能够被有效地存储和使用。数据模型概述了数据代表的含义,以及不同数据片段之间的相互关系,为实现跨系统的一致数据结构构建蓝图。例如,销售数据模型可以展示客户、订单和产品之间如何相互关联,为报告和分析工作提供支持。
什么是企业数据仓库 (EDW)?
企业数据仓库 (EDW) 是一个集中式系统,用于将企业的当前数据和历史数据全部存储在同一位置。EDW 为分析、报告以及企业级 KPI 提供统一且一致的数据源。为了便于访问、扩展和管理,许多 EDW 都在云端运行。
数据仓库分为哪三种类型?
  1. 企业数据仓库 (EDW):企业数据仓库是覆盖全企业的集中式数据仓库,用于将企业的当前数据和历史数据全部存储在同一位置。EDW 为整个企业范围内的分析、报告和 KPI 提供统一且一致的真实数据源。大多数现代 EDW 在云端运行,目的是实现可扩展性和更便捷的访问。
  2. 操作型数据存储 (ODS):操作型数据存储是一种近乎实时的数据存储,用于支持运营报告和日常业务活动。ODS 位于事务处理系统与企业数据仓库之间,以相对实时(但并非完全涵盖历史数据)的形式整合来自多个数据源的数据。ODS 适用于需要频繁更新数据以快速作出运营决策的场景。
  3. 数据集市:数据集市是数据仓库中规模较小、面向特定主题的子集,专为某一团队或业务部门(例如财务、销售或市场部门)而设计。数据集市支持该团队快速访问对其最为重要的数据,而无需向其开放整个数据仓库。
数据仓库的四大组件是什么?
  1. 中央数据库:作为主要存储层,用于存放经过清洗和整合的结构化数据。这通常是专为分析优化的关系型数据库、列式数据库或云原生数据库。
  2. 数据集成/摄取工具:诸如 ETL(提取、转换、加载)、ELT(提取、加载、转换)、批量加载和实时复制等工具和流程,用于将数据从源系统引入数据仓库,并为后续使用做好准备。
  3. 元数据:用于描述数据的信息,包括数据的来源、结构、含义及使用方式。元数据有助于用户理解并信任数据。
  4. 访问工具:供用户查询、可视化、探索和分析数据的应用与接口,例如报表工具、仪表盘、分析平台和 SQL 查询工具。
SQL 是数据仓库吗?
不是。SQL 是一种用于查询和管理数据的语言,而数据仓库则是用于存储、组织和处理大量数据以供分析的系统。SQL 只是用于在数据仓库中处理数据的主要工具之一。