跳转至内容
人们在设计数据仓库流

什么是数据建模?

数据建模是创建数据流图表的过程。创建新数据库结构或备用数据库结构时,设计人员会先创建一个数据流图表,设计数据流入和流出数据库的方式。数据流图表用于定义数据格式、结构和数据库处理功能的特性,以便有效地满足数据流需求。构建和部署数据库后,数据模型将保留下来。根据数据模型,我们可以了解创建数据库的原因以及数据流的设计。

 

建模过程生成的数据模型会提供一个框架,说明数据库中各种数据元素之间的关系,并为数据的使用提供指导。数据模型是软件开发和分析的基本要素。它们为在不同的系统中定义和格式化数据库内容提供了标准化的方法,使不同的应用能够共享相同的数据。

为什么数据建模很重要?

全面优化的数据模型有助于创建简化的逻辑数据库,消除冗余数据、减少存储需求并实现高效检索。此外,它还能为所有系统提供至关重要的单一真实数据源,帮助企业实现高效运营,确保遵守相关法规和监管要求。数据建模在数字企业的两大重要职能中起到了关键作用。

IT 专业人员执行的软件开发项目(新项目或定制项目)

 
在设计和构建任何软件项目之前,IT 人员必须先创建文档,设想最终产品的结构和功能,其中的一个重要环节就是制定用于管理目标功能的业务规则。此外,描述数据也很重要,即描述用于支持目标功能的数据流(或数据模型)和数据库。
 
数据建模可以记录这些设想,并为软件设计人员提供设计路线图。完整定义并记录数据库和数据流,并根据定义的规范完成系统开发后,系统应提供预期的功能,确保数据准确(假设完全按照该程序执行)。
 

用户主要的决策工具:分析和可视化或者商业智能

 

随着数据和用户的数量不断增加,企业需要设法将原始数据转化为可指导行动的信息,为决策流程提供支持。因此,企业对数据分析工具的需求大幅增长。而数据可视化工具能以图形的形式呈现数据,让数据对用户而言变得更易于理解。

 

如今,数据模型可以将原始数据转换为有用的信息,继而转换为动态的可视化内容。通过对数据做如下处理,数据建模流程能够为数据分析做好准备,比如清理数据、定义度量和维度,通过建立层次结构来增强数据、设置单位和货币以及添加公式。

 

数据建模有哪些类型?

常用的数据模型主要有三类,即关系型、维度型和实体关系型 (E-R)。此外,还有一些不常用的类型,包括层次型、网络型、面向对象型和多值型。数据模型的类型定义了逻辑结构(即数据的逻辑存储方式)以及存储、组织和检索数据的方式。

  1. 关系型:虽然关系数据模型是一种“较老”的数据模型,但它依然是目前最常用的。关系数据模型将数据存储在固定格式的记录中,并排列在带有行和列的表中。最基本的数据模型类型包含两个元素:度量和维度。度量是在数学计算(如求和或计算平均值)中使用的数值,例如数量和收入。维度可以是文本或数字。虽然在计算时不会用到维度,但维度包含描述或位置信息。原始数据以度量或维度的形式出现。关系型数据库的设计还会用到其他一些术语,包括“关系”(带有行和列的表)、“属性”(列)、“元组”(行)和“域”(列中允许的一组值)。虽然在定义关系型数据库时需要考虑各种要素和结构要求,但最重要的是该结构中定义的关系。通用数据元素(或键)将表和数据集链接在一起。表也可以显式关联,例如定义父子关系,包括一对一、一对多或多对多。
  2. 维度型:维度数据模型相对宽松,结构更灵活,适用于更贴合业务用途或情境的情境型数据结构。这种数据库结构针对在线查询和数据仓储工具进行了优化。关键数据元素(如交易数量)称为“事实”,其附带称为“维度”的参考信息,比如产品标识、单价或交易日期。事实表是维度模型中的主表。该模型将特定类型活动的数据存储在一起,可以提高数据检索的效率,但由于缺少关系链接,因此会相应地增加分析型检索和数据使用的复杂性。由于数据结构与生成和使用数据的业务职能相关联,因此合并由不同系统(例如在数据仓库中)生成的数据可能会出现问题。
  3. 实体关系型 (E-R):E-R 模型以图形形式呈现业务数据结构,图形中包含表示活动、功能或“实体”的各种形状的框,以及表示关联性、依赖性或“关系”的线。E-R 模型用于创建关系型数据库,其中每一行代表一个实体,行中的字段包含属性。与所有关系型数据库一样,“键”数据元素用于将表链接在一起。

数据抽象概念的三个级别是什么?

数据模型的类型有很多,可能的布局类型也有很多。在数据处理方面,有三种公认的建模方式,分别代表模型开发时的思维抽象级别。

概念数据模型

 

第一级是“全局”模型,表示整体结构和内容,不包含数据计划的详细信息。数据建模通常从这一级开始,旨在确定各种数据集和整个企业中的数据流。概念模型是开发逻辑模型和物理模型的总体蓝图,也是数据架构文档化的重要内容。

 

逻辑数据模型

 

第二级是逻辑数据模型。逻辑数据模型最接近“数据模型”的一般定义,旨在描述数据流和数据库内容。逻辑模型向概念模型中的整体结构添加了详细信息,但不包括数据库本身的规范,因此这种模型可以应用于各种数据库技术和产品。(请注意:如果项目涉及单个应用或其他受限系统,则可能没有概念模型。)

 

物理数据模型

 

物理数据库模型具体描述如何实现逻辑模型。物理模型必须包含充足的详细信息,使技术人员能够在软硬件中创建实际的数据库结构,支持将使用该结构的应用。毫无疑问,物理数据模型专门针对指定的数据库软件系统。如果要使用不同的数据库系统,则可以从单个逻辑模型派生出多个物理模型。

数据建模流程和技术

数据建模本质上是一个自上而下的流程,首先是确定概念模型,建立整体结构,然后是构建逻辑模型,最后是建立物理模型,进行更细化的设计。

 

构建概念模型的过程主要是将想法转化为图形形式,类似于程序员的流程图。

 

现代数据建模工具可帮助企业定义和构建逻辑数据模型和物理数据模型及数据库。下面列举了一些典型的数据建模技术和步骤:

  • 确定实体并创建实体关系图 (ERD)。具体来说,实体是“企业感兴趣的数据元素”。例如,“客户”可以是一个实体,“销售”也可以是一个实体。实体关系图记录了企业不同实体间的相互关系,以及它们之间的高级联系。
  • 定义事实、度量和维度。事实是数据的一部分,代表特定的事件或交易,例如产品销售。度量是定量的,如数量、收入、成本等。维度是定性的度量,例如描述、位置和日期。
  • 使用图形化工具或通过 SQL 查询创建数据视图链接。如果不熟悉 SQL,可以选择最直观的图形化工具。借助图形化工具,你可以将元素拖放到模型中,直观地构建连接。创建视图时,你可以选择将表甚至其他视图合并到单个输出中。在图形化视图中选择数据源,并将其拖动到已与输出相关联的数据源上时,可以选择联接表或创建这些表的并集。

现代分析解决方案还支持你使用图形化拖放显示功能,选择、过滤和连接数据源。IT 部门的数据专家可以使用高级工具,但普通用户也可以创建自己的故事。他们可以通过可视化的方式创建数据模型,并组织表、图表、地图和其他对象,基于数据洞察来讲述故事。

深入了解 SAP Analytics Cloud [分析云]

创建数据模型,基于数据洞察讲述故事。

数据建模示例

对于任何应用(无论是业务应用、娱乐应用、个人应用还是其他应用),数据建模都是早期必不可少的步骤,对于设计系统和定义支持系统的基础架构非常重要。这包括所有类型的事务系统、数据处理应用或套件,以及收集、创建或使用数据的任何其他系统。

 

数据建模对于数据仓库来说必不可少,因为数据仓库需要存储来自多个数据源的数据,这些数据可能是具有不同格式的相似数据或相关数据。对数据仓库进行数据建模的第一步就是要映射仓库格式和结构,确定如何处理传入的每个数据集,使其符合数据仓库设计的需求,从而为数据分析和数据挖掘做好准备。数据模型对于支持分析工具、执行信息系统(仪表盘)、数据挖掘以及与所有数据系统和应用的集成至关重要。

 

在任何系统的早期设计阶段,数据建模都是关键的一步。所有其他步骤和阶段都依赖数据建模来建立基础结构,从而为所有程序、功能和工具提供支持。数据模型类似于通用语言。根据数据模型,系统能够理解和接受模型中所描述的数据并进行通信。在当今大数据机器学习人工智能云连接物联网技术以及包括边缘计算在内的分布式系统盛行的时代,数据建模比以往任何时候都更为重要。

数据建模的发展史

实际上,数据建模的历史与数据处理、数据存储和计算机编程一样悠久,但这一术语直到 20 世纪 60 年代数据库管理系统开始发展时才得以普及。规划和构建新结构并不是什么新概念或创意。随着数据数量和种类以及数据库的不断增加,数据建模本身变得更加结构化和规范化。

 

如今,数据建模的重要性更加凸显。技术人员需要处理各种新的数据源(物联网传感器、位置感知设备、点击流、社交媒体),而且非结构化数据(文本、音频、视频、原始传感器输出)激增,这些数据的规模和增长速度都超出了传统系统的处理能力。业务人员不断要求开发新系统,革新数据库结构和技术,并构建新的数据模型,来应对这种新的数据发展形势。

数据建模的发展方向是什么?

考虑到信息互联和各种不同数据源(包括传感器、语音、视频、电子邮件等)会生成大量数据,IT 人员需要扩大建模项目的范围。毫无疑问,互联网是这种发展趋势背后的一个驱动因素。而云技术是一个重要的解决方案,因为云技术是唯一规模足够大且可扩展能力和敏捷性足够强的计算基础架构,只有它能够满足不断扩大的互联世界在当前和未来的需求。

 

数据库设计方案也在不断变化。十年前,主流数据库结构为行式关系型数据库,使用的是传统磁盘存储技术。常见 ERP 系统的总账或库存管理数据存储在数十个不同的表中,技术人员需要对这些表进行建模和更新。如今,现代 ERP 解决方案使用列式数据库设计在内存中存储实时数据,大幅减少了表的数量,提高了速度和效率。

 

对于业务线人员而言,他们目前使用的新型自助服务工具将继续不断改进。同时,市场上还会有新的工具出现,帮助他们简化数据建模和可视化操作,并提高协作水平。

总结

要想开发出功能完备、数据准确、实用安全的数据库,关键是要精心设计完善的数据模型。对数据仓库进行数据建模首先要设计概念模型,列出数据模型需要的所有组件和功能。然后,将计划的组件和功能细化为逻辑数据模型,对数据流进行说明,并明确定义所需的数据及获取、处理、存储和分发数据的方式。最后,在逻辑数据模型的基础上,开发人员需要构建物理数据模型,详细说明特定数据库产品的设计,指导数据库和应用软件的创建。

 

巧妙的数据建模和数据库设计对于开发出功能完备、安全可靠的应用系统和数据库至关重要,这些系统和数据库能与数据仓库和分析工具完美协作,并促进企业与业务合作伙伴以及企业多个应用程序之间的数据交换。精心设计的数据模型能够确保数据完整性,提升企业数据资产的价值和可靠性。

了解现代数据建模工具

将数据与业务情境相关联,支持业务用户挖掘洞察。

返回顶部