flex-height
text-black
数据管理术语表
查看数据管理术语表,了解各种数据相关术语及定义。
default
{}
default
{}
primary
default
{}
secondary
什么是数据库?
数据库是用于组织、存储、管理、保护和控制数据访问的工具。数据库采用多种不同的设计模式,其中大多数数据库都遵循关系模型,以便程序访问和数据查询。常见的数据库类型包括关系型数据库管理系统 (RDBMS)、内存数据库、面向对象的数据库管理系统 (OODBMS)、NoSQL 数据库和 NewSQL 数据库,每种数据库都有自己的优势。
什么是数据管理?
数据管理是指采集、控制、保护、操作和交付数据所需的各种功能。数据管理系统包括:数据库、数据仓库和数据集市;数据采集、存储和检索工具;用于辅助验证、质量管控以及与应用和分析工具集成的实用程序。企业必须制定数据策略,明确对源自或属于特定责任领域的数据的责任归属。
什么是数据库管理?
数据库管理是指存储、处理、操作和保护数据所需的一系列流程和程序。在许多企业中,制定和监督这些程序是数据库管理员 (DBA) 或类似职位的首要职责。大多数企业采用商业数据库管理系统 (DBMS) 作为管理数据库的主要工具。
什么是数据库管理系统?
数据库管理系统 (DBMS) 是为数据库管理提供存储结构和数据管理工具的软件工具包。DBMS 可以是获得许可的 ERP 系统的必要组成部分,也可以是需要单独购买的产品、系统软件(操作系统)的组成部分或单独许可的软件产品。无论来源如何,应用都必须围绕 DBMS 构建和/或与 DBMS 完全集成,这是因为应用和 DBMS 二者为了有效发挥各自功能而相互依存。DBMS 本质上是数据库管理工具包。
什么是 SQL 数据库?
SQL 数据库是将数据存储在表和行中的关系型数据库。数据项(行)基于通用数据项建立链接,这种设计可以提高效率,避免数据冗余,并实现灵活便捷的数据检索。SQL 是结构化查询语言 (Structured Query Language) 的简称。这是一种工具包和自然语言查询协议,可供用户学习并应用于所有兼容数据库,执行数据存储、操作和检索任务。
什么是 NoSQL 数据库?
NoSQL 数据库专为处理非结构化数据而设计,这些数据缺乏结构,所以 SQL 无法支持。NoSQL 采用动态模式和各种预处理技术等创造性技术来突破这一限制。非结构化数据最常见的数据库类型是键值数据库、文档数据库、列式数据库和图形数据库,通常包括视频、图形、自由文本和原始的传感器输出数据。
什么是关系型数据库管理系统 (RDBMS)?
关系型数据库管理系统是指基于关系数据模型的数据库管理系统 (DBMS)。RDBMS 的内容存储在由行和列组成的表中,每个表代表数据库中与其他对象或实体相关联的特定对象或实体。RDBMS 通常包含多个表,并且具有确保数据准确性、一致性、完整性和安全性的其他功能,以及支持通过复杂查询访问关系数据的 SQL 接口。
什么是 CDBMS?
CDBMS 一词由 Gartner 提出,主要用于描述上文中 RDBMS 的云部署模式。
什么是结构化数据?
结构化数据以行和列的形式整齐排列,并映射到预定义字段,通常存储在 Excel 电子表格或关系型数据库中,典型示例包括金融交易记录、人口统计信息和机器日志等。直到最近,结构化数据仍是企业唯一可用的数据类型。
什么是非结构化数据?
非结构化数据无法按行和列进行组织,因此存储、分析和搜索难度更大,典型示例包括原始的物联网数据、视频和音频文件、社交媒体评论以及呼叫中心记录等。非结构化数据通常存储在数据湖、NoSQL 数据库或现代数据仓库中。
什么是半结构化数据?
半结构化数据具有部分组织属性,例如语义标签或元数据,但不符合电子表格或关系型数据库的行和列结构。典型的半结构化数据是电子邮件,其中既包括发件人和收件人地址等结构化数据,也包括邮件正文这类非结构化数据。
什么是数据映射?
数据映射是指在不同数据结构或数据库之间匹配字段的过程。如果要合并数据库、将数据从一个系统或数据库迁移到另一个系统或数据库,或者要在单个应用或分析工具中使用不同数据源(数据仓库中经常出现这种情况),则必须执行数据映射。数据映射将识别唯一信息、冲突信息和重复信息,并创建一套规则,使所有数据采用统一的模式或格式。
什么是数据建模?
创建新的或备用数据库结构时,设计人员首先会创建数据流图,设计数据流入和流出数据库的方式。这个创建数据流图的过程称为数据建模。根据该数据流图,软件工程师可以定义数据格式、结构和数据库处理功能的特性,高效地满足数据流需求。
什么是数据仓库?
数据仓库为来自内外部各种数据源的数据提供全面的统一存储库,其主要用途是为商业智能、报告和分析提供数据。现代数据仓库可以存储和管理所有类型的数据,包括结构化和非结构化数据,并且通常部署在云端,用以提高可扩展性和易用性。
什么是数据湖?
数据湖 是指以原始格式或自然格式存储数据的庞大数据池。数据湖常用于存储大数据,包括结构化数据、非结构化数据和半结构化数据。
什么是大数据?
大数据这一术语用于描述由结构化、非结构化以及半结构化数据构成的超大规模数据集。大数据通常具备五大特征(5 个 V):数据量大 (Volume)、数据类型多样 (Variety)、数据生成速度快 (Velocity)、数据真实性高 (Veracity) 以及数据价值大 (Value)。借助大数据管理系统和分析工具,企业能够充分挖掘大数据,获取深入洞察,为决策和行动提供指导。
什么是小数据?
与数量庞大、复杂度高的大数据不同,小数据更易于人们理解。小型数据集可以包含从市场调查到日常电子表格的任何内容,甚至可以“小”到一篇社交媒体帖子或一封电子邮件。除了大数据,越来越多的企业开始使用小数据来训练 AI 和机器学习算法,以便获得更深入的洞察。
什么是厚数据?
厚数据是指揭示消费者日常情绪的定性信息,包含观察记录、情绪和反应等通常难以量化的内容。厚数据与大数据相结合能完整呈现消费者的偏好和需求。
什么是数据集成?
数据集成是指随时随地按需摄取、转换、整合和准备数据的实践过程。这种集成并不局限于企业内部,还可以发生在合作伙伴以及第三方数据源和第三方用例之间,用以满足所有应用和业务流程的数据使用需求。数据集成的技术实现方式包括批量数据移动、提取、转换、加载 (ETL)、变更数据捕获、数据复制、数据虚拟化、流数据集成和数据编排等。
什么是数据虚拟化?
数据虚拟化通过虚拟数据层,为企业提供不同系统和格式的所有数据的统一视图。数据虚拟化无需复制数据,而是将数据保留在源系统中,并将其虚拟表示实时提供给用户和应用。数据虚拟化是一种现代数据集成方法,支持用户发现和处理任何物理位置、格式或协议的数据。
什么是数据编织?
数据编织是一种定制化的架构和技术组合,采用动态数据集成和编排技术连接不同位置、来源和类型的数据。借助数据编织平台中定义的正确结构和流程,企业可以快速访问和共享数据,不论这些数据的存储位置或生成方式如何。
什么是数据网格?
数据网格是指采用分布式架构框架的数据管理方法。换言之,数据网格是将整个企业内特定数据集的所有权和职责,分散至具备专业知识的用户,这些用户能够理解数据的含义并且知道如何充分发挥数据的价值。
什么是数据管道?
数据管道是指一套自动化、可重复的流程,用于从数据源查找、清理、转换和分析各种类型的数据。由于数据在生成位置就近进行分析,因此业务用户能够以更低的成本快速分析和共享所需信息。此外,数据管道也可以通过机器学习等技术得到增强,从而提高速度和效率。
什么是数据孤岛?
数据孤岛是一个非正式术语,用于描述企业各部门或职能领域之间无法共享数据和信息的现象。这种现象会阻碍各部门协同一致实现企业目标,而且会导致企业业绩不佳,客户服务低效,成本居高不下,并且无法快速响应市场需求和变化。此外,由于难以消除重复数据和冗余数据,这进一步阻碍了各部门之间协同合作,导致企业无法有效地管理业务。
什么是数据整理?
数据整理是指将原始数据转换与现有数据库和应用兼容的格式的过程。数据整理流程包括对数据进行必要的结构化、清理、扩充和验证,使原始数据变成有用的信息。
什么是数据安全?
数据安全是指通过采取措施,保护数据安全,确保数据免受未经授权的访问或泄露、灾难或系统故障的影响,同时保证合法用户和应用可以轻松访问数据。保护数据安全的方法和工具包括数据加密、密钥管理、冗余和备份机制以及访问控制。对于任何规模和类型的企业而言,数据安全都不可或缺,能够保护客户数据和组织数据,防范不断增加的数据泄露和隐私相关风险。数据冗余和备份对于确保业务连续性和灾难恢复至关重要。
什么是数据隐私?
数据隐私是指一系列规定数据处理方式的政策和实践,用于保护数据免受未经授权的访问或披露。数据隐私政策和实践包括如何根据企业的数据策略采集和存储信息,如何与第三方合法共享信息,如何确保某些数据不泄露给第三方,以及如何遵守法规限制。为了满足客户期望,同时确保存储信息的完整性和安全性,企业必须执行数据隐私政策。
什么是数据质量?
数据质量是一个模糊的术语,用于描述数据的适用性和可靠性。简单来说,优质数据意味着数据准确(真实反映描述对象)、可靠(一致、可审计、管理及保护得当),并且达到用户和应用要求的完整性标准。要想确保数据质量,企业必须使用工业级工具和系统,精心设计和执行数据策略,并严格遵循数据管理政策和程序。
什么是数据验证?
数据验证是指在导入或使用数据之前,确定数据的质量、准确性和有效性。数据验证包括一系列活动和流程,用于验证数据并清理数据项,包括删除重复项、纠正明显错误或缺失项,还可能进行格式更改(数据清理)。数据验证旨在确保制定重要决策所需的信息准确可靠。
什么是数据清理?
数据清理是指删除或纠正数据集、表或数据库中的错误。这些错误可能包括信息损坏、不准确、不相关或不完整。这一过程也称为数据清洗,能够找出重复数据和其他不一致问题,例如拼写错误和汇总数值不匹配。数据清理过程会删除不正确信息或纠正明显错误,例如空字段或代码缺失。
什么是数据完整性?
数据完整性是指数据在长期范围内保持真实可靠的状态。数据经过录入/导入、整理、验证、清理和存储后,保持了数据完整性,这表明数据质量稳定可靠,而且用户可以确信输入的数据在任何时候均不会更改。检索到的数据与原始存储数据完全一致。数据完整性有时被用作数据质量的同义词,但数据完整性更侧重于数据的可信度和可靠性。
什么是数据治理?
数据治理是一套确保整个企业内数据规范管理的政策和实践。数据治理的构成包括搭建 IT 基础架构,并指定有权限、有责任处理和保护特定类型数据的员工(或职位)。通过有效的数据治理,企业可以确保数据的可用性、可靠性、安全性和合规性,避免数据滥用。
什么是数据管理?
数据管理是指通过实施数据治理政策和程序,来保证数据准确性、可靠性、完整性和安全性。负责数据管理的人员将监督和管理用于处理、存储和保护数据的程序及工具。
什么是数据架构?
数据架构是指定义企业数据及其使用和管理方式的结构、策略和规则的整体设计体系。数据架构详细描述了如何根据业务需求和目标实施数据策略,是开发数据库、制定程序和安全防护措施、实现安全保障和数据治理的基础。
什么是主数据管理?
主数据管理 (MDM) 是指为所有重要业务数据创建统一的主要参考数据源。主数据管理包括用于定义、管理和控制(或治理)主数据处理的策略和程序。集中的主数据管理能够消除因分散的数据库而产生的冲突和混乱,这些分散的数据库可能存在重复信息、数据不同步、数据过时、数据损坏或未统一更新(即有的位置已更新,而其他位置未能同步更新)等问题。主数据管理能够为整个企业建立统一的数据版本,确保企业各部门使用相同的定义、标准和假设。
什么是分析?
分析是指对数据进行系统化分析。分析应用和工具包包含数学算法和计算引擎,可以处理大型数据集,从中发现模式、趋势、关系及其他有用的信息,而用户可以基于这些信息提出问题,并获取业务、运营和市场方面的洞察。许多现代分析工具包专为非技术性业务人员设计,支持他们在几乎没有数据科学家或 IT 专家协助的情况下,执行此类分析。
什么是增强分析?
增强分析是指由机器学习和自然语言处理 (NLP) 等人工智能技术增强的分析方法。增强分析不仅可以帮助用户更快速地发掘更深入的洞察,还能自动执行分析流程中的许多复杂步骤,甚至让非技术用户能够以自然语言对话的形式查询数据。
什么是数据挖掘?
数据挖掘是指从大型数据集中提取有用的信息,通常由业务用户使用分析工具挖掘数据,发现模式、趋势、异常、关系、依存性以及其他有用的信息。数据挖掘应用范围广泛,包括检测欺诈、防范网络威胁、提高预测准确性以及寻找绩效提升机会等。
什么是数据剖析?
数据剖析是指收集数据集的相关统计信息和特征,如准确性、完整性和有效性。数据剖析是数据验证和数据清理工作中使用的一种技术,可以帮助检测各种数据质量问题,如数据冗余、值缺失和不一致等。