什么是数据网格?
数据网格是指采用分布式架构框架的数据管理方法。
default
{}
default
{}
primary
default
{}
secondary
数据网格概览
数据网格是一种审视信息的新方式。它的诞生源于一个日益普及的理念,即数据本身就是一种产品、一种工具、一种达成目标的手段,而不仅仅是企业为了回溯已发生事件而收集和分析的资料。
数据网格的定义
数据网格是一种利用分布式架构框架进行数据管理的方法。换言之,数据网格将整个企业内特定数据集的所有权和职责分散给具备专业知识的用户,让真正理解数据含义并知道如何充分发挥数据价值的人来负责管理。
数据网格架构连接并提取来自数据湖和数据仓库等各种数据源的数据,然后将相关数据集分发给企业内对应的专业人员和领域团队。本质上,这个过程是将中央数据湖中大量杂乱无章的数据进行分类整理,划分成可管理的数据块,然后分发给最擅长理解和利用这些数据的人员。
数据网格的起源
数据网格大约起源于 2009 年,旨在应对大型复杂企业扩展数据架构时所面临的挑战。其核心理念是分散数据所有权和架构,将数据视为一种产品,并交由相应领域的团队负责管理。数据网格融合了领域驱动设计、产品思维和自助式基础设施三大原则,让企业在扩展数据系统时,避免产生单体架构带来的瓶颈。
在大型企业中,集中式数据管理模式常因以下原因而失败:
- 交付瓶颈:所有工作依赖一个中央团队,任务过重,拖慢数据获取和分析速度。
- 责任缺失:各业务领域没有明确的数据质量责任人,造成标准不统一、数据可信度低。
- 扩展问题:随着数据量和复杂度增加,企业要想扩展集中式系统,必须投入大量资金。
- 领域知识匮乏:中央团队缺乏对业务领域的深度理解,导致数据产品质量低或与业务脱节。
- 敏捷性有限:所有变更依赖一个团队进行协调,导致难以快速响应不断变化的业务需求。
数据网格的优势
传统的数据库和有限的数据管理基础设施让人们形成了一种观念,认为数据应存储在统一的仓库中,由少数数据管理者酌情处理。如今,数据是推动业务发展的引擎;在竞争激烈的当下,应将数据自由开放给那些最擅长运用数据、创造利润的领域专家。
数据网格架构的主要优势可归纳为以下三个方面:
可扩展性和敏捷性
提高数据可访问性:数据网格确保企业内所有相关人员都能获取所需数据,从而在自己的岗位上发挥最大潜能。
支持定制数据管道和流程:很多优质且颇具盈利前景的项目之所以被搁置,是因为梳理项目成功所需的独特、定制化数据集是一项十分繁琐的工作。借助数据网格,团队能够快速访问和测试新的项目模型,不会像采用传统方式时一样耗费大量时间和资源。
减少瓶颈:这对 IT 团队和数据所有者而言显然是双赢。此外,通过减少工作中的摩擦和不满情绪,企业可以打破壁垒,推动业务健康发展。
质量与信任
增强分析能力:当企业将数据视为日常使用的产品时,团队便会开始采用数据优先的方法来制定计划和战略。这有助于企业减少错误和主观臆断,以更客观的方式推动业务发展。
跨领域协作与复用
减轻中央数据管理团队的压力:这不仅能减少工作积压和沮丧情绪,还能让优秀的 IT 团队腾出大量时间,投入到更专业、更有趣、更能创造效益的工作中。
通过分散所有权并将数据视为产品,数据网格能够帮助企业加快行动步伐、增强对数据洞察的信任,并在不同领域之间实现无缝扩展。
数据网格的核心原则
数据湖和数据网格在本质上都与大数据密切相关。大数据的“大”不仅体现在数据量大上,还体现在大数据的其他特点上,比如复杂、多变、生成速度快和非结构化等。
线性数据库就像电子表格,有固定的列和行,所有数据都必须归入不可变的分类中。部分来自设备、传感器和工业系统的数据是结构化的,可以很好地适配线性数据库。无论需要处理的数据量多大,只要是 100% 结构化数据,就不属于严格意义上的大数据,可以存放在线性数据库中,过滤和提取也相对简单。
但是,越来越多的现代大数据都是非结构化数据,并且包含可视化内容和开放式文本,甚至还包括视频和富媒体。这些重要数据可能由来自众多企业的数千 TB 信息组成,根本无法用标准的线性数据库来存储。
于是,数据湖应运而生。随着大数据数量不断增加,数据湖被开发出来,支持以原始格式集中存储和访问复杂数据。尽管数据湖是应对大数据挑战的良方,但也存在一些缺点。数据湖缺乏某些分析功能,需要依靠其他服务来实现数据检索、索引、转换、查询和分析功能。
数据网格的四大原则正好可以应对数据湖带来的挑战:
1. 领域所有权
当有过多的参与者生成和访问数据时,数据湖中的所有权便难以界定。当角色和责任定义不明时,就可能出现同一数据集被不同参与方以不同方式管理的情况,从而造成不一致,导致数据难以使用。同样,如果数据不由最终使用者主动管理,就会被忽视、荒废。
数据网格架构通过分散所有权,解决了这一问题。数据网格架构将数据治理按领域进行明确分配,让每个团队或领域专家负责治理自己生成和使用的数据。为支持这一点,数据网格还采用联合治理结构,对数据建模、安全策略和合规性进行集中管控。数据网格的所有权模式明确了责任归属,并提高了数据的可用性。
2. 数据即产品
当数据量过大或中央数据管理人员自身并不理解数据时,数据湖往往无法保证数据质量。数据网格架构从根本上将数据视为有价值的产品,把数据质量和完整性放在数据管理的核心位置。通常来说,每个团队都清楚自己希望从所收集的数据中推断出哪些关键指标和痛点。通过将这些指标和优先事项集成到架构中,即使涉及更大规模的数据集,数据网格也能持续、优先地交付干净、新鲜且完整的数据。当然,如果采用了机器学习算法,随着时间推移,这些指标与最终生成的数据集会变得越来越准确、越来越实用。
3. 自助式数据平台
由于数据湖采用集中式架构,而且数据检索流程和程序一直较为复杂,因此很容易出现瓶颈。这通常意味着,大量整合数据的管控工作全部落在单个 IT 团队或数据管理团队身上。随着数据量和数据检索需求的增加,这些 IT 团队会不堪重负。
此外,数据必须经过恰当的审核与结构化处理,才能满足合规要求与数据治理原则。当面临过度压力时,相关人员可能会在合规环节仓促处理,从而给企业带来潜在风险与损失。数据网格原则通过构建自助式数据平台解决了这一问题。该平台将数据的访问权和控制权交给与数据有更大直接利益关系的授权专业用户,同时内置严格的安全协议。这既减少了瓶颈,又加快了数据交付速度。
4. 联合治理
尽管去中心化是关键,但企业也不能放弃数据治理。数据网格采用联合治理模式来平衡自主性与一致性。这意味着各个领域可自主管理其数据产品,但必须遵守企业内关于安全性、合规性和互操作性的共同标准。这种混合式的数据网格治理方法既能确保敏捷性,又不会损害数据可信度与合规性。
尽管数据网格仍存在一些挑战,但这种去中心化、数据民主化的管理架构已经让企业运营变得更智能、更敏捷、更精准。原因何在?因为它确保正确的人员无论何时何地需要,都能立即获得正确的数据。数据网格使“数据即产品”成为现实,减少了数据使用障碍,凸显了信息价值,让团队能够更快速、顺畅地访问重要数据。
数据网格架构与框架
我们已经讨论过,数据网格是一种去中心化的数据架构,这种架构将数据视为不可或缺的业务管理工具。重要的是,这种模式下,各独立团队负责其工作与专业领域内的数据处理,但同时仍需遵守企业统一制定的数据管理规范。这种思维模式的转变正是数据网格的核心。
数据网格架构概览
在数据网格中,领域是数据的核心生产者和使用者,各领域将自身的数据视为产品进行管理,以保障数据的质量与相关性。自助式平台提供用于发布、发现和使用这些数据产品的基础设施,以及自动化的安全与合规功能。数据治理采用联合模式,即确保遵循有关互操作性和安全性的全局标准,又保障各个业务领域的自主权,让各业务域能够自主创新,同时保持整个企业内数据的可信度与一致性。
为了更好地理解数据网格架构的各部分如何协同工作,我们来深入探讨其三大主要组成部分。
数据源
数据源相当于存储库(如数据湖),用于存储主要的原始数据。无论是来自工业物联网云平台、客户反馈表还是抓取的 Web 数据,这些原始数据都是数据网格中的“原材料“”,将供网络中的所有用户根据需要查阅和使用。数据湖方法是将所有数据汇聚到一个集中位置,而数据网格方法则将原始数据的采集、存储、处理和提取职责分配给多个负责的业务领域。
数据网格基础设施
数据并非孤立地封闭在各个部门领域内,而是可以在企业的运营网络中自由共享,同时始终遵循既定的数据治理准则。这直接得益于数据网格的两大核心支柱:自助式数据平台与联合治理。自助式数据平台为每个领域提供通用的工具和基础设施,支持他们摄取、转换、处理和提供数据。同时,联合治理原则确保了企业内部的标准化,使得所有领域团队之间能够轻松实现数据互通。
数据所有者
数据所有者是数据网格的最后一个关键组成部分,负责为自己部门的数据执行合规、治理和分类规程。例如,人力资源档案必须按照特定安全协议存储,不得用于规定以外的用途,且只能向指定人员开放。当然,由于部门和用途不同,每个部门都有其独特的数据类别和类型。在数据湖系统中,数据所有者只管将数据存入数据湖中,而 IT 团队必须费力应对他们各种不同的数据管理要求和分类标准。而在数据网格架构中,这些工作的权限和控制权完全交给了各个领域的数据所有者,毕竟,没有谁比领域专家更适合管理自己的数据并确保这些数据符合质量标准。
数据网格运行模式
数据网格运行模式将人员、流程和技术有机结合,实现大规模的去中心化数据管理。这种协作可以确保数据在企业内无缝流动,从而提升信任度、敏捷性和数据复用性,而无需依赖单一的中央团队。数据网格通过执行统一标准、提供通用平台、统一数据格式与检索关键词,以及有关数据产品发布和使用的治理规则,实现数据互操作性和可发现性。借助数据目录、注册中心等数据网格工具,各团队能够快速查找、安全访问和使用企业内的数据产品。
可以将数据网格想象成一个现代城市:每个社区(领域)自主管理水电、垃圾处理等公用设施和服务,毕竟他们最了解本地需求。城市则提供共享基础设施,比如道路和公共交通(自助式平台),以及安全标准(治理)。这样一来,社区之间可以互联互通,使用城市资源,有序协作,不会陷入混乱。通过这种模式,资源在城市内自由流动,所有人遵循共同规则,本地创新蓬勃发展,整个城市平稳运行。
数据网格的实际应用:示例与用例
数据管理解决方案要想不断发展并取得更好的效果,就必须具备广泛的适用性,可以应用于各种应用场景和运营领域。随着数据网格架构易用性不断提升,越来越多的业务职能都可以通过这种安全的分布式方法,将数据视为一种产品、一种工具,以此来优化运营。
下面我们来介绍一些常见的数据网格业务应用场景。
销售系统
销售团队的主要任务是获取、培育和转化销售线索。销售团队花在行政事务上的时间越多,用于与新客户建立关系的时间就越少。借助数据网格架构,销售团队用户无需成为数据管理和检索专家,即可轻松获取极具价值和相关性的数据集与数据组合。当销售部门拥有所需的全部数据进行分析时,就能转化为更具可执行性的洞察与策略。
销售数据网格示例:特定区域或特定产品的销售团队可以拥有自己的 CRM 和销售管道数据域,从而实现精准预测和实时仪表盘,无需等待中央 IT 团队。
供应链和物流
现代供应链极易受到各类中断事件的影响。如果企业能够快速作出调整,敏捷响应威胁与机遇,就可以赢得竞争优势。如今,全球供应链数据正在迅猛增加,来源包括客户反馈、工业物联网和数字孪生等。当经验丰富且专业的供应链管理者能够实时整理和深挖这些数据集时,企业便拥有了一个强大的引擎来提升其洞察力和敏锐度。
供应链数据网格示例:供应链优化需要实时掌握库存水平、供应商绩效和物流数据。数据网格使采购、仓储、运输等各个领域都拥有对其数据产品的所有权,从而实现更快决策和经济高效的运营。
制造行业
作为供应链的一部分,企业的制造运营同样容易受到市场快速变化和客户需求波动的影响。过去,设计和研发团队只能依赖其他部门提供的历史客户数据。如今,数据网格让设计人员、研发测试团队,乃至生产一线人员都能直接获取实时数据。实时客户反馈可以即时指导产品开发,来自工业物联网和数字模拟的最新信息则能让工厂运行更安全、更快速、更高效。
制造数据网格示例:工厂团队可以自主管理传感器和设备性能数据,通过去中心化分析实现预测性维护,减少停机时间。
营销
如今,客户需求和期望正在塑造未来,并以前所未有的速度变化和增长。一个品牌通常会有很多消费者接触点,比如社交媒体、定向数字广告、线上和全渠道购物门户网站等。在当今市场,快速定制需求越来越高、产品生命周期日益缩短、消费者选择更加丰富、竞争日趋激烈。为了洞悉并引领这些趋势,现代营销人员需要实时、同步访问各类数据集。在过去,这意味着营销人员需要向其他部门申请并等待他们提供数据。然而,通过数据网格架构,营销人员可以即时、自主地整理和访问这些数据。
营销数据网格示例:构建全方位的客户视图需要整合来自电子邮件、社交媒体和付费广告等多个渠道的数据。数据网格让每个渠道都能自主管理自己的数据产品,确保提供准确、实时的洞察,从而支持个性化营销并提升客户体验。
人力资源
HR 团队需要管理大量极其复杂和敏感的数据。随着远程办公和混合办公模式日益普及,HR 数据变得越来越复杂,地域分布也越来越广。更不用说,HR 团队还必须紧跟不断变化的合规和法律要求。从招聘到退休,HR 管理人员必须能够验证、评估和分析企业中那些极其庞杂的数据集。数据网格架构支持相应的安全协议和严格的权限管控,同时允许授权 HR 用户快速访问数据和信息,无需依赖复杂的内部流程和跨部门审批。
HR 数据网格示例:招聘、薪资和绩效管理团队可以自主管理各自的数据域,从而提升合规性,并实现实时的劳动力分析,助力战略决策。
金融行业
与 HR 团队一样,财务和会计团队也负责着极其关键、敏感的数据。现代 ERP 系统正在彻底革新财务运营,通过利用内存数据库技术,生成实时的定制化报表、分析和预测。然而,即使采用最先进的数据库和 ERP 系统,财务部门仍常因长期僵化的企业文化、严重的部门壁垒、官僚化的老旧流程而面临各种阻碍。数据网格架构从根本上改变了财务数据的访问和管理方式。当企业支持团队自主管理和改进陈旧的数据流程时,数据网格甚至能够帮助企业打破僵化的思维模式。
财务数据网格示例:财务计划团队可以自主管理收入、支出和投资等数据域,实现精准预测和敏捷场景建模,而无需依赖单一中央团队。
显然,数据网格不仅仅是一个流行词,更是需要高度重视的数据战略趋势。各行各业不同规模的企业都在采用数据网格,想法设法利用数据获取洞察并创造价值。
数据网格替代方案
虽然数据网格提供了一种去中心化的数据管理方法,但它并非唯一选择。数据湖、数据仓库等传统架构仍被广泛用于集中化存储海量数据,且常与兼具结构化与非结构化数据处理能力的数据湖仓结合使用。数据编织等其他模式则专注于构建统一层,实现跨多系统的数据集成与编排。这些方案在可扩展性、治理能力和可访问性方面各不相同,具体选择取决于企业的需求与成熟度。
以下是数据网格的替代方案及其对比情况。
数据网格 vs. 数据湖/数据湖仓
数据网格 vs. 数据仓库
数据网格与数据编织
实施数据网格
实施数据网格需要采取战略方法,在去中心化与统一标准之间取得平衡。以下是关键步骤:
- 确定试点领域:从小规模起步,选择 2–3 个具备清晰业务价值、数据成熟度较高的领域。这些团队将作为先行者,在全企业推广前验证数据网格模式。
- 搭建平台:构建自助式数据平台,为数据产品的发布、发现和使用提供通用工具,包括数据目录、API 和自动化安全功能,以减少领域团队间的摩擦。
- 定义联合治理:制定治理策略,在保障各领域自主权的同时,实施有关安全性、合规性和互操作性的全局标准。治理机制应包含明确的角色、数据产品定义和质量要求。
需避免的反模式
如果不遵循自然组织模式,错误实施数据网格,会造成混乱与不和。数据网格中的反模式是指那些看似有效、但最终会破坏架构核心原则的惯性做法或实践。需避免的反模式包括:
- 将数据网格视为另一个集中式数据湖。
- 忽视文化变革;事实上,仅靠技术无法破解所有权难题。
- 未验证业务价值,就对平台进行过度工程化设计
- 数据质量责任归属不明确。
- 未在试点域验证数据网格模型有效性,就过快大规模推广。
数据网格的五大卓越实践
- 小规模起步,迭代推进:先通过试点领域优化流程,再逐步推广。
- 将数据视为产品:明确每个数据集的所有权、服务等级协议和可用性标准。
- 投资共享工具:让领域团队能够轻松发布和发现数据。
- 尽早嵌入治理:从一开始就在自主性与合规性之间取得平衡。
- 聚焦业务成果:确保数据产品与可衡量的价值对齐,而不仅仅是追求技术目标。
通过将领域所有权、强大平台和联合治理三者结合,企业能够提升敏捷性、增强信任并促进跨领域协作,避免传统集中式模式带来的瓶颈。
度量与指标
评估数据网格的成效,需要使用兼顾技术性能与业务成果的指标。这类指标包括:
-
数据产品质量 SLO/SLA:这是核心指标,但必须适配各业务领域的实际场景,而非统一套用。数据产品 KPI 示例包括:
- 数据新鲜度:在约定时间窗口(例如每小时或每天)内更新的数据产品占比
- 完整性:数据集中必填字段的填充率
- 可用性:数据产品的正常运行时间占比,例如 99.9%
-
使用者采用率与复用率:这是衡量数据价值的重要指标,但要准确衡量这一点,通常需要追踪不同团队的使用情况和反馈。使用者采用率与复用率 KPI 示例包括:
- 每个数据产品的独立使用者数量
- 跨领域复用率:被多个领域使用的数据产品所占百分比
- 通过调研或反馈得出的使用者满意度评分
-
洞察生成时间与服务成本:凸显相较于集中式模式的效率提升,但改进程度取决于企业成熟度和基线流程。洞察生成时间与服务成本 KPI 示例包括:
- 从提出数据请求到获得可执行洞察的平均时间
- 相较集中式模式,运营成本的降低幅度
- 数据请求积压量的下降比例
-
竞争差距弥补:聚焦竞争对手短板,运用数据网格原则实现超越。竞争差距弥补 KPI 示例包括:
- 通过数据产品能力(如提高数据可发现性、加快数据访问速度)解决的竞争对手薄弱点数量
- 与竞争对手相比,新数据产品的上市时间优势
- 相比竞争对手的预估水平,自助服务采用率提升幅度
这些指标组合在一起,能够提供方向性洞察,让企业判断数据网格是否实现了敏捷性、可信度和可扩展性的提升,而不是采用一刀切的评估基准。
数据网格常见问题
互操作性是指系统或产品在无需用户额外操作的情况下,与其他系统或产品协同工作的能力。Techtarget 公司认为,互操作性可以帮助企业提高效率,获得更全面的信息和数据视图。如需了解有关互操作性的更多详细信息,请观看慕课开放式课程,学习数据互操作性的基础知识,以及不同类型和层级的数据互操作性。
在数据领域,互操作性不只是简单的连接,还包含以下要素:可发现性(通过数据目录或注册中心,在各业务领域间轻松找到数据产品)、契约(关于数据模式、API 及 SLA 的清晰、机器可读的协议,用于确保数据使用的一致性),以及共享标准(统一的治理、元数据和安全规范,用于确保各领域之间顺畅的数据交换)。
互操作性的一个示例是:客户领域发布包含客户画像的数据产品后,销售领域使用该数据丰富销售管道分析。互操作性确保销售团队能在目录中发现该客户数据产品,依托数据契约获得数据模式与质量保障,并通过共享标准实现无缝集成,整个过程无需人工操作。
数据网格和数据编织是企业数据管理战略中两种不同的架构模式。
数据编织是一种以技术为中心的架构模式,通过综合利用人工智能、机器学习和高级分析等技术,无缝管理复杂的元数据和非结构化信息。数据网格虽依赖数据编织领域的所有技术成果,却更侧重于将数据管理流程与依赖这流程的人员相结合,并设法从人的视角简化数据访问、提升数据价值。
数据网格与数据编织的关系,有点类似于“先有鸡还是先有蛋”:数据管理要达到所需的发展速度,离不开持续进步的数据编织技术;但如果人员流程与企业战略没有同步演进,员工就无法真正利用不断进步的数据编织技术。正如早期的 DOS 系统与复杂界面最终被如今更流畅的操作系统取代一样,随着流程与技术的不断成熟,数据网格与数据编织架构也必将变得愈发无缝融合。