数据连接和网格

什么是数据网格?

数据网格是使用分布式架构框架的数据管理方法。

 

 

为了方便您的浏览,本网页的翻译是通过机器翻译进行的,我们对翻译的准确性、可靠性、完整性不做任何明示或暗示的保证。由于翻译软件的限制,某些内容(例如图像、视频等)可能无法正确翻译。翻译中产生的任何差异均不具有约束力,对合规性或强制执行目的没有法律效力。 如果对翻译后的网站中所含信息的准确性有任何疑问,请使用本网站右上角的世界地图前往英文版,该英文版为正式版本。

数据网格代表查看信息的一种新方式。数据本身就是产品、工具、实现目的的手段,这源于不断增长的概念,而不仅仅是企业稍后在了解已发生的事情时收集和分析的信息。

数据网格定义

数据网格是使用分布式架构框架的数据管理方法。换句话说,它会将特定数据集的所有权和责任分散给那些拥有专业知识的用户,了解数据的含义以及如何充分利用这些数据。

 

数据网格架构连接数据并从 数据湖仓库 等各种来源获取数据 ,并将相关数据集分发给整个企业的相关人类专家和域团队。实质上,中央数据湖中的大量数据会进行排序并分配到可管理的块中,以最适合理解和利用数据。

placeholder

 

 

数据网格原则,应对数据湖挑战

在讨论数据湖和数据网格时,我们主要讨论 的是大数据。让数据“大”不单是庞大的数据量。除其他标准外,大数据还通过复杂、可变、快速生成和非结构化来定义。


线性数据库类似于电子表格:它具有所有数据组件必须适合的列和行以及不可变类别。从机械、传感器和工业源生成的一些数据是结构化的,并完全适合线性数据库。无论您需要处理多少数据,如果 100% 结构化的数据量不符合大数据标准,并且可以存储在线性数据库中,那么过滤和提取就相对简单。  

 

但越来越多的现代大数据是非结构化的,由可视组件、开放式文本甚至视频和富媒体组成。对于许多公司而言,这些重要数据可能包含数千兆字节的信息,并且根本无法存储在标准线性数据库中。

 

输入数据湖。随着大数据量的增加,数据湖开发成为可以存储复杂数据并从其原始格式的中央资源库访问的地方。虽然数据湖是解决大数据问题的绝佳解决方案,但它们仍然存在弱点。数据湖缺乏某些分析功能,使其依赖于其他检索、索引、转换、查询和分析功能服务。从业务管理的角度来看,数据湖还存在三个附加挑战:

 

1.      复杂的所有权 
数据湖中的所有权很难定义生成和访问数据的参与者过多。在没有明确定义的角色和职责的情况下,同一组数据可由不同方以不同方式管理,造成不一致,使其难以使用。同样,当其他数据没有被最终使用它的人主动管理时,就会被忽视。数据网格架构确保按域明确分发 数据治理 ,以便每个团队或域专家管理其生成和使用的数据。为了支持这一点,数据网格还使用联合治理结构来集中控制 数据建模、安全策略和合规性。

 

2.    数据质量
当数据量过大或中央数据管理器自身无法理解数据时,数据湖可能无法确保数据质量。数据网格架构从根本上将数据视为有价值的产品,将数据质量和完整性放在 数据管理的最前沿。据推测,每个团队都知道他们希望从收集的数据中推断的最重要的标准和问题。通过将这些标准和优先级集成到架构中,即使涉及较大的数据集,数据网格也可以帮助确保持续按优先级交付整洁、新鲜且完整的数据。当然,当应用机器学习算法时,这些标准和结果数据集随着时间的推移变得越来越准确且有用。

 

3.    瓶颈
数据湖可能会产生瓶颈,因为其集中式架构和传统上难以实现的数据检索流程和协议。这通常意味着对大量合并数据的控制权归于单个 IT 或数据管理团队。而且,随着数据量的增加(以及检索需求),这些 IT 团队将超额纳税。 

 

此外,必须正确审核和结构化数据,以确保遵守和遵守数据治理原则。面对不当压力时,可能会有匆忙完成这些合规阶段的倾向,这会给公司带来潜在的风险和损失。另一方面,数据网格架构为对数据具有更大既得利益的授权专业用户提供访问和控制,同时采用严格的内置安全协议。

 

 

数据网格原则是直接响应这些不断增长的数据湖挑战。分散式和民主化的数据管理架构能够随时随地为正确的人提供正确的数据,从而让企业变得更智能、更敏捷、更准确。数据网格使数据即产品成为实际现实,从而减少障碍并优先确定信息的价值,以便团队可以更快、不受阻碍地访问必要数据。

数据网格架构说明

我们讨论了数据网格如何是一种分散的数据架构形式,将数据视为基本的业务管理工具。重要的是,独立团队负责在其工作领域和专业知识范围内处理数据,同时仍确保遵守集中确定的数据管理实践。这种思维模式变化是数据网格的核心。

 

为了更好地了解此操作如何完成,我们可以将数据网格体系结构视为具有三个主要组件:

 

1.       数据源 表示向其提供主要原始数据的资源库(如数据湖)。无论是从云工业物联网网络、客户反馈表单还是废弃 Web 数据中收集,这是整个网络中用户将根据需要进行参考和处理的原始输入数据。虽然数据湖方法会将所有这些数据传输到一个中心位置,但数据网格方法却会在一系列负责域内分配此原始数据的摄取、存储、处理和提取职责。

 

2.       数据网格基础架构 意味着这些信息不仅在各个部门范围内隔离,而且可以在整个组织的运营网络中随意共享,同时保持遵循既定的数据治理指南。这是数据网的两个关键支柱的直接结果:自助服务数据平台和联合治理。自助服务 数据平台提供每个领域所需的工具和基础架构,以普遍获取、转换、处理和服务其数据。同时,联合治理原则可确保整个组织的标准化,从而在所有域团队之间轻松 实现数据互操作性。

 

3.       数据所有者 是数据网格的最终组成部分,负责对其部门的数据应用合规性、治理和分类协议。例如,HR 文件必须使用特定安全协议进行存储,它们不得用于此目的或目的,它们只能释放给适合此类人员。当然,每个部门都有其部门或目的特有的类别和数据类型。在数据湖系统中,IT 团队必须为将内容转储到湖 中的所有 不同数据所有者处理所有这些不同的协议和类别。数据网格架构赋予域所有者对这些问题的完全授权和控制,因为谁比主题领域专家更能管理自己的数据,并确保其符合质量标准。 

 

placeholder

数据网格在实践中:谁在使用它,为什么?

为了让数据管理解决方案不断发展壮大,并变得更加成功,它们必须可供广泛使用,并且与各种应用程序和操作相关。随着数据网格架构和用户友好性的改进,我们看到越来越多的业务功能可以通过以安全分布式方式将数据作为产品和工具进行增强。

 

以下是一些常见的业务用例:

  • 销售: 对于销售团队而言,关键在于获取、培育和达成销售线索。销售团队成员在办公室执行管理任务的时间越多,与新客户建立关系的时间就越短。借助数据网格架构,销售团队用户无需成为数据管理和检索专家,即可轻松获得最强大、最相关的数据集和组合。当销售部门拥有所有需要分析的正确数据时,它将转化为更切实可行的洞察力和策略。
  •  供应链和物流: 现代供应链容易受到各种业务中断的影响。如果企业能够快速作出调整,并以平等的灵活性应对威胁和机遇,那么企业就能获得竞争优势。如今,从客户反馈、 工业物联网 网络到  数字双胞胎,全球供应链数据呈现出浓厚且快速的增长趋势。当经验丰富且精明的供应链经理能够实时整理和钻取任何数据集时,企业就能获得强大的洞察力和敏锐力。
  • 制造:作为供应链的一部分,企业的制造运营同样容易受到快速市场变化和客户需求波动的影响。过去,设计和研发团队必须依赖来自其他部门的历史客户数据。如今,数据网格为起草表后面的用户、研发团队和测试团队以及制造车间的所有人员提供实时数据访问。实时客户反馈可以即时为产品开发提供信息,来自工业物联网网络和数字模拟的最新智能技术可帮助工厂更安全、更快速、更高效地运行。
  • 市场营销: 如今,客户需求和期望正在以前所未有的速度塑造未来,不断变化和增长。通常,单个品牌在社交媒体、有针对性的数字广告以及在线和全渠道购物门户中拥有无数消费者接触点。当前市场对快速定制、更短的产品生命周期以及巨大的选择和竞争的渴望越来越高。为了了解并利用这些趋势,现代营销人员需要实时同时访问各种数据集。过去,这意味着需要从其他部门请求(并等待)此数据。但是,通过数据网格设置,营销人员可以按照自己的条件实时管理和访问此数据。
  • 人力资源: HR 团队必须管理大量极其复杂且敏感的数据。随着远程办公和混合办公环境的不断发展,数据日益复杂且地域多样化。更不用说人力资源团队必须立即解决不断变化的 合规和法律问题 。从招聘到退休,人力资源主管必须能够验证、评估和分析任何组织中最广泛的数据集。数据网格架构支持适当的安全协议和严格限制的访问,同时使授权的 HR 用户可以快速访问数据和信息,而无需依赖复杂的内部协议和多部门官僚主义。
  • 财务: 与 HR 团队一样,财务和会计团队还负责处理极其关键且敏感的数据。 现代 ERP 系统 正利用内存数据库技术定制最新的报表、分析和预测,从而革新财务流程。然而,即使财务团队正在使用最佳的数据库和 ERP 系统,他们仍然面临各种障碍,因为他们受到长期和僵化的文化、沉重的孤岛和官僚主义旧学流程的困扰。数据网格架构给查看和管理财务数据的方式带来了根本性的转变,甚至可以改变停滞的思维,而当团队有机会拥有和修订自己的老化数据流程时,这种思维甚至会变得停滞不前。

不仅仅是炒作:数据网格是一种提高数据创造价值敏捷性的新方法。

很明显,数据网格不仅仅是一个流行词,而且是需要认真处理的数据策略趋势。各行各业不同规模的企业都在利用数据网格,寻找利用数据创造洞察和价值的方法。 

数据网的优势

过去,传统数据库和有限的数据管理基础架构使人们意识到,数据是在单个保险箱中保存的,并且由一些数据管理器自行取出。现在,数据是推动企业发展的动力,应该自由地提供给那些最清楚如何在竞争时期发挥作用并推动利润的主题专家。 

 

数据网格架构的主要优势可概括为:

  • 提高了数据的可访问性。 数据网格可确保组织中所有合适的人都能访问他们所需的数据,从而成为他们工作的绝对最佳人选。
  • 改进的分析功能。 当数据被视为每天使用的产品时,团队开始采用数据优先方法进行计划和战略。这会导致错误减少,并且更客观、更少的观点驱动的业务开发方法。
  • 可定制的数据管道和流程。 许多最好、最可能最有利可图的项目被搁置,原因在于难以整理独特和定制的数据集,以获得成功。通过数据网格,团队可以快速访问并测试新的项目模型,而无需传统的时间或资源损失。
  • 可减少瓶颈。这对于 IT 团队和数据所有者而言都是一种明显的成功/胜利。此外,通过减少挫折和刺激的根源,企业能够打破阻碍企业健康发展的孤岛。
  • 减少中央数据管理团队的压力。这不仅意味着减少积压和挫折感,而且还能为您的才华 IT 团队腾出无数个小时来投入到更具专业化、有趣和更具盈利性的追求中 
placeholder

SAP 数据与分析解决方案

识别、分析和转换整个企业中最相关的数据。

Data Mesh 常见问题

数据民主化的核心在于解决人们日常工作中面临的数据挑战。 有关定义、原则以及如何帮助员工轻松提出数据相关问题和获取答案的详细信息,请参阅本 博客

互操作性是指系统或产品在无需用户特殊投入的情况下,与其他系统或产品一起工作的能力。 Techtarget 补充说,它可以帮助企业提高效率和更全面的信息和数据视图。有关更详细的信息,此 Open MOOC 课程 介绍了数据互操作性的基础以及不同类型和数据互操作性的层。

 

 

数据网格和数据结构是公司数据管理战略中不同的架构方法。

 

数据架构是一种以技术为中心的方法,旨在通过合并人工智能、机器学习和高级 分析,找到越来越无缝的方法来管理复杂的元数据和非结构化信息。另一方面,数据网格不仅依赖于数据架构中的所有技术发展,但更注重将数据管理流程与依赖数据管理流程的人工用户相集成,并找到从人员角度简化数据访问和实用性的方法。

 

数据网和数据结构之间存在鸡蛋关系:如果数据管理要以所需的速度发展,则需要不断发展 的数据架构技术 。然而,如果没有人类流程和组织战略的伴随演变,人们将无法正确利用不断发展的数据架构技术。正如 DOS 和复杂接口为我们今天所享受的更无缝的计算机操作系统提供时,随着这些流程和技术的进步,数据网格和数据结构架构将越来越无缝。

SAP Insights 简报

placeholder
您在其他任何位置都找不到的创意

注册并直接发送到收件箱中的商务智能。

延伸阅读