flex-height
text-black

特写镜头:电脑屏幕上的数据

什么是

什么是大数据?

大数据是指规模庞大、结构复杂到难以通过传统系统处理的数据集。本文将阐述大数据的基础知识及其重要性。

default

{}

default

{}

primary

default

{}

secondary

大数据的定义

当企业需要处理多种来源、多种格式且涌入速度超出传统数据系统处理能力的信息时,大数据便应运而生。这类数据集通常汇聚了来自众多不同来源的结构化、半结构化和非结构化数据,流入速度快、规模庞大。

企业可以利用大数据优化决策、识别模式和趋势、自动化流程、管控风险,并打造更贴合需求的产品、服务和客户体验。大数据之“大”,不仅体现在体量庞大,还在于类型多样、流入速度快,且难以可靠管理。

大数据并非简单指大型文件或数据库,也不等同于数据分析、人工智能或云存储,而是数据特征与架构需求的组合, 需要分布式存储、可扩展的处理能力以及现代化的数据管理实践。

如今,业务系统、数字化交互、互联设备、传感器和应用都在源源不断地产生大数据。要想理解并利用这些数据,企业需要采用现代化数据架构、云规模存储、分布式处理以及高级分析技术。

为什么大数据至关重要

大数据之所以重要,是因为它能帮助企业从“事后回顾”转向“深度洞察”,并逐步实现“前瞻预测”。如果企业能够快速、规模化地分析数据,就能近乎实时地应对环境变化、客户行为改变以及运营风险。

在实际应用中,大数据能够支持整个企业更快速地做出更有把握的决策。管理者可将历史趋势与实时信号结合分析,而不是依赖滞后的报告或不完整的片段信息。这一点在形势瞬息万变的环境中尤为重要,例如供应链、金融市场以及面向客户的运营领域。

此外,大数据在帮助企业拥抱自动化和高级分析方面,同样发挥着关键作用。若缺乏规模庞大、类型多样且可靠的数据集,机器学习或预测模型的应用就会停滞受阻,或效果有限。

企业可依靠大数据实现以下成果:

如果不能对大数据进行分析,有价值的信息就会一直处于碎片化、滞后或闲置的状态。

大数据的类型

大数据通常按结构进行分类。大多数现代数据集都同时包含三种数据类型。

结构化数据

结构化数据高度规整、易于检索,以行列形式清晰排列,并遵循预定义的数据结构。这类数据包括金融交易记录、库存记录、客户账户数据、格式固定的传感器读数等。

结构化数据通常存储在关系型数据库中,通过 SQL 进行查询。即便体量庞大,单纯的结构化数据也不一定属于大数据,除非需要高速处理或与其他类型的数据整合。

非结构化数据

非结构化数据不遵循预定义的格式,较难使用传统数据库存储和分析。这类数据包括文本文档、电子邮件、图片、音频、视频文件、社交媒体帖子、开放式问卷答复等。

非结构化数据往往包含极具价值的背景信息和洞察,但要从中提取有效信息,需要借助自然语言处理、图像分析等高级分析技术。

半结构化数据

半结构化数据介于结构化数据和非结构化数据之间,虽不遵循固定的模式,但包含标签或元数据,因而具备一定的规整性。这类数据包括 JSON 和 XML 文件、日志文件、带有邮件头和时间戳的电子邮件、应用生成的事件数据等。

半结构化数据在现代数字平台中尤为常见,在大数据环境中扮演着重要角色。

大数据的常见来源

大数据源自各类数字渠道,总体可归为三大类别。

人际交往和社交互动

这类数据由个人通过数字渠道产生,包括社交媒体行为、在线评论、网站互动记录、点击流数据、移动应用使用记录等,通常能反映客户的行为、情感态度和偏好。

业务系统和交易

核心业务应用每天都会生成大量数据,包括销售交易、财务记录、供应链事件以及人力资源数据。交易类数据流速通常较快,且往往同时包含结构化记录和非结构化内容(如备注、附件等)。

机器和互联设备

机器和物联网设备会通过传感器和系统日志持续生成数据,例如,制造设备、车辆、智能表计、基础设施系统以及环境传感器。机器生成的数据是数据体量和数据速度的主要驱动因素。

大数据的演变

随着计算、存储和网络技术的发展,大数据的概念在不断演进。早期数字系统是用来处理存储在集中式数据库中、规模相对较小的结构化数据集。随着数据量持续增长、新型数据不断涌现,这类系统逐渐达到了处理极限。

随着时间推移,数据架构也从集中式系统逐步转向能够跨多台机器处理数据的分布式环境。云计算的出现进一步加快了这一转变,因其实现了弹性存储和处理,不再受固定基础设施的限制。

如今,大数据不单单依赖于某一项技术,而是需要一个由工具、架构和实践组成的生态系统,以应对混合环境和云原生环境中的数据规模、速度和复杂性。据 Statista 预测,未来十年全球数据生成量将快速增长,2025 年至 2029 年间,全球生成的数据量预计将增至原来的三倍。

大数据的特性:3V 与 5V

大数据通常由一组被称为“3V”或“5V”的核心特征来定义。

核心 3V 特征

扩展后的 5V 特征

这些特征也解释了为何大数据需要专门的技术和实践。

大数据分析的优势

如果管理得当,大数据分析能够为各个业务职能领域带来切实、可衡量的收益。当企业不再局限于孤立的报表,而是在运营中系统性运用分析时,其价值尤为显著。

更快制定更有把握的决策

大数据分析使管理者能够基于实时、全面的信息制定决策,而非依赖片面或过时的报告。通过综合分析海量历史数据和实时数据,企业能够评估利弊、验证假设,并更快响应变化。

提高运营效率

跨流程分析数据可识别出在小规模数据集中难以发现的瓶颈、延误及浪费源头。企业可利用这些洞察优化工作流、减少手动工作,并提高财务、供应链和运营领域的资源利用率。

提升预测和规划的准确性

大数据支持预测模型中纳入更多变量,包括历史趋势、季节规律和实时信号,从而实现更可靠的需求规划、产能规划和财务预测。

为客户和员工提供更贴合需求的体验

通过大规模分析行为数据和交互数据,企业能够更精准地理解偏好和需求,进而在市场营销、客户服务和员工互动等领域实现个性化,而无需依赖主观假设或小样本数据。

提升风险识别和合规能力

借助大规模数据分析,企业能够轻松发现可能预示欺诈、合规问题或运营风险的异常情况、不一致之处以及反常模式,从而提早做出应对,减少风险敞口。

大数据的价值不仅取决于信息收集,还取决于企业是否具备必要的治理体系、质量控制机制和分析能力,能够以一致且负责任的方式应用这些数据。

大数据的挑战和风险

大数据在带来价值的同时,也带来了诸多不容忽视的重大挑战。

大数据与分析、数据科学、人工智能和机器学习的区别

这些术语彼此相关,但不能互换使用。

大数据提供原材料,数据分析和数据科学对其进行解读,而机器学习和人工智能则依靠大规模、多样化的数据集来生成可靠结果。

大数据技术

大数据技术是指能够大规模存储、处理、分析和治理庞大复杂数据集的系统和工具。大数据环境并非由单一平台或产品构成,而是由多个互补的技术层组成,每一层都承担着特定职责,从处理原始数据到提供可用洞察。

这些技术通常可分为几个核心类别,包括存储、处理、分析与机器学习,以及治理与集成,它们共同构成了现代大数据架构的基础。如今,这类架构正越来越多地采用云原生和模块化设计,以适应不断变化的数据量和应用场景。

Hadoop、Apache Spark 等基础技术在部分场景中仍在使用,且通常作为更广泛的云架构的一部分。

大数据架构和数据管道(工作原理)

大数据架构描述的是数据如何从产生源头流转到分析和行动环节。与传统数据环境不同,大数据架构旨在处理海量、多类型、多来源持续涌入的数据。

现代大数据架构通常构建为灵活的数据管道,而非固定的系统。这让企业能够根据应用场景(实时监控、历史分析、机器学习等),以多种方式采集、处理和分析数据。

典型的大数据管道包括以下阶段:

大数据架构将这些阶段分离开来,使企业能够灵活扩展各个组件,适应新的数据源,并同时支持运营和分析两类工作负载。

大数据用例和示例

大数据能够支持各行各业的各种用例。尽管具体应用形式各不相同,但根据企业大规模应用数据的方式,大多可归入几个常见类别。

决策智能

企业通过结合历史数据与实时信号,利用大数据优化战略与运营决策,支撑财务预测、场景分析和绩效管理等活动。

自动化和优化

大数据分析可助力常规决策自动化并优化业务流程,例如调整库存水平、优化物流路线、基于设备数据触发维护作业等。

风险识别和韧性提升

通过分析大型数据集,企业能够轻松发现预示欺诈、合规问题或运营风险的异常情况。这也有助于企业提前预判并应对中断事件,更好地进行韧性规划。

个性化和体验提升

大规模的行为和交互数据有助于打造更贴合需求的客户和员工体验。企业可以利用这些洞察定制推荐、沟通内容和服务。

行业示例

尽管底层逻辑相似,但大数据的具体应用往往因行业而异。以下示例展示了不同行业的企业如何运用大数据解决常见的运营和战略挑战。

常见问题

大数据的用途是什么?
大数据广泛应用于各项业务职能,用于支持更优决策、自动化、个性化、风险识别及预测分析。
大数据使用哪些技术?
大数据技术包括可扩展存储系统、分布式处理框架、分析工具、机器学习平台以及治理解决方案。
如今 Hadoop 的用途是什么?
Apache Hadoop 在部分环境中用作分布式存储和处理框架,通常作为基础组件或遗留组件。
Apache Spark 的用途是什么?
Apache Spark 支持对大型数据集进行快速的分布式处理,适用于批处理和流处理任务。
什么是数据湖?
数据湖以原生格式存储大量原始数据,使其能够在需要时随时用于分析。
什么是暗数据?
暗数据是指企业已收集和存储、但并未主动使用的数据,会带来成本和风险,并导致机会流失。
什么是数据编织?
数据编织是一种架构方法,可跨系统连接数据,并提供统一的数据访问、集成和治理。