什么是数据挖掘?

数据挖掘是利用高级分析工具从海量数据中提取有用信息的过程。

数据挖掘概述

数据挖掘是从海量数据中提取有用信息的过程,这些数据通常来自数据仓库或一系列关联数据集。数据挖掘工具具备强大的统计、数学和分析功能,主要用于筛选海量数据,找出其中的趋势、模式和关系,从而为制定明智的计划和决策提供支持。

 

数据挖掘经常用于执行市场部门查询,很多高管利用这个方法来深入了解需求,洞悉产品、价格或促销变化对销售的影响。在其他业务领域,数据挖掘同样能带来显著收益。工程师和设计师可以利用数据挖掘来分析产品调整的效果,找出产品成功或失败的可能原因与产品的使用方式、时间和地点的关联。维护和维修部门可以优化零件库存和人员配置计划。专业服务机构可以通过数据挖掘,了解经济趋势和人口的变化,从中发现新的商机。

 

数据集越庞大,用户经验越丰富,数据挖掘的价值就越大。从逻辑上看,数据越多,蕴含的洞察和情报就越丰富。同时,随着用户对工具越来越熟练,对数据库理解越来越深入,他们在数据探索和分析中也能更有创意。

为什么要使用数据挖掘?

数据挖掘的主要优势,在于能够从来自各种数据源的海量数据中发现模式和关系。从社交媒体、远程传感器到日益详细的产品动态和市场活动报告,随着这些五花八门的数据源生成越来越多的数据,数据挖掘也成为充分利用大数据并挖掘行动情报的利器。更重要的是,它能够帮助我们跳出常规思维的框架。

 

数据挖掘流程能够在看似无关的信息中发现意想不到又颇有价值的关系和模式。因为信息倾向于分割化,所以过去一直很难甚至无法进行全局分析。而实际上,企业的产品绩效可能与外部因素(例如人口或经济因素)息息相关。尽管企业高管会经常性地按地区、产品线、分销渠道和区域查看销售数据,但他们往往缺乏这些数据的外部背景信息。因此,他们的分析只能描述“发生了什么”,却鲜少能够解释“为什么会这样”。而数据挖掘恰好可以弥补这一差距。

 

通过分析外部因素的关联性,数据挖掘可以提供有价值的趋势指标,尽管关联性未必意味着因果关系,但这些趋势对产品、渠道和生产决策依然有重要指导意义。同样,产品设计、运营效率和服务交付等业务领域也可以从这种分析中受益。

数据挖掘的发展历程

人类收集和分析数据的历史已有数千年,并且一直采用大致相似的流程:确定所需信息,寻找优质数据源,采集并整合数据,使用最合适的工具进行分析,然后运用从中获取的洞察。随着计算技术和数据系统的发展,数据管理和分析的工具也在不断进步。真正的转折点出现在 20 世纪 60 年代,当时出现了关系型数据库技术和结构化查询语言 (SQL) 等用户友好的自然语言查询工具。从此,数据访问不再局限于定制编码程序。得益于这一突破,业务用户能够与数据进行交互,挖掘出深藏其中的宝贵情报。

 

过去,数据挖掘是数据科学中的一项专业技能。然而,每一代新的分析工具在最初都要求掌握高级技能,但很快就发展成为普通用户也能轻松使用的工具。这一进步的关键因素是交互性,即用户与数据交互的能力。例如,提出一个问题,得到答案,然后基于了解到的内容继续提问。这种非结构化的数据探索方法打破了应用特定数据库设计的限制,使用户能够跨越职能和组织边界,发现隐藏的关系。

 

数据挖掘是商业智能的重要组成部分。数据挖掘工具内置于高管仪表盘,用于从社交媒体、物联网传感器、位置感知设备、非结构化文本、视频等大数据中挖掘洞察。现代数据挖掘工具依托计算、虚拟计算和内存数据库,能够以成本高效的方式管理各种来源的数据,并支持按需扩展。

数据挖掘的工作原理

数据挖掘的方法多种多样,不同的数据挖掘者会采用不同的方式。具体方法取决于要解决的问题,以及作为搜索和分析原始材料的数据库或数据集的内容及结构。这就是说,在数据挖掘之前,应完成以下组织和准备工作,确保数据、工具和用户准备就绪:

  1. 明确问题或查询领域:相关业务决策者,作为数据挖掘探险之旅的掌舵人,需要全面了解要探索的领域,包括涉及的内外部数据类型,并且对涉及的业务和职能领域非常熟悉。
  2. 数据收集:首先从内部系统和数据库入手,通过其数据模型和各种关系型工具将它们关联起来,或者将数据全部收集到数据仓库中。这包括任何与运营相关的外部来源的数据,如现场销售和/或服务数据、物联网数据或社交媒体数据。另外还需要寻求并获取权限来访问外部数据,包括人口统计数据、经济数据和市场情报,如来自行业协会和政府的行业趋势和财务基准等信息。然后,将这些数据整合到要使用的工具中,可以收集到数据仓库或链接到数据挖掘环境。
  3. 数据准备和理解:与企业的业务领域专家合作,对数据进行定义、分类和整理,这一过程有时被称为数据清洗或数据整理。有些数据可能需要清洗或“净化”,去除其中重复、不一致和不完整的内容以及过时的格式。随着新项目或来自新查询领域的数据不断加入,数据准备和清洗可能是一项持续的任务。
  4. 用户培训:如果你十几岁的孩子没有考驾照,没有上路练习,也没有接受过持证司机的驾驶指导,你不会让他们开家里的法拉利。出于同样的道理,请务必为日后的数据挖掘人员提供正式的培训,并在他们开始熟悉这些强大的工具后提供指导练习。一旦他们掌握基础技能,可以进入高级技能学习阶段,就可以继续为他们提供相关培训。

数据挖掘技术

值得注意的是,数据挖掘是基于一系列工具,而不是一个固定的程序或流程。这里列举的一些数据挖掘技术,仅作为示例来说明企业如何利用数据挖掘工具探索数据,寻找趋势、关联、情报和商业洞察。

 

一般来说,数据挖掘方法可分为定向和非定向两种。定向挖掘以特定结果为导向,而非定向挖掘则注重探索发现。此外,还有一些方法旨在对数据进行分类或分组,例如根据行业、产品、规模和地点等业务属性将潜在客户分组。类似的技术还有异常检测,即从一组呈现可识别模式的数据集中,自动识别真正的异常(而非正常的波动)。

 

关联

另一个有趣的目标是关联,即将两个看似无关的事件或活动联系起来。在分析与数据挖掘的早期阶段,出现过一个经典案例,当然也许是杜撰的。在这个案例中,一家连锁便利店发现啤酒和纸尿裤的销售存在关联。他们推测,疲惫的新晋父亲晚上出来购买纸尿裤时,可能会顺便买几瓶啤酒。于是,便利店将啤酒和纸尿裤摆放在一起,结果确实增加了啤酒的销量。

 

集群

集群方法侧重于根据相似性将数据分组,而不依赖于预定义的假设。例如,如果在挖掘客户销售信息时结合外部消费信贷和人口数据,你可能会发现,利润最高的客户主要来自中等规模的城市。 很多时候,数据挖掘是为了支持预测。你对当前的模式和行为越了解,就越能够基于因果关系或相关性准确预测未来行为。

 

回归

回归分析是数据挖掘工具中的一种数学方法,这种方法基于历史数据模式来预测未来数据。除此之外,还有各种模式检测和跟踪算法也为用户提供了灵活的工具,能够帮助他们更好地理解数据及其代表的行为。 以上只是一部分数据挖掘工具和技术。选用哪种工具或技术在某种程度上是一个自动化的过程,因为系统会根据问题提出的方式来自动应用合适的技术。数据挖掘在早期被称为数据库“切片和切块”分析,如今的操作则更为复杂,包括关联、集群和回归等常见术语。

用例和示例

数据挖掘在很多领域都有广泛应用,例如情感分析、价格优化、数据库营销、信用风险管理、培训与支持、欺诈检测、医疗和医学诊断、风险评估、推荐系统(基于“购买此商品的顾客还喜欢”等逻辑),等等。几乎所有行业都能从数据挖掘中受益,包括零售、批发、服务、电信、通信、保险、教育、制造、医疗保健、银行、科研、工程,以及在线营销和社交媒体。

  • 产品开发:对于设计、生产或分销实体产品的企业而言,通过将购买行为与经济和人口数据相结合进行分析,他们可以精准定位机会领域,更有针对性地推广产品。此外,设计师和工程师还可以结合客户/用户反馈、维修记录等数据,发现产品改进机会。

  • 制造业:制造企业可以通过追踪质量趋势、维修记录、生产率以及来自现场的产品性能数据,发现生产过程中存在的问题。此外,他们还可以识别出哪些流程升级能够提升产品质量、节约成本和时间,或者改进产品性能,甚至揭示对新设备或先进设备的需求。

  • 服务行业:在服务行业,用户通过交叉引用客户反馈(包括直接反馈和来自社交媒体等渠道的信息)与各种数据(例如特定服务、渠道、同业表现、地区、定价以及人口和经济数据等),也能发现产品改进机会。

最后,通过将数据挖掘发现的洞察返回到预测与计划流程,企业能够基于对客户更深入的了解,判断未来的需求变化并进行相关调整,从而做好准备充分利用新发现的商机。

数据挖掘的挑战

  • 大数据:数据量的爆炸式增长为数据挖掘提供了更多机会。但是,如今的大数据不仅体量大、速度快、数据结构多样化,而且其中的非结构化数据量日益增加,因此,必须使用现代数据挖掘工具才能从大数据中提取有价值的信息。很多现有系统难以处理、存储和充分利用如此大规模的数据。

  • 用户能力:数据挖掘和分析工具的目标,是帮助用户和决策者理解数据,并从海量数据中挖掘有价值的洞察。虽然这些工具有较高的技术要求,但如今都采用了卓越的用户体验设计,几乎任何人经过简单培训都可以上手。但是,为了充分发挥工具的优势,用户不仅需要了解可用数据和所需信息的业务情境,还必须对工具的基本原理和功能有一定了解。这并未超出普通管理者和高管的能力范畴,但仍有一个学习的过程,用户需要投入时间和精力来掌握这套新技能。

  • 数据质量与可用性:在新数据大量产生的同时,也会出现许多不完整、不准确和被破坏的数据,以及具有误导性、欺骗性或者完全没有价值的数据。虽然可以借助工具清除这些数据,但用户必须保持警觉,重视考察数据的来源以及可信度和可靠性。此外,隐私问题也很重要,不仅要在获取数据的过程中保护隐私,还要注意在拥有数据期间妥善处理和保护数据。

数据挖掘常见问题

数据挖掘是利用高级分析工具从海量数据中提取有用信息的过程。机器学习则是一种人工智能类型,可以赋能系统从经验中学习。数据挖掘可能会用到机器学习,比如,分析程序能够根据所执行的数据分析来自行调整功能。

数据分析是一个广义词,涵盖了一系列用于发现和评估有用信息并提供具体答案的实践方法。数据挖掘是数据分析的一个类型,侧重于从大规模的组合数据集中挖掘出模式、趋势和关系,进而提供洞察和预测。

数据科学是一个更为广泛的概念,涵盖了多种信息技术,包括应用于数据的统计学、数学以及复杂的计算技术。数据挖掘则是数据科学的具体用例之一,侧重于对多种来源的大型数据集进行分析。

数据仓库是一个数据集合,通常有多个数据来源(如 ERP 和 CRM 等),企业需要将这些来源的数据整合到数据仓库中,用于归档存储和广泛分析(如数据挖掘)。

placeholder

扩展你的数据管理专业知识

深入了解数据管理流程及其优势。

placeholder

获取独家洞见

立即注册,直接通过邮箱订阅商业资讯,获取丰富的独家洞见。