什么是机器学习?

机器学习是人工智能的一个子集,可以让计算机在不需要明确编程的情况下从数据中学习,然后利用经验来改善自身的性能。

机器学习的详细定义

机器学习是人工智能的一个子集。这项技术的主要任务是指导计算机从数据中学习,然后利用经验来改善自身的性能,而不需要进行明确的编程。在机器学习中,算法会不断进行训练,从大型数据集中发现模式和相关性,然后根据数据分析结果作出最佳决策和预测。机器学习应用具有自我演进能力,它们获得的数据越多,准确性会越高。

 

机器学习技术的应用无处不在,比如,我们的家居生活、购物车、娱乐媒体以及医疗保健等。

机器学习三要素

机器学习的三要素是模型、数据和算法,它们共同构成了机器学习系统的基础:

 

1.模型:模型是用于表示和描述输入数据特定规律和模式的数学结构。不同的模型被用于不同的任务当中,如线性回归模型用于回归任务,决策树模型用于分类任务。模型决定了输入数据如何映射为输出数据。

 

2.数据:数据是机器学习的核心。模型通过数据进行训练,从中提取特征和模式。数据的质量、数量和多样性会直接影响模型的性能。机器学习中的数据被划分为标注数据(监督学习)和未标注数据(无监督学习),以及与环境交互产生的数据(强化学习)。

 

3.算法:算法是用于训练模型的过程和方法,负责调整模型的参数,以获得最优解。不同的算法适用于不同的模型和任务,例如梯度下降算法用于优化神经网络,K均值算法用于聚类任务。

机器学习与人工智能的关系

机器学习及其分支深度学习和神经网络都属于人工智能的子集。人工智能是基于数据处理来作出决策和预测。借助机器学习算法,人工智能不仅能够处理数据,还能在不需要任何额外编程的情况下,利用这些数据进行学习,变得更智能。人工智能是父集,包含了机器学习的所有子集。人工智能下面的第一个子集是机器学习,深度学习是机器学习的一个分支,神经网络则是深度学习的基础结构。

什么是神经网络?

 

人工神经网络模仿的是生物大脑中的神经元。人工神经元被称为节点,这些节点以多层结构聚集在一起并行工作。当人工神经元接收到一个数字信号时,这个神经元会对其进行处理,并向其他相连的神经元发出信号。就像人脑一样,神经强化有助于提升模式识别能力、专业知识水平和整体学习能力。

 

什么是深度学习?

 

深度学习之所以被称为“深度”,是因为这种技术使用了多层神经网络和大量复杂、多元的数据。在进行深度学习时,系统会与神经网络中的多层进行交互,提取更高级的输出。例如,一款深度学习系统在处理大自然图片,查找 Gloriosa 雏菊时,将先在神经网络的第一层识别植物。然后,系统将与其他神经网络层交互,依次识别出花,然后是雏菊,最后是 Gloriosa 雏菊。深度学习的应用领域包括语音识别、图像分类和药物分析等。

模式识别与机器学习

模式识别与机器学习是我们在探索人工智能时经常会遇到的两个名词,很多人无法准确地将其区分开来,这里我们将详细讲述两者的关系。

 

事实上,模式识别是机器学习的一项具体应用,模式识别主要侧重于从输入数据中发现和分类有意义的结构或特征,例如图像中的人脸、语音中的语调等。而机器学习则是实现这一目标的底层技术,通过神经网络、支持向量机等技术,不断学习与优化可提高模式识别的效率与准确性。同时,模式识别的结果也可以作为机器学习的输入数据,扩大训练集,强化训练模型,从而提高其性能。

 

可以说,机器学习是模式识别方法的技术核心,模式识别则是机器学习的实践领域之一。但两者相辅相成,共同推动了人工智能技术在图像识别、语音识别、数据挖掘等领域的发展。

机器学习的工作原理

机器学习包含多种使用不同算法的机器学习模型。根据数据的性质和期望的结果,可以将学习模型分成四种,分别是监督学习、无监督学习、半监督学习和强化学习。而根据使用的数据集和预期结果,每一种模型可以应用一种或多种算法。机器学习算法主要用于对事物进行分类、发现规律、预测结果,以及制定明智的决策。通常情况下,一次只使用一种算法,但如果处理的数据非常复杂、难以预测,也可以组合使用多种算法,尽可能地提高准确度。

机器学习流程的工作原理

什么是监督学习?

 

监督学习是四大机器学习模型中的第一大类。在监督学习算法中,机器通过示例进行学习。监督学习模型包含“输入”和“输出”数据对,其中输出被标记为期望的值。例如,假设机器的目标是区分雏菊和三色堇。那么,二进制输入数据对中将包含雏菊的图像和三色堇的图像。对于这个数据对来说,期望的输出值是雏菊,因此雏菊的图像将被预先识别为正确的结果。

 

通过运用算法,系统能够随着时间的推移编译所有这些训练数据,并开始确定相关的相似点、差异点和其他逻辑点,直到能够自主预测出问题的答案,区分雏菊和三色堇。这就相当于给孩子提供一组含答案的问题,然后让他们展示答题原理并解释他们的逻辑。我们每天接触的很多应用都使用了监督学习模型,比如产品推荐引擎以及像 Waze 这样可以预测一天中不同时间段最快行驶路线的交通分析应用。

 

什么是无监督学习?

 

无监督学习是四大机器学习模型中的第二大类。无监督学习模型不包含答案。机器需要自己研究输入的数据(其中大部分是未标记的非结构化数据),并开始使用所有相关的、可访问的数据来识别模式和相关性。从许多方面来看,无监督学习模仿了人类观察世界的方式。我们根据直觉和经验将事物联系在一起。随着我们经历的事例越来越多,我们的归类和识别能力也会变得越来越精准。对于机器来说,“经验”取决于输入和可用的数据量。无监督学习常用于面部识别、基因序列分析、市场研究和网络安全管理等领域。

 

什么是半监督学习?

 

半监督学习是四大机器学习模型中的第三大类。理想情况下,所有数据在输入系统之前都是有标记的结构化数据。但这显然不可能。所以,当存在大量原始的非结构化数据时,我们就需要使用半监督学习模型。这种模型会输入少量有标记数据来扩充未标记的数据集。实质上,有标记数据相当于为系统提供了一个起跑点,可以大大提高学习速度和准确性。半监督学习算法可以指导机器分析有标记数据,获得可应用于未标记数据的相关属性。

 

不过,根据麻省理工出版社研究报告的深入研究,半监督学习模型也存在风险,这是因为系统会学习和复制有标记数据中的缺陷。成功使用半监督学习模型的企业通常都制定了相关的卓越实践方案。半监督学习多应用于语音和语言分析、复杂的医学研究(如蛋白质分类)以及高级欺诈检测等。

 

什么是强化学习?

 

强化学习是机器学习模型的第四大类。在监督学习模型中,我们事先输入了问题的答案,机器通过寻找所有正确结果之间的相关性进行学习。而在强化学习模型中,我们并没有事先提供问题的答案,只是提供了一组许可的动作、规则和可能的最终状态。如果算法的期望值是固定的或者二进制形式,那么机器可以通过示例进行学习。但如果期望值是可变的,那么系统必须通过经验和奖励进行学习。在强化学习模型中,“奖励”是数值形式,并且作为系统要收集的对象被编程到算法中。

 

这种模式很像教人如何下棋。显然,你不可能向对方展示每一步应该怎么走。你只能向他们解释规则,然后他们通过练习来逐步掌握要领。奖励的形式不仅仅是获胜,还包括吃掉对手的棋子。强化学习的应用包括在线广告位买家自动竞价、电脑游戏开发和高风险股票市场交易等。

机器学习在企业中的应用

机器学习算法能够识别模式和相关性,这意味着它们可以快速准确地分析自身的投资回报率。如果投资机器学习技术,企业便可以利用这个特性,快速评估采用该项技术对运营的影响。下面列举了一小部分快速发展的企业机器学习应用领域。

  • 推荐引擎:从 2009 年到 2017 年,订阅流媒体视频服务的美国家庭增加了 450%2020 年《福布斯》杂志上的一篇文章报道称,流媒体视频服务的使用率进一步增加了 70%。推荐引擎已经广泛应用于各种零售和购物平台。在流媒体音乐和视频服务领域,推荐引擎肯定也会有自己的一席之地。

  • 动态营销:要发掘销售线索并引导其通过销售漏斗的各个阶段,企业需要采集和分析尽可能多的客户数据。从聊天记录到上传的图片,现代消费者产生了大量不同的非结构化数据。借助机器学习应用,营销人员可以更好地理解这些数据,并利用这些数据提供个性化的营销内容,与现有客户和潜在客户开展实时互动。

  • ERP 和流程自动化:ERP 数据库包含许多不同的数据集,比如销售业绩统计信息、消费者评论、市场趋势报告和供应链管理记录等。企业可以利用机器学习算法从这些数据中发现相关性和模式。而这些洞察几乎可以应用于每个业务领域,比如,优化网络内物联网设备的工作流、更高效地让重复性任务或易出错的任务实现自动化

  • 预测性维护:现代供应链和智能工厂都在越来越多地利用物联网设备和机器,并且在所有运输队伍和运营团队之间使用云连接。故障和效率低下会导致巨大的成本损失和业务中断。如果手动采集维护和维修数据,那么企业几乎不可能预测潜在问题,更不用说自动预测和预防潜在问题。物联网网关传感器甚至可以安装到已有几十年历史的模拟机器上,提高整个企业的可视性和效率。

 

机器学习的优势

机器学习技术已被广泛地用于各行各业,乃至各个部门,在多年地实践当中,我们发现机器学习技术在众多领域都带来了突破性的改变:

 

1.自动化工作流

数据分析是机器学习的核心优势,通过自动分析和处理大量数据,机器学习能够完善工作流程,自动执行既定任务。例如,智能客服系统可以自动回复常见问题,提高客户服务效率。

 

2.自动化报表

机器学习算法能够处理海量数据,并从中快速提取有价值的信息,并生成直观的数据报表。相较于传统的数据分析方法,机器学习在处理复杂数据集时效率更高,能够在短时间内得出准确的结果。

 

3.精准预测与分析

对于一些行业来说,科学的预测能够帮助其规避更多的风险、获得更多的机遇。机器学习可以通过对大量的历史数据学习,生成预测模型,帮助企业进行更精确的风险评估、销售预测,从而制定更加科学的运营策略。

 

4. 个性化体验

通过分析用户的历史行为和偏好,机器学习能够提供个性化的产品推荐和服务。这在电商和内容平台(社交媒体、视频软件)中尤为常见,能够提升用户体验和客户满意度,从而增加销售额与品牌知名度。

 

5. 降低成本

通过自动化和优化流程,机器学习可以帮助企业降低运营成本。例如,智能仓储管理系统可以减少库存过剩或缺货的风险,优化资源配置。

 

6. 推动创新

机器学习技术的应用可以催生新的商业模式和服务,推动企业的创新和转型。在医疗、金融和制造等行业,机器学习的应用正在改变传统业务流程,促进行业进步。

机器学习技术带来的挑战

毕业于哈佛大学的数据科学家 Tyler Vigan 在他的《虚假相关》(Spurious Correlations) 一书中写到,“不是所有的相关性都说明事物之间存在潜在的因果联系。”为了说明这一点,他给出了一个图表,这个图表显示缅因州的人造黄油消费量与离婚率之间存在明显的关联。当然,这是用一种诙谐的方式来揭示伪相关性问题。但严肃地说,机器学习应用确实很容易受到人类偏见和错误算法的影响。而且,由于机器学习应用具有学习和适应能力,错误和伪关联会迅速传播并影响整个神经网络中的结果。

 

另一个挑战来自机器学习模型,这些模型的算法和输出结果非常复杂,人类无法解释或理解它们。这类模型被称为“黑盒”模型。而对企业来说,如果不知道算法是如何得出某个结论或决策,以及为什么会得出这个结论或决策,那么他们就会面临风险。

 

幸运的是,虽然数据集和机器学习算法越来越复杂,但可用的风险管理工具和资源也越来越多。卓越运营企业也在努力创建新的、完善的人工智能治理指南和卓越实践方案,帮助消除错误和偏见。

机器学习常见问题

机器学习是人工智能的一个子集,没有人工智能就没有机器学习。人工智能基于数据处理作出决策和预测,是计算机系统的大脑,是机器所表现出来的“智慧”。借助人工智能中的机器学习算法,以及其他人工智能应用,系统不仅可以处理数据,还可以使用这些数据执行任务,作出预测,进行学习和变得更智能,而且不需要任何额外的编程。这样,人工智能技术就可以基于这些智能和数据,执行一些以目标为导向的任务。

可以,但这是一项涉及整个企业的举措,而不仅仅是一次 IT 升级。企业在实施数字化转型项目之前,必须全面评估其现有资源和技能,确保具备恰当的基础系统,这样才能取得卓越的转型成效。

相对于机器学习,数据科学是一个子集,侧重于统计和算法,主要使用回归和分类技术来解释和传达结果。机器学习则着重于编程、自动化、扩展、合并和储存结果。

机器学习主要是发现模式和相关性,从中进行学习并不断自我优化。数据挖掘则是机器学习的信息源。数据挖掘技术本身使用了复杂的算法,能够帮助提供条理更清晰的数据集,供机器学习应用使用。

人工神经网络中互联的神经元被称为节点,这些节点相互连接,并且以多层结构聚集在一起。当某个节点接收到一个数字信号时,这个节点会向其他并行工作的相关神经元发出信号。深度学习使用神经网络为基础结构,之所以称为“深度学习”,是因为它使用了大量数据,并且需要同时与神经网络中的多层进行交互。

机器学习包含了多种学习模型和技术,其中就包括统计。统计本身主要是利用数据进行预测和创建分析模型。