跳转至内容

什么是机器学习?

机器学习是人工智能的一个子集。这项技术的主要任务是指导计算机从数据中学习,然后利用经验来改善自身的性能,不需要进行明确的编程。在机器学习中,算法会不断进行训练,从大型数据集中发现模式和相关性,然后根据数据分析结果做出最佳决策和预测。机器学习应用具有自我演进能力,它们获得的数据越多,准确性会越高。机器学习技术的应用无处不在,比如,我们的家居生活、购物车、娱乐媒体以及医疗保健等。

机器学习及其分支深度学习和神经网络都属于人工智能的子集。人工智能是基于数据处理来做出决策和预测。借助机器学习算法,人工智能不仅能够处理数据,还能在不需要任何额外编程的情况下,利用这些数据进行学习,变得更智能。人工智能是父集,包含了机器学习的所有子集。人工智能下面的第一个子集是机器学习,深度学习是机器学习的一个分支,神经网络则是深度学习的基础结构。

什么是神经网络?

 

人工神经网络模仿的是生物大脑中的神经元。人工神经元被称为节点,这些节点以多层结构聚集在一起并行工作。当人工神经元接收到一个数字信号时,这个神经元会对其进行处理,并向其他相连的神经元发出信号。就像人脑一样,神经强化有助于提升模式识别能力、专业知识水平和整体学习能力。

 

什么是深度学习?

 

深度学习之所以被称为“深度”,是因为这种技术使用了多层神经网络和大量复杂、不同的数据。在进行深度学习时,系统会与神经网络中的多层进行交互,提取更高级的输出。例如,一款深度学习系统在处理大自然图片,查找 Gloriosa 雏菊时,将先在神经网络的第一层识别植物。然后,系统将与其他神经网络层交互,依次识别出花,然后是雏菊,最后是 Gloriosa 雏菊。深度学习的应用领域包括语音识别、图像分类和药物分析等。

机器学习包含多种使用不同算法的学习模型。根据数据的性质和期望的结果,可以将学习模型分成四种,分别是监督学习、无监督学习、半监督学习和强化学习。而根据使用的数据集和预期结果,每一种模型可以应用一种或多种算法。机器学习算法主要用于对事物进行分类、发现模式、预测结果,以及制定明智的决策。算法一般一次只使用一种,但如果处理的数据非常复杂、难以预测,也可以组合使用多种算法,以尽可能提高准确度。

什么是监督学习?

 

监督学习是四大机器学习模型中的第一大类。在监督学习算法中,机器通过示例进行学习。监督学习模型包含“输入”和“输出”数据对,其中输出被标记为期望的值。例如,假设机器的目标是区分雏菊和三色堇。那么,二进制输入数据对中将包含雏菊的图像和三色堇的图像。对于这个数据对来说,期望的输出值是雏菊,因此雏菊的图像将被预先识别为正确的结果。

 

通过运用算法,系统能够随着时间的推移编译所有这些训练数据,并开始确定相关的相似点、差异点和其他逻辑点,直到能够自主预测出问题答案,区分雏菊和三色堇。这就相当于给孩子提供一组含答案的问题,然后让他们展示答题原理并解释他们的逻辑。我们每天接触的很多应用都使用了监督学习模型,比如产品推荐引擎、像 Waze 这样预测一天中不同时间段最快行驶路线的交通分析应用。

 

什么是无监督学习?

 

无监督学习是四大机器学习模型中的第二大类。无监督学习模型不包含答案。机器需要自己研究输入的数据(其中大部分是未标记的非结构化数据),并开始使用所有相关的、可访问的数据来识别模式和相关性。从许多方面来看,无监督学习模仿了人类观察世界的方式。我们根据直觉和经验将事物联系在一起。随着我们经历的事例越来越多,我们的归类和识别能力也会变得越来越精准。对于机器来说,“经验”取决于输入和可用的数据量。无监督学习常用于面部识别、基因序列分析、市场研究和网络安全管理等领域。

 

什么是半监督学习?

 

半监督学习是四大机器学习模型中的第三大类。理想情况下,所有数据在输入系统之前都是有标记的结构化数据。但这显然不可能。所以,当存在大量原始的非结构化数据时,我们就需要使用半监督学习模型。这种模型会输入少量的有标记数据来扩充未标记的数据集。实质上,有标记数据相当于为系统提供了一个起跑点,可以大大提高学习速度和准确性。半监督学习算法可以指导机器分析有标记数据,获得可应用于未标记数据的相关属性。

 

根据麻省理工出版社研究报告的深入研究,半监督学习模型也存在风险,系统会学习和复制有标记数据中的缺陷。成功使用半监督学习模型的企业通常都制定了相关的卓越实践方案。半监督学习多应用于语音和语言分析、复杂的医学研究(如蛋白质分类),以及高级欺诈检测。

 

什么是强化学习?

 

强化学习是机器学习模型的第四大类。在监督学习模型中,我们事先输入了问题的答案,机器通过寻找所有正确结果之间的相关性进行学习。而在强化学习模型中,我们并没有事先提供问题的答案,只是提供了一组许可的动作、规则和可能的最终状态。如果算法的期望值是固定的或者二进制形式,那么机器可以通过示例进行学习。但如果期望值是可变的,那么系统必须通过经验和奖励进行学习。在强化学习模型中,“奖励”是数值形式,并且作为系统要收集的对象被编程到算法中。

 

这种模式很像教人如何下棋。显然,你不可能向对方展示每一步应该怎么走。相反,你会向他们解释规则,然后他们将通过练习来逐步掌握要领。奖励的形式不仅是获胜,还包括吃掉对手的棋子。强化学习的应用包括在线广告位买家自动竞价、电脑游戏开发和高风险股票市场交易等。

机器学习算法能够识别模式和相关性,这意味着它们可以快速准确地分析自身的投资回报率。对于投资机器学习技术的企业来说,他们可以利用这个特性,快速评估采用机器学习技术对运营的影响。下面列举了一小部分快速发展的企业机器学习应用领域。

  • 推荐引擎:从 2009 年到 2017 年,订阅流媒体视频服务的美国家庭增加了 450%2020 年《福布斯》杂志上的一篇文章报道称,流媒体视频服务的使用率进一步增加了 70%。推荐引擎已经广泛应用于各种零售和购物平台。在流媒体音乐和视频服务领域,推荐引擎肯定也会有自己的一席之地。
  • 动态营销:要发掘销售线索并引导其通过销售漏斗的各个阶段,企业需要采集和分析尽可能多的客户数据。从聊天记录到上传的图片,现代消费者产生了大量不同的非结构化数据。借助机器学习应用,营销人员可以更好地理解这些数据,并利用这些数据提供个性化的营销内容,与现有客户和潜在客户开展实时互动。
  • ERP 和流程自动化:ERP 数据库包含许多不同的数据集,比如销售业绩统计信息、消费者评论、市场趋势报告和供应链管理记录等。企业可以利用机器学习算法从这些数据中发现相关性和模式。而这些洞察几乎可以应用于每个业务领域,比如,优化网络内物联网设备的工作流、更高效地将重复性任务或易出错任务实现自动化。
  • 预测性维护:现代供应链和智能工厂都在越来越多地利用物联网设备和机器,并且在所有运输队伍和运营团队之间使用云连接。故障和效率低下问题会导致巨大的成本损失和业务中断。如果手动采集维护和维修数据,那么企业几乎不可能预测潜在问题,更不用说自动预测和预防潜在问题。物联网网关传感器甚至可以安装到已有几十年历史的模拟机器上,提高整个企业的可视性和效率。

毕业于哈佛大学的数据科学家 Tyler Vigan 在他的《虚假相关》(Spurious Correlations) 一书中写到,“不是所有的相关性都说明事物之间存在潜在的因果联系。”为了说明这一点,他给出了一个图表,这个图表显示缅因州的人造黄油消费量与离婚率之间存在明显的关联。当然,他这是用一种诙谐的方式揭示伪相关性问题。但严肃地说,机器学习应用确实很容易受到人类偏见和算法错误的影响。而且,由于机器学习应用具有学习和适应能力,错误和伪关联会迅速传播并污染整个神经网络中的结果。

 

另一个挑战来自机器学习模型,这些模型的算法和输出结果非常复杂,人类无法解释或理解它们。这类模型被称为“黑盒”模型。而对企业来说,如果不知道算法是如何得出某个结论或决策,以及为什么会得出这个结论或决策,那么他们就会面临风险。

 

幸运的是,虽然数据集和机器学习算法越来越复杂,但可用的风险管理工具和资源也越来越多。卓越运营企业也在努力创建新的、完善的人工智能治理指南和卓越实践方案,帮助消除错误和偏见。

机器学习常见问题

机器学习是人工智能的一个子集,没有人工智能就没有机器学习。人工智能基于数据处理来做出决策和预测,是计算机系统的大脑,是机器所表现出来的“智慧”。借助人工智能中的机器学习算法,以及其他人工智能应用,系统不仅可以处理数据,还可以使用这些数据来执行任务,做出预测,进行学习和变得更智能,而且不需要任何额外的编程。这样,人工智能技术就可以借助这些智能和数据,执行一些以目标为导向的任务。

可以,但这是一项涉及整个企业的举措,而不仅仅是 IT 升级。企业在实施数字化转型项目之前,必须全面评估其现有资源和技能,确保具备恰当的基础系统,这样才能取得卓越的转型成效。

相对于机器学习,数据科学是一个子集,侧重于统计和算法,主要使用回归和分类技术来解释和传达结果。机器学习则着重于编程、自动化、扩展、合并和储存结果。

机器学习主要是发现模式和相关性,从中进行学习并不断自我优化。数据挖掘则是机器学习的信息源。数据挖掘技术本身使用了复杂的算法,能够帮助提供条理更清晰的数据集,供机器学习应用使用。

人工神经网络中互联的神经元被称为节点,这些节点相互连接,并且以多层结构聚集在一起。当节点接收到一个数字信号时,这个节点会向其他并行工作的相关神经元发出信号。深度学习使用神经网络为基础结构,之所以称为“深度学习”,是因为它使用了大量数据,并且需要同时与神经网络中的多层进行交互。

机器学习包含了多种学习模型和技术,其中就包括统计。统计本身主要是利用数据进行预测和创建分析模型。

返回顶部