什么是监督学习?
监督学习是四大机器学习模型中的第一大类。在监督学习算法中,机器通过示例进行学习。监督学习模型包含“输入”和“输出”数据对,其中输出被标记为期望的值。例如,假设机器的目标是区分雏菊和三色堇。那么,二进制输入数据对中将包含雏菊的图像和三色堇的图像。对于这个数据对来说,期望的输出值是雏菊,因此雏菊的图像将被预先识别为正确的结果。
通过运用算法,系统能够随着时间的推移编译所有这些训练数据,并开始确定相关的相似点、差异点和其他逻辑点,直到能够自主预测出问题答案,区分雏菊和三色堇。这就相当于给孩子提供一组含答案的问题,然后让他们展示答题原理并解释他们的逻辑。我们每天接触的很多应用都使用了监督学习模型,比如产品推荐引擎、像 Waze 这样预测一天中不同时间段最快行驶路线的交通分析应用。
什么是无监督学习?
无监督学习是四大机器学习模型中的第二大类。无监督学习模型不包含答案。机器需要自己研究输入的数据(其中大部分是未标记的非结构化数据),并开始使用所有相关的、可访问的数据来识别模式和相关性。从许多方面来看,无监督学习模仿了人类观察世界的方式。我们根据直觉和经验将事物联系在一起。随着我们经历的事例越来越多,我们的归类和识别能力也会变得越来越精准。对于机器来说,“经验”取决于输入和可用的数据量。无监督学习常用于面部识别、基因序列分析、市场研究和网络安全管理等领域。
什么是半监督学习?
半监督学习是四大机器学习模型中的第三大类。理想情况下,所有数据在输入系统之前都是有标记的结构化数据。但这显然不可能。所以,当存在大量原始的非结构化数据时,我们就需要使用半监督学习模型。这种模型会输入少量的有标记数据来扩充未标记的数据集。实质上,有标记数据相当于为系统提供了一个起跑点,可以大大提高学习速度和准确性。半监督学习算法可以指导机器分析有标记数据,获得可应用于未标记数据的相关属性。
根据麻省理工出版社研究报告的深入研究,半监督学习模型也存在风险,系统会学习和复制有标记数据中的缺陷。成功使用半监督学习模型的企业通常都制定了相关的卓越实践方案。半监督学习多应用于语音和语言分析、复杂的医学研究(如蛋白质分类),以及高级欺诈检测。
什么是强化学习?
强化学习是机器学习模型的第四大类。在监督学习模型中,我们事先输入了问题的答案,机器通过寻找所有正确结果之间的相关性进行学习。而在强化学习模型中,我们并没有事先提供问题的答案,只是提供了一组许可的动作、规则和可能的最终状态。如果算法的期望值是固定的或者二进制形式,那么机器可以通过示例进行学习。但如果期望值是可变的,那么系统必须通过经验和奖励进行学习。在强化学习模型中,“奖励”是数值形式,并且作为系统要收集的对象被编程到算法中。
这种模式很像教人如何下棋。显然,你不可能向对方展示每一步应该怎么走。相反,你会向他们解释规则,然后他们将通过练习来逐步掌握要领。奖励的形式不仅是获胜,还包括吃掉对手的棋子。强化学习的应用包括在线广告位买家自动竞价、电脑游戏开发和高风险股票市场交易等。