学习的形式

时间：2022-02-11 理论教育版权反馈

【摘要】：例如，考虑一个要被训练成为出租汽车司机的智能体。学习中可用的反馈类型通常是决定智能体所面临的学习问题本质的最重要因素。学习系统的设计中最后一个重要因素是先验知识的可用性。在人工智能、计算机科学以及心理学中，大部分关于学习的研究工作已经研究了这种情况，即智能体在开始时根本没有关于它要试图学习什么的知识。

在第二章中，我们看到一个学习智能体可以被认为既包含决定采取什么动作的执行元件，又包含修改执行元件使其能制定更好决策的学习元件。（参见图2.15。）机器学习的研究者们提出了很多种不同的学习元件。看看这些元件运转的背景环境是如何对它们的设计造成影响的，有助于理解它们。一个学习元件的设计受到下列3个主要因素的影响：

• 将要学习的是执行元件的哪个组成部分。

• 对学习这些组成部分而言，可得到什么反馈。

• 组成部分是如何表示的。

现在我们将依次对这些问题的每一个进行分析。我们已经看到建造智能体的执行元件的很多途径。第二章描述了多种智能体的设计方案（图2.9，2.11，2.13和2.14）。这些智能体的组成部分包括：

① 一个从当前状态的条件到行动的直接映射。

② 一种从感知序列中推断世界的相关属性的方法。

③ 关于世界发展方式的信息，以及关于智能体可以采取的可能行动的结果的信息。

④ 指示对世界状态的愿望度的效用信息。

⑤ 指示对行动的愿望度的行动值信息。

⑥ 目标，用以描述达到最大化智能体效用的状态类别。

上述每个组成部分都可以从适当的反馈中进行学习。例如，考虑一个要被训练成为出租汽车司机的智能体。每当教师喊“刹车！”的时候，智能体能够学习到何时应该刹车的条件-行动规则（组成部分①）。通过观察大量已知包含公共汽车的镜头图像，智能体能够学会识别公共汽车（组成部分②）。通过尝试行动并观察所带来的结果——例如，潮湿道路上刹车较困难——智能体能够学习它的行动所带来的影响（组成部分③）。接着，当它没有收到在旅途中已经被彻底晃晕的乘客的小费时，该智能体能够学习到其总体效用函数的有用组成部分（组成部分④）。

学习中可用的反馈类型通常是决定智能体所面临的学习问题本质的最重要因素。机器学习一般分为3种类型：有监督的、无监督的以及强化学习。

有监督学习问题涉及从它的输入和输出的实例中学习一个函数。上述6种情况中的前3种都是有监督学习问题的例子。在组成部分①中，智能体学到了针对刹车的条件-行动规则——这是一个从状态到布尔输出（刹车或不刹车）的函数。在组成部分②中，智能体学到了一个从图像到布尔输出（图像中是否包含公共汽车）的函数。在组成部分③中，刹车理论是从当前状态及刹车行动到比如说制动距离的函数。注意在组成部分①和②中，教师提供了实例的正确输出值；在第3种情况中，输出值可以直接从智能体的感知信息得到。对于完全可观察的环境，智能体总能够观察到它的行动所带来的影响，因此可以采用有监督学习的方法来学习预测它们。而对于部分可观察的环境，由于立即的影响不一定能观察到，因此会困难一些。

无监督学习问题涉及在未提供明确的输出值的情况下，学习输入的模式。例如，出租车智能体可以在没有已经过标注的实例的情况下，逐步形成关于“交通良好的日子”和“交通不好的日子”的概念。纯粹的无监督学习智能体无法学习要做什么，因为它没有信息说明什么能构成正确的行动或者所期望的状态。我们主要在概率推理系统的上下文中研究无监督学习（第二十章）。

强化学习问题我们会在第二十一章中讨论，它是这3类问题中最普遍的一个。强化学习是从强化物（起加强作用的事物）[1]中进行学习，而不是根据教师所说的应该做什么进行学习。例如，在旅途结束的时候未得到小费（或者与前车发生追尾事故而得到沉重的账单），则表明智能体的行动是不令人满意的。典型的强化学习包括学习环境是如何运转的。

如何表示学到的信息，在决定“学习算法必须如何工作”中扮演着重要的角色。智能体的任何组成部分都可以利用本书中提到的任何表示方案来表示。我们已经看到了一些例子：在博弈程序中用于表示效用函数的线性加权多项式；用于表示逻辑智能体的所有组成部分的命题逻辑和一阶逻辑语句；以及用于表示决策理论智能体的推理部分的概率描述，比如贝叶斯网络。针对所有这些问题已经设计出了一些有效的学习算法。本章将涵盖命题逻辑方法，第十九章描述一阶逻辑方法，第二十章则论及贝叶斯网络方法和神经元网络方法（它包含了线性多项式作为一个特例）。

学习系统的设计中最后一个重要因素是先验知识的可用性。在人工智能、计算机科学以及心理学中，大部分关于学习的研究工作已经研究了这种情况，即智能体在开始时根本没有关于它要试图学习什么的知识。它仅能使用以它自己的经验所表示的实例。尽管这是一个很重要的特殊情况，但绝不是普遍的情况。大部分的人类学习发生在具有大量背景知识的上下文中。一些心理学家和语言学家声称即使是新生的婴儿也表现出具有关于世界的知识。无论这种主张是否正确，先验知识在学习中有很大作用是无庸置疑的。检查一堆云室照片的物理学家，也许能够归纳出一个断定存在一种具有确定质量和电荷数的新粒子的理论，但是如果是艺术评论家也观看相同的照片，或许只能了解到这个“艺术家”一定属于某种抽象印象派。第十九章显示了一些利用已有知识帮助学习的途径，同时也将说明为了加速决策过程，知识是如何被编译的。第二十章将说明先验知识在概率理论的学习中是如何起作用的。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈