问题求解智能体

时间：2022-02-11 理论教育版权反馈

【摘要】：智能化智能体被认为是能使自己的性能度量最大化的智能体。在这种情况下，智能体采纳前往Bucharest的目标是合理的。导致不能按时到达Bucharest的行动方案将不再予以考虑，因此智能体的决策问题被大幅度简化了。智能体的任务是找出能够使它达到目标状态的行动序列。图3.1 一个简单的问题求解智能体。在投入细节讨论之前，让我们暂停一下，来看看问题求解智能体在第二章关于智能体和环境的讨论中所处的适合位置。

3.1 问题求解智能体

智能化智能体被认为是能使自己的性能度量最大化的智能体。如同我们在第二章中提到的，如果智能体能够采用一个目标并针对使这个目标得到满足而行事，达到性能度量最大化有时会被简化。让我们先看看为什么智能体可以做到以及它可能怎么做。

想象一个智能体在罗马尼亚城市Arad，享受旅游假期。智能体的性能度量包括许多因素：它想要晒黑一些，提高它的罗马尼亚语水平，欣赏风景，享受夜生活（诸如此类），还要避免宿醉，等等。这个决策问题是个复杂的问题，涉及对许多问题的权衡和仔细阅读大量的旅游指南。现在，假设智能体有一张第二天飞离Bucharest的机票，并且机票是不能退的。在这种情况下，智能体采纳前往Bucharest的目标是合理的。导致不能按时到达Bucharest的行动方案将不再予以考虑，因此智能体的决策问题被大幅度简化了。目标限制了智能体试图达到的目的，有助于组织要采纳的行为。基于当前的情形和智能体的性能度量的目标形式化是问题求解的第一个步骤。

我们将考虑的目标是一个世界状态集合——正是在那些状态中，该目标是可满足的。智能体的任务是找出能够使它达到目标状态的行动序列。在能做这个之前，它需要决策所要考虑的行动和状态的种类。如果智能体试图在诸如“左脚前移 1英尺”或“将方向盘向左旋转 1度”的层次上考虑行动，它将可能永远无法找到走出停车场的路，更别说去Bucharest了，因为在那样的细节水平上，世界的不确定因素太多，而问题的解也将包含过多的步骤。问题形式化是决策对于给定的目标需要考虑哪些行动和状态的过程。后面我们将详细地讨论这个过程。眼下，让我们假设智能体将在开车从一个主要城镇到另一个城镇的层次上考虑行动。因此要考虑的状态就对应于“在一个特定的城市中”[1]。

我们的智能体现在采纳了开车去Bucharest的目标，并且正在考虑从Arad先开往哪里。从Arad开出有三条道路：一条前往Sibiu，一条前往Timisoara，另一条前往Zerind。这三条道路没有一条能直接到达最终目标，所以除非智能体对罗马尼亚的地理非常熟悉，它无法知道应该走哪条路[2]。换句话说，智能体不知道哪个可能的行动是最好的，因为它对由每个行动产生的状态了解得不够多。如果智能体没有得到额外的知识，它就只能停滞不前了。这时它能做的最好决策就是随机选择一个行动。

但是假设智能体有一张罗马尼亚的地图，不管是在纸上还是在存储器里。那么地图上的每个点都可以向智能体提供信息，这些信息是关于智能体可以达到的状态和它可以选择的行动的。智能体可以利用这些信息考虑途经上述三个城镇中的每一个城镇的假想旅程的后继阶段，试图找到最终能到达 Bucharest的旅程。一旦它在地图上发现从 Arad到 Bucharest的路径，它就可以完成对应于旅程的各段路程的驾驶行为，达到它的目标。一般来说，一个智能体有多个评价未知的直接选项的时候，可以首先检验各个不同的能导致已知评价的状态的可能行动序列，然后选择最佳序列。

寻找这样的序列的这种过程被称为搜索。搜索算法把问题作为输入，并以行动序列的形式返回问题的解。一旦找到一个解，那么它所建议的行动就可以付诸实施。这被称为执行阶段。从而，我们有了一个对智能体的简单设计，即“形式化、搜索、执行”，如图3.1所示。在把目标和待求解的问题形式化之后，智能体调用搜索过程对它求解。然后智能体用得到的解来引导行动，按照解的建议去做下一步事情——通常是序列中的第一个行动——再从序列中删除已完成的步骤。一旦解被执行了，智能体将形式化新的目标。

图3.1 一个简单的问题求解智能体。它首先形式化描述了目标和问题，再搜索能够解决该问题的行动序列，然后依次执行这些行动。这个过程完成之后，它形式化描述另一个目标并重复以上步骤。注意智能体在执行行动序列的时候会忽略它的感知信息：它假设找到的解总是可行的

我们首先描述形式化待求解问题的过程，然后用本章的大部分篇幅专门介绍 SEARCH函数的各种不同算法。在本章中我们将不会进一步讨论UPDATE-STATE和FORMULATE-GOAL这两个函数的研究工作。

在投入细节讨论之前，让我们暂停一下，来看看问题求解智能体在第二章关于智能体和环境的讨论中所处的适合位置。在图 3.1 中，智能体设计假定环境是静态的，因为完成问题形式化和求解的时候不再注意可能发生在环境中的任何变化。该智能体设计还假定初始状态是已知的；如果环境是可观察的，了解初始状态是最简单的。枚举“可选的行动过程”的思想假定环境是离散的。最后，也是最重要的，该智能体设计假定环境是确定性的。问题的解是行动的单一序列，所以它们不能处理任何意外事件；此外，在执行问题的解的过程中同样是不注意感知信息的！可以说，一个闭着眼睛执行计划的智能体必须对正在进行的事情十分有把握。（控制论中称此为开环系统，因为忽略感知信息打破了智能体和环境之间的环路。）所有这些假设意味着我们处理的是最简单的一种环境，这也是这一章出现在本书靠前位置的原因之一。第 3.6 节将简要考察一下当我们放松可观察性和确定性的假设时会发生什么。第十二章和第十七章将更深入地进行讨论。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈