简单反射型智能体

时间：2023-02-11 理论教育版权反馈

【摘要】：图2.8 两状态真空吸尘器环境中的简单反射型智能体的智能体程序。简单反射型智能体具有结构简单的极好特性，但是它们的智能也是相当有限的。在这样的车辆之后驾驶的简单反射型智能体将经常地和毫无必要地刹车，或者更糟糕的是，根本不刹车。在部分可观察的环境中运转的简单反射型智能体经常不可避免地陷入无限循环中。因此，随机的简单反射型智能体的表现会胜过确定性的简单反射型智能体。

2.4.2 简单反射型智能体

最简单的智能体是简单反射型智能体。智能体基于当前的感知选择自己的行动，忽略其余的感知历史。例如，图 2.3 中所列智能体函数的吸尘器智能体就是一个简单反射型智能体，因为它的决策只建立在当前的位置和是否包含灰尘的基础上。图2.8显示了该智能体的一个智能体程序。

图2.8 两状态真空吸尘器环境中的简单反射型智能体的智能体程序。这个程序实现了图2.3中列出的智能体函数

应该注意到吸尘器的智能体程序与对应的表相比确实要小得多。最显著的缩减是忽略了感知历史，把可能情况的数量从4T削减到只有4。还可以更进一步少量缩减，如果当前方格有灰尘，那么行动不依赖于所在的地点。

再想象你自己是自动出租车的驾驶员。如果前方的车辆刹车，它的刹车灯亮了起来，那么你应该注意到并开始刹车。换句话说，当收到的视觉输入符合我们称为“前方的车辆在刹车”的条件时，某个过程就执行了。然后，这触发了智能体程序中某种建立好的到行动“开始刹车”的联系。我们称这种联系为条件-行为规则[23]，可以写作：

如果前方的车辆在刹车，那么开始刹车。

人类也有很多这样的联系，有些是学习得到的反应（如驾驶技巧），有些是先天反射（诸如当有东西接近眼睛时会眨眼）。在本书中，我们将看到通过一些不同的途径，可以学习和实现这样的联系。

图 2.8 中的程序是针对一个特殊的真空吸尘器环境的。更普遍和灵活的方法是首先建造一个通用的条件-行动规则解释器，然后对特定任务环境创建相应的规则集合。图2.9给出了该通用程序的示意性结构，显示了条件-行为规则如何允许智能体建立从感知信息到行动的联系。（如果这显得太简单了，别担心；很快它将变得更有趣。）我们用矩形表示智能体决策过程的内部状态，椭圆形表示该过程中用到的背景信息。智能体程序，同样也是很简单的，如图2.10所示。INTERPRET-INPUT函数根据感知信息产生一个当前状态的抽象描述，然后RULE-MATCH函数返回规则集合里能匹配已知状态描述的第一条规则。注意“规则”和“匹配”的描述是纯概念上的；真正的实现可以很简单，如同用一组逻辑门实现布尔电路。

图2.9 简单反射型智能体示意图

图2.10 简单反射型智能体。它根据条件能匹配当前状态的规则而行动，状态是由感知信息定义的

简单反射型智能体具有结构简单的极好特性，但是它们的智能也是相当有限的。图2.10中的智能体只有在可以仅根据当前感知信息来完成当前决策的情况下才能工作——也就是，只有环境完全可观察的情况下。即使有少量不可观测的情况也会引起严重的问题。例如，前面给出的刹车规则中，假设前方的车辆在刹车这个条件可以从当前的感知信息——当前的视频图像——确定，如果前方的车辆有安装在中部的刹车灯。不幸的是，老式车型有不同的尾灯、刹车灯和转向灯的安放方式，并不总能从单个图像上判断前车是否在刹车。在这样的车辆之后驾驶的简单反射型智能体将经常地和毫无必要地刹车，或者更糟糕的是，根本不刹车。

我们可以看到类似的问题也出现在真空吸尘器世界中。假设一个简单反射型吸尘器智能体拆除了它的位置传感器，而只有一个灰尘传感器。这样的智能体只有两种可能的感知信息：[脏（Dirty）]和[干净（Clean）]。它对[脏]的反应是吸尘；它对[干净]的反应是什么呢？如果它碰巧从方格A开始，向左移动会失败（总是），而如果它碰巧从方格B开始，向右移动会失败（总是）。在部分可观察的环境中运转的简单反射型智能体经常不可避免地陷入无限循环中。

避免无限循环是可能的，如果智能体的行动能够随机化。例如，当吸尘器智能体感知到[干净]时，它可能通过抛硬币选择向左还是向右。可以很容易地证明平均用两步该智能体就可以到达另一个方格。然后，如果该方格有灰尘，智能体会进行清洁，完成清洁任务。因此，随机的简单反射型智能体的表现会胜过确定性的简单反射型智能体。

我们在第 2.3 节中提到过合适的随机行为在某些多智能体环境中可以是理性的。在单智能体环境中，随机化通常不是理性的。尽管在某些情况下随机化是可以帮助简单反射型智能体的有用技巧，但是在大多数情况下我们用更复杂精巧的确定性智能体可以做得更好。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈