全知者，学习和自主性

时间：2023-02-11 理论教育版权反馈

【摘要】：一个全知的智能体知道它的行动产生的实际结果并且做出相应的动作；但一个全知者在现实中是不可能的。完美对一个智能体而言是不合理的要求。因此就如进化为动物提供了足够的内建的反射，以使它们能生存足够长的时间进行学习一样，为人工智能的智能体提供一些初始知识以及学习能力是合理的。从而，与学习相结合使得设计一种在很多不同环境下都能成功的理性智能体成为可能。

我们需要仔细地区别理性和全知的概念。一个全知的智能体知道它的行动产生的实际结果并且做出相应的动作；但一个全知者在现实中是不可能的。考虑下面这个例子：有一天我沿着香榭丽舍大道散步，这时我看到街对面的一位老朋友。当时附近没有车辆，我也没有别的事情，所以根据理性，我开始穿过马路。同时，在33 000m的高空一扇货舱门从一架路过的班机上掉了下来[19]，并且在我到达马路对面之前击中了我。我穿过马路的决定难道是不理性的么？我想我的讣告中不太可能写上“试图穿行马路的傻瓜”。

这个例子说明理性不等于完美。理性是使期望的性能最大化，而完美是使实际的性能最大化。完美对一个智能体而言是不合理的要求。关键是如果我们期望一个智能体最终能采取事实上最好的行动，设计满足这样要求的智能体是不可能的——除非我们能改进水晶球或者时间机器的性能。

于是我们对理性的定义并不要求全知，因为理性的选择只取决于到当时为止的感知序列。我们还要确保我们并没有因漫不经心而让智能体进行肯定愚蠢的活动。例如，如果一个智能体穿行繁忙的马路前没有观察道路的情况，那么它的感知序列就不可能告诉它有大卡车在高速接近。我们对理性的定义会说现在可以穿过马路吗？绝对不会！首先，根据这个信息不全的感知序列穿行马路是不理性的：不观察的情况下穿行时发生事故的风险太大了。其次，理性智能体应该在走上街道之前选择“观察”行动，因为观察有助于最大化期望性能。为了修改未来的感知信息而采取行动——有时称为信息收集——是理性的重要部分，我们将在第十六章中深入讨论。真空吸尘器清洁智能体在初始未知的环境中必须探索，为我们提供了信息收集的第二个例子。

我们对于理性的定义不仅需要智能体收集信息，而且需要智能体尽可能多地从它所感知的东西中进行学习。智能体最初的设定可能反映了环境的一些先验知识，但随着智能体获得经验，这些知识会被改变或者增加。有一些极端的情况中环境被完全当成先验知识。在这样的情况下，智能体不再需要感知和学习；它只要正确地行动就可以。当然，这样的智能体是相当脆弱的。考虑一下缓慢的蜣螂。蜣螂做窝并产卵后，会从附近的粪堆取回一个粪球堵住窝的入口。如果粪球在途中脱离了它的掌握，蜣螂还会继续赶路，并做动作用不存在的粪球塞住入口，而不会注意到粪球已经不见了。进化在蜣螂的行为里内建了一个假设，当该假设被破坏时，不成功的行为发生了。黑足泥蜂要稍微聪明一些。雌蜂先挖一个地洞，出去叮一只毛虫并拖回地洞，再次进入地洞查看妥帖，把毛虫拖到洞里，然后产卵。毛虫在其孵卵期间作为食物来源。到目前为止一切顺利，但是假如一个昆虫学家在雌蜂检查地洞的时候把毛虫挪开几英尺，雌蜂就会回到计划中“拖毛虫到地洞”的步骤，继续进行不做任何修改的计划，甚至在发生过很多次毛虫被移动的干扰后仍然如此。雌蜂无法知道它天生的计划是失败的，因而也不会改变计划。

成功的智能体会把智能体函数的计算任务分成三个不同时期：设计智能体的时候，设计者会完成一些计算；思考下一步行动的时候，智能体会做更多的计算；当它从经验中学习的时候，它要进行更多的计算来决定如何修改自己的行为。

扩展一个智能体依赖于设计者的先验知识而不是它自身的感知信息，我们就说该智能体缺乏自主性。理性智能体应该是自主的——它应该能够尽可能地学习，以弥补不全面的或者不正确的先验知识。例如，一个吸尘器清洁智能体如果学会预见额外的灰尘出现的地点和时间，显然就能比不会预见的智能体做得好。实践中，很少要求智能体从一开始就完全自主：当一个智能体没有或者只有很少经验时，它所表现的行为往往是随机的，除非设计者提供一些帮助。因此就如进化为动物提供了足够的内建的反射，以使它们能生存足够长的时间进行学习一样，为人工智能的智能体提供一些初始知识以及学习能力是合理的。当得到关于环境的充分经验后，理性智能体的行为才会有效地独立于它的先验知识。从而，与学习相结合使得设计一种在很多不同环境下都能成功的理性智能体成为可能。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈