首页 理论教育 在不确定性环境下结合信度与愿望

在不确定性环境下结合信度与愿望

时间:2022-02-11 理论教育 版权反馈
【摘要】:效用与行动的结果概率相结合,提供了每个行动的期望效用。在某种意义上,MEU原则可以被视为对全部人工智能进行了定义。如果一个智能体最大化一个效用函数,而这个效用函数能够正确地反映用于判断其行为的性能度量,那么当我们在可放置智能体的环境内取平均时,该智能体将得到最高的可能性能分数。

16.1 在不确定性环境下结合信度与愿望

在著于1662年的《保尔-罗亚尔逻辑》(Port-Royal Logic)中,法国哲学家Arnauld指出:

为了判断一个人为了向善或避恶所必须做的事情,有必要不仅考虑善与恶本身,而且考虑其发生或者不发生的概率;并从几何上观察所有这些事情在一起所占的比例。

现代的教科书讨论效用而不是善恶,不过原则是完全相同的。一个智能体在世界状态之间的偏好被一个效用函数捕捉到,这个效用函数分配一个数值来表达对某个状态的愿望度。效用与行动的结果概率相结合,提供了每个行动的期望效用。

我们将使用符号U(S)表示与进行决策的智能体一致的状态S的效用。我们将暂时把状态当作世界的完全快照,类似于第十章中的情景。这将简化我们最初的讨论,但是会使得为每个可能的状态单独指定效用变得相当麻烦。在第16.4节中,我们将看到为了赋予效用值,在某些情况下可以如何对状态进行分解。

一个非确定性的行动A将具有可能的结果状态Resulti(A),其中索引i的范围是不同结果的个数。在执行A之前,智能体为每个结果赋以概率P(Resulti(A)|Do(A), E),其中E综合了智能体关于世界的可用证据,Do(A)是在当前状态下执行行动 A 的命题。然后在给定证据下,使用下述公式,我们可以计算出该行动的期望效用EU(A|E):


最大期望效用(MEU)原则指出一个理性智能体应该选择能最大化该智能体的期望效用的那个行动。如果我们想要通过这个公式选择最佳行动序列,我们就必须枚举所有的行动序列,然后选择出最佳的。对于长序列来说,这显然是不可行的。因此,本章将专注于简单决策(通常是单个行动),下一章将介绍用于有效处理行动序列的新技术。

在某种意义上,MEU原则可以被视为对全部人工智能进行了定义。一个智能体所要做的全部就是计算各种量值,在其行动上使效用最大化,然后采取行动。但是,这并不意味着人工智能问题已经被这个定义解决了!

虽然 MEU 原则定义了在任意决策问题中应采取的正确行动,但是涉及的计算量可能会大得令人望而却步,有时候甚至很难对问题进行完整的形式化表示。了解世界的初始状态需要感知、学习、知识表示和推理。计算P(Resulti(A)|Do(A), E)需要有世界的一个完整的因果模型,正如我们在第十四章所见到的贝叶斯网络推理的NP难题。计算每个状态的效用U(Resulti(A)),常常需要搜索或者规划,因为一个智能体不知道一个状态如何好,直到它了解到从该状态能够到达何处。所以,决策理论并不是解决AI问题的万能药。从另一方面来说,决策理论确实提供了一个框架,我们可以看到一个AI系统的所有组成部分在其中适合的位置。

MEU原则与第二章所介绍的性能度量有着明显的联系。基本思路是很简单的。考虑可能会导致出现拥有给定感知历史的智能体的环境,并考虑我们可能设计的不同智能体。如果一个智能体最大化一个效用函数,而这个效用函数能够正确地反映用于判断其行为的性能度量,那么当我们在可放置智能体的环境内取平均时,该智能体将得到最高的可能性能分数。这是 MEU 原则本身的核心准则。虽然这个断言看起来有些重复啰嗦,但实际上它包含了一个重要的转换,这个转换是从理性的一个全局外部标准——在环境历史上的性能度量——转换到一个局部的内部标准,涉及应用于下一状态的效用函数的最大化。

在本章中,我们只关注单个决策或称一次决策,而第二章定义的对于环境历史的性能度量通常涉及多个决策。在讨论串行决策的下一章,我们将说明如何调和这两种观点。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈