首页 理论教育 决策理论智能体

决策理论智能体

时间:2022-02-11 理论教育 版权反馈
【摘要】:于是智能体设计可以按照第二章勾勒的基于效用的智能体而实际实现。当前时刻是t,而智能体必须决定要做什么——也就是,选择一个At的值。如此,算法考虑到如下事实:对于决策At+i智能体将可以得到感知信息Et+1, …于是,一个决策理论智能体自动把信息价值考虑进去,并且在适当的地方执行信息收集行动。基于动态决策网络的决策理论智能体与前面几章中提出的较简单智能体相比,有很多优点。

17.5 决策理论智能体

本节中,我们概要介绍一种部分可观察的随机环境中的智能体的全面设计方法。设计的基本元素我们已经比较熟悉了:

• 用动态贝叶斯网络(如第十五章中所描述的)表示的转移和观察模型。

• 如同用于第十六章中的决策网络一样,用决策和效用节点扩展动态贝叶斯网络。产生的模型被称为动态决策网络或者简写为DDN。

• 使用滤波算法把每个新的感知信息与行动结合起来,并对信度状态表示进行更新。

• 通过向前投影可能的行动序列并选择其中的最佳行动,来制定决策。

用动态贝叶斯网络来表示转移模型和传感器模型的主要好处是它把状态描述分解成一个随机变量集,这与规划算法把逻辑表示分解成搜索算法使用的状态空间很像。于是智能体设计可以按照第二章勾勒的基于效用的智能体而实际实现。

因为我们在使用动态贝叶斯网络,故此我们回顾一下第十五章中的符号表示:其中Xt表示t时刻的状态变量集,而Et指的是证据变量。这样,在本章中迄今为止我们使用st(在t时刻的状态)的地方,都用Xt代替。我们用At表示在t时刻的行动,于是转移模型T(s, a, s')与P(Xt+1|Xt, At)相同,观察模型O(s,o)与P(Et|Xt)相同。我们用Rt表示t时刻收到的回报,并用Ut表示t时刻状态的效用值。使用这些符号,一个动态决策网络看上去如图17.9所示。


图17.9 动态决策网络的一般结构。已知值的变量用阴影表示。当前时刻是t,而智能体必须决定要做什么——也就是,选择一个At的值。网络向未来展开了3步,并表示了未来的回报,连同前瞻时期的状态效用值

动态决策网络为大型POMDP提供了简明的表示,所以它们可以被用作包括价值迭代和策略迭代法等的任何POMDP算法的输入。在这一节中,我们集中讨论从当前信度状态向前投影行动序列的前瞻方法,这种方法与第六章中博弈搜索算法所做的很相似。图 17.9 中的网络向着未来投影了3步;当前和未来的决策、以及未来的观察和回报都是未知的。注意网络包括代表Xt+1和Xt+2的回报的节点,不过没有Xt+3的效用。这是因为智能体必须最大化所有未来的回报(或者折扣回报)的和,而U(Xt+3)表示了Xt+3的回报和所有后继的回报。和第六章中一样,我们假设 U 仅仅在某种近似的形式中是可以得到:如果可以得到确切的效用值,没有必要前瞻超过一步。

图17.10显示了对应于图17.9中的3步前瞻DDN的搜索树的局部。每个三角形节点是一个信度状态,在其中智能体要为i = 0, 1 , 2, … 制定决策At+i。圆形节点对应于环境的选择,即发生了什么样的观察Et+i。注意这里没有对应于行动结果的几率节点,这是因为行动引起的信度状态更新是确定性的,和实际结果无关。


图17.10 图17.9中的DDN的部分前瞻解

在每个三角形节点的信度状态可以通过对观察序列和导致该序列的行动使用过滤算法而计算出来。如此,算法考虑到如下事实:对于决策At+i智能体将可以得到感知信息Et+1, … , Et+i,尽管在t时刻它并不知道那些感知信息会是什么。于是,一个决策理论智能体自动把信息价值考虑进去,并且在适当的地方执行信息收集行动。

通过从叶节点回传效用值,可以从搜索树提取决策,回传时在几率节点取平均,在决策节点取最大值。这和用于包含几率节点的博弈树的EXPECTIMINIMAX算法很相似,除了以下两点:(1)这里在非叶子状态也可能有回报;(2)决策节点对应于信度状态而不是实际状态。深度为d的穷举搜索的时间复杂度是O(|D|d⋅|E|d),其中|D|表示可采取的行动数,E是可能的观察数。对于折扣因子γ 不是很接近1的问题,一个浅层搜索就常常足以给出近似最优的决策了。通过用对可能观察集合进行采样代替对所有可能观察进行求和,对在几率节点求平均的步骤进行近似也是可能的。另外还有各种其他途径快速地寻找好的近似解,不过我们把它们留到第二十一章讨论。

基于动态决策网络的决策理论智能体与前面几章中提出的较简单智能体相比,有很多优点。特别是,它们可以处理部分可观察的、不确定的环境,并且容易修改自己“计划”以处理非预期的观察。使用适当的传感器模型,它们可以处理传感器失效的情况,可以进行规划收集信息。利用不同的近似技术,它们在时间压力下和复杂环境中显示出“得体的退让”。那么还缺什么?我们基于DDN的算法中最重要的缺点是对前向搜索的依赖,正如第二部分的状态空间搜索算法一样。在第四部分中,我们解释了通过目标指导的搜索来考虑偏序的抽象规划的能力,是如何为问题求解能力提供了巨大的增长的,尤其是当与规划库相结合时。也有人试图把这些方法扩展到概率领域,不过迄今为止已经被证明是低效的。另一个相关的问题是DDN语言的基本的命题本质。我们希望可以把第14.6节中的一阶概率语言的某些思想扩展到决策问题。当前的研究表明这种扩展是可能的而且有显著的益处,如在本章的结尾部分“历史的注释”一节中所讨论的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈