首页 理论教育 状态效用值

状态效用值

时间:2023-02-11 理论教育 版权反馈
【摘要】:显然,状态序列取决于执行的策略,所以我们从定义关于特定策略π 的状态效用值Uπ开始。图17.3显示了4 × 3世界的效用值。注意在+1状态附近的状态的效用值比较高,这是因为到终止状态需要更少的步数。也就是说,一个状态的效用值由下面的公式给出公式被称为贝尔曼方程,以理查德·贝尔曼的姓命名。状态的期望——被公式定义为后继状态序列的期望效用值——是一组贝尔曼方程的解。

17.2.1 状态效用值

状态的效用值是通过状态序列的效用值来定义的。粗略地说,一个状态的效用值就是可能跟随它出现的所有状态序列的期望效用值。显然,状态序列取决于执行的策略,所以我们从定义关于特定策略π 的状态效用值Uπ(s)开始。假设st是智能体按照π 执行了t步以后所处的状态(注意st是个随机变量),那么我们得到


基于这个定义,状态的真正效用值(我们记作U(s))就是Uπ *(s)——也就是,当智能体执行最优决策时的折扣回报的期望和。注意U(s)和R(s)是非常不同的量;R(s)是处于s中的“短期”回报,而 U(s)是从s向前的“长期”总回报。图17.3显示了4 × 3世界的效用值。注意在+1状态附近的状态的效用值比较高,这是因为到终止状态需要更少的步数。


图17.3 当γ=1,非终止状态的R(s)=–0.04时,计算出的4×3世界的效用值

效用函数U(s)允许智能体使用第十六章中的最大期望效用原则来选择行动,即选择使得后继状态的期望效用最大的行动:


现在,如果一个状态的效用值是从它向前的折扣回报的期望和,那么这个状态的效用值和它的邻接状态的效用值有直接的关系:一个状态的效用值是在该状态得到的立即回报加上在下一个状态的期望折扣效用值,假定智能体选择了最优行动。也就是说,一个状态的效用值由下面的公式给出


公式(17.5)被称为贝尔曼方程,以理查德·贝尔曼(Richard Bellman,1957)的姓命名。状态的期望——被公式(17.3)定义为后继状态序列的期望效用值——是一组贝尔曼方程的解。实际上,它们是唯一解,我们将在下面两节中证明。

让我们看看4×3世界的贝尔曼方程之一。对于状态(1,1)的方程是:

U(1,1)=–0.04+γ max{0.8U(1,2)+0.1U(2,1)+0.1U(1,1),    (Up)

0.9U(1,1)+0.1U(1,2),        (Left)

0.9U(1,1)+0.1U(2,1),        (Down)

0.8U(2,1)+0.1U(1,2)+0.1U(1,1)}   (Right)

当我们代入图17.3中的数字时,就会发现Up是最佳行动。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈