首页 理论教育 被动强化学习

被动强化学习

时间:2022-02-11 理论教育 版权反馈
【摘要】:为了保持问题的简单,我们从在完全可观察环境下使用基于状态的表示的被动学习智能体的情况开始。在被动学习中,智能体的策略π 是固定的:处于状态s,它总是执行行动π 。显然,被动学习的任务与策略评价的任务相似。主要区别在于被动学习智能体对指定在完成行动a以后从状态s到达状态s' 的概率的转移模型T一无所知;并且它也不知道指定每个状态的回报的回报函数R。

21.2 被动强化学习

为了保持问题的简单,我们从在完全可观察环境下使用基于状态的表示的被动学习智能体的情况开始。在被动学习中,智能体的策略π 是固定的:处于状态s,它总是执行行动π (s)。其目标只是简单地学习该策略有多好——即学习效用函数Uπ(s)。我们以第十七章中介绍的4×3世界作为例子。图21.1所示为这个世界的一个策略以及相应的效用。显然,被动学习的任务与策略评价(在第17.3节中描述的策略迭代算法的一部分)的任务相似。主要区别在于被动学习智能体对指定在完成行动a以后从状态s到达状态s' 的概率的转移模型T(s, a, s' )一无所知;并且它也不知道指定每个状态的回报的回报函数R(s)。


图21.1 (a)4×3世界的策略π。在非终止状态的无折扣回报为R(s)=−0.04的情况下,此策略恰巧达到最优。(b)已知策略π,4×3世界的状态效用

在该环境中,智能体应用其策略π 执行一组试验(trial)。在每次试验中,智能体从状态(1, 1)开始,经历一个状态转移序列直至到达终止状态(4, 2)或(4, 3)。它的感知信息提供了当前状态以及在该状态所获得的回报。典型的试验看起来如下:


注意,每个状态感知信息都用下标注明了所得到的回报。目标是利用关于回报的信息学习到与每个非终止状态s相关联的期望效用Uπ(s)。效用被定义为当遵循策略π 时所获得的(折扣)回报的期望总和。如同第17.2.1节中的公式(17.3),这里写为:


我们将在所有的公式中包含一个折扣因子γ ,但是对于4 × 3世界,我们令γ = 1。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈