被动强化学习

时间：2023-02-11 理论教育版权反馈

【摘要】：为了保持问题的简单，我们从在完全可观察环境下使用基于状态的表示的被动学习智能体的情况开始。在被动学习中，智能体的策略π 是固定的：处于状态s，它总是执行行动π 。显然，被动学习的任务与策略评价的任务相似。主要区别在于被动学习智能体对指定在完成行动a以后从状态s到达状态s' 的概率的转移模型T一无所知；并且它也不知道指定每个状态的回报的回报函数R。

21.2 被动强化学习

为了保持问题的简单，我们从在完全可观察环境下使用基于状态的表示的被动学习智能体的情况开始。在被动学习中，智能体的策略π 是固定的：处于状态s，它总是执行行动π (s)。其目标只是简单地学习该策略有多好——即学习效用函数Uπ(s)。我们以第十七章中介绍的4×3世界作为例子。图21.1所示为这个世界的一个策略以及相应的效用。显然，被动学习的任务与策略评价（在第17.3节中描述的策略迭代算法的一部分）的任务相似。主要区别在于被动学习智能体对指定在完成行动a以后从状态s到达状态s' 的概率的转移模型T(s, a, s' )一无所知；并且它也不知道指定每个状态的回报的回报函数R(s)。