首页 百科知识 直接效用估计

直接效用估计

时间:2022-08-23 百科知识 版权反馈
【摘要】:直接效用估计成功地将强化学习问题简化为归纳学习问题,对后者我们已经了解得很多了。就是说,效用值服从固定策略的贝尔曼方程:由于忽略了状态之间的联系,直接效用估计错过了学习的机会。贝尔曼方程会立即提议状态也可能具有高效用,因为它导向(3,3),但是直接效用估计直到试验结束之前学不到任何东西。更为广泛地讲,我们可以把直接效用估计视为在比实际需要大得多的假设空间中搜索 U,其中包含许多违反贝尔曼方程组的函数。

21.2.1 直接效用估计

一种简单的直接效用估计方法是由Widrow和Hoff(1960)于20世纪50年代末期在自适应控制理论(adaptive control theory)领域中发明的。其思想认为一个状态的效用是指从该状态开始往后的期望总回报,而每次试验对于每个被访问状态提供了该值的一个样本。例如,前面给出的3次试验中的第1次为状态(1, 1)提供了总回报的1个样本值0.72,为状态(1, 2)提供了2个样本值0.76和0.84,为状态(1,3)提供了2个样本值0.80和0.88,依此类推。这样,只要通过在一个表格中记录每个状态持续一段时间的平均值,该算法便可在每个序列的最后,计算出对于每个状态所观察到的未来回报并相应地更新该状态的估计效用。在进行无穷多次实验的极限下,样本平均值将收敛于公式(21.1)中的真实期望值。

显然,直接效用估计正是有监督学习的一个例子,其中每个用于学习的实例都以状态为输入,以观察到的未来回报为输出。这意味着我们已经将强化学习简化为第十八章中讨论过的标准归纳学习问题。第21.4节将讨论使用效用函数的更强有力的表示方法,比如神经元网络。那些表示方法的学习技术能够直接用于已观察到的数据。

直接效用估计成功地将强化学习问题简化为归纳学习问题,对后者我们已经了解得很多了。不幸的是,它忽视了一个重要的信息来源,即“状态的效用并非相互独立的”这个事实!每个状态的效用等于它自己的回报加上其后继状态的期望效用。就是说,效用值服从固定策略的贝尔曼方程(参见公式17.10):

由于忽略了状态之间的联系,直接效用估计错过了学习的机会。例如,前面给出的3次试验中的第2次到达了先前没有访问过的状态(3,2)。下一步转移到达了(3,3),从第1次试验中已知其具有较高的效用。贝尔曼方程会立即提议状态(3, 2)也可能具有高效用,因为它导向(3,3),但是直接效用估计直到试验结束之前学不到任何东西。更为广泛地讲,我们可以把直接效用估计视为在比实际需要大得多的假设空间中搜索 U,其中包含许多违反贝尔曼方程组的函数。因此,该算法的收敛速度通常很慢。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈