首页 理论教育 强化学习中的一般化

强化学习中的一般化

时间:2022-02-11 理论教育 版权反馈
【摘要】:尽管没有人知道国际象棋的真实效用函数,没有人相信能用20个数字对其进行确切的表示。当然,一个不很重要的方面是,存在一个问题,所选择的假设空间内可能不存在任何函数能够对真实的效用函数进行充分好的近似。这就是我们所说的“函数逼近允许一个强化学习者根据其经验进行一般化”的含义。有更加复杂精巧的算法能避免这些问题,但目前使用通用函数逼近器的强化学习仍不失为一种精致的艺术。

21.4 强化学习中的一般化

到目前为止,我们一直假定智能体学习到的效用函数和Q-函数是通过每个输入对应一个输出值的表格形式表示的。对于小规模的状态空间来说,这种方法很起作用,但是随着空间的增大,收敛的时间以及(对于ADP)每次迭代的时间都会迅速增加。使用仔细控制的近似ADP方法,处理10 000或更多状态也许是可能的。这对于类似于二维迷宫的环境来说是足够了,但对更为现实一些的世界则是不可行的。国际象棋和西洋双陆棋虽然只是现实世界的小规模子集,但它们的状态空间却包含了1050到10120量级的状态数目。设想一个人为了学会玩这些游戏必须访问所有这些状态,是多么的荒谬可笑!

处理这类问题的一个方法是应用函数逼近,简单地说就是对该函数使用除表格以外的任何种类的表示。因为真实的效用函数或Q-函数可能不能用所选择的形式表示出来,所以该表示被认为是近似的。例如,在第六章中我们描述了国际象棋的一个用由一组特征(或基函数)f1,… , fn的加权线性函数所表示的评价函数:


强化学习能够学习参数θ=θ1,… ,θn,如此即可用评价函数逼近真实效用函数。比如说,这个函数逼近器是用n = 20个参数进行刻画的,而不是表格中的10120个值——相当可观的压缩。尽管没有人知道国际象棋的真实效用函数,没有人相信能用20个数字对其进行确切的表示。然而如果该逼近足够好的话,智能体仍然可能在国际象棋上表现出色。[31]

函数逼近使得对非常大的状态空间的效用函数进行表示是可行的,但是这并非它的主要益处。通过函数逼近器所获得的压缩允许学习智能体能由它访问过的状态向未访问过的状态进行推广。也就是说,函数逼近最重要的方面不是它需要更小的空间,而是它允许在输入状态之上进行归纳的一般化。可以通过下面的例子让你对这种影响的力量建立一些概念:只通过在西洋双陆棋的每 1044个可能状态中选一个进行研究,就可能学习到一个效用函数使得一个程序与任何人类下得一样好(Tesauro,1992)。

当然,一个不很重要的方面是,存在一个问题,所选择的假设空间内可能不存在任何函数能够对真实的效用函数进行充分好的近似。正如在所有的归纳学习中一样,在假设空间的大小和它致使对函数进行学习需要花费的时间之间存在着折中。较大的假设空间增加了找到一个好的近似的可能性,但是也意味着收敛很可能被延迟。

让我们从最简单情况即直接效用估计开始。(参见第21.2节。)对于函数逼近,这是一个有监督学习的例子。例如,假定我们用一个简单的线性函数表示4 × 3世界的效用。方格的特征正好是它们的x和y坐标,于是得到

这样,如果(θ012)=(0.5,0.2,0.1),那么。给定试验的一个集合,我们就获得了一组的样本值,然后我们应用标准线性回归,在使方差最小化的意义上找到最优拟合。(参见第二十章。)

对于强化学习,应用一种在每次试验后都对参数进行更新的联机学习算法则是更有意义的。假定我们进行了一次试验,而从(1,1)开始获得的总回报为0.4。这提示当前为0.8的太大了,必须减小。应该如何调整参数做到这一点?对于神经元网络学习来说,我们写一个误差函数并计算它关于参数的梯度。如果uj(s)是第j次试验中从状态s开始观察到的总回报,那么误差就被定义为预测总回报和实际总回报的(一半)方差:。该误差关于每个参数θi的变化率是∂Ej/ ∂θi,于是为了让参数向减小误差的方向移动,我们需要


这被称为在线最小平方的Widrow-Hoff规则,或称δ规则。对于公式(21.9)中的线性函数逼近器()s ,我们得到3条简单的更新规则:


我们将此规则用于等于0.8和uj(1,1)等于0.4的例子。θ0,θ1和θ2都减小了0.4α,也就减小了(1,1)的误差。注意θi的改变也会改变每个其它状态的值!这就是我们所说的“函数逼近允许一个强化学习者根据其经验进行一般化”的含义。

我们期望如果智能体使用了函数逼近器,它的学习速度会更快,倘若假设空间不是太大,但包含某些能相当好地拟合真实效用函数的函数。习题21.7要求你在使用函数逼近和不使用函数逼近两种情况下对直接效用估计的性能进行评价。在4 × 3世界中的改进是引人注目的,但还不是急剧的,因为这本来就是一个非常小的状态空间。在位置(10, 10)的回报为+1的一个10 × 10世界中这种改进就大得多了。由于其真实效用函数是平滑的而且接近于线性,所以该世界很适合于线性效用函数。(参见习题21.10。)如果我们将+1回报放在(5, 5),真实回报更像一座金字塔,而公式(21.9)中的函数逼近器则会遭受悲惨的失败。然而,这一切都不是损失!记住,对线性函数逼近而言,重要的是参数的函数是线性的——这些特征本身可以是状态变量的任意非线性函数。因此,我们可以把诸如之类的项包含进来,度量到目标的距离。

我们可以将这些思想同样很好地应用于时序差分学习者。我们所要做的全部只是调整参数努力减小相继状态之间的时序差分。时序差分和Q-学习公式(21.3和21.8)的新版本如下:

对于效用为

以及对于Q-值为

当函数逼近器对于参数是线性的时候,可以证明这些更新规则能够收敛到对真实函数的最近可能[32]近似。不幸的是,当使用非线性函数时——如神经元网络——所有的努力都付诸东流。存在某些非常简单的情况,其中即使在假设空间内有好的解,参数仍然会趋向无穷大。有更加复杂精巧的算法能避免这些问题,但目前使用通用函数逼近器的强化学习仍不失为一种精致的艺术。

函数逼近在学习环境模型方面也非常有帮助。记住,学习一个可观察环境的模型是一个有监督学习问题,因为下一个感知信息给出了结果状态。由于事实上我们需要预测一个完整的状态描述而不只是一个布尔分类或单一真实值,所以经过适当调整,第十八章中的任何有监督学习方法都可以使用。例如,如果状态是由 n个布尔变量所定义的,我们需要学习 n个布尔函数以便预测所有变量。对于一个部分可观察的环境而言,学习问题要困难得多。如果我们知道隐变量是什么,以及它们之间和它们与可观察变量之间有什么样的因果联系,那么我们就能固定一个动态贝叶斯网的结构并使用 EM 算法学习参数,如同第二十章中所描述的那样。创造隐变量和学习模型结构仍然是未解决的问题。

我们现在转向强化学习的大规模应用的例子。我们将会看到,在使用效用函数(并因而使用模型)的情况下,模型通常被当作是已知的。例如,在对西洋双陆棋的评价函数进行的学习中,通常假定预先知道合法的走法和它们的结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈