博弈中的应用

时间：2023-02-11 理论教育版权反馈

【摘要】：萨缪尔首先使用了一个加权线性函数对形势进行评价，在任何一次评价中使用多至 16 项。也就是说，终止状态的值被忽略了。这意味着萨缪尔的程序极有可能不收敛，或收敛到一个故意要输而不是赢的策略。结果产生了一个被称为NEUROGAMMON的程序，按计算机的标准来说很强大，但是无法与人类专家相匹敌。即使输入表示只包含无计算特征的原始棋盘局势，简单地通过公式的重复应用，TD-Gammon学习下棋就比NEUROGAMMON好得多。

强化学习的第一个重要应用也是任何种类程序中的第一个重要的学习程序——由阿瑟·萨缪尔（Arthur Samuel，1959，1967）编写的西洋跳棋程序。萨缪尔首先使用了一个加权线性函数对形势进行评价，在任何一次评价中使用多至 16 项。他应用了公式（21.11）的一个版本更新权值。然而，在他的程序和当前的方法之间存在着某些显著的差别。首先，他使用当前状态与搜索树中通过完全前瞻而生成的回传值之间的差对权值进行更新。这样的效果很好，因为它等同于从一个不同的粒度来看待状态空间。第二个差别是该程序不使用任何已观察到的回报！也就是说，终止状态的值被忽略了。这意味着萨缪尔的程序极有可能不收敛，或收敛到一个故意要输而不是赢的策略。他通过坚持子力优势的权值应该总是正的，而设法避免了这种命运。显然，这足以引导该程序进入与下好西洋跳棋相对应的权值空间领域。

Gerry Tesauro的TD-Gammon（时序差分西洋双陆棋）系统（1992）有力地例证了强化学习技术的潜力。在早期工作中（Tesauro和Sejnowski，1989），Tesauro试图直接从由人类专家标注了相对值的走法的实例中学习Q（a, s）的神经元网络表示。结果产生了一个被称为NEUROGAMMON的程序，按计算机的标准来说很强大，但是无法与人类专家相匹敌。TD-Gammon 项目是只根据自我对垒的情况进行学习的一种尝试。仅有的回报信号在每次比赛结束时给出。评价函数由一个具有包含40个节点的单隐层的全连接神经元网络表示。即使输入表示只包含无计算特征的原始棋盘局势，简单地通过公式（21.11）的重复应用，TD-Gammon学习下棋就比NEUROGAMMON好得多。这使用了大约200 000个训练棋局和两周的计算时间。尽管这看起来好像是数量可观的棋局，其实只是状态空间中微不足道的极小部分。当把预先计算好的特征加入到输入表示中时，经过300 000个训练棋局，一个具有80个隐单元的网络可以达到与世界前三名的人类顶级棋手相媲美的水平。顶级棋手和分析家 Kit Woolsey说道“我丝毫也不怀疑它对形势的判断要比我好得多。”

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈