首页 理论教育 联机搜索的学习

联机搜索的学习

时间:2022-02-11 理论教育 版权反馈
【摘要】:联机搜索智能体初始对环境的无知提供了一些学习的机会。在第二十一章,我们会看到倘若智能体按照正确的方式探索状态空间,这些更新最终会收敛到每个状态的精确值。通常,我们希望智能体学习到Up能使y坐标值增长,除非遇到墙;Down能使y 坐标值降低,等等。其次,我们需要有算法能够根据智能体得到的特定观察资料来构造合适的一般规则。

联机搜索智能体初始对环境的无知提供了一些学习的机会。首先,智能体仅仅根据它的经历学习到环境的“地图”——更精确地说,是每个状态经过每个行动的结果。(注意确定性环境的假设意味着每个行动经历一次就足够了。)其次,局部搜索智能体利用局部更新规则(和LRTA*中的情况一样)可以得到每个状态更精确的估计值。在第二十一章,我们会看到倘若智能体按照正确的方式探索状态空间,这些更新最终会收敛到每个状态的精确值。一旦知道了状态的精确值,最优决策就可以简单地通过移动到值最高的后继而完成——也就是说,那么纯粹的爬山算法也是一个最优策略。

如果你听从我们的建议,跟踪ONLINE-DFS-AGENT在图4.18所示的环境中的行为表现,你将会注意到智能体并不十分聪明。例如,当它已经看到行动Up能从状态(1, 1)到状态(1, 2)时,它仍然不知道行动Down能回到状态(1, 1),或者行动Up还能从状态(2, 1)到状态(2, 2),从状态(2, 2)到状态(2, 3),等等。通常,我们希望智能体学习到Up能使y坐标值增长,除非遇到墙;Down能使y 坐标值降低,等等。要达到这些必须满足两件事情。首先,需要一个对这类一般规则的形式化的和明确的可操作描述,到目前为止,我们把这些信息隐藏在称为后继函数的黑盒子里了。本书的第三部分会讨论这个问题。其次,我们需要有算法能够根据智能体得到的特定观察资料来构造合适的一般规则。这些将在第十八章中论及。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈