基于巩固学习的搜索策略

时间：2023-03-04 理论教育版权反馈

【摘要】：在机器学习中，巩固学习指的是一个能够感知环境的自治Agent通过学习能选择达到其目标的最优动作。训练阶段利用巩固学习算法计算每个链接的Q价值，并按价值大小将链接分类，然后用类中链接的文本信息训练一个朴素贝叶斯分类器。由于目前的巩固学习算法不适于大状态、行动空间的学习，因而基于巩固学习的搜索策略存在学习效率低的问题;此外，由用户选择典型站点进行训练增加了用户的负担。

10.4.5　基于巩固学习的搜索策略

在机器学习中，巩固学习指的是一个能够感知环境的自治Agent通过学习能选择达到其目标的最优动作。在对某一特定的状态进行决策时，Agent不知道其正确的决策是什么，但当Agent在环境中作出每个动作时，施教者会提供奖励或惩罚信息，以表示结果状态的正确与否。因此，Agent的任务是从这个非直接的、有延迟的回报中学习，以便后续的动作产生最大的积累回报。在巩固学习算法中，可以选择多种形式化的方法。例如，可假定Agent的行为是确定性的或非确定性的;可假定Agent可以预测每一个行为所产生的状态或不能预测;也可以假定Agent是由外部专家通过示例最优动作序列来训练的或必须通过执行自己选择的动作来训练。

由于网络信息资源的分布存在某种程度“相似性”，如同一类型Web站点在构建方式上存在一定相似性，同一主题的相关页面在组织方式上也有一定相似之处，因此，有些学者考虑利用这种相似性，先对网络搜索程序进行训练，使其具备一些“经验信息”。由于这些经验信息可用于预测相关主题页面，因此被引入网络搜索的学习过程中。在这种策略中，网络程序面对的Web环境代表状态，对链接的访问代表行动。搜索过程中，经过若干无关页面的访问之后才能获得的主题相关页面称为未来回报(或称远期回报)，对未来回报的预测值称为未来回报价值。在巩固学习模型中，若用Q表示未来回报价值，则其策略方法的核心就是学习如何计算链接的Q价值。为此，搜索过程被划分成训练和搜索两个阶段。训练阶段利用巩固学习算法计算每个链接的Q价值，并按价值大小将链接分类，然后用类中链接的文本信息训练一个朴素贝叶斯分类器。在搜索阶段，面对价值未知的链接，则根据链接文本，用所建立的朴素贝叶斯分类器计算链接落在每一类中的概率，并以这个概率为权值计算链接的综合Q价值。

基于巩固学习的搜索策略，实质上是通过训练学习得到哪些链接文本具有较高的Q价值，反过来，在搜索时又根据链接文本的Q价值估算出链接的价值。因为Q价值反映了对未来回报的预测值，所以，即使当搜索的页面与主题不相关时，搜索程序也可以根据未来回报价值确定正确的搜索方向。

由于目前的巩固学习算法不适于大状态、行动空间的学习，因而基于巩固学习的搜索策略存在学习效率低的问题;此外，由用户选择典型站点进行训练增加了用户的负担。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈