首页 理论教育 基于“语境图”的搜索策略

基于“语境图”的搜索策略

时间:2022-03-04 理论教育 版权反馈
【摘要】:为此,有学者提出了基于“语境图”的搜索策略。它通过构建典型页面的Web“语境图”来估计离目标页面的距离,距离较近的页面较早得到访问。由此,得到了一个表示种子页面集与周围页面之间层次关系的“语境图”。基于“语境图”的搜索策略需要借助已有的通用搜索引擎构建“语境图”,而搜索引擎的检索结果并不一定代表真实的Web结构,因而这种方式也具有局限性。

10.4.6 基于“语境图”的搜索策略

基于巩固学习的网络蜘蛛能够通过计算链接的Q价值确定搜索方向,但它却无法估计距离目标页面的远近。为此,有学者提出了基于“语境图(Context Graph)”的搜索策略。它通过构建典型页面的Web“语境图”来估计离目标页面的距离,距离较近的页面较早得到访问。

该方法同样分为训练和搜索两个阶段。训练阶段,首先选择典型的主题相关页面作为种子集(目标页面的“实例集”),并从种子页面出发,利用某一通用搜索引擎检索出所有指向它们的页面;其次,以得到的新页面作为第一层次集(表示到目标页面的距离为1),并用第一层次集中的页面文本训练一个分类器C1;再次,从第一层次集中的页面出发,按同样的方法得到第二层次集(表示到目标页面的距离为2)和分类器C2;如此重复,直到某个预先指定的层次。由此,得到了一个表示种子页面集与周围页面之间层次关系的“语境图”。搜索阶段,当下载完一个新的页面时,则利用训练阶段得到的分类器判断该页面属于哪个层次集,从而估计出该页面距离目标页面的远近,并优先访问距离目标较近的页面中的链接。

基于“语境图”的搜索策略需要借助已有的通用搜索引擎构建“语境图”,而搜索引擎的检索结果并不一定代表真实的Web结构,因而这种方式也具有局限性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈