首页 理论教育 基于图的广度优先遍历策略

基于图的广度优先遍历策略

时间:2022-03-04 理论教育 版权反馈
【摘要】:基于广度优先的遍历是最简单的一种策略。当使用基于广度优先的策略时,搜索引擎只需按照所遇到的链接的先后顺序将其加入到一个队列中,采用先进先出的顺序采集所有结点信息。为了寻找到具有相关信息的Web页面,需要判断结点的相关性,并预测、选取合适的搜索路径,因此广度优先遍历策略不适合专题搜索引擎。

10.4.1 基于图的广度优先遍历策略

Internet信息资源是一个网状结构的信息空间,它有两个基本成分:文档(只考虑HTML文档)和超链(只考虑文档之间的超链)。如果把文档看作结点,把文档间的超链看作从源文档指向目标文档的有向边,则可以把Web简单地看作一个有向图。因此可以使用有向图遍历算法对其进行遍历。

广度优先遍历是通用搜索引擎常用的搜索策略。在通用搜索引擎系统中,搜索Web并获取页面的任务通常由一个“智能化”的搜索软件来完成。它通常从一个“种子集”(如用户查询、种子链接或种子页面)出发,通过HTTP协议请求并下载Web页面,分析页面并提取链接,然后再以循环迭代的方式访问Web。为了获得较高的Web覆盖率,通用搜索引擎网络搜索软件通常采用图的遍历算法搜索Web,如图10-4(a)所示。

在图10-4中,搜索引擎搜索时对所有结点进行遍历访问。基于广度优先的遍历是最简单的一种策略。当使用基于广度优先的策略时,搜索引擎只需按照所遇到的链接的先后顺序将其加入到一个队列中,采用先进先出的顺序采集所有结点信息。由于这种方法没有使用任何知识,其性能是非常低的。

与通用搜索引擎相对应,图10-4(b)显示了专题搜索引擎搜索“○”主题时的搜索结点与顺序。为了寻找到具有相关信息的Web页面,需要判断结点的相关性,并预测、选取合适的搜索路径,因此广度优先遍历策略不适合专题搜索引擎。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈