的搜索机制

时间：2023-03-04 理论教育版权反馈

【摘要】：索引器从知识库中读取文档并将其转换成一组词的出现状况，称为采样。索引器把这些hits分配到一组桶“barrels”中，产生经过部分排序后的索引。同时，索引器还分析网页中所有的链接，并将重要信息存于链接描述文件中，该文件保存了链接描述文字和其他一些信息，足以判断一个链接被链入或链出的情况。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合，形成一个新的字典供搜索器使用。

10.5.1　Google的搜索机制^{［10，11］}

Google通过几个分布的网络爬行器(Crawler)同时搜取网页，由URL服务器负责向爬行器提供URL列表。Crawler将找寻到的网页送到存储服务器(Store Server)中，存储服务器把这些网页压缩后存入知识库(Repository，用于存储每个网页的全部HTML及其他有关信息)，并赋予每个网页一个关联ID，称为docID。

索引功能通过索引器(Indexer)和排序器(Sorter)来实现。索引器从知识库中读取文档并将其转换成一组词的出现状况(word occurrences)，称为采样(hits)。hits记录了词、词在文档中的位置、字号、大小写等。索引器把这些hits分配到一组桶“barrels”中，产生经过部分排序后的索引。同时，索引器还分析网页中所有的链接，并将重要信息存于链接描述文件(Anchors)中，该文件保存了链接描述文字和其他一些信息，足以判断一个链接被链入或链出的情况。URL分析器(URL Resolver)阅读链接文件Anchors，把相对的URL转换成绝对的URL，与其docID号对应，形成链接文件的文本索引，Anchor文本与所指向的docID建立关联，产生了由docID对(pairs of docID)所组成的链接数据库，用于计算网页的PageRank值。

排序器读取桶中的词汇，并根据词的ID号(wordID)列表重新生成倒排文档。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合，形成一个新的字典供搜索器(Searcher)使用。搜索器由Web服务器实现，并根据DumpLexicon所生成的词表，结合上述倒排索引及页面等级来匹配用户的查询。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈