首页 理论教育 的搜索机制

的搜索机制

时间:2022-03-04 理论教育 版权反馈
【摘要】:索引器从知识库中读取文档并将其转换成一组词的出现状况,称为采样。索引器把这些hits分配到一组桶“barrels”中,产生经过部分排序后的索引。同时,索引器还分析网页中所有的链接,并将重要信息存于链接描述文件中,该文件保存了链接描述文字和其他一些信息,足以判断一个链接被链入或链出的情况。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合,形成一个新的字典供搜索器使用。

10.5.1 Google的搜索机制[10,11]

Google通过几个分布的网络爬行器(Crawler)同时搜取网页,由URL服务器负责向爬行器提供URL列表。Crawler将找寻到的网页送到存储服务器(Store Server)中,存储服务器把这些网页压缩后存入知识库(Repository,用于存储每个网页的全部HTML及其他有关信息),并赋予每个网页一个关联ID,称为docID。

索引功能通过索引器(Indexer)和排序器(Sorter)来实现。索引器从知识库中读取文档并将其转换成一组词的出现状况(word occurrences),称为采样(hits)。hits记录了词、词在文档中的位置、字号、大小写等。索引器把这些hits分配到一组桶“barrels”中,产生经过部分排序后的索引。同时,索引器还分析网页中所有的链接,并将重要信息存于链接描述文件(Anchors)中,该文件保存了链接描述文字和其他一些信息,足以判断一个链接被链入或链出的情况。URL分析器(URL Resolver)阅读链接文件Anchors,把相对的URL转换成绝对的URL,与其docID号对应,形成链接文件的文本索引,Anchor文本与所指向的docID建立关联,产生了由docID对(pairs of docID)所组成的链接数据库,用于计算网页的PageRank值。

排序器读取桶中的词汇,并根据词的ID号(wordID)列表重新生成倒排文档。DumpLexicon程序则把以上形成的索引列表和由索引器产生的词表结合,形成一个新的字典供搜索器(Searcher)使用。搜索器由Web服务器实现,并根据DumpLexicon所生成的词表,结合上述倒排索引及页面等级来匹配用户的查询。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈