首页 理论教育 搜索引擎的分类及工作原理

搜索引擎的分类及工作原理

时间:2022-02-28 理论教育 版权反馈
【摘要】:按照搜索机制划分,元搜索引擎包括并行式和串行式两类。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。

三、索引擎的分类及工作原理

按照信息搜集方法和服务提供方式的不同,搜索引擎大致可以划分为三大类型。

1.全文搜索引擎

全文搜索引擎(Full-Text Search Engine)是由一个被称为蜘蛛(Spider)的机器人程序自动访问Web站点,提取站点上的网页,并顺着网页中的链接像蜘蛛一样爬开去,持续不断地“抓取”网页,并自建网页数据库,搜索结果直接从自身的数据库中调用。

搜索引擎的自动信息搜集功能分两种:一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,即自动提取网站的信息和网址加入自己的数据库;另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,搜索引擎在一定时间内(2天到数月不等)定向向提交网站派出“蜘蛛”程序进行扫描并将有关信息存入数据库。当用户以关键词查找信息时,搜索引擎即在数据库中进行搜寻,如果找到与用户要求内容相符的站点,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。

该类搜索引擎的优点是信息量大、更新及时、勿需人工干预,缺点是返回信息过多、关联度不高,用户必须从结果中进行筛选。这类搜索引擎国外代表是:AltaVista、Inktomi、FAST、Lycos、Google;国内代表为:百度、OpenFind等。

2.目录式搜索引擎

目录式搜索引擎(Directory Search Engine)是以人工方式或半自动方式搜集信息,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。目录索引虽然有搜索功能,但并不是严格意义上的搜索引擎,仅仅是按目录分类的网站链接列表而已。该类搜索引擎的优点是:信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。这类搜索引擎的国外代表是:Yahoo、LookSmart、Open Directory等;国内代表有新浪、搜狐、网易等。

目录的数据库是依靠专职编辑或志愿人员建立起来的,这些编辑人员在访问了某个Web站点后撰写一段对该站点的描述,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的URL和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些描述中进行搜索。目录的用户界面基本上都是分级结构,首页提供了最基本的几个大类的入口,用户可以一级一级地向下访问,直至找到自己感兴趣的类别。另外,用户也可以利用目录提供的搜索功能直接查找一个关键词,不过,由于目录只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中来,这也是目录与基于机器人程序的搜索引擎之间的一大区别。

3.元搜索引擎

元搜索引擎(Meta Search Engine)是一种调用其他独立搜索引擎的引擎,亦称“搜索引擎之母(The mother of searce engines)”。在这里,“元”(Meta)为“总的”、“超越”之意,元搜索引擎就是对多个独立搜索引擎的整合、调用、控制和优化利用。相对元搜索引擎,可被利用的独立搜索引擎称为“源搜索引擎”(Source Engine)或“搜索资源”(Searcing Resources),整合、调用、控制和优化利用源搜索引擎的技术,称为“元搜索技术”(Meta-searching technique),元搜索技术是元搜索引擎的核心。虽然元搜索引擎依赖其他独立搜索引擎而存在,但它们集成了不同性能和不同风格的搜索引擎并发展了一些新的查询功能,查一个元搜索引擎就相当于查多个独立搜索引擎,可以收到事半功倍的效果。

按照搜索机制划分,元搜索引擎包括并行式和串行式两类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。显然,并行式元搜索引擎运行模式较好,搜索所需时间也较短。

元搜索引擎是用户同时利用多引擎进行网络搜索的中介。检索时,元搜索引擎根据用户提交的检索请求,调用源搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。如提交检索请求时,根据源搜索引擎的特点和技术参数,指定优先顺序,并对检索时间、检索结果数量进行控制;作为若干源搜索引擎的检索接口代理,元搜索引擎必须具有较强的字符和语法转换功能,使用户的检索请求为各具语法特点的不同的源搜索引擎所认知和接受;而对检索结果的显示,不同的元搜索引擎有不同的处理技术,由于元搜索引擎设定的检索结果排序依据、最大返回结果数量、相关度参数及优化机制等不同,调用相同的源搜索引擎的不同元搜索引擎显示检索结果的数量多少、排序先后、结果信息描述选择亦有较大差异。

这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是用户需要做更多的筛选。元搜索引擎的代表国外的有WebCrawler、InfoSpace、Dogpile、Vivisimo、Ixquick等,国内的有万纬搜索、觅搜(MetaSoo)、115聚合搜索等。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈