首页 理论教育 搜索引擎的类型和原理的分析介绍

搜索引擎的类型和原理的分析介绍

时间:2022-10-13 理论教育 版权反馈
【摘要】:目前,搜索引擎已经成为信息检索最有效的工具。检索时,元搜索引擎根据用户提交的检索请求,调用独立搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。

面对浩如烟海的网络资源,索引擎就好像是航船的驾驶舱,引领着人们在网络中冲浪。目前,搜索引擎已经成为信息检索最有效的工具。搜索引擎(search engines)是一种利用网络自动搜索技术,对互联网的诸多资源进行索引或标引并提供给用户使用的重要工具。搜索引擎提供的检索服务,就是将纷繁复杂的内容整理成符合检索目标的有序信息。

搜索引擎是互联网上3大最流行的服务(E-mail、搜索引擎、WWW浏览器)之一,使用频率仅次于电子邮件。

4.2.1 搜索引擎的类型

(1)按工作方式划分搜索引擎——全文、目录索引和元搜索引擎

1)全文搜索引擎(Full Text Search Engine)

全文搜索引擎是名副其实的搜索引擎,在国外具有代表性的搜索引擎有Google,Alltheweb,AltaVista,Inktomi,Teoma,WiseNut等,国内著名的有百度、北大天网等。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正意义上的搜索引擎。

2)目录索引类搜索引擎(Search Index/Directory)

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可不用进行关键词(keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo!,其他的还有Open Directory Project(DMOZ),LookSmart,About等,国内搜狐、新浪网易搜索也都属于这一类。

目录索引与全文搜索引擎的区别在于它是由人工建立的,通过“人工方式”将站点进行了分类,不像全文搜索引擎那样,将网站上的所有文章和信息都收录进去,而是首先将该网站划分到某个分类下,再记录一些摘要信息,对该网站进行概述性的简要介绍,用户提出搜索要求时,搜索引擎只在网站的简介中搜索。

它的主要优点有:层次、结构清晰,易于查找;多级类目,便于查询到具体明确的主题;在内容提要、分类目录下有简明扼要的内容,可使用户一目了然。其缺点是搜索范围较小、更新速度慢、查询交叉类目时容易遗漏。

目录式搜索引擎由于维护成本高,而互联网信息爆炸式增长,使得人工分类应接不暇、疲于奔命、难以为继,因此,许多综合性目录搜索引擎已经退出历史舞台。目前目录式搜索引擎多见于小型的专业搜索引擎以及综合性搜索引擎的某个局部,例如百度的分类目录(baike.baidu.com)。

3)元搜索引擎(Meta Search Engine)

元搜索引擎在接受用户查询请求时,同时利用其他多个搜索引擎进行搜索,并将结果返回给用户。这是一种调用其他独立搜索引擎(源搜索引擎)来完成检索功能的搜索引擎。检索时,元搜索引擎根据用户提交的检索请求,调用独立搜索引擎进行搜索,对搜索结果进行汇集、筛选、删并等优化处理后,以统一的格式在同一界面集中显示。元搜索引擎虽没有网页搜寻机制,也无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。

著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等,中文元搜索引擎中具代表性的有北斗、搜星等。在搜索结果排列方面,有的直接按来源引擎排列搜索结果(如Dogpile),有的则按自定的规则将结果重新排列组合(如Vivisimo)。

(2)根据综合或专业用途分为通用搜索引擎和垂直搜索引擎

1)通用型搜索引擎

搜索引擎的出现,整合了众多网站信息,都起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户网站一样,大量的信息整合导航,极快的查询,将所有网站上的信息整理在一个平台上供全体网民使用,于是信息的价值第一次普遍被众多商家认可,迅速成为互联网中最有价值的领域。互联网由此从低谷演变为第二次高峰。大家熟知的搜索引擎Google、百度、雅虎等都是通用搜索引擎的杰出代表,它们为互联网的发展作出了重要的贡献。

2)垂直型搜索引擎

通用型搜索引擎的性质,决定了其不能满足特殊领域、特殊人群的精准化信息需求服务。垂直搜索引擎是针对某一个行业的专业搜索引擎,是搜索引擎的细分和延伸,也是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。在学术应用中,垂直搜索引擎较广泛使用,如CALIS学科导航、数字图书馆、学科门户等。

垂直搜索的特点就是“专、精、深”,且具有行业色彩,显得更专注、具体和深入。众多专业性网站、行业网站独立服务于互联网的成功,恰恰证明了互联网的格局本该是多方面的。例如,对买房的人讲,他希望找到房子供求信息,这些信息和文章、新闻等是不同的。

4.2.2 搜索引擎的原理

搜索引擎(Search Engine)是网络信息检索工具的重要的一类。搜索引擎一般由采集器、索引器、检索器及用户接口组成,如图4.2所示。

图4.2 搜索引擎的工作原理示意图

搜索引擎的原理,可以看作3步:从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

(1)从互联网上抓取网页

利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这个过程,并把爬过的所有网页收集回来。

(2)建立索引数据库

由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超级链接中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

(3)在索引数据库中搜索排序

当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期不同),更新网页索引数据库,以反映出网页文字的更新情况,增加新的网页信息,去除死链接,并根据网页文字和链接关系的变化重新排序。这样网页的具体文字变化情况就会反映到用户查询的结果中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈