首页 百科知识 网络信息搜索引擎

网络信息搜索引擎

时间:2022-08-26 百科知识 版权反馈
【摘要】:搜索引擎就是为了满足人们的这种要求而产生的一种网络信息检索工具。搜索引擎的第一个功能是收集信息建立索引数据库,并自动跟踪信息源的变动,不断更新索引记录,定期维护数据库。搜索引擎主要靠相应的计算机程序执行信息的存取操作,极少人工干预。这一过程可简单描述为搜索引擎的搜索软件在网络上收集信息,执行的

第一节 网络信息索引

一、网络搜索引擎概述

随着因特网的广泛普及,人们越来越多地从网上获取所需要的信息,网络已经成为人们工作、生活和交往不可缺少的工具。因特网上蕴藏着极其丰富的信息资源,要想从浩如烟海的网络信息中准确、及时、方便、迅速地获得所需的信息,这不是一件容易的事情。搜索引擎就是为了满足人们的这种要求而产生的一种网络信息检索工具。

(一)网络搜索引擎的产生与发展

在Internet的发展史中,1993年以前,多数WWW用户查找信息采用的方法是从一个WWW服务器中的某一个URL开始,沿其中的超链(hyperlink)连接到其他URL。有的服务站点为了方便用户浏览阅读也提供了查询功能,先后产生过查询FTP服务器中特定文件的Archie检索服务、基于菜单的Gopher检索服务、基于关键词的Wais文档检索服务以及基于超文本的搜索引擎(Search Engine)检索服务。这些索引服务系统的生成方法是用手工键入新的URL地址,并由系统的管理员将数据输入到数据库中去。但由于世界上的WWW服务站点数量非常大,所以这样由手工进行查找既费时又费时,并且很难找到令人满意的内容。

WWW上的信息量在不断地增加,而且更新速度非常快,可以说是“日新月异”,所以单纯靠用户自己手工查找或通过人力组织所有的信息已经是不可能的了。因此,人们迫切要求有一个web发现服务系统,希图能够在较短的时间内、在指定的范围内自动地发现信息,并且对其覆盖的信息进行自动更新。同时为了保证信息发现服务系统所提供的检索功能的性能,必须根据检索服务规则和从服务器上得到的数据类型对数据进行加工处理,并在本地建立索引,借以优化检索工作。为了满足这种需求,人们建立了多种索引及检索工具,用户可通过在他们的各种计算机程序中输入需要查询信息的关键词,经过其检索服务器在内部数据库找到相关的信息并按照一定的规则整理后再输出,这样的检索工具我们称之为搜索引擎。

从1994年出现robot、spider等计算机搜索程序至今,搜索引擎的发展非常迅速,且其数量和质量都有很大变化。1994年4月,Web上的第一个搜索引擎——WebCrawler问世,时至今日,Internet上有记录可查的搜索引擎数量已达到2,500左右,其中既有大型综合性搜索引擎,也有在一个特定领域内发挥作用的专业性搜索引擎,它们已成为人们检索网络信息资源必不可少的工具。其中,1995年前后出现的Yahoo、Alta Vista、Infoseek为第一代搜索引擎的代表。在1998年,以Google和Direct Hit为代表的第二代搜索引擎出现在Internet上。上述几种具有代表性的搜索引擎的详细内容将在下面将得到论述。

(二)网络搜索引擎的概念

搜索引擎(search engine)是提供给用户进行关键词、词组或自然语言检索的工具,简言之,搜索引擎就是一种在因特网上查找信息的工具。用户提出检索要求后,搜索引擎即可代替用户在数据库中进行检索,并将检索结果反馈给用户。用户可以根据显示的结果选择并访问相关站点。它提供的是WWW上的主页,新闻组中的文章,软件的存放地址及其作者,某个企业或个人的主页等。

(三)网络搜索引擎的功能

搜索引擎的第一个功能是收集信息建立索引数据库,并自动跟踪信息源的变动,不断更新索引记录,定期维护数据库。

搜索引擎的第二个功能是提供网络的导航与检索服务,这也是最主要的功能。专家从茫茫网海中挑选质量较高的网页,以某种分类法进行组织,帮助用户快速地浏览查找所需的站点。搜索引擎提供的主题检索途径,将用户需求与索引数据库匹配,显示结果及网页索引信息,进而由URL链接出原始信息,从而使用户能够从网上纷繁复杂的信息中迅速选出符合用户需求的信息。

搜索引擎还为用户提供其它类型的多种信息服务,如广告、免费的电子邮件、聊天室、地图等等。

二、网络搜索引擎的原理

(一)基本原理

万维网(WWW)是由遍布在因特网中被称为WWW信息服务器的计算机组成的。每个服务器除了向网上提供自己的信息外,还可以引导检索者进一步读取存储在其他服务器上的相关信息。其他服务器又链接着更多的服务器。这样就形成了由WWW信息服务器互相链接的网络信息世界。人们想要有效地利用庞大的信息资源,离不开辅助工具的帮助,搜索引擎即是当前解决这一问题的有效工具。

搜索引擎区别于传统联机检索系统的核心技术是采用了自动搜索程序、自动标引程序、自动索引程序和超链接技术。从搜索引擎的定义来看,它的一般原理是:首先执行自动搜索程序,定期在网上收集相关的新网页或网站信息;然后利用自动标引程序和自动索引程序,通过扫描每一个网页中的每一个词(单元信息),建立起以词为单位的索引库;其检索程序执行检索操作时,则采用相对简单的关键匹配检索技术,根据检索入口词在每一网页中出现的频率、概率及位置,对包含这些检索词的网页进行排序,最后输出排序的结果,并引导用户按得到的热链进一步搜索下去。搜索引擎主要靠相应的计算机程序执行信息的存取操作,极少人工干预。

网络自动索引软件称为Robots、Spiders或Worm等,实际上他们是指一种自动跟踪、浏览网页并进行标引的智能软件。该软件在网络上检索文件且自动跟踪该文件的超文本结构,并循环检索被参照的所有文件。国内一般译为“网络机器人”、“自动跟踪索引机器人”或“自动跟踪索引软件”。这类软件一般由下列几部分构成:采集系统(gatherer)、建库系统(broker)、索引查询系统(index/search subsystem)、备份复制系统(replicator)、目标缓存系统(object cache)和目标管理系统(object system)等。

(二)搜索引擎的工作模式

一般说来,搜索引擎由搜索软件、索引软件和检索软件等三大部分组成。搜索引擎工作时,其特定的网络信息搜索软件要按照一定的规律和方式运行,定期或不定期地搜索Internet各个站点,并将收集到的网络信息资源送回搜索引擎的临时数据库;接下来利用索引软件对这些收集到的信息进行自动标引形成规范的索引,加入集中管理的索引数据库;在Web的客户端,提供特定的检索界面,供用户以一定的方式输入检索提问式并提交给系统,系统通过特定的检索软件检索其索引数据库,并将从中获得的与用户检索提问相匹配的查询结果再返回客户端供用户浏览。这一过程可简单描述为搜索引擎的搜索软件在网络上收集信息,执行的是搜索引擎的数据采集机制;索引软件对收集到的网络信息进行自动标引处理并建立索引数据库,执行的是搜索引擎的数据组织机制;检索软件通过索引数据库为用户提供网络检索服务,执行的是搜索引擎的用户检索机制。

1.搜索软件

网络搜索软件通常称为Web“蜘蛛”(spider)、“爬虫”(crawler)或“机器人”(robots)。Robots通常以一个URL列表为起点,利用标准协议遍历WWW空间,包括Web页面里的所有链接(link),进行网页信息采集,并将其提交标引模块进行自动标引。这里的URL列表可以由网络用户通过一个特定格式主动向搜索引擎提交注册,也可由搜索引擎自身提供的采集策略来确定,大多数搜索引擎同时使用这两种采集信息的方法。

搜索引擎制定的采集信息的策略不同,导致各种搜索引擎在数据库规模、搜索结果的数量和质量等方面产生明显的不同。有些搜索引擎采集网页的策略是无限制采集,即把robots发往每一个站点,并返回每一页的所有信息;有些搜索引擎则是有选择性地、通过搜索常用站点、最佳站点或下载有关站点的资源列表、“What’s New”页面、“What’s Cool”页面等完成信息采集。另外,各搜索引擎执行搜索软件的频率也各不相同,有些由搜索引擎自行规定运行的时间间隔,一般为1—3个月运行一次,有些则按照网页的更新频率来运行搜索软件,如果网页天天更新,搜索引擎就有可能天天对其进行访问。

搜索软件采集的网页信息包括WWW超文本的所有文本、题名、摘要、关键词和URL等。

2.索引软件

索引软件主要是用于对网络搜索软件采集到的网页信息进行自动标引,建立可供检索的Web索引数据库。一般说来,索引软件主要通过从网页中自动抽取能表达网页主题意义的分类或特征信息作为标引词来构建网页标引记录,如网页标题、网址、链接、人名、机构名、地名和网页前面若干个词等。抽词的依据主要有词频、按照一定算法计算出的权重以及词语在页面中出现的位置等。此外,不同的搜索引擎标引的范围也不一致,有的只标引WWW,有的还包括FTP、USENET等。这种差异导致了相同的检索请求在不同的搜索引擎中会得出差别很大的检索结果。一般来说,标引的索引词越多,查全率就越高,而查准率就相对较低。

3.检索软件

检索软件主要与索引软件相配合,作为用户提问与数据库的接口,负责接收用户查询请求并对该请求进行检索,还将其检索结果返回用户界面。

检索软件决定搜索引擎的检索功能。在检索功能方面,各搜索引擎具有较多相同之处。多数搜索引擎除具备分类浏览或自由词全文检索等基本功能外,还提供一般信息检索所需的基本功能,如布尔逻辑检索、短语检索、字段限制检索、截词检索、大小写敏感检索等。由于搜索引擎提供的是对网络信息的检索,其可限制检索的字段就具有了明显的网络信息描述特征,如网页题名、URL、域名、链接等。当然,不同的搜索引擎所具有的检索功能也有较大的差异,即使同一种检索功能在不同的搜索引擎中可能也有不同的使用方法。对于用户而言,检索软件的功能强弱直接决定其检索的效率。

三、网络搜索引擎的类型

一般说来,目前网络搜索引擎可以按照覆盖范围、信息内容的组织方式、检索功能等分别划分为不同的类型。

(一)按信息覆盖范围划分

按信息覆盖范围及适用用户群划分,网络搜索引擎可划分为综合性搜索引擎和专题性搜索引擎。

综合性搜索引擎可以提供对网上多类型信息、多主题信息内容集成进行检索的检索工具,如Go(Infoseek)、Excite等搜索引擎即可以对网上Web文本、图像、声像、新闻组等不同类型的信息进行检索,也可以对网上所有主题如科学人文、生活、新闻、休闲娱乐等信息进行检索。

专题性搜索引擎则是伴随着人们对如何更准确、更有效地查找到自己所需特定的网络信息的要求越来越迫切、网民个性化查询特点的日益突出而出现的,是专门针对网上某一类型或某一主题信息的检索工具。如Meta-list.net是专门用来查询网上邮件列表的专题性搜索引擎,LIBClient-IRISWeb系统则是专门用于查询网上法律信息的专题性搜索引擎。由于专题性搜索引擎不求包罗各种类型和各个学科的信息,而对某一类型和某一学科的信息处理更深、更全,因此搜索结果会更精确,相关性更高,同时对专业人员和某一类群体的用户网络检索的有效性也相应地有了很大的提高。专题性搜索引擎的出现和发展是网络搜索引擎未来的发展方向。

(二)按信息内容的组织方式划分

按信息内容的组织方式,可将搜索引擎划分为目录式搜索引擎和机器人搜索引擎。其区别在于他们各自对网络信息索引方式的不同。

1.目录式搜索引擎

主要采用人工或机器搜索Web信息,然后依靠专业人员对搜集到的信息进行甄别、筛选、分类、加工而建立起以分类导航或分类摘要,这是一种以提供浏览查询为目的的搜索引擎。这种类型的搜索引擎类似于传统信息检索中以分类法的分类类目指导检索的方式,是一种族性检索模式,符合人们信息检索时概念由宽泛到专指的渐进思维习惯,比较适合于那些对自身信息需求不是很明确从而导致无法精确地用某个概念表达这种需求,且网络检索经验不足的用户使用。目录式搜索引擎对网上信息的分类清晰而明确,条理性强,类目设置基本能反映当时人们关注的主要问题。这些经由信息管理专家编制的分类条目,凝聚了人类在选择和组织信息过程中长期积累的知识和智慧,因此通过目录式搜索引擎检索到的信息往往相关度和精确度比较高。然而,由于人工分类成本高,费时费力,标引速度慢,使得采集信息的速度远远跟不上网络信息资源的增长速度,这就造成了目录式搜索引擎所建立的数据库规模较小,某些类目下收集的信息数量有限且难以随时更新等缺陷。目前,代表性的目录式搜索引擎主要有Yahoo、Direct Hit、Britannica、The Open Directory等。

2.机器人搜索引擎

也称主题搜索引擎或关键词搜索引擎。它不是靠人工发现和甄别信息,而是由一个被称作“蜘蛛”的计算机程序在网中“爬行”,依据一定的网络协议在因特网中去发现、加工、整理信息,并为用户提供检索服务。擎利用最新网络信息发现技术,此类搜索引不仅可以快速地收集分布于全球各网站的信息,还可以及时发现新的网站网页内容并剔除已废弃的网站网页,及时更新完善自身数据库,因此机器人搜索引擎的数据库规模可以做得相当庞大,数据的时效性也可以得到有力的保障,这就大大提高了用户对网络信息的查全率、及时性及有效性。它提供用户以主题关键词的方式进行全文检索,类似于传统信息检索的特性检索模式,适合于那些对所查信息专指度要求较高、能够明确表述自身信息需求概念且要求快速完成检索的用户使用。目前网上代表性的主题式搜索引擎有Google、AltaVista、Excite、Fast Search、Hotbot、Go(Infoseek)、Lycos、Northern Light、北极星等。

由于目录式搜索引擎和机器人搜索引擎各自所具有的无法替代的优势,目前许多搜索引擎都在以提供一种检索方式为主的基础上兼顾了另一种检索方式,或以主题(关键词)检索为主配以分类目录浏览检索,或以分类目录浏览检索为主配以主题(关键词)检索,以便同时满足人们不同的检索需要和习惯。这也已经成为了当前搜索引擎发展的一大趋势,如Excite、AltaVista等都是如此。

(三)按检索功能划分

按检索功能划分,网络搜索引擎又可划分为独立型搜索引擎和多元型搜索引擎。

1.独立型搜索引擎

又称为单一搜索引擎或常规搜索引擎,一般拥有自己的索引数据库,可向用户提供基于自身索引库的查询服务,并根据数据库的内容反馈出相应的查询信息或链接站点。目前常见的搜索引擎如Yahoo、Excite、AltaVista等均属独立型搜索引擎。

2.多元型搜索引擎

又称元搜索引擎(Meta-Searcher)或集成式搜索引擎。一般说来,它没有自己的网页索引数据库,只给用户提供一个集成的查询界面,用户的查询要求输入后,经它加工处理转发给相应的多个独立型搜索引擎,真正的查询过程由它所调用或链接的多个搜索引擎完成,而从多个独立的搜索引擎查询到的结果经Meta-Searcher处理后再返回给用户。这种功能类似于传统联机检索系统的网关(Gateway)或前端系统(Front-End System)。目前比较著名的多元型搜索引擎有MetaCrawler、Search.com、Dogpile等。

四、搜索引擎的检索

(一)搜索引擎的检索功能

1.一般检索功能

网上检索实际上也是一种数据库检索,所以,大多数搜索引擎能够提供一般数据库的检索功能,如布尔逻辑检索、词组检索、截词检索、字段检索、限制检索和位置检索等。但并非每一种搜索引擎都能提供全部的检索功能,同时,每一种检索功能在不同的搜索引擎中的表现也不完全一致。按照上述几种检索功能在各搜索引擎中受支持的程度划分,布尔逻辑检索和词组检索排在首位,几乎所有的搜索引擎都支持这两项功能。只有少数搜索引擎支持位置检索。居中排列的是截词检索、字段检索和限制检索,它们受支持的程度随不同的搜索引擎而有所变化。

(1)布尔逻辑检索 逻辑检索是一种比较成熟、较为流行的检索技术。逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符,常见的布尔逻辑运算符有:

①逻辑“与”。用AND(或*)表示。检索词A、B若用逻辑“与”相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。例如,要检索“大学教育”的文献,检索逻辑式可表示为:大学AND教育。

②逻辑“或”。逻辑“或”用OR(或+)表示。检索词A、B若用逻辑“或”相连,即,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。例如,要检索“计算机”或“机器人”方面的文献,检索逻辑式可表示为:计算机OR机器人。

③逻辑“非”。用NOT(AND NOT,BUT NOT)(或-)表示。检索词A、B若用逻辑“非”相连,即,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。例如,要检索有关“能源”方面的文献,但涉及“核能”方面的文献不需要,检索逻辑式可表示为:能源NOT核能。

一般情况下,布尔逻辑运算符的运算次序为:逻辑“非”→逻辑“与”→逻辑“或”,若有括号,则括号优先。大多数网络搜索引擎都支持布尔逻辑运算,但表现形式不尽相同,有的用AND、OR、NOT(有的工具要求用大写,有的要求用小写,有的则大、小写均可),有的以符号(+,-,*)代替,还有的直接把布尔逻辑运算符隐含在菜单中。

(2)词组/短语检索 几乎所有搜索引擎都支持词组/短语检索,而且其表达语法也都是用双引号(“”),即如果用双引号将一个词组或短语括起,系统将检索出与其完全精确匹配的检索结果。采用词组/短语检索始终被认为是提高检索结果精确度的首选方法。

(3)截词检索 所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用“?”或“*”表示。数据库检索中常用的截词法有左截、右截、中间截断和中间屏蔽4种形式,而目前用得较多的是以下几种截词方式:

①词尾的有限截词:cat??,在cat后面紧跟“?”,空一个,再一个“?”是限定一个字符的变化,后一个“?”是停止符。上例可检索出cat,cats等词语。

②词尾的无限截词:cat?允许cat后面有任意个字符的变化,可检索出cat,cats,catalog,catalogue,category等词语。

③中间截词:wom?n,“?”只代表一个字符,该例可检索出woman,women。

④中文检索的截断技术。中文检索如需扩大检索范围时也可采用截断技术,如在只知作者姓而其名不详时,可以在表示其姓的字后面加问号做姓氏截断,如“赵?”表示检索所有赵姓作者的文献。

(4)字段限制检索。字段检索和限制检索常常结合使用,字段检索属于限制检索的一种。在搜索引擎中,字段检索多表现为限制前缀符的形式。属于主题字段限制的有:篇名字段(Title)、文摘字段(Summary)、叙词字段(Subject)、自由词字段(Keywords)等。属于非主题字段限制的有:图像(Image)、正文(Text)等。作为网络检索工具,搜索引擎提供了许多带有典型网络检索特征的字段限制类型,如主机名(host)、域名(domain)、链接(link)、URL(site)、新闻组(newsgroup)和E-mail限制等。这些字段的限制功能限定了检索词在数据库记录中出现的区域。由于检索词出现的区域对检索结果的相关性有一定的影响,因此,字段限制检索可以用来控制检索结果的相关性,以提高检索结果。在著名的搜索引擎中,目前能提供较丰富的限制检索功能的有Alta Vista、Lycos和Hotbot等。

(5)位置检索 位置检索又称邻近检索。位置检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。用检索词间的位置来对检索要求进行限定,可以大大提高检索的准确性和灵活性。在搜索引擎中,能提供位置检索的较少,如Alta Vista,目前所能提供的位置检索也只有一种,即相邻位置运算(Near),在这方面不如一般的数据库检索丰富。

②特殊检索功能:

除了上述几种常见的检索功能外,搜索引擎还提供了一些具有网络特征的检索功能。

①自然语言检索。是指直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。例如,可用“What is Internet?Who is Thomas Alva?”这样的自然语句表达式充当检索提问式。自然语言检索使得检索式的组成不再依赖于专门的检索语言,使检索变得简单而直接,特别适合于不熟悉检索语言的一般用户。许多著名的搜索引擎,像中文的悠游、英文的Alta Vista,Infoseek、Excite、Hotbot和一些多元搜索引擎等都支持自然语言检索。

②多语种检索。提供多种语言的检索环境供用户选择,系统按用户选定的语种进行检索并反馈结果。支持多语种检索的有:中文天网、Alta Vista、Google等。

③区分大小写的检索。区分大小写对人名、地名等专有名词检索有特殊的功效,可提高查准率。例如,在区分大小写的情况下,大写检索词被当作专有名词(China指中国);小写检索词则被当作普通词(china指瓷器)。在不区分大小写的情况下,则无法区分该检索词是指专有名词还是普通词。部分搜索引擎提供了该检索功能。

2.搜索引擎的工作方式

目录检索和主题检索是Web搜索引擎的两种基本的搜索引擎的工作方式。但目前国内外大多数搜索引擎都已融合了这两类搜索引擎的基本功能,既可提供分类浏览查询也可提供关键词检索,只是各搜索引擎在某一方面的侧重点不同罢了。

1.分类目录检索

网络分类目录一般称为网络目录,它提供浏览方式的信息查询途径。网络目录是一种Web站点,它们提供Internet上其他站点的列表。这些列表通常按主题目录和子目录方式组织。用户使用分类目录时,首先访问分类目录站点,然后从顶层逐步向下查询子目录,当用户定位到一个有兴趣的分类目录时,只要点击它就可以了,此时分类目录或者进入选定的下一级子目录,或者进入一组站点列表。当发现自己需要的站点时,用户只要点击该站点的名字,就可以按正常方式链接到该站点了。

目前在Web世界中,有许多种网络分类目录,其分类法主要有主题分类法、学科分类法、分面组配法和体系分类法。体系分类法包括杜威十进制法、国际十进制法、国会图书馆分类法和中图法

网络目录在使用分类法时有两种方式,一是自行设计分类法,如Yahoo等;一是套用成熟的、权威的图书资料分类法。

2.主题检索

搜索引擎的另一种工作方式是利用不同的软件和技术,即采用一些软件自动地系统地访问尽可能多的Web页面。这些页面的文本信息被存储起来,然后用专门的软件对他们进行分析,建立起能够查找到相关单字的页面的URL地址的索引。

用户开始搜索包含特定主题的Web页面时,按普通的方式访问搜索引擎的Web站点。在这些站点里可以发现许多类型的输入表格,允许用户输入感兴趣主题的关键词,然后该站点检查以前建立的索引,返回包含这些关键字的站点列表。用户可以通过点击站点名访问其中任何一个Web站点。对于查询目标明确的信息,采用主题检索的方法较好。

(三)搜索引擎的检索方式

大多数Web搜索引擎都提供基本检索和高级检索两种检索方式。基本检索往往对检索提问式的构造要求较低,比较直观,检索过程相对简单。但基本检索往往对检索策略的优化和检索结果的精度提供的途径不够,适合于网络检索经验较少的用户使用。高级检索往往需要用户按照检索语法和搜索引擎的检索规则自行构造完整的检索提问式,检索过程相对较复杂。但由于高级检索提供的可以限制检索的途径较多,对检索需求的表达功能更强,检索更为快捷,因此检索效率和检索结果的精度都比较高,适合于对网络检索较为熟悉的用户使用。

目前国内外的搜索引擎除了提供一般网页文本信息的检索外,大多还提供音频、图像、视频、软件的检索、黄页和白页的检索等等。

(四)搜索引擎的特色服务

许多搜索引擎除了网络信息检索外,还提供信息过滤、个性化信息服务定制等比较有特色的服务。国外主要搜索引擎如AltaVista、Excite、Go等都通过诸如“Family Filter”来对所查询的信息按照用户的要求进行过滤,以减少对青少年的危害以及一些不必要的信息。而个性化信息服务定制则通过“Customize Settings”、“My…”或“我的…”等,让用户根据需求对具体所需的或所喜爱的搜索引擎系统界面、资源集合、检索利用服务过程、检索结果反馈等进行定制。这些都反映了网络信息服务多功能、个性化等的发展特点。

(五)检索结果的显示

检索结果的显示有相关性和内容详略的选择。

表 7.1-1

img51

img52

[注]网猴是搜狐为初学者提供的一个网页制作教程。

1.相关性

搜索引擎通常依据其相关程度,按相关性从大到小的顺序排列,相关程度用百分比或分值表示。由于因特网上资源无比丰富,因此检出的结果往往多达几十、成百甚至上千、上万条记录。为了便于用户从中挑选更合适自己需要的记录,几乎所有的搜索引擎都提供了“对检索结果按其相关性大小排序”的功能。一般而言,影响检索结果相关性的因素主要有以下4点:

①检索词的数目:检出记录中含有的检索词数目越多,相关性越大;②检索词在数据库记录中出现的位置:检出记录中含有的检索词出现在题名字段的,比出现在其他(如正文或URL)字段的相关性更大;③检索词所属的类目级别:检出记录中检索词所属的类目级别越高的,相关性越大;④检索词的权值:检出记录中检索词权值越大,相关性越大(越专指的词权值越大)。

2.结果显示模式。

一般提供1—3种显示模式。简单链接或摘要,如中文搜索引擎“天网”的检索结果可选择“标准的”或“简要的”两种模式,前者只显示URL、最近修改时间、长度和相关度等,不显示200~300字的摘要;后者则显示摘要。

五、常用的搜索引擎

从1994年至今,中外文搜索引擎层出不穷,本节将介绍几种综合性中外文搜索引擎的使用方法。

(一)外文综合性搜索引擎

1.YAHOO!网址:http://www.yahoo.com

(1)概况 Yahoo!是较早开发的WWW搜索引擎,也是至今使用最流行的搜索引擎。1994年4月,美国斯坦福大学两位电子工程学博士研究生,年仅24岁的Jerry Yang(杨致远)和27岁的David Filo(大卫·费洛)在网上冲浪时开始搜集与编制他们感兴趣的各种站点目录,从而诞生了Yahoo!的雏形,1995年俩人共同创立Yahoo!网络公司。如今,Yahoo!已是全球最著名的Internet搜索工具之一。Yahoo!是目录分类式搜索引擎的典型代表。其分类编辑工作由专家人工进行,因此内容精确而细致。Yahoo!在全世界有许多地区版本:亚洲有中国大陆、中国香港、中国台湾、新加坡、印度、日本、韩国,澳洲有澳大利亚,美洲有Yahoo!、加拿大、巴西、墨西哥、阿根廷,欧洲有英国、爱尔兰、法国、德国、意大利、丹麦、挪威、瑞典、西班牙。各版本内容互不相同,如英文版本主要收录英文网站,日文版本主要收录日本及日文网站等。可以说每一个不同的版本都是一个不同的相对独立的搜索引擎,但Yahoo!注意把地区网络内容与全球共通性的信息内容结合。Yahoo!英文版除主站外,还有多个地区分站,如Yahoo!In Asia、Yahoo!Canada,这些分站以收录这一地区的英文网站为主,也可视为独立的搜索引擎。

(2)检索方式

①简单检索。打开Yahoo!主页(见图7.1-1),直接进入基本检索窗口。

图7.1-1 Yahoo!主页

在Yahoo!主页窗口中,列出了14大类内容,并且在每一大类下列出了各自的小类。查询时,可根据需要,点击大类或小类的超链接,Yahoo!就会给出一个查询界面,此时键入关键词,点击“Search”按钮或回车,待系统执行后,出现搜索结果。当然也可以直接在普通搜索窗口的对话框中键入关键词,进行查询,搜索将在Yahoo!Categories(Yahoo!类目)、Yahoo!Web Sites(Yahoo!网站)、Web Pages(网页)、News Stories(新闻故事)、Yahoo!Net Events(Yahoo!网络新闻)中进行。

②高级检索。点击“Abvanced Search”进入高级检索界面(见图7.1-2)。在该窗口中有多种选择:是搜索“Yahoo!”还是搜索“Usenet”,以及搜索方式、搜索范围、搜索数据的时间、结果页、一次显示文献的篇数等,可根据实际需要进行选择。

img54

图7.1-2 Yahoo!高级检索界面

Yahoo!的高级检索提供了一些操作符用以对检索项的限定。

+:在检索词前面加上“+”,表示要求该检索词一定要出现在搜索结果中;

-:在检索词前面加上“-”,表示要求该检索词一定不要出现在搜索结果中;

t::在检索词前面加上“t:”,表示对“t:”后面检索词的搜索仅在文献的题目中进行;

u::在检索词前面加上“u:”,表示对“u:”后面检索词的搜索仅在文献的URLs中进行;

“”:表示将引号中的检索项作为字符串来检索;

*:在词干的后面加上“*”,能够将与词干相同的词一起检出;

Combining the Syntax(组合语法):上面几种操作符的组合顺序是:+、-、t:、u:、“”、*。

③检索结果显示。Yahoo!的检索结果同时给出在“Category”和“Web Site”中的匹配结果。它是根据关键词的相关度来排列的,匹配的关键词越多,相关性越高;检索词出现在题名中的文献,给出一个优先的排序;出现在分类目录中的级别,按目录的级别从高到低排序。对新闻检索而言,新闻更新的时间也是搜寻结果排序的考虑要素,最新推出的新闻将优先列出。

2.Google。网址:http://www.google.com

(1)概况

Google脱胎于1996年1月诞生的BackRub,是由两个斯坦福大学博士生Larry Page与Sergey Brin于1998年9月发明。Google Inc.于1999年创立。2000年7月,Google替代Inktomi成为Yahoo!公司的搜索引擎,同年9月,Google成为网易的搜索引擎,并在2000年11月获得Pc Magzine杂志的搜索引擎“编辑选择奖”(editor's choice)。Google采用全文标引方式,并提供每日更新。作为当今Internet上最佳的搜索引擎之一,Google具有如下特点:支持多种语言,包括简体中文和繁体中文;检索页面简洁明了;检索速度极快;搜索效率高;可设定“使用偏好”(preferences),包括选择“界面语言”(interface language)和“查看结果数”(number of results);帮助文件内容丰富及电话号码搜索等。如今的Google已经坐上世界头号搜索引擎的宝座。

(2)检索方式

①基本检索。打开Google主页面,直接进入基本检索界面(见图7.1-3)。在搜索框中键入检索内容后,打回车键(或点击视窗内的“Google Search”按钮)即可得到相关资料。此时的搜索是在所有“Web”中进行,也可以点击搜索框上方的“Image”、“Group”、“Directory”按钮,要求在“图像”、“新闻组”、“目录”中搜索。

Google支持“与”、“或”和“非”三种布尔运算。如果检索框中的两个关键词之间用空格隔开则默认为“与(AND)”连接;Google支持“或”搜索,但是运算符必须用大写的英文表示,即“OR”;Google用减号“-”表示逻辑“非”操作。如果要查找一些名言或专有名词时,给他们加上双引号即可。像连字符、斜线、问号、等号、省略号等都可以作为短语的连字符号,作用与双引号相同。Google不支持“通配符”搜索,也就是说Google是施行完全匹配检索。同时Google搜索不区分英文字母大小写。

img55

图7.1-3 Google主页面

另外Google采用了停用词表技术,一些通用词和字符,如“where”、“how”、单个字符和字母等,会影响检索速度,Google会自动过滤掉这些词。如果你的检索式中需要包括这些词,Google允许使用空格加上“+”将你需要的停用词包括进去,这种方法也适用于短语检索,如检索式“+who+am+I”中的“who”和“I”就不会被忽略。

②高级检索。点击检索框右边的“Advanced Search”按钮,进入高级检索界面(见图7.1-4)。该检索界面分为3个部分:高级Web页面检索(Advanced Web Search)、特定页面检索(Page-Specific Search)和特色主题检索(Topic-Specific Search)。

在高级Web页面检索部分,Google提供了四个输入框,第一个输入框中多个检索词之间的逻辑关系是“AND”;第二个输入框中多个检索词是作为一个检索词组存在的;第三个输入框中多个检索词之间的逻辑关系是“OR”,并且前三个输入框之间的逻辑关系是“AND”,而第四个输入框与前三个输入框之间的逻辑关系是“NOT”。

用户可以在一个或多个输入框中分别输入检索词/词组,同时还可以加入其他限制条件,以便得到更准确的检索结果,如限制检索结果每页显示的记录数、限制检索访问的站点或域的范围、限制检索结果网页的书写语言、限制检索词在网页中出现的位置,选择是否加入安全过滤等。

在特定页面检索部分中,Google提供两种检索方式:相似页匹配检索(Similar Pages)和链接页面匹配检索(Links Search)。采用这两种检索方式时,在输入框中输入的不是关键词,而是站点地址。

img56

图7.1-4 高级检索界面

所谓特定页面检索就是Google利用Google Scount技术,自动将与用户输入的URL相匹配的站点内容相类似的其他站点页面作为检索结果返回给用户,或者自动将所有链接到该站点的页面作为检索结果返回给用户。

高级检索的语法:site,link,inurl,allinurl。

“site”表示搜索结果局限于某个具体网站,例如,要搜索中文教育科研网站(edu.cn)上所有包含“佛教”的页面,键入佛教site:edu.cn即可。Site后的冒号表示为英文字符,而且,冒号后不能有空格,否则,“site:”将被作为一个搜索的关键词。

“link”语法返回所有指向某个页面或者网站的页面。格式与site相同,但是,“link”不能与其它语法混合操作。

“allinurl”表示返回的网页的链接中包含所有查询关键字。

“inurl”表示返回的网页链接中包含第一个关键词,后面的关键字则出现在链接中或者网页文档中。

Google的特有高级搜索语法还有:related,cache,info,stockd等。

③其他检索方式。在使用简单检索方式时,用户输入检索词后点击“I’m Feeling Lucky”按钮,就可以直接链接到所有检索结果中的第一条记录的网页。检索结果的第一条记录是与用户检索请求最匹配的检索记录。例如,如果用户需要进入Stanford大学的主页,只要在输入框中输入“Stanford”,然后点击“I’m Feeling Lucky”按钮,就可以直接进入到Standord大学的主页。

在Google主页中,用户点击“Google Web Directory”超链接,可进入到Google目录指南页面,如图7.1-5。

该页面所提供的16个主题大类(如艺术、商业、计算机、体育、科学、新闻、健康、游戏等)按字母顺序排列,每个主题大类下面又分成许多子主题分类,每个分类旁边注明了Google已收藏该类主题网页的数量。用户只要选中需要的主题,层层点击下去,最终将直接链接到由Google所收藏的网页的内容。

图7.1-5 Google目录指南页面

针对已经得到的检索结果,Google还提供二次检索,以便用户可以得到更加准确的网页信息。另外,用户可以在Google中检索到美国的街道地图,通常用户只要在输入框中,把街道地址、邮政编码、城市名称、州名称等作为检索词输入就可以了。

④检索结果显示。Google查询结果的排序由多个因素共同决定,并特别取决于网页级别。其检索结果按相关性由大到小排序输出,相关性判断的依据除了常用的检索词在网页中的出现频率、位置等外,另一个很重要的依据是通过它所链接的网页与提问的匹配程度来判断其相关度大小。Google的每一条检索结果包括5个基本内容:网页标题题名(具有该网页的超链接)、网页内容概述、网页的网址与字节数、Cached链接和相似网页链接,以及一些可选内容项,如主题分类目录、被翻译的网页链接等。另外,Google还提供两个基本的统计信息:检索结果总数和搜索时间的记录。

3.Excite。网址:http://www.excite.com

(1)概况

Excite正式成立于1995年10月,在网上推出各种服务,包括Excite Search,Excite News,Excite Reference等,同时在全球建立了9个国际站点,并于1996年7月收购了另一个著名的搜索引擎——Magellan,1997年11月又兼并了WebCrawler,成为网上著名的搜索引擎之一。其搜索范围广泛,能够搜索300个新闻媒体,提供汽车、计算机与互联网、健康等信息。他最突出的特点是采用概念检索模式,可在词频统计的基础上自动搜索检索词的同义词、近义词和其他相关词。目前,Excite已经开发出包括中国在内的多种全球区域版本(Global Excite),以备为特定地区提供高效率的专门服务。

(2)检索方式

①普通检索。当打开Excite主页时,将直接进入普通搜索方式(见图7.1-6)。

在检索框中键入所需检索项,检索项可以是关键词、词组或用布尔逻辑运算符组配成的复杂检索式,回车或点击“Search”按钮,开始检索,并将搜索结果根据相关度大小依次列出。普通检索支持的检索功能如下:

img58

图7.1-6 Excite主页

关键词检索:在检索框中输入单词,词与词之间不留空格,则两者之间隐含逻辑“或”的关系。

词组或短语检索:词组检索要求检索结果必须含有与提问式完全一样的字符串,词间的顺序不能更改。当需要检索比较专指的信息时,可采用此功能。Excite规定用双引号将检索词括起表示词组或短语检索,如:“search engines”、“gene chip”。

限制性检索:利用“+”和“-”修饰检索词可以进行限制性检索。在检索词前加“+”表示该检索词一定要出现在检索结果中,而在检索词前加“-”表示该检索词一定不能出现在检索结果中。应注意的是“+”和“-”与其后面的检索词间不能留有空格,如:“+search engines”、“-excite”。

布尔逻辑检索和优先级检索:Excite允许使用布尔逻辑运算符AND、OR、NOT和优先级运算符“()”构造比较复杂的检索式,进行概念组配,扩大或缩小检索范围,提高检索效率。Excite规定,运算符必须大写,而且前后须有一个空格。如果使用了布尔逻辑检索式,Excite搜索引擎会自动停止概念分析的检索功能,而按提问式的具体要求检索相应的信息。

②搜索智囊(search wizard)。在普通搜索结果显示页的窗口下面,Excite为用户提供了搜索智囊,它可根据所输入的提问式,动态地推荐10个与检索主题相关的检索词,目的是帮助用户更准确地表达检索要求,用户可从中选择适当的词添加到原有的检索提问中。在每个词的前面都有一个小方格,可以用鼠标选中“添加”或“取消删除”。

③高级检索(advanced search)。在Excite主页的最下方,提供了高级检索入口。“高级检索平台”将它的功能选项提供给用户,因而用户不必去构造检索式,只要在对话框中键入相应的搜索项目,就能准确地搜索到相关的文献。用户也可以指定搜索数据库,如Excite France,Excite Germany等。

④检索结果的显式。检索结果的输出可选择显示方式(主题、主题和摘要)和数目(每页10~50个)。设置了29个国家和11种语言的选择(包括中国和中文),可以指定检索特定国家和特定语言的信息。可选6种域名类型(.com、.edu、.net、.org、.gov、.mil),以便提高查准率。

Excite对搜索结果进行相关排序,并运用特有的算法比较搜索提问式和网页内容之间的相关百分比,提示搜索结果的相关程度,百分比越高,表明这个搜索结果越符合需求。每一搜索结果依次给出相关度百分比、题名、URL、网页摘要等。同时,Excite对搜索结果进行分类编排,其先后顺序为:站点→相关主题目录→网页搜索结果→新闻。

(二)中文综合性搜索引擎

1.北大天网

网址:http://pccms.pku.edu.cn:8000/gbindex.Htm

(1)概况 天网是WWW资源索引与查找的检索服务系统,由北京大学计算机系网络研究室设计开发。它搜集的信息限于国内4大网(CERnet,ChinaNet,CSTnet和ChinaGBN),大约135万个国内网页以及9万篇包括香港在内的新闻组文章,这些网页信息分布在5,000个站点上。天网具有良好的查询界面、优秀的复杂查询、提供全球多语言智能检索,能方便地用任何语言搜索网站,其模糊匹配技术使得有拼写错误的搜索请求也能被搜索到,天网搜索引擎更新较快,反馈内容完整,不仅能检索WWW页面,而且能检索FTP资源,尤其适合学术信息的查找,是目前值得关注的中文搜索引擎之一。但其检索结果重复效率较高,无效链接也较多,需要进一步提高其索引机制和更新频率。

(2)检索方式

①简单检索。在“天网”主页上,可在文本框中输入想要查询的关键词,然后按下“搜索WWW网页”按钮。

②复杂检索。若查询多个关键词可进行逻辑操作,进行复杂检索,天网支持三种逻辑操作:与(&)、或(│)、非(-)。对于复合词(词组),可用双引号括起来查询。另外,复杂检索还增加了若干对检索进行控制的选项,如:精确匹配(只匹配检索的关键词)、模糊匹配(匹配关键词或其同义词,例“计算机”可以匹配“电脑”)等。

(3)检索结果的显示和输出

检索结果的显示有标准(显示文档的摘要信息)和简要(不显示文档的摘要信息)两种方式。每页按列表方式给出10条信息,每条包括序号、标题、URL等。用户可以在浏览器中用鼠标单击每一项第一行的标题,去浏览完整的文章。此外,查询结果的页面中还有一个查询表格,利用此功能可在查询结果中做进一步的检索。逻辑关系“与”、“或”是指所输入的新词之间的逻辑关系。

2.搜狐。网址:http://www.sohu.com

(1)概况 搜狐是爱特信公司开发研制的,该公司于1996年8月由张朝阳博士创立。1998年2月25日,大型中文网站——搜狐的正式推出,迅速在中国网络用户中掀起了一股“搜狐旋风”。它提供了一个分类详尽的Web目录,采用树形结构对站点进行层次性分类。根据相应的网页内容,将所有的网页分为娱乐休闲、国家地区、工商经济、计算机与互联网、体育与健身、新闻与媒体等18个大类,在这18个大类下面又分成几百个小类。相对于其它的Internet搜索引擎,搜狐中文检索系统具有如下特色:

①独特的中文分词功能。搜狐中文分词系统成功地解决了中文的分词问题。众所周知,中文词与词之间在词义、词性方面的界定比英文分词困难得多。如输入“检索”这个关键词,往往会把“检查”“索引”等含有“检”“索”字样的词也作为检索的结果显示出来,用户需要花费相当时间和精力再去自行过滤和鉴定,这样就降低了查询的效率。

②优秀的分数评估体系。合理的搜索结果排序是判别一个搜索引擎质量的重要标准。搜狐中文检索系统在进行全文检索时,对关键词在文章里出现的次数、位置和每个关键词(以及它包含的关键词)的权值进行综合评估,尽量贴近人的思维模式,对每个检索结果进行合理的排序。

③拟人的思维包含模式,可以实现“专题搜索”。当用户输入关键词“互联网”的时候,“因特网”、“INTERNET”等搜索结果也会检索出来,达到事半功倍的效果。

④采用一种最先进的、汉化的全文检索引擎Search’97,可对各种网络资源(尤其是中文网络资源)进行全文搜索。

⑤与以“中文网址技术”闻名业界的“3721”网站强强联手,收入了“3721”中文网址数据库,可以直接进行中文网址检索。

(2)检索方式

①分类查询。用户查找时,可以根据要查找的信息所属的类目,从搜狐首页出发,层层点击相关类目,查找所需网站网址。

②关键字检索。如果你很清楚要找的网站(或新闻)主题,可以在检索框中键入关键字,并单击旁边的“搜索”按钮,搜狐中文搜索引擎会返回以下5个方面的检索结果。你可以在其中任意切换,得到你需要的检索结果。

从搜狐类目中检索:检索结果页列出相关的搜狐中文检索类目。从网站搜索中检索:检索结果页列出搜狐分类搜索数据库中,在网站名称、网站简介或网站关键字中含有与你键入的关键字相匹配的内容的所有相关网站;从网页搜索中检索:除了相关检索的一些链接之外,检索结果页列出整个Internet上与你键入的关键字相匹配的内容的所有相关网页;从新闻搜索中检索:检索结果页列出3个月内出现在搜狐新闻库中,包含你键入的关键字的相关新闻;从中文网址搜索中检索:检索结果页列出在3721网站数据库的网站名称中含有与你键入的关键字匹配的内容的所有相关网站。

值得注意的是,如未特别指定,系统便会默认你从搜狐网站中进行检索。搜狐中文检索的默认检索方式是精确查询方式,查询包含完全符合关键字串的网站。搜狐提供AND和OR操作符。

(3)检索结果的显示 在结果首页中显示总的搜索结果记录条数,同时显示前20条记录的分类情况、题目、简要说明等。

搜狐中文搜索引擎根据分类类目及网站信息与关键字串的相关程度来排列相关的搜狐中文类目和网站。相关程度越高排列位置越靠前。对新闻搜索的结果来说,日期最新的排在前面。

3.其他中文引擎

(1)网络指南针(http://compass.net.edu.cn/8010/) 是中国教育科研网研制的一个中文搜索引擎,搜集中国教育科研网(CERnet)、中国联通网(ChinaNet)、中国科技网(CSTnet)、中国金桥网(ChinaGBN)等网络上的大量信息资源,网页多达20万。它采用全文检索技术,提供中英文查询。

(2)悠游(http://www.goyoyo.com.cn) 悠游由香港联克公司和北京优联克科技开发有限责任公司共同开发,收录全球中文网页。悠游不是一个固定网络检索系统,不完全依赖URL递交,它除了有增加网页功能外,还具有主动出去搜寻,自动将新的网页添加进来的功能。尽管悠游的智能检索仍有缺陷,但它的出现使得检索因特网的全球中文信息更为简便。

(3)263搜索(http://www.search.263.net) 它属于首都在线所有,提供分类目录和网站检索,资料丰富,复杂条件查询功能强——可限制时间、语言(简、繁)、查询网站或提要等,并可直达所查到的网站;另提供新闻及检索等服务。

(4)百度(http://www.baidu.com) 1999年底,由李彦宏先生及徐勇先生于美国硅谷创建。2000年,百度回国发展。从此掀开了中文搜索引擎的新篇章。百度自进入中国互联网及软件市场以来,就一直依靠自身实力为广大网民提供优秀的搜索引擎www.baidu.com,为主要中文门户提供最先进的搜索引擎技术服务,为众多企业提供新时代最先进的网络营销工具以及拥有自主知识产权的企业级应用软件。百度的出现,为中国互联网树起了民族技术的一面旗帜,百度将会不断努力,继续自己的使命。

(5)若比邻(http://www.robot.com.cn) 由中科院计算机网络信息中心于1998年6月推出。为中文因特网检索者提供权威的中文站点及网页查询服务。“若比邻”由三大部分组成:中国上网单位导航、站点导航、网页导航。中国上网单位导航是专为Internet用户查询某类单位企业是否在Internet上及上网单位的相应信息;站点导航,根据站点提供的服务和信息将站点归纳分类,方便检索者按类查询;网页导航,为检索者提供最直接、最基础的信息源——网页。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈