首页 理论教育 网上信息检索工具

网上信息检索工具

时间:2022-03-04 理论教育 版权反馈
【摘要】:根据检索工具检索网络资源类型的不同,可以将其分为万维网检索工具和非万维网检索工具。万维网检索工具主要检索万维网站点上的资源,它们常被称为搜索引擎,而且由于万维网资源常以网页的形式存在,它们的检索结果常常被称为网页。非万维网检索工具主要检索特殊类型的信息资源,如Archie—检索FTP文件; Veronica—搜索Gopher服务器; WAIS—全文信息检索工具; Deja News—检索新闻组等。

10.2 网上信息检索工具

Internet网络上蕴藏着非常丰富的信息资源,从电子期刊、电子工具书、商业信息、新闻、大学和专业机构介绍、软件、数据库、图书馆资源、国际组织和政府出版物,到娱乐性信息等。它已经成为全球范围内传播科研、教育、商业和社会信息的最主要的渠道。但要从这个信息海洋中准确、迅速地找到并获得自己所需的信息,却往往比较困难。正是为了解决这个问题,从20世纪80年代起人们就开发了各种网络信息检索工具。

根据检索工具检索网络资源类型的不同,可以将其分为万维网检索工具和非万维网检索工具。万维网检索工具主要检索万维网站点上的资源,它们常被称为索引擎,而且由于万维网资源常以网页的形式存在,它们的检索结果常常被称为网页。非万维网检索工具主要检索特殊类型的信息资源,如Archie—检索FTP文件; Veronica—搜索Gopher服务器; WAIS—全文信息检索工具; Deja News—检索新闻组等。不过越来越多的万维网搜索引擎具备了检索非万维网资源的功能,使它们成为检索多类网络信息资源的集成化工具。

10.2.1 搜索引擎

利用浩瀚无序的互联网信息,需要借助一定的工具和方法,搜索引擎肩负使命,应运而生。搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网中收集、发现信息,对信息进行理解、提取、组织和处理,为用户提供与所需信息相关的网页名称,从而起到信息导航的目的。

Internet上最早的搜索引擎是1990年开发的Archie,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,用户可以以一定的表达式进行查询。随着www的出现,搜索引擎更加引起人们的研究热情,最早的设计是利用“机器人”程序在网络中爬来爬去,并将“机器人”程序形象地称为“蜘蛛”程序,刚开始它只是用来统计互联网上的服务器数量,后来发展为能够检索网站域名。1994年超级目录索引Yahoo诞生,将搜索引擎推向高速发展时期。

搜索引擎分为全文搜索引擎、目录索引和元搜索引擎。

(1)全文搜索引擎。全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此它们是真正的搜索引擎。

(2)目录索引。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪网易搜索也都属于这一类。

(3)元搜索引擎(META Search Engine)。元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。

10.2.2 常用搜索引擎简介

10.2.2.1 Google(http://www.google.com)

Google是由英文单词“googol”变化而来。“googol”是美国学者Milton Sirotta创造的一个词,表示1后带有100个零的数字。Google使用这个词代表了该公司想征服网上无穷无尽资料的雄心。Google于1998年由两位斯坦福大学的博士生Larry Page和Sergey Brin创立,并于1999年6月成立公司,现在作为当今Internet上最佳的搜索引擎之一及第二代搜索引擎的代表,Google运用其开发的高效算法确实做到了为广大用户提供满意和有效的检索服务。Google向来以庞大的索引数据库著称,2005年Google发布了它的网络标引量,声称Google目录中已收录了80亿多个网址,可检索80亿多个网页、10亿多张图片、10亿多条Usenet新闻,此外还有不断增长的图书信息网页。用户可以更加简便、快捷地从这个世界上最大的在线信息库中检索到他们所需的信息,保障了用户获取信息的全面性。Google支持多达132种语言,包括简体中文和繁体中文。此外Google在基本检索的功能上,还提供强大的图片搜索、新闻搜索、二进制文件搜索(PDF、DOC、SWF等),并拥有“网页快照”、“手气不错”等特色功能。

Google的首页中排列了其五大功能模块:网页、图片、资讯、论坛和网页目录,默认搜索为网页搜索。

(1)简单关键词检索。只要在检索框中输入检索词,并敲一下回车键或单击“Google搜索”按钮即可执行简单的关键词检索。当输入多个关键词时,只需将关键词用空格隔开,Google就会在关键词之间添加“AND”,执行逻辑“与”操作,除此之外,Google用减号“-”表示逻辑“非”操作,用大写的“OR”表示逻辑“或”操作。

Google在检索时不区分英文字母的大小写,所有字母均当作小写来处理,例如:搜索“google”、“GOOGLE”或“GooGLe”所得到的结果都一样。

为了提供更准确的资料,Google不支持通配符(*、?)等的检索,也就是说,Google只搜索与输入的关键词完全一样的字词,如:搜索“Googl”或“Google*”,不会得到类似“Googler”或“Googlin”的结果。Google关键词可以是单词(中间没有空格),也可以是短语(中间有空格)。如果用短语做关键字,必须加引号,否则空格会被当作“与”操作符。Google对一些网络上出现频率极高的英文单词,如“the”、“com”、“http”等,以及一些符号如“*”、“、”、“.”等,会做忽略处理。如果要对忽略的关键词进行强制搜索,则需要在该关键字前加上“+”号。

(2)高级检索。搜索专用语:只要在专用词语上加上英文双引号,就可以准确地进行查询;限制搜索的网站:可用“site”将搜索结果局限于某个具体网站、网站频道或某个域名。site后的冒号为英文字符,而且冒号后不能有空格,否则“site:”将被作为一个搜索的关键字;搜索某一类型文件,可用“filetype”来搜索;搜索的关键字包含在网页标题中,可以用“intitle”和“allintitle”来搜索网页的标题栏;同理用inurl和allinurl对URL进行查询。

搜索所有链接到某个URL地址的网页,用“link:<网址>”可得到链接到此网址的网页。“link”不能与其他语法混合操作,其后面即使有空格,将被Google忽略;从Google服务器上缓存页面中查询信息,可用“cache:”搜索Google服务器上页面的缓存。通常用于查找某些已经被删除的死链接网页,相当于“网页快照”功能;图片搜索:在Google首页点击“图像”链接就进入了Google的图像搜索界面“images.google.com”,在关键字栏内输入描述图像内容的关键字即可。

(3)其他特色检索功能:

1)目录服务。表示不想打开网页,而只是寻找某些专题网站,可以访问Google的分类目录“http://directory.Google.com/”。

2)工具条。集成于浏览器中,用户无须打开Google主页就可以在工具条内输入关键字进行搜索。此外,工具条还提供了其他许多功能,如显示页面Page Rank、设置拦截式弹出广告等。

3)新闻组。新闻组中有大量的有价值信息。DEJA一直是新闻组搜索引擎中的佼佼者,2001年2月,Google将DEJA收购并提供了所有DEJA的功能。现在,除了搜索之外,Google还支持新闻组的WEB方式浏览和张贴功能。

4)搜索结果翻译。可以把非英文的搜索结果(只支持有限的几种语言)翻译成英文,也可以将英文翻译成中文。

5)搜索结果过滤。用来剔除互联网上的垃圾信息。

6) Google还具有二进制文件搜索功能,可以对PDF、DOC、SWF等文件进行内文搜索。

(4) Google的不足之处。Google虽然有强大的检索功能,但也有其不足之处。

1)关键词的拆分问题。使用关键词搜索时,最令人头疼的就是关键词的拆分问题。Google如果认为关键词可拆分,在搜索结果中就会出现该词拆分后的查询结果,大大降低了查准率。要解决这个问题,可以将关键词加上引号。

2)中文简体与繁体字自动转换问题。中文简、繁体转换采用简体和繁体文本之间的“翻译”转换方式,由于转换词典不一定正确,可能会出现错误。

3)搜索结果随时间和范围不同而出现较大差异。Google为了保证快速、全面的信息检索配备了大量的硬件,硬件的相互协作及随机性等原因导致在不同时间和范围搜索结果会出现较大的不同。

4)数据更新较慢。因为Google数据量庞大,很多数据无法及时更新,一定程度上降低了信息的时效性。

5)无法搜索动态生成的网页。Google把各种信息保存在数据库中,因此无法搜索动态生成的网页。

10.2.2.2 百度(http://www.baidu.com)

“众里寻她千百度”,“百度”二字正是源自辛弃疾的《清玉案》,它象征着百度对中文信息检索技术的执著追求。1999年年底,百度由李彦宏和徐勇在美国硅谷创建。2000年百度回国发展,自进入中国互联网及软件市场以来,就一直依靠自身的技术优势为主要中文网络门户提供先进的搜索引擎技术服务,同时百度推出的竞价排名业务已经成为众多中小企业网络营销的利器。

百度一直以开发最符合中国人使用习惯的搜索引擎为己任,经过几年努力,百度搜索引擎已成为世界上最强大的中文搜索引擎。现在百度支持搜索10亿中文网页,并且每天都以几十万新网页的速度递增,对重要中文网页实现每天更新,用户通过百度搜索引擎可以搜到世界上最新、最全的中文信息。

百度搜索引擎的核心技术是“超链分析”技术,百度总裁李彦宏是“超链分析”专利的唯一持有人,而且他给这个技术取名叫人气质量定律,亦称搜索引擎的第二定律。它与PageRank技术的内容相似:统计每个网页被其他网页链接指向的情况,次数越多则级别越高,排名也就越靠前。因此,“超链分析”就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。

此外,“超链分析”技术将情报学中的引文索引技术同Web中最基本的东西——“超级链接分析”的技术相结合,在查找的准确性、查全率、更新时间、响应时间等方面与其他技术相比都有很大的优势;同时,百度应用“内容相关度评价”技术,并且运用了中文智能语言的处理方法,依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷,并且能够在不同的编码之间转换,这就使得简体字和繁体字的检索结果可以自然结合。

百度的核心技术在于超链分析,现在百度又提出了竞价排名系统,依靠“自信心”来实现搜索结果的排名,不仅在一定程度上影响了检索结果的绝对相关性,而且对于搜索引擎自身的发展,开辟了一条新的道路。

竞价排名服务是百度在2001年7月建立的一个商业模式,它是由客户为自己的网页购买关键字排名,按访问量计费的一种服务。也即搜索引擎排序的自信心定律。由于检索结果的排名是根据客户出价的多少进行排列,故称为“搜索竞价排名广告”。因此,百度的检索结果的排序方式是在“超链分析”技术根据网页的重要程度及与检索词的相关程度排列出结果后,再按照竞价排名的情况组织检索结果页面,根据出价的高低来让参与了相关检索词竞价排名的网站先后排在结果的前列。那么,竞价排名是否削弱了检索结果的可靠性呢?百度声称,其竞价排名系统不会降低检索结果的相关性:“百度竞价排名系统对客户选择关键字和填写信息的规定和审核非常严格,保证结果都是跟该关键字最相关的信息。”

除了基本的检索功能外,百度还增加了专业的MP3搜索、图片搜索、资讯搜索、贴吧、知道等,并正在快速发展其他用户喜欢的搜索功能。百度的目标是发展成为最全面的搜索引擎,为所有中文网络用户打开互联网之门。

在使用布尔逻辑表达式进行检索时,百度使用的逻辑符号与Google基本相同。只是用符号“︱”来表示逻辑“或”。百度提供关键词自动提示功能,当用户输入拼音检索时,能获得中文关键词的提示。同时,还具有中文搜索自动纠错功能,即如果用户误输入错别字时,可以自动给出正确的关键词提示。

百度同样提供高级搜索功能,但功能不如Google全面,基本上属于Google高级检索功能中的一部分。与Google不同的是,百度提供地区搜索,可通过对中国34个省、自治区、直辖市和特别行政区的选择来限定要搜索的网页的地区。

百度主要根据超链接分析和竞价排名来对搜索结果进行排序。参与竞价的网站排在最前面,后面的搜索结果则按照超链接分析的技术排序。搜索结果包含题目、网址、简短摘要(检索词附近内容)、文件大小、更新日期、百度快照等。其中百度快照与Google的网页快照功能相类似。在每一页搜索结果的下方是百度特色功能之一的相关检索,列出了其他用户搜索过的相关搜索词供用户参考。单击任何一个相关搜索词都能得到那个相关搜索词的搜索结果。

除了网页搜索外,百度还提供资讯、MP3、图片、天气预报、火车班次、英语词典等多种搜索功能。

10.2.2.3 天网搜索(http://e.pku.edu.cn)

由北大网络实验室研制开发的天网中英文搜索引擎是国家“九五”重点科技攻关项目“中文编码和分布式中英文信息发现”的研究成果,并于1997年10月29日正式在CERNET上向广大Internet用户提供Web信息导航服务。在“天网”系统对外提供服务期间,广泛采纳用户的意见和建议,不断地改进其服务质量。2000年年初,新成立的“天网”搜索引擎课题组在国家973重点基础研究发展规划项目基金资助下,秉承老的开发队伍的优良传统,将致力于探索和研究中英文搜索引擎系统的关键技术,以便向广大用户提供更为快速、准确、全面、时新的海量Web信息导航服务。

若检索结果数很多,在一个页面无法显示完的时候,系统自动生成换页链接,只要在“选择页面”右方点击你要切换的页面的结果起始号链接即可。历史网页是保证在存有网页的服务器暂时出现故障时仍可浏览该网页的内容,或者可以浏览到不是最新版的该网页的内容。一般情况下,用空格隔开的查询词不进行短语查询;如果需要,请用引号括起来,当做短语来查询。例如: peer to peer和“peer to peer”的返回结果是不太一样的。天网还支持忽略词(常用的词和字符)查询,有些词太常见,在一般的查询中被忽略,如果需要,可以通过把要查询的短语用引号括起来,执行精确短语查询。例如:美的空调“的”一般会被忽略,可以用双引号括起,查询词带着引号查询“美的空调”

在天网主页上,用户在文本框中输入想要查询的关键词,并回车(Enter),或者点击“搜索网页”按钮即可。查询时只要在两个关键词之间加入空格就可实现逻辑“与”检索。如果要进一步缩小搜索范围和结果,只需输入更多的关键词或者在查询结果中输入关键词进一步查询。

10.2.2.4 搜狐搜索(www.sohu.com)

搜狐是国内最著名的门户网站,也是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。搜狐于1998年推出中国首家大型分类查询搜索引擎,到现在已经发展成为中国影响力最大的分类搜索引擎。搜狐设有独立的目录索引,每日页面浏览量超过800万,并新推出第三代互动式搜索引擎——搜狗,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。

10.2.2.5 网易搜索(www.163.com)

网易搜索引擎最大的特色之一是采用“开放式目录”管理方式,在功能齐全的分布式编辑和管理系统的支持下,现有5000多位各界专业人士参与可浏览分类目录的编辑工作,极大地适应了互联网信息爆炸式增长的趋势。新版搜索引擎在此基础上,更增加了全新搜索技术及广告搜索服务,这一举措将可使用户检索高达16亿条的信息和及时的新闻内容,同时为广告客户提供更有效的广告方式。

10.2.2.6 新浪搜索(www.sina.com)

这是中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询反馈结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,最大程度地满足用户的检索需要,使用户得到最全面的信息,这项服务在国内尚属唯一。

10.2.3 搜索引擎使用技巧

根据检索目的选择合适的搜索引擎的网页各不相同,排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引,数据量达到几千GB甚至几万GB。但即使最大的搜索引擎建立超过20亿网页的索引数据库,也只能占到互联网上普通网页的30%。我们使用不同搜索引擎的重要原因,就是因为它们能分别搜索到不同的内容。因为在查询范围、检索功能等方面,各种搜索引擎各具特长,因此应选用不同的搜索引擎,才能做到有的放矢、事半功倍。一个好的专业搜索引擎(有人物搜索引擎、旅行路线搜索引擎、域名搜索引擎、网址搜索引擎、主机名搜索引擎、商业搜索引擎、RP搜索引擎等)在某一行业的信息较之综合性的搜索引擎更全、更新,而且因信息相对集中,检索起来也能够节省很多时间,查准率也有保证。

进行信息检索过程中,应根据课题的学科领域、专业范围、所需要的信息形式有针对性地选择搜索引擎和检索工具。比如平常要搜索网站、网页或MP3、图片等多媒体文件,可以用百度、Google搜索引擎,搜索的结果比较全面;要了解查询某一方面的网站,可以使用搜狐、网易的目录搜索,分类比较专业、全面;需要简便快捷可使用3721的IE地址栏搜索;而一搜、Lycos等中国搜索引擎则分别适用于限制时间段的搜索和对FTP搜索情有独钟的用户。同时多个搜索引擎联合使用,可以使搜索功能更强大,搜索结果更全面。

(1)选择合适的关键词。使用搜索引擎进行信息检索,最重要的技巧是关键词的选取。关键词,就是您输入搜索框中的文字,也就是您命令寻找的东西。关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等。在进行检索之前,应首先把检索课题分解成一系列的基本概念,再为每个概念确定一个合适的关键词或词组,最后确定关键词之间的逻辑关系。一般搜索引擎都要求关键词一字不差。例如:分别输入[李越]和[李悦],搜索结果是不同的,分别输入[电脑]和[计算机],搜索结果也是不同的。因此,如果您对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。输入多个关键词搜索,可以获得更精确、更丰富的搜索结果。当你要查的关键词较为冗长时,建议将它拆成几个关键词来搜索,词与词之间用空格隔开。多数情况下,输入两个关键词搜索,就已经会得到较好的搜索结果。

(2)构造恰当的检索式。关键词确定之后,根据基本概念之间的逻辑关系,利用各种逻辑运算和限定方法,来构造检索提问式。常见的逻辑运算和限定方法如下:一是使用AND、OR、NOT来进行逻辑组配;二是使用“——”来限定关键词一定不要出现在检索结果中。例如要搜寻关于“武侠小说”,但不含“古龙”的资料,可使用如下查询:“武侠小说——古龙”。

(3)使用搜索软件。现在许多软件都有不需打开网页而直接利用搜索引擎搜索的功能,有的还可以同时在多种搜索引擎中间搜索,使我们更快速地得到较全面的结果,因此可以下载安装一些这类软件,比如IE搜索伴侣、百度搜霸等,可以使我们达到事半功倍的效果。

总之,搜索引擎在信息社会具有很重要的价值,随着计算机及其网络技术的飞速发展,专家预测第四代搜索引擎的特点是“求易”,在目前求快、求难的基础上将加重智能化的服务。我们应在使用中不断积累经验,更好地享受网络时代给我们提供的快捷和便利。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈