首页 理论教育 Internet信息资源检索工具

Internet信息资源检索工具

时间:2022-10-31 理论教育 版权反馈
【摘要】:检索系统将搜索到的Internet中的所有资源按其主题分成若干大类。以全文检索为主的搜索引擎,它们的搜索对象是Internet所有网站中每个网页的全部内容。

5.3 Internet信息资源检索工具

因特网的迅猛发展使其所含的信息数量急剧增长,在这样一个浩瀚无边的信息空间里,快速查找并获取所需要的信息已成为人们最迫切的需求。“我们被信息淹没,但却渴求着知识。”《大趋势》的作者约翰·奈斯比特当年所预言的已应验在了网络时代人们的身上。为了帮助人们从网络信息的汪洋大海之中将对自己有价值的部分搜寻、挑选出来,网络信息检索工具便应运而生了。

网络信息检索工具是指在因特网上提供信息检索服务的计算机系统,其检索的对象是存在于因特网信息空间中各种类型的网络信息资源。如稍早的查询Usenet新闻组资源的WAIS,搜寻FTP资源的Archie,检索Gopher网站资源的Veronica和Jughead等。近年来广为流行的、发展最快的是用于WWW的检索工具——索引擎了。在本节中,将主要介绍两种网络资源检索工具,重点介绍搜索引擎及其使用。

5.3.1 Internet资源指南

为了对因特网这个无序的信息世界加以组织、管理,使大量有价值的信息纳入一个有序的组织体系,专业人员作了许多努力和开发。基于专业人员对网络信息资源的产生、传统与利用机制的广泛了解,和对网络信息资源分布状况的熟悉,以及对各种网络信息资源的采集、组织、评价、过滤、控制、检索等手段的全面把握而开发出的可供浏览和检索的网络资源主题指南。综合性的主题分类体系的网络资源指南,如Yahoo!等已是广为人知;还有WWW Virtual Library,The Argus Clearinghouse等也有广泛影响,受到普遍欢迎。而专业性的网络资源指南就更多了,几乎每一个学科专业、重要课题、研究领域的网络资源指南都可在因特网上找到。这类网络资源指南类似于传统的文献检索工具——书目之书目(bibiography of bibliographies)或专题书目,目前国外有学者称之为web of webs,webliography,其任务就是方便对因特网信息资源的智能性获取。它们通常由专业人员在对网络信息资源进行鉴别、选择、评价、组织的基础上编制而成,对于有目的的网络信息发现具有重要的指导、导引作用。

通过网络资源指南查找信息的局限性在于:由于许多指南性网站的管理、维护跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性、及时性可能不够强;且用户要受标引者分类思想的控制。

5.3.2 搜索引擎概述

Internet的迅速发展和信息量的急剧增长,导致各种网络信息检索工具应运而生,被称为网络之门的搜索引擎就是其中之一。Yahoo的成功和华裔学生杨致远的传奇故事,使得形形色色的搜索引擎网站层出不穷,现已发展成为Internet的一个新兴产业。

搜索引擎使用自动索引软件来发现、收集并标引网页,建立数据库;以Web形式提供给用户一个检索界面,供用户输入检索关键词、词组或短语等检索项;代替用户在数据库中找出与提问匹配的记录,并返回结果且按相关度排序输出。搜索引擎强调的是检索功能,而非主题指南那样的导引、浏览,一般可称为因特网资源的关键索引。搜索引擎的特点是:由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时地向用户提供新增信息。检索时直接输入关键词或词组、短语,无需判断类目归属,比较方便。

但由于标引过程缺乏人工干预,准确性较差,加之检索软件的智能化程度又不很高,导致检索误差较大;另外,不同的搜索引擎有不同的检索项选择、检索界面,不同的句法要求和对符号、标识符的处理,因此检索策略的构造和输入方式也会直接影响检索结果。因此,根据不同的检索要求,选择合适的搜索引擎,制定切实可行的检索策略,再辅以必要的检索技巧,才能用较少的时间去获得较为满意的检索结果。

5.3.3 搜索引擎的类型

目前,Internet中的搜索引擎主要有三种基本类型:以分类目录为主的搜索引擎、以全文搜索为主的搜索引擎和建立在独立搜索引擎之上的多元搜索引擎。其中,前两种搜索引擎的功能是相互借鉴和互为补充的,两者的界限也逐渐模糊。

1.以分类目录为主的搜索引擎

这类搜索引擎又称为目录服务,著名的Yahoo就是其中的代表。检索系统将搜索到的Internet中的所有资源按其主题分成若干大类。每一大类下面又分设若干二级类目、三级类目等。有的搜索引擎常细分至十几级类目,每个类目下面列出属于这一类目的网站名称和网址链接(有的搜索引擎为了防止本系统的资源白白流失,只提供网站镜像而没有直接链接)。有的搜索引擎还对各个网站进行简单介绍和说明。

以分类目录为主的搜索引擎通常还设有网站查询功能,通过在查询框内输入词组,即通常所说的关键词,即可获得与之相关的网站目录和信息。

以分类目录为主的搜索引擎的特点是由系统先将搜索到的网络信息分别归类。这一工作有的系统由人工操作、有的则由机器自动完成,只要遵循该系统的分类体系按图索骥、层层深入即可。这与图书馆中传统的分类索引的功能十分相似。

以分类目录为主的搜索引擎的不足之处是搜索范围通常比以全文检索为主的搜索引擎的范围要小很多,加之各个系统没有统一的分类体系,操作系统对类目的判断和选择直接影响到检索的效果;而类目之间的交叉,又导致许多内容的重复;此外,有的搜索引擎分类太细,也使人无所适从。

2.以全文检索为主的搜索引擎

这类搜索引擎通常称为索引服务,它们与以分类目录为主的搜索引擎中的网站查询功能相似,但有着本质的区别,著名的Alta Vista就是这方面的代表。

以全文检索为主的搜索引擎,它们的搜索对象是Internet所有网站中每个网页的全部内容。检索得到的结果通常是一个个网页的地址和一段文字,里面也许并没有在查询框中输入的词组,但在反馈信息所指明的那一个个网页所包含的内容中,一定有输入的词组或与之相关的内容。

有些以全文检索为主的搜索引擎也提供分类目录,但这是网页的分类目录而不是网站的分类目录。由于网页数目巨大,即使类目分得再细,也很难从浏览中得到明确的启发和提示,它们的作用更多地是体现在为进入某一个类目提供指示,然后限定在此类目中对给定的词组进行全文检索,这样可以有效地压缩搜索范围。

以全文检索为主的搜索引擎的特点是信息量特别大,在理论上可以对Internet所有网站的每一页内容(即可以对每篇文章中的每个单词)进行检索。当想对某一特定的主题进行深入细致的研究时,不妨借助于这类搜索引擎。

以全文检索为主的搜索引擎的不足之处则是每次常规意义下的普通检索,反馈的信息往往太多、太滥,以致很难直接从中筛选出自己真正感兴趣的内容,要想达到理想的检索效果,往往要借助于高级检索中必要的语法规则和限制符号。

3.多元搜索引擎

Internet庞大的信息,使得任何孤立的搜索引擎都无法单独覆盖,而建立在搜索引擎之上的搜索引擎,通常称为多元搜索引擎,由于它可以调用其他搜索引擎,从而在一定程度上能够满足更多、更快的获得网络信息的要求。

当向一个多元搜索引擎发出检索要求之后,该引擎会将检索要求迅速发送给其他独立的搜索引擎,并将它们反馈的结果集中显示。多元搜索引擎具有同时查询多个数据库的优势,至于其本身是否拥有数据库则无关紧要。

多元搜索引擎根据其工作方式,又可具体分为串行处理和并行处理两种。串行处理是将检索要求先发送给某一个搜索引擎,然后将其检索结果经处理后,传递给下一个搜索引擎,依次进行下去,直至最终将结果反馈给系统。串行处理的搜索引擎准确率高,但速度慢。并行处理则是将检索要求同时发送给所有要调用的搜索引擎。并行处理的搜索引擎速度快,但重复的内容较多。目前,较有影响的多元搜索引擎有Meta Crawler,Savvy Search,Search Spaniel等。

4.All-in-One集成搜索

All-in-One集成搜索是指只要通过一个网站,即可选择多个搜索引擎依次进行搜索。这与多元搜索引擎的工作方式有些相似,只是多元搜索引擎只要一次性输入检索要求,就可以同时让多个搜索引擎一起或分别进行搜索,并对搜索结果进行分析整理;而All-in-One通常是逐一输入检索要求(可以相同,也可以不相同),然后从搜索引擎列表中每次选择一个进行检索,一般不对搜索结果进行处理。在很多场合,多元搜索引擎被视为All-in-One集成搜索的一部分。

All-in-One搜索公司的“All-in-One Search Page”可以看作是All-in-One集成搜索的代表。该网站汇集了Internet中400多个大型的搜索引擎、数据库、索引和分类目录,其数据库容量、系统响应速度和检索界面等多项指标在同类产品中均居领先地位。

5.特殊用途的搜索引擎

一般人们所说的搜索引擎,总是指综合性搜索引擎,它们通常涵盖了各个学科的各个方面。但也有些搜索引擎,它们是专为某一特殊用途或某一特定目标而设立的,人们将其称为特殊用途的搜索引擎。如科学信息的搜索引擎Scirus,全球华人寻人搜索引擎Look 4U,软件搜索引擎Soft Seek和Download Power Search,图形、图像搜索引擎Image Surfer,支持自然语言的搜索引擎Ask Jeeves等。这些专业的搜索引擎,由于其鲜明的特色和对专业的精通,往往更受欢迎。

5.3.4 搜索引擎的检索方式与技术

1.检索方式

搜索引擎一般设有简单检索与高级检索两种检索方式。简单检索就是在关键词检索框中输入一个或几个关键词,然后递交系统进行检索,简单检索的结果往往不尽如人意,因为如果这些单词的使用频率较高,则反馈的信息就有可能多得让人无法应付;而如果这些单词过于“冷僻”,则反馈的信息又往往令人大失所望。

许多搜索引擎提供一些不太复杂的新方法和新途径来对检索要求作些小小的限制(如逻辑条件限制、特殊操作符限制等),力图使搜索系统能更好地领会检索需求。这些方法和技巧通常就称为高级检索,也有的搜索引擎将其称为进阶检索或复杂检索。

就搜索引擎而言,简单检索与高级检索往往并没有十分明确的界限。有的搜索引擎整体水平较高,不但其高级检索具备了许多复杂的功能,就连其简单检索所包含的一般功能都超过了普通搜索引擎的高级检索功能。如专门为科技工作者设计的Northern Light,它的简单检索表达式就允许使用逻辑条件限制。有的搜索引擎的高级检索的功能则十分简单。如台湾盖世引擎的高级检索,仅比一般的简单检索多了一个精确匹配与模糊匹配的选择框而已。

2.检索技术

(1)布尔逻辑检索(boolean logic) 布尔逻辑检索的基础是逻辑运算,而逻辑运算最常用的是逻辑运算符,逻辑运算符有三种形式:逻辑“与”、逻辑“或”、逻辑“非”。这三种逻辑运算符各有不同的功能,具体内容见第3章第3.2节。

大多数网络搜索引擎都支持布尔逻辑运算,但表现形式不尽相同:有的用AND、OR、NOT,有的用符号+、-、*来代替;有的工具要求用大写,有的要求用小写,有的则大、小写均可;还有的直接把布尔逻辑运算符隐含在菜单中。

(2)邻近检索(proximity search) 邻近检索有时又被称为位置算符检索。有关“位置算符”的知识见第3章第3.2节。

在文献记录中,词语的相对次序或位置不同,所表达的意思可能就不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。

位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用自由词的检索方法。

(3)截词检索(truncation/wildcats) 截词检索使用的是“截词符”,有关“截词符”的内容见第3章第3.2节。

对于词干相同而词尾不同的词,如library,libraries,librarian,librarianship…和一些不同拼法的词,如defence,defense,如果检索时将这类词全部输进去,会增加检索时间和费用,采用截词法可解决这一问题。

所谓截词检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含相同部分标识的记录全部检索出来。截词符用“?”或“*”表示。数据库检索中常用的截词法有左截、右截、中间截断和中间屏蔽4种形式。

中文检索的截断技术:中文检索在扩大检索范围时也可采用截断技术,如在已知作者姓而其名不详时,可在表示其姓的字后加问号做姓氏截断,如“黄?”表示检索所有黄姓作者的文献。

(4)字段限制检索(field limiting) 组成数据库的最小单位是记录,一条完整记录中的每一个著录事项为字段。文献书目型数据库的记录基本包括下列字段:存取号字段(access number,AN)、篇(题)名字段(Title,TI)、文摘字段(abstract,AB)、叙词字段(descriptor,DE)、自由词字段(identified,ID)、著者字段(author,AU)、著者机构字段(corporate source,CS)、刊名字段(journal,JN)、出版年字段(publication year,PY)、文献类型字段(document type,DT)、语种字段(language,LA)、分类号字段(classification,CC)。

一篇记录中主要用来表示文献内容特征的字段为基本索引字段(basic index fields),如篇名字段、文摘字段、叙词字段、自由词字段;而表达文献外部特征的字段称为辅助索引字段(additional indexfields),包括著者字段、著者机构字段、文献类型字段、语种字段等。

在许多联机检索系统中,为了提高查全率或查准率,需要将检索过程限制在特定的字段中,即字段限制检索。不同的联机检索系统,有不同的限定检索方法。DIALOG系统基本索引字段的限定由“/”与一个基本索引字段符组成,又称为后缀限定,辅助索引字段由字段符“=”组成。

“?SAU=Wang li AND(CS=Wuhan Univ.)”,表示检索出著者是Wang li,著者单位是Wuhan University的记录,即要查找“武汉大学”姓名为“Wang li”的作者的文献。

又如,“?S life(N)insurance AND PY=1999”,即要查找“1999年”出版的关于“人寿保险”的资料。

尽管网上信息实际上不分字段,但大多数网络检索工具都具有类似于字段限制检索的功能,依据此功能,可将查找范围限制在的特定的范围中,如标题(title)、图像(image)、文本(text)、主机名(host)、域名(domain)、链接(link)、统一资源地址(URL)、新闻组(newsgroup)、电子邮件(E-mail)等。

(5)短语检索(phrase search) 短语用“”表示,检索出与“”内容形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”(exact search)。

(6)括号检索(parentheses) 用于改变运算的先后次序,括号内的运算优先进行。

(7)自然语言检索(natural language search) 即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。如Who is George W.Bush?What is Internet?这种基于自然语言的检索方式又被称为“智能检索”(intelligent search),特别适合不太熟悉网络信息检索技术的人士使用。支持自然语言检索的有中文的悠游,英文的Alta Vista,Excite,Infoseek,HotBot,Ask Jeeves等。

(8)多语种检索(multilingual search) 提供多种语言的检索环境供用户选择,系统按用户选取的语种进行检索并反馈结果,支持多语种检索的如中文天网,英文Alta Vista,Google等。

(9)模糊检索(fuzzy search) 又称概念检索。当输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。例如,查找“查询”一词时,模糊检索会反馈来包含了“查询”、“查找”、“查一查”、“寻找”、“搜索”等内容的网址。反馈网址的排列,一般是完全符合关键词的在最前边,其次是相近的。现在大多数搜索引擎都有这种功能,只是模糊的程度不同。

(10)区分大小写的检索(case-sensitive) 输入时,如果用户的检索式用小写字母表示,搜索工具既匹配大写又匹配小写,如china,将检索出china(瓷器),China(中国);但如果用大写字母表示,搜索工具认为用户指定了只要大写,就只会查找那些与用户键入的输入形式完全相同的结果,如China,只检索出China。Alta Vista等搜索引擎支持区分大小写的检索。

其他的检索技术还有:BEFORE(指定该运算符左边的词必须出现在右边的词之前),AFTER(指定该运算符左边的词必须出现在右边的词之后),只有少数几个搜索引擎支持BEFORE,AFTER运算;加权检索(term weighting),如要检索同时含有“苹果”和“梨”的文献,但“苹果”优先,可用此检索方法;音形一致的检索(phoneticsearch);词根检索(stemming),如输入fly,可检索出flies,flying等同根词。

在以上10余种检索方法中,自然语言检索、模糊检索、多语种检索和区分大小写的检索是网络检索所特有的。

在实际检索中,往往将上述多种检索技术混合使用,如要查找标题中含有“网络营销”的资料,可以利用布尔逻辑运算符AND、OR和截词检索、区分大小写检索,并将检索结果限定在题名字段:ti(Web OR Internet OR WWW)AND market*。

5.3.5 搜索引擎的检索步骤

第一步,选择合适的搜索引擎。

一般而言,选择搜索引擎应从以下几个方面考虑:

(1)收录范围。综合性搜索引擎通常以全球的网络资源为目标,而一些中小型的搜索引擎则致力于某一区域或某一专业的资料信息。综合性搜索引擎的搜索范围虽然广泛,但就某一局部、某个专业方面而言,内容未必有中小型搜索引擎来得丰富和完备。综合性搜索引擎通常支持多语种,有的综合型搜索引擎支持的语言竟高达25种之多,可以针对检索需要选用相应语种的搜索引擎。

(2)数据库容量。不同的搜索引擎,其数据库的容量彼此间相差得十分悬殊,现今搜索引擎界的巨无霸AltaVista,其数据库容量号称已达到1.5亿个网页。一般而言,用数据库容量较大的搜索引擎,比较容易获得满意的检索结果。

(3)检索界面。检索界面的简单易用与搜索引擎的功能齐全始终是一对矛盾,一般应选择界面比较友好、颜色搭配适当的检索界面。

(4)更新周期。Internet始终处在不断变化、发展之中,一个好的搜索引擎,除了内容丰富、查找迅速外,还应该对数据库中已有的内容经常进行审核、更新,及时剔除死链、坏链。不同的搜索引擎更新的速度不同,有的搜索引擎的更新周期是以天计算,有的以周计算,有的则以月计算。

(5)准确性。有的搜索引擎在反馈的信息中加入了诸如相关程度之类的指标,将所反馈的信息按与检索词组的相关程度从高到低排列,对检索的准确性帮助很大。

(6)全面性。当检索者在使用搜索引擎时,总希望他所感兴趣的信息通过搜索引擎都能查找出来,但就目前的搜索技术而言,这种要求是很难实现的。

第二步,选择合适的检索入口实施检索。

搜索引擎的检索途径通常有分类和关键词两种。一般形式是,以分类目录为主的搜索引擎几乎都有一个关键词检索框,而以全文检索为主的搜索引擎,除极个别外,也都有一个分类目录索引。

(1)以分类为检索入口的搜索引擎的使用。这种方式主要用于检索者使用搜索引擎只是想大致了解一下某个方面的信息,而不作深入的研究。因为分类目录仅通过浏览的方式就可以集中地查找到某一类的信息,这与传统的信息查找方式十分相似。进入某一个搜索引擎之后,只要按照该系统的分类目录体系,按图索骥、层层深入即可。

(2)以关键词为检索入口的搜索引擎的使用。关键词索引是搜索引擎的基本组成部分。一个搜索引擎可以没有分类目录,但却很少没有关键词检索,只不过有的搜索引擎关键词检索的对象是网页,有的则是网站而已。

进入某个搜索引擎后,一般总是在较显著的位置就可以看到一个关键词检索框。只要在检索框内输入一个检索表达式,然后按一下边上的检索键,检索系统就会开始工作,并很快将检索结果返回。输入的检索表达式,可以是一个单词、几个单词、几个单词的组合,甚至可以是一句普通的问话等等。不同的搜索引擎对检索表达式的构成有着不同的要求,同一个检索表达式运用于不同的搜索引擎,返回的检索结果也不尽相同。因此,构造一个目的明确、针对性强,且能被系统识别的检索表达式,是使用关键词检索能否取得良好效果的关键。

5.3.6 搜索引擎的检索策略与技巧

1.分析限定检索的主题

要确切了解所查询的目的和要求,确定需要的信息类型(全文、摘要、名录等,文本、图像、声音)、查询方式(浏览、分类检索、关键词检索)、查询范围(所有网页、标题、新闻组文章、FTP、软件、中文、外文)、查询时间(所有年份、最近几年、最近几周、最近几天、当天)等。

2.选择合适的检索工具

各种搜索引擎在查询范围、检索功能等方面各有千秋,不同目的检索应选择不同的搜索引擎。选择合适的检索工具主要从工具的类型、收录范围、检索问题的类型、检索具体要求等方面综合考虑。一般来讲,如果用户希望获得关于某个问题的广泛性信息,那么最好使用像Yahoo!这样的目录式搜索引擎,而要获得关于该问题的细节性信息,则要利用像Alta Vista这样的关键词检索工具。表5-1列出了在不同检索目的下,搜索引擎的最佳选择。

表5-1 信息类型与搜索引擎的匹配

img69

评价和介绍搜索引擎可利用英文站点:搜索引擎跟踪http://www.searchenginewatch.com来进行。

3.抽取适当的关键词

应尽量选专指词、特定概念或专业术语作关键词,避免普遍词和太泛指的词。像计算机、互联网、中国、世界等词,太多太泛,用于作关键词,会反馈数以万计的检索结果,失去检索意义,被称为“禁用词”,现对关键词的选择提出以下建议:

(1)使用名词或物体作关键词:

(2)检索式中使用2~3个关键词;

(3)使用截词检索(可检索出词根相同的词或同一词的单复数形式),如film*;

(4)通过OR连接同义词、近义词、相关词或同一术语的不同表达方式,如Internet OR Web OR www OR;

(5)对专有名词,如人名、地名、机构名,使用大写字母指定检索如United States;

(6)对固定短语,用“”括起进行短语检索,如“World Wide Web”,以提高检索的精度;

(7)用括号将各个概念分开,如(internet OR Web)AND(search*OR retrieval*)。

4.正确构造检索式

构造检索式时,要充分利用搜索工具支持的检索运算(网上一流的搜索引擎几乎都支持布尔逻辑检索)、允许使用的检索标识、各种限定,这是进行有效检索的基础。

许多搜索引擎都提供简单查询和高级查询,建议使用后者。如组合使用逻辑运算符AND(+)、NOT(-)、双引号、使用日期与语种限定,可使检索结果控制在一定范围内。OR可能是用处最小的。因为它检索出的信息太多,有许多网上服务器甚至不对带有这种运算符的请求进行加工,但当检索表达式有两种或两种以上的表达方式时,一般可用OR。充分利用进阶检索,即某些工具提供的Refine,Search within these results等功能,在前一次检索产生的结果基础上作进一步的检索。如可在“Refine”检索框内继续增补检索词或修改检索式,使检索范围缩小。

表5-2是对“information”与“retrieval”两个词,使用不同的检索技术来表示不同的检索需求,这一实例便说明检索式不同,检索结果便会有很大差别。

表5-2 检索式与检索结果的比较

img70

5.及时调整检索策略

(1)扩大检索范围 当检索结果为零或检索结果太少时,就需要扩大检索范围。

使用同义词、近义词或相关词。或逐渐减少最不重要的概念词,或使用较普遍的词,或改用上位词。使用同义词或相关词,用布尔逻辑操作符OR连接关键词。

使用截断技术。可检索出以某几个字母开头的所有单词,某词的单复数形式,同根词。

利用某些搜索引擎的自动扩检功能进行相关检索。如某些搜索引擎在检索结果页面上有“More Like This”键,或“更多结果”或“相关结果”键,在此可获得与检索式相关的一些推荐性网址,而这些站点可能是上述检索策略不能直接检索出来的结果,借此扩大与丰富检索范围。

使用多个搜索引擎。因为没有哪两个搜索引擎是完全相同的,每一个搜索引擎都有自己的检索特色,都有自己的索引,都以不同的方式在网上搜寻网址,出现不同的检索结果丝毫不足为奇。从不同的搜索引擎的检索结果中,可以综合出最符合要求的答案。

使用元搜索引擎。当用户已知检索词,但对独立搜索引擎不熟悉或想节省几个搜索引擎之间的转换时间,可选用元搜索引擎作试探性的起始检索,了解网上是否有相关信息以及在哪里可找到这些信息,再利用独立搜索引擎进行更全面、深入的检索。

(2)缩小检索范围 检索时,如果得到的检索结果太多,且有许多不相关的信息,则需要缩小检索范围。

①使用逻辑“与”。用布尔逻辑操作符AND(+)连接几个关键词或增加概念词。

②使用逻辑“非”。用布尔逻辑操作符NOT把不需要查找的关键词排除在检索结果之外。

③位置算符。使用邻近操作符把检索范围缩小到网页的某个部分。

④固定词组检索(短语检索)。

⑤使用缩写与全称。若只用词组的缩写进行检索,会把那些和主题不相关的文献检索出来,产生误检,而使用全称则不会出现这一情况。

⑥利用某些搜索引擎的进阶检索功能(Refine,Revise,Searchagain,二次检索),限制查询范围。搜索引擎提供的范围限制类型大体有:类目的分类范围、地域范围、时间范围、网站类型范围(Web,Newsnet,Telnet,FTP,Gopher等)及其他特殊类型范围,如域名后缀(.com,.gov,.org)、文件类型(文本、图形、声音等)。有些范围限制实现的方法不同,有些是通过在关键词前加特殊的符号,有些是通过下拉菜单实现的。

6.加快检索速度,节省检索时间与费用

(1)直接进入相关站点 检索不一定每次都要从搜索引擎入手,可以利用平时积累的有用的网址,这就需要我们注意搜集常用的网址,或者用浏览器的“书签”功能,将经常访问的网站加入“收藏夹”对其进行保存,再次使用时,直接点击便可进入,省去大量输入网址和利用工具搜索的时间。

另外,还可以利用网上书签。在互联网上,有许多网站提供已整理好的书签,有了它,你就不必去自己找了。还有一些网站提供存放书签的地方,有了它,你就不必担心系统将书签丢失了。网上书签是随时随地的个人书签。不论你是在上班还是在家中,不论你是在本地还是出差在外,也不论你是用自己的电脑还是在网吧上网,你都可以方便地调用你的书签。如碧海银沙网上书签(http://bookmark,silversand.net)便是个可以保存书签的地方,使用时,只需申请一个账号便可使用。申请非常简单,在该网站页面的左面“申请”选项,填上你所选定的用户名和密码,再写上联系用的E-mail地址,点击“申请”就可以了。有的书签具有导入/导出的功能,可以与浏览器进行交换,书签具有添加、删除、修改、移动及排序等功能,并且把这些功能直接列在了书签弹出窗口的下面,操作相当方便。

(2)多开几个窗口 多打开几个浏览窗口同时浏览或检索,可相对缩短等候时间,降低检索费用。方法是:点击internet Explorer中“File”菜单内的“New window”以打开新窗口,在不同的窗口中输入不同的地址,同时进行检索或浏览。

(3)只利用文本方式传输 网上多媒体信息,尤其是图像信息数据量大,传输速度慢,为提高检索速度,可以只选用文本方式传输而不传输图片。方法是:在Internet Exploret中“查看”菜单下选择“Internet选项”,再选“高级”,然后清除“显示图片”选项。这样,所有的图片不再显示,而只显示文字信息。有的网站同时提供文本与多媒体两种版本(如后面要讲的中国资讯行)。

(4)使用脱机工作方式阅读 点击internet Explorer中“File”菜单内的“脱机工作方式”,暂时中断网络连接,节省网络通讯费。

(5)使用网络复制,进行适时拷贝或打印 将网站的内容下载到计算机或软盘上,既可以节省时间与费用,也为了省去日后搜索的麻烦,还可以避免有价值信息的消失。

(6)就近选择站点 如果一种网络资源有几个网站,选择一个离你最近的,可使检索速度加快。选择国外网站的国内镜像站点,还可以节省国际通信费。

(7)择时检索 每天9∶00~24∶00为上网高峰期,要避开这一时间段,而凌晨速度则比较快。

7.灵活解决检索中出现的问题

(1)域或服务器查找失败(Domain name server lookup failed) 表示浏览器不能与该域或服务器连接,或服务器找不到这个网址。应确保域名没有拼错。

(2)没有反应(No response) URL不正确。

(3)文件找不到(File not found) 该页不存在,或已移到另一地址。

(4)服务器出错或服务器太忙(Server error or server busy error) 试图连接的计算机处于脱机状态,或毁坏、或太忙。可稍后再试。

(5)不能连接站点(Can’t connect the website) 站点不存在或URL不正确。将URL中字母大小写互换,或将URL中第一个斜线后面的部分去掉。

(6)没有命中文献(No Hits) 需要调整检索策略(扩大检索范围或减少检索限制)。

总之,只要掌握正确的方法,经常实践,一定能从网上获取许多有价值信息。当然,网上检索也有其局限性。因特网并非无所不包,无所不能,而且通过检索获得的信息并非都是正确、可靠的。由于网上信息具有动态性、多变性,今天能看到的信息也许明天便不复存在,要注意对有价值信息的保存。

5.3.7 常用搜索引擎简介

1.Google概述(http://www.google.com)

Google是由Larry Page与Sergey Brin于1998年9月在美国硅谷设计的搜索引擎。目前已有Yahoo、AOL、网景和中国的网易等知名网站在内的全球150多家公司采用了Google的搜索引擎技术。Google中文搜索引擎在某种程度上可以说是目前收录范围最广、功能最强、精确度最高的搜索引擎之一。

(1)功能与特点 Google搜索引擎是一个利用蜘蛛程序以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而提供面向网页的全文检索服务的互联网信息查询系统,它主要有以下特点和功能:

①采用了先进的网页级别技术。这种技术是指依据网络自身结构,根据互联网本身的链接结构对相关网站用自动方法进行分类,清理混沌信息,整合组织资源,使网络井然有序。这种技术打破了传统网络分类概念,它是基于网页的自然结构,即任何网页均可直接地链接到另一网页,而无须任何媒介。从某种意义上说,该链接结构自动地推动了互联网的民主化,消除了等级,从而使信息与观念在站点与站点之间畅通无阻。

②在同一个界面下,可以定制语言和到何种网站中进行搜索。因为Google将多国语言的搜索引擎整合到一个界面,选择非常方便。它不像其他搜索引擎那样,要搜索不同语言版本的网站,必须先进入相应语言的网站。目前,Google已可以对包括中文在内的26种语言进行搜索。

③搜索结果通常会比其他搜索引擎来得更准确。对于现实中许多不熟悉搜索引擎复杂系统的使用方式和规则的检索者,例如,不知道搜索引擎与分类目录的差别,不懂使用逻辑运算符,只会用单一关键字查询等的这些情况,Google都替他们考虑过。当输入关键字搜索时,它不仅会去搜索包含关键字的网页,同时还会搜索和这些网页具有高相关性的网页。因为Google具有超链分析的功能,即根据网页间彼此的链接关系,把一篇网页被链接数目的多寡视为相关性的一项指标,并根据相关性的高低排列出次序,以确定该网页的质量或重要度。

④在查询时,Google能够通过多个关键字,将只提供包含所有关键字的网页,其正文或指向它的链接包含所输入的所有关键字。而且,Google还能遵从关键字的相对位置,对网页关键字的接近度进行分析,按照关键字的接近度区分搜索结果的优先次序。在显示的结果中,只摘录包含查询字串的内容作为网页简介,查询字串高亮度显示。

⑤Google是目前收集亚洲网站最多的搜索引擎之一,对中文的支持性强。相对于许多国内研发的中文搜索引擎,Google不但大大提升了中文搜索引擎的相关性,还更好的实现了检索字串与网页中文字的语义上的匹配,从而提高了检索效率。例如,它支持中英文混合检索词查询,比如“甲A”,“F1一级方程式”等;它支持多种编码,比如“朱镕基”的“镕”字不在GB2312字符集中,但存在于GBK编码中,许多传统搜索引擎由于不支持GBK,便无法查到相关的网页,而Google则可以直接找到;此外,对于所输入的中文关键字,Google不仅会去搜索中文简体网站,还会找出相应的中文繁体网站,甚至是日文网站。

⑥Google的“手气不错”、“网页快照”和“类似网页”等功能。Google和一家名为Realnames(简称RN)的网络关键词管理公司有合作关系,其网络关键词是指可以链接到网站的商标、产品、服务或者公司名称,在网络中起注册商标的作用。关键词与Google推荐的网站匹配时,在搜索结果中就会显示公司“RN”标记。例如,查询的目的是想进入一个特定的网站(如公司网站),只知道和该网站有关的一些局部信息(如该公司的产品等),这时,可通过输入产品名称和尽可能多的关键字来试试“手气不错”。

“网页快照”是指Google保存应急网页内容的功能。它的作用是:当所要检索的网页在实际上可能已经过时或者不存在了,而由于搜索引擎数据库的更新需要一定的时间,无法跟上那些更新速度快的网站,或是有时碰到网页服务器暂时中断而找不到服务器,这时快照内容便可暂解燃眉之急。此外,其速度也比常规链接快,但信息可能不是最新的。

(2)检索方式 在地址栏里输入WWW.google.com,打开Google首页,它会根据所使用的浏览器自动出现简体中文界面,分为基本查询和高级搜索两种。

①基本查询。Google简洁、鲜明的界面中间便是要求输入关键字的对话框,其右边是两个小键:“高级搜索”和“使用偏好”,其中“使用偏好”可以选择目前26种不同的语言,第四行是“Google搜寻”和“手气不错”。再下面为Google大全、搜索建议等。

Google具有独特的语法结构,它不支持“AND”、“OR”和“*”等符号的使用,它自动带有“AND”的功能,当需要使用类似功能时,只需在两个关键词之间加空格即可,如“武汉广州”,由于不支持“OR”查找,如需获得两种不同的信息,则需要分开检索。

Google不支持“词干法”和“通配符”等,要求所输入的关键词完整、准确,一字不差,才能得到最准确的资料。要获得最实用的资料,并逐步缩小检索范围,则需要增加关键词的数量,或者在想删除的内容前加“-”号(在减号前需加一空格)。

②高级搜索。对于某些专用语的查询,可以点击“高级搜索”,例如查找名言警句等专有名词时,要在输入的专用词语上加双引号。此外,Google支持诸如“-”、“+”、“=”、“,”等标点符号作为短语连接符,并将之作为专用语的搜索处理。

Google忽略“http”和“com”等字符,以及数字和单字,因为这类字词过于频繁出现于大部分网页,既无助于查询,还大大降低了搜索速度。因此需用“+”将这些字词加于搜索项(“+”前必须留一空格)。如查“Episode I”,需要输入“Episode+I”。

Google支持如冒号等的某些特殊操作符,并具有相应的特殊功能,例如查询:“link:〈网址〉”,就可以得到所有链接到该网址的网页(该方法不能与关键词查询联合使用)。

③查询结果。提交查询后,系统根据检索词和查询选项返回查询结果。Google可以自定义每页显示的结果数量,选择10,30或100,Google默认值是10。Google会根据其网页级别,对结果网页排列出优先次序。

Google检索窗口如图5-2所示。

img71

图5-2 Google检索窗口

2.搜狐概述(http://www.sohu.com)

(1)简介 搜狐公司成立于1996年8月,是由公司创办人张朝阳博士在美国依靠MIT媒体实验室主任尼葛洛庞帝先生和美国风险投资专家爱德华·罗伯特先生的风险投资的支持下创办的。而后进一步得到包括美国英特尔公司、道琼斯公司、晨兴公司、IDG公司、盈科动力、联想等世界著名公司的风险投资。2000年7月12日,搜狐公司在美国纳斯达克挂牌上市(NASDAQ:SOHU),从一个国内知名企业发展成为一个国际品牌。2000年9月14日搜狐收购国内最大的年轻人社区网站ChinaRen,建立中国最大的门户网站。

搜狐公司从中国首家大型分类查询搜索引擎,发展成为最受用户喜爱的综合门户站点。1999年至今,搜狐连续推出“新闻中心”、“体育”、“财经”、“IT”、“汽车”、“女人”、“生活”、“教育”、“求职”、“游戏”、“搜狐商城”等17个内容频道,为广大网民提供网上社交、学习、生活和购物的理想场所,成为中国网络用户进入互联网的最佳渠道。2000年,搜狐着手建设社区和通讯类产品:电子邮件、手机短信、WAP服务、邮件组、闪电邮件以及近20个城市的地方版,构成搜狐全面完善的产品体系。随着ChinaRen的成功并购,ChinaRen校友录和主页大巴进一步加强了搜狐在社区方面的实力。搜狐公司于1998年推出中国首家大型分类查询搜索引擎,经过数年的发展,每日浏览量超过1000万。到现在已经发展成为中国影响力最大的分类搜索引擎。累计收录中文网站达150多万,每日页面浏览量超过800万,每天收到2000多个网站登录请求。

(2)检索途径 搜狐的检索途径有两种,分类检索和关键词检索。搜狐“分类目录”共有18大类,5万多不同层次的子类目,几乎涉及所有行业或领域,分层目录系统使得用户检索变得更加容易。用户检索信息只需按分类目录逐级下查,最终检索到所需信息。除分类检索外,搜狐还提供方便的关键词检索。无论是在主页,还是在分类搜索页面、高级搜索页面,都可以看到搜狐的关键词搜索输入框,用户只需把自己所要检索的内容的关键词键入该输入框,单击“搜狐搜索”按钮,即可进行检索。

(3)检索方法和技巧 搜狐支持的运算符有—、&、/、()、空格。使用&或空格来指定输入的检索词必须出现在检索结果中,即逻辑“与”关系,使用“-”来限定某检索词必须不出现在检索结果之内,使用“/”来指定“/”两边的查询串中至少有一个一定出现在检索结果中。使用()来指定()内的表达式为一个整体单元。

(4)检索结果 搜狐中文搜索引擎返回的检索结果有5方面,网站、网页、新闻、MP3、商机企业,用户可根据需要在这5个分类中任意切换、选择。

(5)其他功能

搜狐直通车:用户只需输入关键词,单击“直通车”按钮,即可直接进入与关键词相关网站。

搜狐黄页:除了提供传统黄页的基本功能,还具有传统黄页所没有的功能,如在线修改企业信息、发布产品和商情等。

搜狐检索窗口如图5-3所示:

img72

图5-3 搜狐检索首页

3.常用中外文搜索引擎

(1)中文搜索引擎

搜狐   http://www.sohu.com

网易   http://www.yeah.net

雅虎中文 http://cn.yahoo.com

百度   http://www.baidu.com.cn

搜索客  http://www.cseek.com

悠游   http://www.goyoyo.com.cn

新浪   http://www.sina.com.cn

常青藤  http://www.tonghua.com.cn

若比邻  http://www.robot.com.cn

北极星  http://www.beijixin.com.cn

网典   http://www.wander.com.cn

天网   http://e.pku.edw.cn

(2)西文搜索引擎

http://www.yahoo.com

http://www.infoseek.com

http://www.excite.com

http://www.lycos.com

http://www.altavista.com

http://www.metacrawler.com

http://www.profusion.com

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈