首页 理论教育 网信息检索策略与技巧

网信息检索策略与技巧

时间:2022-03-09 理论教育 版权反馈
【摘要】:要想提高因特网信息的查全率,尤其是查准率,提高检索效率,就必须遵循以下的检索策略和技巧,从表6-4可以看出:提高“查全率”的途径主要有:采用“模糊”查询;少用“AND”组配;多用“OR”组配;降低检索词的专指度; “利用词等级”关系也可提高查全率。③关键词是未经规范化的自然语言。即查找“长安奥拓车”或“江南奥拓车”的销售信息。在检索时若只选择其中一个词进行检索,必然造成漏检。

6.2.3 Internet网信息检索策略与技巧

要想提高因特网信息的查全率,尤其是查准率,提高检索效率,就必须遵循以下的检索策略和技巧,从表6-4可以看出:

表6-4 提高查全率、查准率的策略、技巧参考表

img135

提高“查全率”的途径主要有:采用“模糊”查询;少用“AND”组配;多用“OR”组配;降低检索词的专指度; “利用词等级”关系也可提高查全率。比如,族词检索、同类词检索、上位词检索、同义词检索等。

提高“查准率”的主要途径有:多用“精确”查询;多用“AND”组配;提高检索词的专指度或采用下位词检索;利用“NOT”剔除;限制检索范围;多用短语;区分大小写;多用“高级”检索等。

(1)使用“关键词”(含特定的词汇和专业术语)检索时,关键词越具体、专指,查准率就越高。而所谓关键词(Keywords)就是自然状态的词语,属非受控词汇;是文献作者在标题、摘要、正文中所用的原词;是对表征文献主题内容具有实质意义的语词,或对揭示和描述文献主题内容来说是重要的、带关键性的那些语词。关键词选取的技巧性是很强的,因此,选取准确的关键词,对提高检索命中率影响较大。关键词虽使用直观、灵活、简单、方便,但也存在一些不足:

①由于直接采用自然语言的语词作关键词,对自然语言中大量存在的等同关系不加规范统一,也不显示等同关系,造成同一主题的文献记录分散,因此在检索时必须用表达该主题的许多同义词去查找,才可能查找到较多的文献。

②关键词不显示词语之间的等级关系和相关关系,同族词的分散,导致其族性检索功能较差,容易使用户检索受挫或漏检。

③关键词是未经规范化的自然语言。因此,检索人员除选择正确的关键词外,还必须注意英文单词词根、词尾和词性的变化,以及检索语言之间的语义关系,防止漏检或误检等情况产生。

(2)使用主题词(Word)检索时,能提高查全率和检索的效率。主题词是人工语言,即规范化的自然语言,经有关专家收集并按一定的要求和方式加以人工控制,是反映文献内外特征的规范化的词汇或短语。

由于关键词使用灵活,符合读者习惯,检索时能达到任意的专指度和泛指度,因而深受读者欢迎,但由于概念的语词表达方式上的差异,影响文献的查全率,使用受到一定的局限。而经过规范化处理的主题词,可在一定程度上提高检索效率,但主题词与用户的习惯用词可能存在一些不同,且不易掌握,使用受到一定的影响。另一方面由于报道时差的关系,一些新出现的专业词语可能未及时收录到主题词表中,造成标引滞后,检索时无法使用相应主题词。因而在检索时应根据实情,扬长避短,优化策略,提高效率。

(3)使用布尔逻辑检索符。

①完全布尔逻辑检索符(AND、OR、NOT)必须大写。

②简化布尔逻辑检索符(+、−、&、|、空格)必须用半角;而且在主页检索时才能使用,不可在高级检索中使用。

③+单词,即加号紧挨单词放置,说明记录中有某词;−单词,即减号紧挨单词放置,说明排除带该词的记录。比如:“贾平凹小说 –中篇”即搜索关于“贾平凹小说” ,但不含“中篇”的资料。特别注意:减号前必须留一空格。又如查找“大学 +成都” ,即与“成都”有关的所有大学的资料,加号前也必须留一空格。

④在构造检索式时,一定要注意半角的括弧的使用,它体现了一个检索概念的完整性及运算的优先顺序。如(长安奥拓车OR江南奥拓车)AND销售。即查找“长安奥拓车”或“江南奥拓车”的销售信息。

(4)使用双引号进行精确检索,能提高查准率。如果检索词是一个词组、短语、专用名词,最好是将它们用“半角”的双引号括起来,比如“成都大学” ,这样可以得到少而精确的结果。否则索引擎就会将“成都”或“大学”等词也搜索出来。

(5)巧用截词符“*、?”。

①“*”表示代表多个字符;巧用“*”截词符,可大大简化对带有不同后缀(s,ing,ed等)的词的检索,并可自动收集某些相关的复合词。也可将“*”号放在单词中间,如用lab*r可检索labor和labour。比如,输入著者Smith,可将所有以Smith为姓的作者的文章都检索出来;输入Smith A *,可将所有以Smith为姓,名首字母为A的作者的文章都检索出来。

②“?”代表一个字符。比如,输入fib??,可检索出fiber,fibre等。

(6)正确使用位置运算符“N” 、“W”。

对于EBSCOhost数据库,位置运算符有2个:“N”和“W”。位置运算符用于计算检索词之间能容纳的最大单词数,“N”或“W”与阿拉伯数字组配,“N”只限定检索词之间的单词数,而不限制检索词的顺序,“W”既限定检索词之间的单词数,又要求记录用词顺序与输入完全一致。如输入“tax N3 reform”,则表示“tax”与“reform”两词之间最多有3个词,先后顺序无所谓。输入“law W1 legislative”,表示“law”与“legislative”两词之间最多有1个词,前后顺序不能颠倒。

(7)要正确理解“词与词的关系” ,及时调整检索策略。

①要考虑到“等同词”的正确使用。如:全称、缩写、简称、学名、俗名、简繁体、不同语言说法、不同地区说法(美语英语,港台大陆)、不同时代说法(古今、代差)、别称、全角半角、大写小写等。比如:简称“沪” ,全称“上海” ;俗名称“西红柿” ,而学名称“番茄” ;台湾称“猫熊” ,大陆称“熊猫” ;台湾称“镭射” ,大陆却称“激光” ;译名不同的美国小说“飘” ,又称“乱世佳人” “Gone with the wind” “随风而逝”等。在检索时若只选择其中一个词进行检索,必然造成漏检。

②还应考虑词的“等级关系” “广义词” “狭义词” “相关词”“多义词” “近义词”等。并能根据检索情况,正确利用“上位词”“下位词” “相关词”等进行扩检、缩检。如:“植物”是“花”的上位词,而“鲜花”则是“花”的下位词。而“海浪发电”同“潮汐发电” ,这就是词的相关关系。 “经济渗透”与“经济扩张”则是近义词。

(8)在“清华(CNKI)” “维普(VIP)”和“人大复印资料”全文数据库的网络检索系统中,其逻辑符也用“*”表示, “与” 、“+”表示“或” ,且支持半角定界符()。EBSCOhost数据库也支持“and”(逻辑与)、“OR”(逻辑或)、“NOT”(逻辑非)三种布尔逻辑运算符,并且逻辑运算符的字母大小写均可。

(9)充分利用检索工具提供的各种选项。

①利用各搜索引擎提供的选项。

a.搜索引擎的选项有:网页、网站、图片、地图、音乐、视频、博客、股票、新闻、相关目录、相关网站、简单搜索、高级搜索、在检索结果中查询等,如图6-4所示。

img136

图6-4 Google搜索引擎界面

b.还可使用“域”搜索,即所谓“域”就是指期望包含关键词的范围。域搜索可以在Link、Site、URL、Title 或ALT上执行。使用时域名必须是搜索引擎能够认识的,如Link、Site、URL、Title、ALT等。域名要用小写字母,其后紧跟冒号“:”。

c.使用收藏夹,搜索引擎的收藏夹往往在网页的顶部,使用收藏夹可以缩小扫描范围,加快速度,提高检索效率。

②充分利用各数据库提供的检索工具上的各选项和链接功能。

“清华(CNKI)” “维普(VIP)” “万方” “人大”等网上全文数据库的选项有:有初级、标准检索、高级、专业、传统、二次检索、引文检索、分类、刊名等方式;有精确、模糊、前方一致等匹配形式;有篇名、著者、关键词、机构、刊名、第一作者、分类号等检索入口,还有检索的范围、起止时间、排序方式等选项。利用这些选项人们可以轻松地构造比较复杂的搜索模式进行更为精确的查询,并且能更好地控制查询结果的显示,如图6-5所示。

img137

图6-5 CNKI数据检索界面

b.EBSCOhost数据库允许进行“限定条件”(Limiters)和“扩展条件”(Expanders)的设置,可以灵活地对检索结果进行“全文、参考文献、出版日期、出版物类型、文献类型、页数”等方面的限制。特别是出版日期,EBSCOhost的很多期刊允许检索者在检索时将出版时间提前数月甚至半年。这也是该数据库最具特色的特点之一。

在EBSCOhost数据库检索界面上有高级检索(Advanced Search)、基本检索(Basic Search)、关键词检索(Keyword Search)、出版(Publications)物检索、主题(Subject)检索、索引词(Indexes)浏览检索、引文(Cited References)检索、图像(Images)检索等辅助检索方式。

c.要重视和掌握好数据库中有关内链接的特殊作用。如:清华(CNKI)数据库中的“作者、英文作者、作者单位、文献出处、中文关键词、英文关键词、参考文献、共引文献、二级参考文献、读者推荐文章、相似文献、相关研究机构、相关文献作者、文献分类导航”等内链接,以及维普(VIP)数据库中的“关键词、分类号、相关文献、栏目信息”的内链接。通过内链接功能帮助读者查找到具有某种相同特质的文献,即顺“链”索骥,为读者深入研究提供检索的快速途径,如图6-6所示。

(10)对返回的检索结果,应根据实际情况,进行客观评价,即时调整检索策略,以进一步提高检索效率。

①客观评价的三个主要指标。

img138

查全率主要受文献学科属类的分散性及文献标引质量的影响,以及检索人员技巧高低的影响。

img139

img140

图6-6 VIP数据库内链接功能

查准率主要受检索中检出一些与检索课题需求无关的文献数量的影响。

c.所耗成本。包括所耗“时间”成本和支付的各种“费用”成本。比如,所查资源的购买、更新、维护、设备占用、人力等成本支出。

②检索策略的调整过程,如图6-7所示。

img141

图6-7 检索策略调整过程示意图

即时调整检索策略是获取理想检索效果的重要环节和技巧之一。

a.当检索出的文献太多,就应缩小检索范围,尽量提高其查准率。多用“精确”查询;多用“AND”组配;提高检索词的专指度或采用下位词检索;利用“NOT”剔除;限制检索范围;多用短语;区分大小写;多用“高级”检索等。

b.当检索出的文献太少,或检出的文献为零,就应扩大检索范围,尽量提高其查全率。比如采用“模糊”查询;少用“AND”组配;多用“OR”组配;降低检索词的专指度;还可利用“词等级”关系提高查全率。如,族词检索、同类词检索、上位词检索、同义词检索等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈