首页 理论教育 文献检索中常用的检索方法

文献检索中常用的检索方法

时间:2022-05-14 理论教育 版权反馈
【摘要】:广义的信息检索包括信息的存储和信息的检索,往往又称为“信息存储与检索”。信息检索已成为当今科学研究、经济活动和社会生活中的一个组成部分,并发挥着越来越大的作用。信息检索语言是决定检索系统中大量信息排检序列的关键。信息检索技术主要研究信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。

17.2 信息检索基础

17.2.1 信息检索的基本概念

信息检索(information retrieval)是指信息的有序化识别和查找的过程,即人们根据特定的信息需求,采取科学的方法,应用专门的工具,从浩瀚的信息海洋中迅速、准确地获取所需信息的过程。

广义的信息检索包括信息的存储和信息的检索,往往又称为“信息存储与检索”(Information Storage and Retrieval)。信息的存储主要是在一定专业范围内的信息选择基础上进行信息特征描述、加工并使其有序化,或建立数据库,以便在检索时借助一定的设备与工具,从中查找出所需的信息。存储是检索的基础,检索是存储的逆过程。在现代信息技术的条件下,信息检索从本质上讲,是指人们从任何信息系统中高效、准确地查找到自己所需的有用信息,而不管它以何种形式出现,或借助于什么样的媒体,此即狭义的信息检索。一般来说“信息检索”主要指的是后者。

早期的信息检索,人们主要根据文献的特征,以手工方式实现。以计算机为核心的信息技术,开辟了信息处理与信息检索的新纪元,计算机从处理数字信息发展到处理字符信息、静态和动态的图像信息乃至声频视频信息等,不仅拓展了信息检索的领域,丰富了信息检索的内容,而且极大地提高了信息检索的速度。近年来,互联网给信息检索工作带来了一个全新的发展空间,信息检索的对象已从过去相对封闭,由独立数据库集中管理的信息内容扩展到如今开放、动态、更新更快、分布广泛、管理松散的网络内容;网络信息检索从一开始的一般人难以学会的标准化检索发展到现在,已经成为简单的、大众化的行为方式了。信息检索已成为当今科学研究、经济活动和社会生活中的一个组成部分,并发挥着越来越大的作用。

17.2.2 信息检索语言

简单地说,检索语言就是一种检索标志系统,是根据检索需要而创建的一种人工语言。它应用于各种手工和计算机信息检索系统,它的实质是表达一系列概括文献内容的概念以及概念之间相互关系的标志系统。我们在建立一个检索系统,对信息、文献进行存储时,需要按照一定的语言来描述信息、文献的外部特征和内部特征;同时,信息用户在使用检索系统时,也要按照一定的语言来表达他的信息文献需求,那么,这种把信息存储与检索联系起来、把检索系统的建立者与使用者联系起来以便取得共同理解的语言就叫检索语言,或叫做检索标志系统,又称为信息存储与检索语言、标引语言、索引语言等。

信息检索语言是决定检索系统中大量信息排检序列的关键。它可以是一系列概括信息内容的概念及其相互关系的标识系统,如分类号码;也可以是自然语言中选择出来并加以规范化的一套词汇,如主题词表。常用的有下列三种。

1)分类检索语言

分类检索语言是以学科分类为基础,结合信息内容特征的一种直接体现知识分类概念的检索语言。它采用概念逻辑分类的一般规则进行层层划分,构成具有上位类和下位类之间隶属关系、同位类之间并列关系的概念等级体系。体系分类语言也叫分类法或分类表。

分类检索语言的“语词”就是它的类目及相应的分类号,分类号主要用于明确各类目之间的先后顺序。

分类检索语言既可以用于期刊论文的分类,也可以用于图书等其他文献信息的分类。国内外有多种广泛使用的著名分类检索语言,如美国《国会图书馆图书分类法》(Library of Congress Classification,LC)、《国际十进分类法》(Universal Decimal Classification,UDC)、《杜威十进分类法》(Dewey Decimal Classification and Relative Index,DC或DDC)、《中国图书馆分类法》(中图法)等。《中国图书馆分类法》是我国使用最普遍的一种分类检索语言。

2)主题检索语言

主题检索语言是用表达文献主题内容的词语作为标识并且按字顺排检的信息检索语言。应用较多的是叙词法和关键词法。

(1)叙词法。叙词(Discriptor)又称主题词,它是以规范化为基础,以揭示事物对象及其特征为出发点的信息检索语言,其主要特点是:叙词是经过严格规范化的词或词组,保证语词与概念的一一对应,可用于概念组配检索。叙词一般由叙词表控制,常用的叙词表有《汉语主题词表》、《中医药主题词表》和美国国立医学图书馆(National Library of Medicine,NLM)的《医学主题词表》(Medical Subject Headings,MeSH),其中MeSH词表是最具代表性的叙词表,也是医学领域内使用最多的一种主题检索语言。MeSH用于标引和揭示医学文献的主题内容,对于提高医学信息检索的准确率具有十分重要的意义。

(2)关键词法。关键词(keyword)是指出现在文献的题名、摘要或全文中,能够反映文献主题内容的或者能被作为检索入口的专业名词或术语。关键词直接取自原文,不作规范化处理,可以提供更多的检索入口,适合计算机系统自动编制索引的需要。但由于词语没有规范化,对自然语言中大量存在的同义词、近义词、拼法变异词未标明其等同关系,从而导致同一主题文献信息因为用词不同而分散,容易造成漏检和误检。

3)代码检索语言

代码检索语言是用事物的代码作为标识系统的索引语言,如美国《化学文摘》(CA)中的分子式索引、环状化合物的环系索引等。

17.2.3 信息检索技术

信息检索技术主要研究信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索出相关信息资料。一般信息检索技术包括布尔逻辑检索、截词检索、邻近检索和限定字段检索等。

1)布尔逻辑检索技术

布尔逻辑检索是检索系统中应用最广泛的检索技术,即用布尔逻辑运算符来表达检索词与检索词之间逻辑关系的一种检索方法。在检索过程中,检索提问涉及的概念往往不止一个,而同一个概念又会涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:AND、OR、NOT,分别表示逻辑与、逻辑或、逻辑非三种逻辑运算关系,如图17-1所示。

img220

图17-1 布尔逻辑运算符

(1)逻辑与:用AND或*表示,是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为:“A AND B”或“A*B”。检索结果如图17-1(a)所示,图中阴影部分即为同时包含A和B两个概念的命中文献。

(2)逻辑或:用OR或“+”表示,是用于具有并列概念关系的组配。这种组配可以扩大检索范围,提高查全率。例如,检索含有概念A或概念B的文献,可表示为:“A OR B”或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合,如图17-1(b)所示,图中阴影部分为命中文献。

(3)逻辑非:用“NOT”或“-”表示,是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围,提高查准率。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A NOT B”或“A-B”。检索结果如图17-1(c)所示,图中阴影部分即为包含A且排除B的命中文献。

img221

图17-2 检索式(A*B)-C的检索结果

布尔算符的优先执行顺序一般是:逻辑非、逻辑与、逻辑或,但用括号可以规定或改变其执行顺序。三个逻辑算符和括号的配合使用,可将检索词组配成较为复杂的逻辑提问式,以满足复杂概念信息检索的需要。检索式(A*B)-C的检索结果如图17-2中的阴影部分。

2)截词检索技术

截词检索就是把检索词截断,取其中的一部分片段,加上截词符号进行检索,凡满足这个词局部中的所有字符(串)的文献,都为命中的文献。按截断的位置来分,有后截断、前截断、中截断三种类型。

不同的系统所用的截词符也不同,常用的有?、$、*等。分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。例如comput表示computer,computers,computing等。

截词检索也是一种常用的检索技术,是防止漏检的有效工具,尤其在西文检索中,更是广泛应用。截词技术可以作为扩大检索范围的手段,具有方便用户、增强检索效果的特点,但一定要合理使用,否则会造成误检。

3)邻近检索技术

邻近检索又称位置检索,主要是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。主要有相邻位置算符(W)、(nW)、(N),(nN)和句子位置算符(S),用法意义如下:

(1)(W)—With:表示该算符两侧的检索词相邻,且两者之间只允许有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。例如:biological(W)control可检索出含biological control的文献记录。

(2)(nW)—nWords:表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。例如:wear(1W)materials可检索出含有wear materials,wear of materials等的文献记录。

(3)(N)—Near:表示此算符两侧的检索词必须紧密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。例如:information(N)retrieval可检出含有information retrieval,retrieval information的文献记录。

(4)(nN)—nNear表示此算符两侧的检索词之间允许间隔最多n个词,且两者的顺序可以颠倒。例如:computer(2N)system可检出含有computer system,computer code system,computer aided design system,system using modern computer等形式的文献记录。

(5)(S)—Subfield:表示其两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。例如computer(W)control(S)system可检出文摘中含有像“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。

4)字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。检索时,系统只对限定字段进行匹配运算,以提高检索效率和查准率。如PubMed检索系统中字段限定符主要有[AU]限查作者、[AD]限查作者机构、[MH]限查主题词、[MAJR]限查主要主题词、[PT]限查文献类型、[TA]限查特定刊名等。不同数据库和不同种类文献记录中所包含的字段数目不尽相同,字段名称也有区别。在一些网络数据库中,字段名称通常放置在下拉菜单中,用户可根据需要选择不同的字段进行检索。

17.2.4 信息检索效果

检索效果(retrieval effectiveness)是检索系统实施信息检索的有效程度,反映检索系统的能力。检索效果包括技术效果和经济效果。技术效果是由检索系统完成其功能的能力确定的,主要指系统的性能和服务质量;经济效果是由完成这些功能的价值确定的,主要指检索系统服务的成本和时间。克兰弗登(Cranfield)在分析用户基本要求的基础上,提出了六项评价系统性能的指标,即收录范围、查全率、查准率、响应时间、用户负担和输出形式。其中,查全率和查准率是两个最主要也是最常用的指标。

1)查全率(recall ratio)

查全率又称检全率、命中率,是指检出的相关文献数与检索系统中相关文献总数之比。可用下式表示:

img222

2)查准率(precision ratio)

查准率又称检准率、相关率,是指检出的相关文献数与检出的文献总数之比。可用下式表示:

img223

式中a为检出的相关文献数,b为检出的非相关文献数,c为未检出的相关文献数。由此可见,查全率和查准率之间存在着互逆关系。如果检索时所用检索语言的泛指性强,检出的文献多,那么查全率将会提高,但误检率也同时增大,因而查准率降低。如果检索语言的专指性强,查准的文献多,则查准率提高,但漏检率也同时增大,因而查全率降低。所以,欲达到较好的检索效果必须兼顾二者,不能单纯追求其中某一个评价指标。实践证明,在通常的检索过程中,查全率在60%—79%之间,查准率在40%—50%之间,检索效果较佳。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈