首页 理论教育 全部字段检索文献最多吗

全部字段检索文献最多吗

时间:2022-03-05 理论教育 版权反馈
【摘要】:计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。下面介绍几种常用的信息检索技术的方法。这种组配可扩大检索范围,提高查全率。不同的检索系统其截词检索的表示是不同的。截词检索方式主要有以下几种:后方截词,也称前方一致检索。可查出compute,computer,computing,computation,computerization等。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词

4.3.2 信息检索技术

计算机信息检索过程实际上是将检索提问词与文献记录标引词进行对比匹配的过程。为了提高检索效率,计算机检索系统通常采用一些运算方法,从概念相关性、位置相关性等方面对检索提问实行技术处理。下面介绍几种常用的信息检索技术的方法。

(1)布尔逻辑检索

在实际检索中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。常用的逻辑算符主要有以下几种:

●逻辑“与”

逻辑“与”(用AND或“*”表示)是一种用于交叉概念或限定关系的组配,它可以缩小检索范围,有利于提高检索的专指性。如欲查同时含有概念A和概念B的文献,可表示为“A AND B”或“A*B”。检索结果如图4-1所示,图中阴影部分即为同时包含A和B两个概念的命中文献。

img9

图4-1 逻辑“与”示意图

●逻辑“或”

逻辑“或”(用“OR”或“+”表示)是用于具有并列概念关系的组配。这种组配可扩大检索范围,提高查全率。例如,检索含有检索项A或检索项B的文献,可表示为“A OR B”,或“A+B”。检索结果是将含有检索项A的文献集合与含有检索项B的文献集合相加,形成一个新的集合。检索结果如图4-2所示,图中阴影部分即为包含A或B的命中文献。图中两者共同的部分只计一次,故避免了命中文献的重复出现。

●逻辑“非”

逻辑“非”(用“NOT”或“−”表示)是用于从某一检索范围中排除不需要的概念。这种组配可以缩小检索范围。例如,在含有概念A的文献集合中,排除同时含有概念B的文献,可表示为:“A NOT B”,或“A−B”。检索结果如图4-3所示,图中阴影部分即为包含A且排除B的命中文献。

img10

图4-2 逻辑“或”示意图

img11

图4-3 逻辑“非”示意图

(2)位置检索

位置检索也叫全文检索、邻近检索。所谓全文检索,就是利用记录中的自然语言进行检索,词与词之间的逻辑关系用位置算符组配,对检索词之间的相对位置进行限制。这是一种可以不依赖主题词表而直接使用自由词进行检索的技术方法。不同的检索系统其位置算符的表示方法不尽相同,美国Dialog检索系统的位置算符的用法意义如下:

●(W)——With

(W)表示该算符两侧的检索词相邻,且两者之间只允许有一个空格或标点符号,不允许有任何字母或词,顺序不能颠倒。(W)也可以简写为( )。

例如:Aircraft()design可检索出含有Aircraft design 的文献记录。Computer()aided()design可检索出含有Computer aided design的文献记录。

●(nW)——nWords

(nW)表示在此算符两侧的检索词之间最多允许间隔n个词(实词或虚词),且两者的相对位置不能颠倒。

例如:laser(1W)printer可检出含有laser printer 和laser color printer的文献记录。

●(N)——Near

(N)表示该算符两侧的检索词相邻,但两者的相对位置可以颠倒。

例如:computer(N)network 可检出含有computer network和network computer形式的文献记录。

●(nN)——nNear

(nN)表示此算符两侧的检索词之间允许间隔最多n个词,其两者的顺序可以颠倒。

例如:computer(2N)system可检出含有computer system,computer code system,computer aided design system,system using modern computer等形式的文献记录。

●(S)——Subfield

(S)表示两侧的检索词必须是在文献记录的同一子字段中,而不限定它们在该子字段中的相对次序和相对位置的距离。在文摘字段中,一个句子就一个子字段。

例如:computer()control(S)system可检出文献中含有“This paper is concerned with an application of the computer control technique in a intelligent system for testing inner walls of pipes.”这样一句话的文献记录。

●(F)——Field

(F)表示其两侧的检索词必须是在文献记录的同一字段中,而它们在该字段中的相对次序和相对位置的距离不限。

例如:water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution 和control的文献记录均可检索出来。

(3)截词检索

截词检索是计算机检索系统中应用非常普遍的一种技术。由于西文的构词特性,在检索中经常会遇到名词的单复数形式不一致;同一个意思的词,英美拼法不一致;词干加上不同性质的前缀和后缀可以派生出许多意义相近的词等。为了保证查全,就得在检索式中加上这些具有各种变化形式的相关意义的检索词,这样就会出现检索式过于冗长,输入检索词的时间太久,同时也占太多机时。截词检索就是为了解决这个问题而设计的,它既可保证不漏检,又可节约输入检索式的时间。所谓截词,就是指在检索词的适当位置截断。不同的检索系统其截词检索的表示是不同的。例如,美国Dialog系统“?”表示截词符。截词检索方式主要有以下几种:

●后方截词

后方截词,也称前方一致检索。它是将截词符放在一串字符的后面,用以表示以相同字符串开头,而结尾不同的所有词。后方截词又分为词尾的有限截断和词尾的无限截断两种情况。

I.词尾的有限阶段

相同字符串后可能变化一个字符时,则在其后使用一个“?”、空格,再加一个“?”,常用来表示检索词的单复数变化。例如用system??可以查出system 和systems的文献。相同字符串后可能变化两个以上字符时,则在其后连续使用若干个“?”代替可能变化的字符。例如,??表示两个字符,???表示三个字符,依次类推(注意输入时后面还应加一个问号表示终止符,它与截断符之间要有一个空格)。

II.词尾的无限截断

相同字符串后可能变化任何字符串时,则在其后使用一个“?”。这种方法可以查找含有相同字符串的所有检索词。例如,computer?可查出compute,computer,computing,computation,computerization等。

●中间截断词

中间截词又称中间屏蔽,是一种用截词符屏蔽中间不同字符的方法。例如“woman”和“women”可用“wom?n”代替;“defence”和“defense”可用“defen?e”代替。截词符具有“OR”运算符的功能,能够扩大检索范围,而且减少了输入检索词的时间,节约了机时。

●前方截词

前方截词就是将截词符号置放在一个字符串左边,以表示其左的有限或无限个字符不影响字符串的检索。这种方式称为检索词的前方截断。前方截词也称为一致检索。例如:*magnetic表示一个无限前方截断,可检出magnetic electro-magnetic,electro-magnetic,para-magnetic,thermo-magnetic等一系列与magnetic有关的词。

(4)字段限定检索

字段限定检索是指限定检索词在数据库记录中的一个或几个字段范围内查找的一种检索方法。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。基本字段包括篇名、文摘、叙词、自由标引词四个字段。辅助字段包括除基本字段以外的所有字段。每个字段都有用两个字母表示的字段标识符。在Dialog检索系统的命令检索模式中,使用字段限制检索时,基本字段用后缀表示,辅助字段用前缀表示。例如,computer and network/TI,DE表示将检索式限定在篇名字段(TI)和叙词字段(DE)中;要查找著者Smith D.发表的文献,检索式可表示为“AU=Smith,D.”。

在多数检索系统中,如果用户不对检索式注明字段限定范围,系统会默认在四个基本字段中检索。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈