首页 百科知识 计算机档案信息检索方法

计算机档案信息检索方法

时间:2022-10-01 百科知识 版权反馈
【摘要】:布尔逻辑检索广泛运用于计算机检索系统,是使用面最广、使用频率最高的一种检索方法。邻近检索又称为位置算符检索。与布尔逻辑检索方法相比,邻近检索可以通过严格限制词和词之间的位置关系,表达更为确切的检索要求。权值的大小可以表示被检出档案的切题程度。截词检索主要用于西文文献的检索中。对检索词的词尾部分截断,右截断在计算机检索中广泛应用,这种方法可以省去键入各种词尾有变化的检索词的麻烦,有助于提高检全率。

第二节 计算机档案信息检索方法

一、计算机档案信息检索方法

1.布尔逻辑检索(boolean logic)

用布尔逻辑运算符连接各个检索词,然后由计算机进行逻辑运算,查找所需信息。布尔逻辑检索广泛运用于计算机检索系统,是使用面最广、使用频率最高的一种检索方法。布尔逻辑算符有如下3种:

(1) 逻辑“与”

用“AND”或“*”表示。用来表示其所连接的两个检索项的交叉部分,即交集部分。检索式为:A AND B(或A*B)。如:大学生心理咨询可用“大学生AND心理咨询”来表示。

(2) 逻辑“或”

用“OR”或“+”表示。用于连接并列关系的两个检索词,检索式为:AORB(或A+B)。如:“城乡医疗体制改革”可用“(城市医疗OR农村医疗)AND体制改革”来表示。

(3) 逻辑“非”

用“NOT”或“—”表示。用于连接排除关系的检索词,排除不需要的和影响检索结果的概念。检索式为:A NOT B (或A—B)。表示检索含有检索词A而不含检索词B的信息,即将包含检索词B的信息集合排除掉。如:研究生NOT博士研究生

逻辑“与”的运用能缩小检索范围,利于提高检准率;逻辑“或”的运用能防止漏检,利于提高检全率;逻辑“非”的运用能排除不需要的和影响检索结果的概念,提高检准率。

布尔逻辑运算符及检索表达式见表8-1。布尔逻辑运算的文氏图见图8-2。

表8-1 布尔逻辑运算符及检索表达式

img38

img39

图8-2 布尔逻辑运算的文氏图

在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。复合逻辑检索式中,运算优先级别从高至低依次是NOT、AND、NEAR,可以使用括号改变运算次序。此外,当检索式含有截词符、位置算符时,布尔逻辑运算最后执行。

2.邻近检索(proximity search)

邻近检索又称为位置算符检索。是用特定的算符(位置算符)来表达检索词与检索词之间的关系,并且可以不依赖叙词而直接使用自由词的一种检索方法。与布尔逻辑检索方法相比,邻近检索可以通过严格限制词和词之间的位置关系,表达更为确切的检索要求。经常使用的位置算符有With(W)或Near(N)两种。用(W)或(N)连接检索词A和B,用于表示两个词在同一记录中位置的密切相邻关系。

(1) (W)与(nW)

用位置算符(W)连接检索词A和检索词B,检索表达式为:“A(W)B”。表示检索词A和检索词B必须在文本信息中按照前后顺序紧挨着出现,检索词A在前,检索词B在后,二者的前后位置关系不能颠倒,二者之间不能插入其他的词,但可以有一个空格、一个标点或一个连接符号。如果允许A和B之间有多个词,可用“A(nW)B”表达,n表示A和B之间可以最多插入n个词,但A和B之间的前后顺序不能颠倒。

(2) (N)与(nN)

用位置算符(N)连接检索词A和检索词B,检索表达式为:“A(N)B”。表示检索词A和检索词B必须在文本信息中紧密相连出现,但A和B的位置可以颠倒,A在前B在后或者B在前A在后都可以,二者之间不能插入其他的词,但可以有一个空格、一个标点或一个连接符号。如果允许A 和B之间有多个词,可用“A(nN)B”表达,n表示A和B之间可以最多插入n个词,A和B之间的前后顺序可以颠倒。

3.字段限制检索(field limiting)

即将检索词限制在某一特定的字段范围内进行检索,例如:“环境保护(LA)”是对语种进行限定,括号内的“LA”表示语言,意指该检索词只在语言字段进行检索。除此之外,还可将检索词限定在题名、作者、时间、档号、分类号主题词、文号等可检字段进行查找,提高检准率。

4.词组精确检索(exact search)

精确检索主要通过双引号“”专指一个检索词(组),从而检索出与双引号内完全相同的一个短语,避免计算机在检索时将专指概念拆分。如“武汉大学樱花”作为一个专指的词组,双引号的使用有利于获得精确的检索结果。

5.加权检索(weighted retrieval)

所谓加权检索,就是在检索时,给每个检索词一个表示其重要程度的数值(即所谓“权”),对含有这些检索词的档案进行加权计算,其和在规定的数值(阈值)之上者作为检索结果输出。权值的大小可以表示被检出档案的切题程度。加权检索可对检出档案材料进行相关性排序输出,也可根据检准率的要求进行灵活的分等级输出,输出时按权值大小排列,只打印权值超过阈值的相关文献。

检索词的权值是按照提问者的需要给的。例如,有一个检索课题是关于环境污染防治的,可分别给检索词一定的权数。

环境 40

污染 40

防治 50

检索时,检出一系列有关档案材料,按权值递减排列如下:权值

130=40+40+50 环境污染防治

80=40+40   环境污染

90=40+50   污染防治

若指定权值大于或等于90的为命中文献(90为阈值),则只有有关环境污染防治和污染防治的档案材料被打印输出。

一般而言,在计算检索式的权数时,若检索项用逻辑乘运算,则取大的权数作为命中档案的权数;若用逻辑和运算,则取命中文献中含有的检索项的权之和为命中档案权数;若用逻辑非运算,则取前一个检索项的权作为命中档案的权数。

6.截词检索(truncation)

所谓截词检索,就是用截词符对检索词进行截断,让计算机按照检索词的部分片段同索引词进行对比,以提供族性检索的功能。截词检索主要用于西文文献的检索中。

截词检索可采用右截断(前方一致)、左截断(后方一致)、左右同时截断(中间一致)三种方法。

(1) 前方一致

对检索词的词尾部分截断,右截断在计算机检索中广泛应用,这种方法可以省去键入各种词尾有变化的检索词的麻烦,有助于提高检全率。例如,键入检索词Computer+(“+”为截断符号)可以检索出任何以Computer为开头检索词的文献,如Computers,Computerize等。

(2) 后方一致

把截断符号放在字根的左边,如+Computer,那么计算机在进行匹配时,索引词Minicomputer,Microcomputer等均算命中。

(3) 中间一致

将字根左右词头、词尾部分同时截断,例如:+Computer+,可以命中包含该字根的所有索引词,如Minicomputer,Microcomputer,Computers,Minicomputers,等等。这种左右同时截断的方法,在检索较广泛的课题材料时比较有用,可获得较高的检全率。

7.联想检索(associative retrieval)

联想检索是建立在人类的联想式思维基础上的一种检索方式。联想式检索系统能够帮助用户在检索信息的同时,检索和显示所联想到的其他任一信息,当输入一个检索词以后,系统可以显示与该词意义相同或相近的词,辅助用户查询,提高检全率或检准率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈