计算机档案信息检索方法

时间：2024-10-01 百科知识版权反馈

【摘要】：布尔逻辑检索广泛运用于计算机检索系统，是使用面最广、使用频率最高的一种检索方法。邻近检索又称为位置算符检索。与布尔逻辑检索方法相比，邻近检索可以通过严格限制词和词之间的位置关系，表达更为确切的检索要求。权值的大小可以表示被检出档案的切题程度。截词检索主要用于西文文献的检索中。对检索词的词尾部分截断，右截断在计算机检索中广泛应用，这种方法可以省去键入各种词尾有变化的检索词的麻烦，有助于提高检全率。

第二节　计算机档案信息检索方法

一、计算机档案信息检索方法

1.布尔逻辑检索(boolean logic)

用布尔逻辑运算符连接各个检索词，然后由计算机进行逻辑运算，查找所需信息。布尔逻辑检索广泛运用于计算机检索系统，是使用面最广、使用频率最高的一种检索方法。布尔逻辑算符有如下3种:

(1)　逻辑“与”

用“AND”或“*”表示。用来表示其所连接的两个检索项的交叉部分，即交集部分。检索式为:A AND B(或A*B)。如:大学生心理咨询可用“大学生AND心理咨询”来表示。

(2)　逻辑“或”

用“OR”或“+”表示。用于连接并列关系的两个检索词，检索式为:AORB(或A+B)。如:“城乡医疗体制改革”可用“(城市医疗OR农村医疗)AND体制改革”来表示。

(3)　逻辑“非”

用“NOT”或“—”表示。用于连接排除关系的检索词，排除不需要的和影响检索结果的概念。检索式为:A NOT B (或A—B)。表示检索含有检索词A而不含检索词B的信息，即将包含检索词B的信息集合排除掉。如:研究生NOT博士研究生

逻辑“与”的运用能缩小检索范围，利于提高检准率;逻辑“或”的运用能防止漏检，利于提高检全率;逻辑“非”的运用能排除不需要的和影响检索结果的概念，提高检准率。

布尔逻辑运算符及检索表达式见表8-1。布尔逻辑运算的文氏图见图8-2。

表8-1　布尔逻辑运算符及检索表达式

图8-2　布尔逻辑运算的文氏图

在一个检索式中，可以同时使用多个逻辑运算符，构成一个复合逻辑检索式。复合逻辑检索式中，运算优先级别从高至低依次是NOT、AND、NEAR，可以使用括号改变运算次序。此外，当检索式含有截词符、位置算符时，布尔逻辑运算最后执行。

2.邻近检索(proximity search)

邻近检索又称为位置算符检索。是用特定的算符(位置算符)来表达检索词与检索词之间的关系，并且可以不依赖叙词而直接使用自由词的一种检索方法。与布尔逻辑检索方法相比，邻近检索可以通过严格限制词和词之间的位置关系，表达更为确切的检索要求。经常使用的位置算符有With(W)或Near(N)两种。用(W)或(N)连接检索词A和B，用于表示两个词在同一记录中位置的密切相邻关系。

(1)　(W)与(nW)

用位置算符(W)连接检索词A和检索词B，检索表达式为:“A(W)B”。表示检索词A和检索词B必须在文本信息中按照前后顺序紧挨着出现，检索词A在前，检索词B在后，二者的前后位置关系不能颠倒，二者之间不能插入其他的词，但可以有一个空格、一个标点或一个连接符号。如果允许A和B之间有多个词，可用“A(nW)B”表达，n表示A和B之间可以最多插入n个词，但A和B之间的前后顺序不能颠倒。

(2)　(N)与(nN)

用位置算符(N)连接检索词A和检索词B，检索表达式为:“A(N)B”。表示检索词A和检索词B必须在文本信息中紧密相连出现，但A和B的位置可以颠倒，A在前B在后或者B在前A在后都可以，二者之间不能插入其他的词，但可以有一个空格、一个标点或一个连接符号。如果允许A 和B之间有多个词，可用“A(nN)B”表达，n表示A和B之间可以最多插入n个词，A和B之间的前后顺序可以颠倒。

3.字段限制检索(field limiting)

即将检索词限制在某一特定的字段范围内进行检索，例如:“环境保护(LA)”是对语种进行限定，括号内的“LA”表示语言，意指该检索词只在语言字段进行检索。除此之外，还可将检索词限定在题名、作者、时间、档号、分类号、主题词、文号等可检字段进行查找，提高检准率。

4.词组精确检索(exact search)

精确检索主要通过双引号“”专指一个检索词(组)，从而检索出与双引号内完全相同的一个短语，避免计算机在检索时将专指概念拆分。如“武汉大学樱花”作为一个专指的词组，双引号的使用有利于获得精确的检索结果。

5.加权检索(weighted retrieval)

所谓加权检索，就是在检索时，给每个检索词一个表示其重要程度的数值(即所谓“权”)，对含有这些检索词的档案进行加权计算，其和在规定的数值(阈值)之上者作为检索结果输出。权值的大小可以表示被检出档案的切题程度。加权检索可对检出档案材料进行相关性排序输出，也可根据检准率的要求进行灵活的分等级输出，输出时按权值大小排列，只打印权值超过阈值的相关文献。

检索词的权值是按照提问者的需要给的。例如，有一个检索课题是关于环境污染防治的，可分别给检索词一定的权数。

环境　40

污染　40

防治　50

检索时，检出一系列有关档案材料，按权值递减排列如下:权值

130=40+40+50　环境污染防治

80=40+40　　　环境污染

90=40+50　　　污染防治

若指定权值大于或等于90的为命中文献(90为阈值)，则只有有关环境污染防治和污染防治的档案材料被打印输出。

一般而言，在计算检索式的权数时，若检索项用逻辑乘运算，则取大的权数作为命中档案的权数;若用逻辑和运算，则取命中文献中含有的检索项的权之和为命中档案权数;若用逻辑非运算，则取前一个检索项的权作为命中档案的权数。

6.截词检索(truncation)

所谓截词检索，就是用截词符对检索词进行截断，让计算机按照检索词的部分片段同索引词进行对比，以提供族性检索的功能。截词检索主要用于西文文献的检索中。