首页 理论教育 计算机信息检索的基本原理和检索技术

计算机信息检索的基本原理和检索技术

时间:2022-10-31 理论教育 版权反馈
【摘要】:图3-2计算机信息检索原理图3.2.2计算机信息检索技术1.布尔逻辑检索布尔逻辑检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问转换成逻辑表达式。

3.2 计算机信息检索的基本原理和检索技术

3.2.1 计算机信息检索原理

人类的信息检索需求千差万别,获取信息的方法也是各种各样,但信息检索的基本原理却是相同的。其本质的部分就是对信息集合和需求集合的匹配和选择。匹配和选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息。要想进行有效的匹配和选择,首先必须对大量的信息进行收集和加工处理,使之从无序到有序,使信息获得特征性描述,让原来隐含的、不易识别的特征显性化。另一方面,对用户提出的信息需求也要做类似的加工处理,即分析需求的内容,提取出主题概念和其他属性,并利用与信息集合相同的标识系统来表示需求中包含的概念和属性。

信息检索过程中要储存大量的数据,要对这些数据进行各种组合,有大量的排序和对比操作。为了提高信息处理的速度、准确性和可靠性,人们将计算机应用到信息检索中。计算机信息检索中检索的本质没有变,但信息的表示方式、存储结构和匹配方法变化了。要用计算机可以识别的代码来表示信息,用便于计算机快速存取的方式存储信息,匹配的方法亦由人工比较变为机器匹配,匹配标准由隐式变为显式。在这种机器匹配的过程中,原先表达概念的语词符号变为没有内涵的字符串。检索过程就是字符串匹配和逻辑运算的过程。因此,计算机信息检索的实质就是由计算机将输入的检索策略与系统中存储的文献的特征标识及其逻辑组配关系进行类比、匹配的过程,如图3-2。

img13

图3-2 计算机信息检索原理图

3.2.2 计算机信息检索技术

1.布尔逻辑检索

布尔逻辑检索就是采用布尔代数中的逻辑与、逻辑或、逻辑非等运算符,将检索提问转换成逻辑表达式。计算机根据逻辑表达式查找符合限定条件的文献信息。布尔逻辑检索是现代信息检索系统中最常用的一种方法,网络搜索引擎,如:GOOGLE、YAHOO、百度等,都使用了这种检索技术。

(1)布尔逻辑运算符。布尔逻辑运算符用来表示两个检索词之间的逻辑关系,用以形成一个概念。常用的布尔逻辑运算符有3种,分别是逻辑与(AND)、逻辑或(OR)、逻辑非(NOT)。

①逻辑“与” 逻辑“与”用AND(或*)表示。检索词A、B若用逻辑“与”相连,即A AND B(A*B),则表示同时含有这两个检索词才能被命中。用文氏图(Venn Diagram)表示如图3-3。

img14

图3-3 逻辑“与”运算

例如,要检索“儿童教育”的文献,检索逻辑式可表示为:child AND education。

②逻辑“或” 逻辑“或”用OR(或+)表示。检索词A、B若用逻辑“或”相连,即A OR B(A+B),则表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中。用文氏图表示如图3-4。

img15

图3-4 逻辑“或”运算

例如,要检索“计算机”或“机器人”方面的文献,检索逻辑式可表示为:computer OR robot。

③逻辑“非” 逻辑“非”用NOT(AND NOT,BUT NOT)(或-)表示。检索词A、B若用逻辑“非”相连,即A NOT B(A-B),则表示被检索文献在含有检索词A而不含有检索词B时才能被命中。用文氏图表示如图3-5。

img16

图3-5 逻辑“非”运算

例如,要检索有关“能源”方面的文献,但涉及“核能”方面的文章不要,检索逻辑式可表示为:energy NOT nuclear(energy-nuclear)。

NOT可以缩小检索范围,但必须谨慎从事,只有当你绝对确信要从检索结果中排除一个术语或短语时才用它,否则,会将有用的资料排除在外。

(2)布尔逻辑运算符使用注意事项

①在使用逻辑运算符时,可用括号“()”改变执行顺序。

②逻辑式中有多个逻辑符时,不同的系统对AND、OR、NOT的运算次序有不同的规定。在有括号的情况下,括号内的逻辑运算先执行。

③慎重使用逻辑非,以免排除有用文献信息,造成漏检。例如,检索计算机软件方面的文献,如果构造检索式(COMPUTER AND SOFTWARE)NOT HARDWARE来检索,则将同时包含软件、硬件的相关文献排除了。

2.截词检索

截词检索是利用计算机特有的指定位对比判断功能,使不完整词能与标引词进行比较、匹配的一种检索,主要用于西文中词干相同的派生词的检索,可大大提高查全率和检索效益。

所谓截词,是指检索者将检索词在他认为合适的地方截断;而截词检索,则是用截断的词的一个局部进行的检索,并认为凡满足这个词局部中的所有字符的文献,都为命中的文献。截词的方式有多种,按截断的字符数量来分,可分为有限截词和无限截词;按截断的位置来分,可分为后截断、前截断和中截断。截词符号在各信息检索系统中表示不一,但功能相同。通常用“*”表示无限截断,用“?”表示有限截断。

(1)后截断 后截断是最常用的截词检索技术。将截词符号放置在一个字符串右方,以表示其右的有限或无限个字符不影响该字符串的检索。

例如,输入“computer*”,则词典中存储的前8个字符为computer的所有词均满足条件,因而能检索出含有computers、computering、computerigation、computered等词的文献。而输入“computer??”,可检索出含有computer、computers、computered的文献。

另外应注意:使用后截断有可能检索出无关词汇;尤其是在使用无限截断时,所选词干不能太短,否则将造成大量误检,或是发生溢出,导致检索失败。

(2)前截断 前截断是将截词符号放置在一个字符串左方,以表示其左方有有限或无限个字符。从检索性质上讲,前截断是后方一致检索。在检索复合词较多的文献时,使用前截断较多见。

例如,输入“*magnetic”,可以检索出magnetic(有磁性的)、electromagnetic(电磁的)、patamagnetic(顺磁的)、thermo-magnetic(热磁的)、thermomagnetic(热磁的)等词汇。

(3)中截断 中截断又称为“通用字符法”或“屏蔽”。这种截断是把截断符号放置在一个检索词的中间。一般地,中截断仅允许有限截断。

中截断主要解决一些英文单词拼写不同,单复数形式不同的词的输入。在可能变化的字母处加一截词符号“?”,即可简化输入,提高检全率。

例如,输入“m?n”,可以检索出含有词man、men的文献;输入“organi?ation”分别检索了organization和organisation两词。

总之,信息检索系统提供不同类型的截词检索方法,能够提高查全率,扩大检索范围,减少检索词的输入量,简化检索步骤,从而节省检索时间,降低检索费用。

3.词位置检索

词位置检索又称为邻近检索,是用来规定概念相互间的邻近关系,包括在记录中出现的顺序和相对位置。位置运算符都用()括起,其前后不留空格。常用的位置运算符有:

(1)(W) 即“WITH”表示A、B两个概念必须相邻,且词序不变。可表示为:A(W)B

例:Computer(W)Education-Computer Education

(2)(nW) 即“nWORDS”,表示A、B两个概念之间最多可夹着n个单词,词序不变。可表示为:A(nW)B

例:Wear(1W)materials-Wear of materials

gone(2W)wind-gone with the wind

(3)(N) 即“NEAR”,表示A、B两词必须相邻,但词序可变。可表示为A(N)B

例:economic(N)recovery-economic recovery或者recovery economic

(4)(nN) 即“nNER”,表示A、B两个概念最多可夹着n个单词。但词序可变。可表示为:A(nN)B

例:economic(2N)recovery-recovery of the economy

(5)(X) 表示A、B两个完全相同的概念必须相邻着。可表示为:A(X)B

例:protein(X)protein-protein protein

(6)(nX) 表示A、B两个完全相同的概念之间最多可夹着n个单词。可表示为:A(X)B

例:ship(1X)ship-ship to ship

(7)(C) 即“CITATION”,表示A、B两个概念必须出现在同一记录内,不限定词序和字段。可表示为:A(C)B

例:arthritis(C)acupuncture-arthritis and acupuncture

(8)(F) 即“FIELD”,表示A、B两个概念必须在同一字段内,但词序可变。可表示为:A(F)B

例:NRDC(W)REPORT(F)88-NRDC REPORT,JAN88(13)

(9)(L) 即“LINK”,表示A、B两个概念必须出现在同一叙词单位,且有一定的从属关系。

例:Power plants(L)Control-power plants是主标题,Control是副标题。

(10)(S) 即“SUBFIELD”,表示A、B两个概念必须出现在同一句子内或同一字段,且词序可变。可表示为:A(S)B

例:electric(S)plant-electric power plants

4.其他检索技术

(1)加权检索 加权检索也是计算机信息检索的一个基本检索手段,它的重点是判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度,是从量的方面对检索词之间的组配关系加以限制和表示。加权检索是对每一个检索词给定一个数值表示其重要性程度,称为权值。在检索中,先查找这些检索词在数据库中是否存在,对存在的检索词计算他们的权值总和。只有当数据库记录的权值之和达到或超过预先给定的值时,该记录才算命中。

加权检索并不是所有的系统都能提供的检索技术,且能提供加权检索的系统,对权的定义,加权方式,权值计算和检索结果的判定等方面又有不同的技术规定。所以加权检索又分为词加权检索和词频加权检索。

(2)聚类检索 聚类检索是近年来国外信息检索理论界提出的一个名词。所谓聚类检索,就是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近和内容相关的文献聚在一起,相异的则被分开来。

(3)限制检索 限制检索是在检索系统中缩小或约束检索结果的一种方法,包括有字段检索、限制符检索等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈