首页 理论教育 计算机信息检索的方法及技术

计算机信息检索的方法及技术

时间:2022-03-10 理论教育 版权反馈
【摘要】:目前,在计算机信息检索实践中,经常使用的信息检索技术主要有:布尔检索、位置检索、模糊检索、加权检索、全文检索、超文本检索以及智能化检索等。这种组配用于从原来的检索范围中排除不需要的概念,表示被检中文献不能含有紧接“NOT”运算符之后的检索项。布尔检索表达式是目前信息检索系统中使用得最多的一种方法,几乎所有的计算机检索系统都提供布尔检索方式。布尔检索很容易利用这些相关项来改进检索。

第二节 计算机信息检索的方法及技术

目前,在计算机信息检索实践中,经常使用的信息检索技术主要有:布尔检索、位置检索、模糊检索、加权检索、全文检索、超文本检索以及智能化检索等。

一、布尔检索

布尔检索是检索系统中引用最为广泛地检索技术,同时也是最早建立的检索理论,是最简单、最基本的匹配模式,其理论基础是集合论与布尔逻辑。它采用逻辑表达式来表达用户的检索要求,并通过一定的算法和实现手段进行检索。布尔逻辑表达是通过布尔运算符“and”、“or”、“not”等来连接检索词,以及表示运算优先级的括号组成的一种表达检索要求的算式。

(一)布尔逻辑运算符

“and”、“or”、“not”等逻辑算符是英国数学家George Boole 19世纪发明的,用于描述数学集合的关系,后来应用于计算机信息领域表示概念之间的关系,一般称为布尔逻辑。逻辑算符主要有这三个,它们分别表示逻辑“与”、逻辑“或”、逻辑“非”。

1.逻辑与“and”

逻辑与的运算符通常记为“*”,逻辑与是一种适用于交叉概念或限定关系的检索,用于缩小检索范围,得到更专的检索效果。若A、B分别表示两个检索单元,那么A*B则表示要检索同时含有检索单元A和B的文献,即一篇文献记录里必须同时含有A和B这两个检索项,才被检索命中。用文氏图表示,则如图2.2-1,中间交叉有阴影的部分就表示A*B。例如检索“有关计算机在图书馆中的应用”的文献,检索式应该为“计算机*图书馆”。

2.逻辑或“OR”

逻辑或在布尔表达式种通常记为“+”,这是用于并列概念的一种组配,用于扩大检索范围,得到更全的检索效果。若用A、B分别表示两个检索单元,那么A+B则表示要检索任意含有检索单元A或B的文献,即一篇文献记录里只要含有A和B中的任何一个,都被命中。用文氏图表示则如图2.2-2,A+B则命中所有阴影文献。因此,一般说来,逻辑或可使得检索范围放宽,使用它相当于增加检索词主题的同义词与近义词。

img10

图2.2-1

img11

图2.2-2

例如,研究联机检索系统的人,对有关DIALOG、ORBIT、STN的文献都感兴趣,则检索表达式应该为:DIALOG+ORBIT+STN。

3.逻辑非“NOT”

逻辑非运算符NOT也可以记作“-”。这种组配用于从原来的检索范围中排除不需要的概念,表示被检中文献不能含有紧接“NOT”运算符之后的检索项。若有A、B两个检索单元,那么A-B则表示一篇文献记录里只有含有检索单元A并且不含有检索单元B的文献才能被命中。用文氏图表示则如图2.2-3,阴影部分表示A-B的检索结果。例如检索“太阳能而非核能方面的文献”,则检索表达式为:太阳能——核能。

img12

图2.2-3

布尔运算这三种运算符的优先级为:逻辑非、逻辑与、逻辑或。优先级最高的是逻辑非,其次是逻辑与,最后是逻辑或。当然,可以通过加括号的方法改变检索式中的优先执行次序。

(二)布尔检索表达式的特点

布尔检索表达式是目前信息检索系统中使用得最多的一种方法,几乎所有的计算机检索系统(脱机、光盘、联机、网络检索系统)都提供布尔检索方式。这主要是因为其有以下特点:

1.与人们的思维习惯一致

布尔逻辑表达式可以表达与用户思维习惯相一致的查询要求。用户的查询要求通常用自然语言描述,这种描述形式通常就是这样几种情况:希望检索某一主题的文献;希望检索包含主题A和主题B的文献;希望主题A和主题B有一即可;希望获得含有主题A但没有主题B的文献。这些查询要求完全可以表达成布尔逻辑的形式,从而成为检索系统可以接受的形式。

2.表现直观清晰、结构化强、语义表达好

用布尔检索表达式可以直观而又清晰地表达用户的检索需求,这一点我们在上述的三张图示上已经了解得很清楚。布尔逻辑检索方法就是通过对若干个文献集合的交、并、补的运算来得到用户的提问。

3.方便扩检和缩检

布尔检索系统处理是结构化的检索表达式,而用户一般通过给它使用的一个有结构的字典来缩小或扩大检索。所谓有结构的字典是指对任何一个给定的标引词都存储了与之相关的更一般的(上位)或更精确(下位)的关键词的词典。布尔检索很容易利用这些相关项来改进检索。同时,布尔检索也可以很方便地通过增加逻辑与进行缩检、增加逻辑或进行扩检。

4.易于计算机实现

由于布尔检索以比较方式在集合中进行,易于软件实现。这也是现在的各种检索系统中都提供布尔检索的重要原因。

(三)布尔检索存在的问题

虽然布尔检索用起来很方便、直观、简单,但还应当注意其在检索中同时也存在着问题:

1.没有反映文献内容或信息需求所涉及的多个概念

的相对重要性

一般来说,任何一篇文献或用户的任一信息需求中,部分概念是重点阐述或需要的,而另一部分概念则是顺便提及的或次要的,而这一点布尔检索却不能反映。

2.没有反映概念之间内在的语义联系

它把概念与文献间的关系简单化,忽略了概念与文献内容、形式和结构的关系,所有的语义被简单的匹配代替,因而既不能准确描述文献,同时又不能检索到与用户需求信息确实相关但又不是用检索式中的概念直接标引的文献。

3.容易造成漏检

逻辑非运算能排除包含“NOT”算符后的检索词的文献,但是使用一定得慎重。例如检索“有关能源利用方面的文献,但不包括核能”,则检索式为“能源-核能”,此式当然能排除所有核能方面的文献,但是若文献并不强调核能,而主要是讲核能的转换,即转换为其它能源,那么诸如此类的大量文献就会遗漏了。而对于逻辑与运算和逻辑或运算,同样也可能会造成漏检。尤其是有些检索词表达的概念,存在整体与部分的关系时,若处理不好,就不能得到满意的检缩效果。如检索“肿瘤的治疗”方面的文献,若用表达式“肿瘤*治疗”,就会漏检大量文献。因为在医学上“肿瘤”是个概念非常大的词,包括各科的肿瘤,“治疗”也包括各种各样的治疗方法(如化学疗法、中医疗法、手术治疗等),因此要查全相关的文献,根据需要利用逻辑或进行扩检。

4.不能限制单元词和词组的关系,以及检索词在文献中出现的相对次序

一般来说,文献记录中词语的相对次序不同,所表达的意思就可能不同。同样在检索式中,检索词的相对次序不同,表达的检索意图也不一样。例如检索式“color*television”,逻辑运算符前后的这两个检索词,表现在检索结果中不一定是紧密相连的词组,那么检索结果未必就是用户想要的有关彩电方面的文献。

二、位置检索

由于布尔逻辑算符只是定性规定检索词的范围,而没有限定检索词的位置关系,所以布尔逻辑运算符有时难以表达某些检索课题的确切提问要求,那么用位置算符来限定和组配检索词,可弥补布尔逻辑检索易造成误检的不足。

(一)位置检索概念

位置检索技术就是利用一些特定的位置算符来表达检索词之间的位置关系,并且可以不用叙词表而直接使用自由词进行检索的方法。有的书上还把这种检索称为原文检索,它规定了检索词在原始文献中相对位置的限定性检索。这种检索在利用题目和文摘途径检索时,对检索质量影响很大。

位置检索大致包括四种级别的检索:记录级检索,限定检索词在数据库的同一记录中出现;字段级检索,限定检索词在数据库记录的字段范围内;子字段或自然句级检索,限制检索词在同一子字段或自然句中;词位置检索,限定检索词的相互位置满足某些条件。

(二)位置检索的运算符

不同的检索系统所规定的位置运算符可能不同,使用时候要参考各检索系统的说明。一般来说:

①限制词位置顺序的检索算符有with算符(W)、word算符(nW)、near算符(N)、临近算符(nN)以及Adj算符等。(W)算符、(nW)算符以及Adj算符对词与词之间的位置具有较严格的限制,前后次序也不能颠倒;而(N)算符和(nN)算符对词与词之间的次序限制相对要松些,其算符前后的检索词次序可以互换。例如,solar(W)energy,就要求solar应在energy之前,两词不能颠倒,且两词之间不能有除了空格、标点之外的其它字符。

②子字段检索有subfields(S)算符。例如,solar(S)energy,就要求solar和energy这两个词只要同时出现在一个子字段中即可,即要么同时出现在题目字段的副标题中、要么同时出现在文摘字段的某一个句子中。至于这两个词之间的位置关系如何、中间插入了多少个其它字符,系统不做考虑。

③同字段检索可以用fields(F)运算符。例如,solar(F)energy,不管solar和energy这两个词中是否是一个词出现在文摘字段首,而另一个出现在文摘字段尾,只要这两个词同时出现在一个字段中即可。其它的如词序等系统均不作考虑。

④记录级运算可以用citation(C)运算符,实际上记录级运算即相当于逻辑与运算,例如,solar(C)energy,就要求solar和energy这两个词只要出现在同一个记录中即可,其功能与solar*energy完全相同,对位置的关系几乎没作限制。

三、截词检索

(一)截词检索概念

截词检索,主要是利用检索词的词干或不完整的词形进行检索。它在信息检索系统中应用十分广泛,特别对于联机检索系统和网络检索系统,是必备的检索手段之一。

在西方语言文字中,词形的变化十分灵活。一个词可能有多种形态,而这些不同的形态,多半只具有语法上的意义。从检索者的角度看,他们是相同的或者意义相近的,如果不用那些形态不同而意义相同的词进行检索,则可能会造成很大的漏检率;但如果全部用到检索式中,那检索式又太长,从而影响检索速度。

那么在中文文献中的情况又是如何呢?在中文文献中,一般来说,如果两个词的某一部分相同,其内在概念上肯定有着必然的联系,这种联系在检索的时候同样不可忽视。因此,大多数检索系统都采用将截词检索,将检索词截断,只保留词干或词的相同部分来进行检索匹配。这样做的目的在一定程度上一方面避免漏检,而另一方面又缩短检索式,提高检索速度。

所谓截词(truncation),就是指检索者将检索词在他认为合适的地方截断。截词检索在检索前,针对逻辑提问式中的每个检索词附加一个截断模式说明,指出该检索词在与文献库中的词比较时,采取精确匹配还是部分匹配。所谓的精确匹配,也称为不截断,指的是将检索词作为一个完整的词来检索,记录中具有同一属性的规定字段的词必须与检索词完全相同才算命中,这种匹配方式需要用到逻辑算符、位置算符、括号或引号等多种检索功能才能实现,匹配比较严格。而部分匹配,实际上就要考虑截断,以截断后的部分来进行匹配。

(二)截词检索符及截断形式

由于检索系统的不同,截词检索所采用的符号也不太相同,但基本上主要有两种截词符号:“*”和“?”。一般来说,“*”表示截断多个字符,而“?”表示截断的是一个字符。但也有例外,如世界著名的国际联机检索系统DIALOG,不管是截断多个字符还是截断一个字符,均用“?”表示,只是该“?”在表达截断多字符与一个字符的格式上有另外的要求。所以使用截词符的时候,一定要参照检索系统的说明,从而决定使用何种形式的截词符号。

截词检索截断的形式大致有以下几种:

1.前截断(后方一致)

前截断检索是指要求检索词与被检索词实现词间的后部相同,即对同词干而前缀不同的概念进行检索。通常在检索项前面“*”。如“*啤酒”,就可检索到包括青岛啤酒、百威啤酒、金陵干啤酒等;“*治疗”,就可检索到药物治疗、中西医结合治疗、化学治疗、针灸推拿治疗等。

2.后截断

后截断检索是指检索词与被检索词间的前部相同而后缀不同的检索。这种情况各检索系统使用的截断符号不太相同,有的使用“*”,而又有的使用“?”。根据后截断所截字符的数量,形成后截断一般有以下几种形式:

(1)词尾无限截断

即只要前面的词干相同,后面不管具有多少个字符,均算命中文献。如“信息*”,即可检索到包含信息检索、信息处理技术、信息素养等词的记录;DIALOG系统用一个“?”表达词尾无限截断,如“manag?”,就可检索到包含manage、manager、manaing、management等词的记录。

(2)词尾截有限的几个字符

凡是有限截断检索,则检索词串与被检索词只能在指定的位置可以不一致。词尾截有限的几个字符只要用连续的几个“?”表达就可以了。如“manag??”,那么能够检索到的是最多截两个字符的“manag”,即检索结果中包含manage或manager的记录将命中,而包含manaing、management等词的记录将被排除。

(3)词尾截一个字符

对于这种截断形式,有的系统用一个“?”来表示(无限截断用的是“*”的系统),如表达式“商?”可命中包含“商业”、“商店”、“商品”等检索词的记录;但有的系统截一个字符则用“??”,即问号加空格加问号的形式,如“system??”。

3.中间截断

中间截断一般在西文语言中用的比较多,用来表示单词在英美拼法上的不同,有的时候也用来表示名词单复数形式的一些不规则变化。如“fib??glass”,就可以检索到包含fiberglass和fibreglass这两个词的记录;“wom?n”,同样可以检索到包含woman和women这两个词的记录;“中国???啤酒”,就可以检索到中国钱江黑啤酒、中国青岛好啤酒等。一般来说,中间截断,检索词中可变化几个字符就用连续的几个问号来代替,每一个问号都代表着一个字符。

4.前后截断

前后截断检索是指检索词与被检索词之间只需任意部分匹配即可。这种截断形式在大多数检索系统中都不用任何截断符号,因为多数系统均支持模糊匹配检索。但检索者若想用的话,也可以在词干的前后加上相应的截词符。如“*检索*”,就可检索到信息检索技术、截断检索方法、普及检索技能等文献。

总之,对于检索系统而言,截词检索的方法可以减少检索词的输入量,简化检索步骤,扩大查找范围,提高查全率

四、字段限定检索

在前面我们已经提到过,数据库的每一个文档的每一条记录均是由若干个字段构成,每一个字段都有字段名称或缩写,在进行检索的时候,也经常会利用字段名称来进行限定性的检索,控制检索范围。

所谓字段限定检索,即将检索词限定在某一字段中,检索时,计算机只对限定字段进行运算,以提高检索效果。

字段限定检索常用的检索符号有:in、=、<、>、≤、≥等,而有的系统采用前缀或后缀来限定,即在检索词前后加上字段名称的不同表达形式。前缀是在检索词之前用字段名跟等号“=”表示;后缀是在检索词之后用斜杠“/”跟字段名表示。例如,English in la表示检索范围限定在原文语种必须是英文的文献中;py≥1992表示检索1992年后出版或发表的文献;au=liu h表示检索著者姓名是“liu h”的文献;GPS/ti表示检索在标题中具有GPS一词的文献。

很明显,使用字段限制检索后,能大大地控制检索的范围,从而能节省检索的时间,提高检索效率。

字段限制检索与前面所介绍的位置检索、截词检索等不同于布尔逻辑检索,他们均是基于文本的检索。在一个复杂的检索式中,这种运算可与其它检索技术并存,即不仅可以有多个运算符,也可以使用括号来指定运算的优先顺序、以及体现概念的完整性。

例如,查“玉米方面的英文”文献,则检索式为:(maize or zea-mays or corn)in de and(English in la),或者表达为(maize or zea-mays or corn)/de and(la=English)。

五、加权检索

布尔逻辑检索反映了检索词之间的逻辑关系,这种定性检索难以分辨出检索结果之间的重要程度,而且基本上采用的是精确的匹配方式实现,因此传统的布尔逻辑检索的结果缺乏“量”的比较。加权检索的提出,弥补了逻辑检索在“量”的方面的不足,成为信息检索的又一基本手段。

(一)加权检索的概念及与布尔检索的区别

加权检索指的是根据用户的检索需求来确定检索词,再由每个词在检索要求中的重要程度不同,分别给予一定的数值(权重)加以区别,同时给出检索命中界限进行限制。界限值也称为阈值(threshold),其作用是限制检索结果的输出量。进行加权检索时利用检索词查找数据库,每条命中记录将其所包含的检索词根据检索时所设定的权值,分别计算命中记录的权值之和,当已检出记录的权数之和超过或达到阈值时,才为命中文献,否则就是匹配没成功。

加权检索与布尔检索的区别在于:布尔检索的重点在于判定检索词或字符串是否在文献记录中存在以及与其它的检索词或字符串的关系;而加权检索的侧重点不在于此,而在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。

(二)加权检索的类型

加权检索并不是所有检索系统都能提供的检索技术,而能够提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,存在着一定的技术上的差别。目前,加权检索的类型主要有:

1.词加权检索(term weighing retrieval)

词加权检索是最常见的加权检索方法。在检索式的构造过程中,检索者根据对用户检索需求的理解,为需求选定检索词,同时每一个检索词(概念)给定一个数值(权重)表示其针对本次检索的重要程度。检索的时候先判断检索词在文献记录中是否存在,对存在检索词的记录计算其所包含的检索词权值总和,通过与预先给定的阈值(用户自己指定的临界值)比较,权值之和达到或超过阈值的记录视为命中记录,命中结果的输出按权值总和从大到小排列输出。这种用给检索词加权来表达信息需求的方式,称为词加权提问逻辑。例如:检索词为A、B、C,各词对应的权值如下表,阈值=10。

img13

根据以上检索要求,含有如下组合的文献将作为命中文献输出:

img14

词加权检索具有以下特点:①与定性检索一定需要提问式来表达提问要求相比,词加权检索无需列出提问式。加权使得检索词的重要程度得到体现,引而使检索具有更强的针对性,只要列出检索词就可以了,根本用不着检索式。②加权检索是影响检索结果的核心,对于词加权检索而言,解决得仍然不尽如人意。③加权是对概念加权,而不是对个别的检索词加权,当进行扩检时,权值不可重复计算。

2.词频加权检索(term frequency weighing retrieval)

词频加权检索是根据检索词在数据库中出现的频次来决定该检索词的权值,而不是由检索者指定检索词的权值。该法消除了人工干预因素,但这种加权检索方式必须建立在全文或文摘型数据库的基础之上,否则词频加权将没有意义。

词频加权主要是根据词的出现频率来确定词的权值,在检索中采用的通常是绝对词频加权,标引采用的一般是相对词频加权。

(1)绝对词频加权 指检索时累计检索词在记录中出现的次数(权值),检索的记录权值之和由记录包含的所有检索词在记录中出现的次数总和决定。这种方法的缺陷是:长记录与短记录采取了统一的频次标准,导致了短记录不容易被检索出。

(2)词频与平均词频相结合确定权值 某检索词在检索集合中的频率与含该检索词的文献数量之比,可得到检索集合中该检索词在每篇文献中的平均出现次数,称为该检索词平均词频。它可以作为系数来完善绝对词频的计算,即绝对词频与平均词频乘积的总和作为该词的权值。

(3)逆文献频率确定权值 仅仅依赖词频或对词频增加一个系数,不能对在每一篇文献内都出现的词和只在一些文献中出现的词作出区别。经验表明:一个词表达内容的程度,随着该词在特定文献中出现频率的增长而提高,随含有该词文献数量的增长而下降,因此可以将平均词频的总和作为权值。

六、全文检索

目前全文检索的技术已经比较成熟,正在得到广泛的应用。

(一)全文检索技术的发展背景

全文检索技术最早出现在美国pittsburgh大学1959年建立的法律信息检索中,由于该系统设计的相当成功,受到了信息检索界的普遍重视。到了20世纪70年代后期,特别是进入80年代以后,许多国际联机检索系统都开始大力推行并发展全文检索数据库,包括DIALOG、BRS、STN等。以世界上最大的联机检索系统DIALOG为例,1983年时全文数据库仅为7个,占数据库总数的3%,而到1989年时,全文数据库以达到54个,占当时数区库总量的17%。短短几年中,全文数据库总量增长了671%。

全文检索技术的崛起主要得益于计算机、电子出版、光电扫描等相关技术的迅速发展,尤其是电子出版的副产品——电子全文的出现,使全文检索系统可直接以电子全文为信息源,大大缩短原有的二次文献出版时差,甚至可以先于印刷型出版物出版。

与其他检索技术相比,全文检索技术的新颖之处在于,它可以使用原文中任何一个有实际意义的词作为检索入口,而且得到的检索结果是源文献而不是文献线索。全文检索技术中的“全文”,表现在他的数据源是全文的、检索对象是全文的、采用的检索技术是全文的、提供的检索结果也是全文信息。

(二)全文检索系统概念

全文检索系统的内涵可以概括为:具有全文库;系统除布尔逻辑检索外还具有文本检索功能,即位置检索、字符串检索、截词检索等;允许用户使用自然语言检索,直接获得原文有关的章、节、段、句等信息。全文检索系统对于帮助人们迅速准确地从浩如烟海的文献中获取所需的信息具有重大意义。

全文检索技术吸收了手工检索工具的词语索引的特点,将文献全文中所有具有实际意义的词都进行标引,给出其章、节、段、句的编号,使用户能按照指引找到所在文献中的信息。从原理上讲,编制词语索引需要对出现于文献的每一个有实际意义的词建立倒排索引,这项工作需要大量的人力和时间,因此只有少数的经典巨著才配有词语索引。随着计算机在信息检索领域的应用,机编手检的词语索引出现了。这种索引为文献全文中的字词进行轮排,指明在源文献中的地址,篇幅极其庞大,受当时计算机技术发展到容量和速度以及其他相关技术都完全具备了全文处理的能力时,才出现了真正意义上的全文检索技术。

(三)全文检索系统的条件与技术

1.全文数据库

全文数据库是指将法律条文及案例、经典著作、重要科技期刊、新闻报道以及百科全书、手册、年鉴等文献的全部文字(或者虽非全部文字,但包含原著的主要内容)转换为机读形式。比如“中国学术期刊(光盘版)全文数据库”收录了我国1994年以来的主要期刊的全文等。全文数据库中的每一个具有实际意义的词都可以作为检索入口,通过对全文库的检索得到的是源文献信息而不是文献检索。

2.全文检索技术

全文检索是指对文献全文内容进行字符串的匹配检索,包括字符串检索、截词检索、位置检索、同义词控制以及后控词表等技术。截词检索与位置检索已如前述,下面将分别说明一下其余的几种技术:

(1)字符串检索 字符串检索指对检索词与库文献中词语的字符片断按一定规则进行对比,查找夹在一个长词中的某个子串。这在西文文献检索中是一种强有力的检索手段,但运算速度比较慢,一般只用于对已命中的结果进行二次检索。

(2)同义词控制 同义词控制是以自然语言为基础的全文检索系统的重要任务。同义词典在系统中的配置及其自动转换,对全文检索系统改善查全率是十分必要的。但目前一般的联机检索系统和网络信息检索系统没有实现这个功能,而把同义词控制的任务通过检索者的智力活动来实现。

(3)后控词表 后控词表是一种辅助检索的词表,由系统自动获取检索式中用逻辑或相连的检索词,把它们之间的关系看作同义词或近义的关系,形成一个个词表的片段。这种词表在后来的检索中自动把同义词或近义词增补到检索式中去,以提高查全率。后控词表是随着检索量的增加而不断增长的。但需要定期人工检查,以去除内容含义上不相干的词,降低误检率。目前,只有极个别的检索系统提供这种检索功能,有待于进一步探讨。不过,后控词表能够自动改善检索质量,这是全文检索系统走向智能化的途径之一。

(四)全文检索系统特点

与传统的检索系统相比,全文检索系统具有鲜明的特色,正是由于这些特点使全文检索系统具有了独特的魅力,使其在短短数年内得到数据库供应商的大力扶持和检索用户的欢迎:

1.检索所获结果的直接性、原始性和可靠性

传统的信息检索系统提供的均是二次文献,即对原始文献外部特征和内容特征的标引和描述,获得的仅仅是有关文献的线索。如果想要获取原文,则需要利用这些线索去获取相应的原始文献。而全文检索系统提供的却是全文,因而具有直接性。

2.系统制作效率高

全文检索系统的效率得益于两个方面。首先,全文检索系统无需进行大量纷繁复杂的受控标引工作,从而节省了工作人员大量的时间和精力(通常国外提供经过受控标引的二次文献至少需要半年);其次,大多数全文系统的信息源来自电子文本,这不仅避免了二次输出带来的差错,还大大缩短了出版时延,使得全文检索系统能够迅速问世。

3.检索的详尽性和彻底性

传统的检索系统的文献数据库是结构化的,文献的检索点仅仅限于若干可检字段。同时数据库的质量受标引人员的水平影响很大,带有一定的主观性。而全文检索系统允许对任意有检索意义的部分进行检索,从而达到检索的详尽性和彻底性。

4.词汇自然更新

在受控标引检索系统中,检索词表相对固定并且规范化。由于学科的发展以及人们认识水平的提高而动态涌现的新概念、新词汇给标引工作带来了许多困难,所以需要对词汇进行定期的更新维护工作,剔除过时无用的词汇,增加新出现的词汇和概念。全文检索系统标引与检索是直接针对文献中词汇的,避免了新概念、新词汇给检索系统带来的各种麻烦。

5直接面向终端用户

由于全文检索系统的数据库基本上不标引,主要采用原始文献中的文字作为检索的依据。文献中的自然语言是著者和用户习惯使用的。与词表的控制词汇相比,尽管缺乏规范性,但就其易用性和表达性来说,更受信息终端用户的欢迎。

6.专指性强

全文检索建立在对原文标引的基础上,其检索词可专指到源文献中禁用词表外的每一词。同时,全文检索不仅提供了布尔检索,还可以进行位置检索,从而极大地提高了检索的专指度。

7.查全率高

全文检索是针对原文的检索,源文献中每一个有实际意义的词都可作为检索入口,即只要欲检索的概念出现于被检文献中,就能把该文献检索出来。其查全率当然要比受控标引系统高。但是,全文检索也影响到查准率,这种能检索到每一个词的技术,那最终结果自然会形成含无关文献的概率也很高。

8.检索者智力负担重

由于著者用词习惯不同,导致同一概念的不同词汇在文献中大量增加。而全文检索通常都不具有标引与检索控制词典,使检索者较难确定检索词或词组,要获得较满意的检索效果,检索者必须设计出所有可能出现的词汇,无疑加重了检索者的脑力负担。

总之,全文检索有效地解决了一般非结构化文字信息内容的查询问题,有效解决了关系数据库管理系统不能很好查询非结构化信息的问题。但是全文检索的效果需要进一步提高,对于不同应用能力的适应力还需要改进,其核心是发展知识检索,即智能检索。

七、超文本检索

(一)超文本概况

人们习惯上将知识信息分成文本信息(包括文字信息与数字信息)、图像信息和声音信息。而超文本(Hypertext)信息则集文本信息、图像信息、声音信息于一体,也就是包含了一切可以用现代计算机存储的信息。

超文本既是一种信息的组织形式,也是一种信息获取技术。超文本与普通文本的差别,不仅在于存储信息的形式,而且在理论上,超文本还能存储存在于超文本信息之间的多种自然的联系,而普通文本则只存储记录之间的并存关系。超文本强调了信息对象之间的关系,方便了人机交互、增加了用户对系统的了解,符合人们联想式的阅读与思维习惯。

最早提出超文本思想的是Vannenar Bush,他于1945年在其“As we may think”一文中,首次提出把文本、照片和图表按照一定方式进行连接和存储,以形成一种不局限于文字的文本,并提出了一个Memex系统的设想,先于当时的条件,此设想未能具体实践。随着计算机技术的发展,在20世纪60年代,计算机科学家Ted Nelson明确提出了“超文本”这一概念,并设计了著名的超文本系统“XANADU”。然而其后的20年,超文本技术并没有引起人们的注意。直到80年代,超文本技术才逐渐得到科研人员的重视,从此该技术得到了迅猛的发展。进入90年代,众多软件引入了超文本技术,风行世界的Internet也以此作为主要的信息组织和编排技术,推出了诸如HTML等标准化的超文本描述语言以及众多的超文本开发工具。

总的来说,超文本技术既是一种新型的信息单元的组织和检索技术,也是一种计算机软件技术。它利用计算机技术、通信技术和人工智能的知识表达技术,将包含文字、图像、图形、声音、动画等多种形式的电子信息按其相互之间的关联和可能出现的连续性,进行非线性编排。用户可以按照自己的意愿来组织这个相互关联的网络信息系统,同时,只要两个信息单元之间存在着直接或间接的关联,就可以从中之一出发,顺着关系链到另一个信息单元。

(二)超文本的特点

作为一种新型的检索技术,超文本技术与受控标引检索、全文检索等传统检索技术相比,有着显著的区别:①内容非线性组织和单元关联性;②体现了信息的层次关系;③动态性、交互界面良好;④信息内容表述方式的多样性和直观性(不仅有文字,还有图片、地图、照片、声音、动画等);

这些特点使得超文本信息检索避免了检索语言的复杂性,与传统的信息检索系统相比其具有很明显的优越性:

①超文本信息检索以知识单元为单位,通过链路将同一文献或不同文献的相关部分连接起来,检索的时候可以深入到知识单元;而传统的检索系统以文献为单位,检索结果都是整篇文献。

②传统的检索系统采用精确匹配的检索方法,检索结果是一组未经排列的文献,无法区分它们的重要性;而在超文本检索系统中,文献是结构化建立的,并非处于同一层次,用户使用超文本检索系统时,可以看到文献间链路以及两个文献间路径或相隔的节点数,并由此确定文献的重要性。同时还可根据需要在没有链路的文献之间加上链路。

③一般检索中,由于不熟悉检索语言和检索策略,给用户造成很大困难。尤其是跨数据库检索时,由于每个数据库具有不同特征和使用不同的检索语言,更增加了检索的难度。而超文本系统可通过链路浏览,找到所需信息,避免了检索语言的复杂性。另一方面,超文本系统还可以作为一个独特的用户界面,将不同数据库的检索语言一体化。

(三)超文本检索系统的分类

目前对超文本检索系统的分类还没有一致的标准,根据Carison的观点,超文本检索系统可以分为三类:基于浏览的检索系统(navigation-based)、基于提问的检索系统(query-based)以及智能检索系统。

1.基于浏览的检索系统。

这是最一般的超文本检索系统模式,它表达了现有超文本系统信息存储与检索的特点。

传统的信息检索系统数据库由两部分组成:文献集合库(顺排档)和结构化的辅助数据集合(倒排档)。文献集合库包括有与文献有关的大量数据,而辅助数据库则提供检索入口及与文献集合库的联系关系。

基于浏览的超文本系统数据库也包括两个部分:文献集合与连接集合中文献的链路网。链路网一方面将同一文献或不同文献的相关部分连接起来,另一方面将语义相近的信息单元连接起来,相当于传统检索系统中的辅助数据的功能,两个语义相关的信息单元之间相互引导浏览。所以一般超文本检索系统允许用户自行加入连接关系,以使系统的链路网络完善。

基于浏览的超文本系统最主要检索方式就是浏览检索方式,即通过跟踪信息结点间的链路,在网络中移动获得所需信息。通过对系统包含内容的浏览,可以了解信息单元本身的内容、数据库的组织方式、信息之间的相关程度、信息的查询路径等,用户可以据此调整检索策略甚至检索目标。

通过浏览的方式只能适用于中小型的检索系统,一旦结点和链路多达一定程度,系统的浏览速度将会大大降低,检索者在众多的路径分支前也会失去判断能力。另外,依靠浏览不能快速获取信息集合,浏览一个结点只能判断一个信息单元的取舍,费时费力,即便是加上字符串匹配、关键词匹配等辅助手段还是难以满足用户的要求。

2.基于提问的检索系统

基于提问的超文本检索系统可以看作一种双层结构模型。这种模型的检索系统由三部分组成:信息集合、辅助数据集合、结点链路。结点之间的链路可分为连接不同信息单元的结构链(Structural Link),连接表达不同语义的辅助数据语义链(Semantic Link)以及连接信息集合元素和辅助数据集合元素的连接链(Connection Link)。辅助数据集合和语义链构成检索系统的一个层面(概念层),信息集合与结构链构成检索系统的另一个层面(文献层),连接链则贯穿于两个层面之间,具有实现两个层次的交换、沟通作用。

概念层表示文献的语义集合,相当于文献层的索引。当在概念层中加入了新的语义结构时,系统会自动建立起新的概念结构和概念层中原有语义以及文献层中各信息单元之间的对应关系。同样,当新的文献单元被加入到文献层中,系统也会建立起信息单元和语义结构的联系。

3.智能型检索系统

智能信息检索系统实际上是基于导航浏览和基于提问系统的逻辑功能的延伸。它利用人工智能技术,对检索课题进行推理判断,并自行修改,开发检索策略。

(四)超文本检索存在的问题及解决方法

1.存在的问题

超文本检索存在的最大问题是检索时经常会碰到所谓“迷路”(Disorientation)的现象,也就是说,用户在顺着超文本结点间的链路进行浏览时,面对众多直观而易得的信息片断出现了偏离原先查询主题的现象,即“误入歧途”,从而身陷丰富庞大的信息资源中找不到合适的出路。

那么造成这些现象的原因是什么呢?经过分析,可能有以下原因产生了上面的问题:①屏幕空间的限制。②检索系统缺乏语义信息。③操作耗费时间。在超文本中,浏览、滚屏、重显示等都是非常耗费时间的,长时间的使用,容易分散用户的注意力,影响他们对检索内容的理解和记忆。④网络信息结构复杂。

2.解决的方法

目前对网上“迷路”现象的解决主要采取以下方法:①提高浏览器运行速度。②利用三维图形、不同色彩、视角变换来显示超文本系统结构。③建立概览窗(Overview Window)显示网络信息结构简要情况。④使用过滤器(Filter)。过滤器能够利用一定的限制来滤去某些类型的结点或连接,还可以指定结点扩展深度,从而缩小浏览范围。⑤建立路径目录(History Lists)。路径目录是指以列表的方式记录检索者所经过的结点以及与它们所联系的邻结点。一般记录深度为1,即只有与经过结点直接相连的信息结点才会被记录下来。这些结点中,用户已经浏览过的结点名称用特殊符号标记出来。

超文本检索技术是一种相对新型的检索技术,它有着传统检索技术所没有的优势。虽然目前还存在着许多没有解决好的实际问题,并需要在理论和实践上进一步探索和研究。但是超文本检索作为一种数据库检索的一种工具,凭借其独特的直观性、易用性、方便性,必将成为检索系统的主流。

八、智能检索

信息检索的发展经历了布尔检索、全文检索后,发展到图、文、声、像并茂的超文本检索,检索过程更加灵活,检索结果更加生动形象。但是所有这些方法都不能得到令人十分满意的效果,或多或少总会产生一些衍生的问题。只有让这些检索系统向着智能化的方向发展,即让信息自动化处理技术、超文本技术、传统检索技术和人工智能技术相结合起来,才能得到真正方便实用的信息检索系统。这也是目前重点研究的检索技术——智能检索技术。

(一)智能信息检索概述

智能检索系统的核心是必须具有智能化人机接口,从而使用户在求解问题过程中能发挥更恰当的作用。同时必须具备系统推理能力,以此来确定用户及其提问和数据库文档之间的关系,它可以通过一些启发式的推理处理来完成。

现在的检索系统增加智能化的人机接口而形成智能检索系统必须具有:①主动向用户提供检索系统的参数,如数据库分布、更新情况等,帮助用户选择数据库;②具有语法分析功能,使用户能用自然语言进行提问;③帮助用户确定检索策略;④记忆不同用户使用的检索模式及其对数据库的覆盖范围和对所得检索结果的评价,以便完成自我学习和更新。

而集中融合传统检索技术和人工智能技术建立的新一代智能型信息检索系统,则完全能以自然语言方式接受课题,并像人工那样进行课题分析与设计,全过程自动完成课题的检索。

(二)智能信息检索系统的基本构成

从理论上讲,一个智能型信息检索系统一般应由如下几部分组成:

①知识获取及加工系统。该系统完成对计算机专家、信息检索专家、以及其它相关领域专家相关知识的获取和加工,并以适当的方式存储在知识库的相应文档中,以此构成检索系统运行的智能基础。

②信息资料获取及加工系统,它完成对各种文献型及非文献型信息资料的获取及加工,也以适当的形式将其存放在知识库中的相应文当中,以此构成检索系统运行的“物质”基础。

③知识库。这是该智能信息检索系统的核心部分之一,它主要存放来自知识获取及加工系统的分析方法集、检索策略集、以及来自信息资料获取与加工系统的信息资料集(各种数据库)等。

④知识库管理系统。他完成对知识库的日常管理和维护。

⑤搜索机。这是智能信息检索系统的又一核心部分,它负责接受用户提问,借助知识库完成相应的检索,并以适当的方式将检索结果提供给用户。

⑥输入/输出接口。用户据此向系统提出自己得检索课题,并得到课题检索结果。

这里,用户的检索提问可以是已准备好的检索提问式,也可以是用自然语言描述的检索意图、具体要求和检索有关的一些参数信息。输入/输出接口将会把用户自然语言或非标准化检索语言表达的问题转换成系统能够理解并处理的表达形式。

(三)实现智能化信息检索系统必须解决的几个问题

1.自然语言理解

2.知识表示

人工智能系统可以表达的知识有以下几种类型:①对象性知识:具有对象本身类型或种类以及对象描述的方法,如雪是白的。②事件性知识:有事件本身的描述,还有事实的类属与特征,同时涉及到对象时间过程及因果关系等。③性能性知识:表达的是如何做一件事情及其技巧的性能。这类知识可决定一个人独立工作的能力、解决问题的能力和创造力。④元知识(Meta-knowledge):专家系统中,一般把使用和控制该系统领域知识的知识称为元知识。

目前知识表示的方法有:逻辑表示模式、语义网络、过程表示和产生式系统、特性表、框架、剧本等。

3.推理机制

推理机制包括正向推理、反向推理和混合推理。

正向推理的步骤是:首先根据当前数据库的状态对所有规则的条件求值,以得到一组可用的规则;然后,如果无可用规则,就以失败告终,否则随机地选择一条可用的规则执行其动作部分;而如果目标实现成功,则返回第一步进入循环。这种推理机制简单明了,而且能求出所有的解,但执行效率低,同时驱动了一些与问题无关的规则,因而具有盲目性。

反向推理就是从先欲达到的目标入手,看哪些规则能产生目标以及应用这些规则产生目标时所需要的条件。这些条件就成为我们要达到的新目标,而搜索就是通过反向的、连续的新目标进行,直到找到问题给定的条件为止。这种推理方法其优点在于不寻找无用数据,不使用与问题无关的规则。

混合推理就是融合了正向推理和反向推理,兼具两者的优点,在实践中使用比较广泛。

4.知识获取

知识获取是把求解问题的知识经过传递、教授等方式变为系统拥有的知识,包括数据特征抽取(数据挖掘)、模式识别和自然语言理解等。

智能化知识检索应该更加注重数据(文本)挖掘的功能,现阶段一个智能型检索系统至少应该包含如下一些功能:①具有大规模实例描述的汉语分词排歧知识库。②具有主题词典、广义同义词检索、拼音检索、同音检索等功能。③具有基于内容的相似性检索功能,具有自动分类(自动聚类)和自动摘要功能,具有知识压缩和去重功能。④具有文本挖掘功能,比如对数字的理解,新词学习等。⑤智能代理,自动和自助式检索。

5.机器学习

机器学习技术是用来帮助计算机发展知识的一种有效手段。

智能检索作为人工智能技术和数据库技术相结合的产物,机器学习涉及到知识获取,也涉及到系统在适应性方面的变化。

人工智能是一门正在、迅速发展的新兴的综合性很强的学科,它与知识信息检索的结合必将产生巨大的社会效益。如果能把全体人类的知识集成于一个智能的知识库中,那么它所提供的人工智能,将可能超过人类的任何一个个体的有限的自然智能。当然人工智能研究面临的困难也是非常大的,其所涉及的应用领域越广,则所需的知识越多,其结构、算法、问题表达都会变得很复杂,所以目前的研究还只是针对某一个学科领域具体问题的专家系统。可以想象,人工智能信息检索系统将是信息检索技术的最终目标。

总之,随着计算机技术的不断进步和信息量成倍地增加,使人们对信息检索技术的要求也越来越高,尤其是网络技术和多媒体技术的出现,促使信息检索技术也不断地发展。目前,信息检索技术正向两个方向发展:一是传统信息检索向全文本、多媒体、多载体、多原理等新型信息检索的发展,在深度上提高管理和组织信息的能力,如探索自动抽词、自动索引、自动检索、自动文摘、自动分类、自动翻译等;二是信息资源的网络化和分布化,面向Internet中浩瀚无垠的资源,在广度上提高管理和组织信息的能力。在信息检索技术研究领域中,基于概念、超文本信息和多媒体信息检索技术的研究最为活跃,并已取得了突破性发展。网络的发展给信息的获取提供了广阔的空间,而检索技术的发展为人们利用知识信息提供更方便快捷的手段。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈