首页 理论教育 信息检索的模型的分析介绍

信息检索的模型的分析介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:为了进一步严密地表述和论证这一原理,需要建立相应的信息检索模型。布尔逻辑检索模型布尔模型是经典信息检索模型,同时也是第一个信息检索模型。布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。根据这些反馈信息,系统便可以在后续的检索结果中不断作出优化,改进对理想结果集合的描述,从而在多次交互操作之后使检索结果逐步接近该提问的理想命中结果集合R。

6.1.4 信息检索的模型

不同信息检索系统获取信息的方式与途径不同,但它们的基本原理是相同的:即检索系统对用户信息需求与系统存储的信息资源所进行的匹配。为了进一步严密地表述和论证这一原理,需要建立相应的信息检索模型。所谓检索模型就是对信息检索任务的数学抽象,它避开了对具体实现细节如数据存储、数据结构等的描述,而主要从两个方面抽象地研究信息检索方法:一是确定在模型中如何表示构成检索系统的两个要素:即文档和检索条件;二是确定在模型中如何定义和计算文档和检索条件之间的关系。

信息检索模型的类型主要有集合论模型(包括布尔模型、模糊集合模型、扩展布尔模型)、代数论模型(包括向量空间模型、语义模型、神经网络)、概率论模型(包括概率模型、推理网络、信念模型)等。下面我们主要介绍以下四种模型。

(1)布尔逻辑检索模型

布尔模型是经典信息检索模型,同时也是第一个信息检索模型。它是一种简单的检索模型,建立在经典集合论和布尔代数知识的基础上。由于集合论的“集合”具有很好的直观性,布尔表达式又很简单明了而且语义准确,因而布尔检索模型很容易为用户所接受。

布尔检索模型采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。在实际检索中,检索提问设计的概念往往不止一个,同一个概念可能涉及多个同义词或相关词。这样用一个词来表达检索提问就不一定能够准确表达检索用户的检索意愿,为了正确地表达检索提问,系统中采用布尔逻辑运算将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式。逻辑运算中最常用的是布尔逻辑运算符(boolean logic operator),主要的运算符有逻辑“与”、逻辑“或”、逻辑“非”,分别用AND(或﹡)、OR(或+)、NOT(或-)表示。检索词A、B若用逻辑“与”相连,即A ANDB(A﹡B),表示同时含有这两个检索词才能被命中;若用逻辑“或”相连,即AORB(A+B),表示只要含有其中一个检索词或同时含有这两个检索词的文献都将被命中;若用逻辑“非”相连,即A NOT B(A-B),表示被检索文献含有检索词A而不含有检索词B时才能被命中。对于含有多个逻辑运算符的检索提问式,其需要遵循系统所规定的运算次序。

布尔检索模型具有逻辑运算符较少、提问式构造简单且易修改等优点,但同时也表现出一些缺点,如检索中的关键词没有权重区别、检索结果没有重要性排序、查全率较难控制、对用户语义提取能力要求较高等。为了解决这些问题,一种引入了矢量处理思想的扩展布尔检索模型得以提出,它具备矢量处理的权重检索优势,而且保留了布尔表达式中的连接符加权,但不够自然简洁,应用不是很普及。

(2)向量空间检索模型

20世纪60年代末期,美国康奈尔大学计算机学家G.Salton基于“部分匹配”(partial matching)策略的信息检索思想,提出并采用线性代数的理论和方法构建一种新型的检索模型,即向量空间检索模型(Vector Space Model,VSM)。它的基本前提是将检索文档和检索提问式都看成是一组数值向量,这些数值形成一个空间向量图,这样就将信息检索中文献与提问匹配处理过程转化为空间中文献向量与提问向量的相似度计算问题。某一文献与某一提问的相关程度通过检索该向量对之间的相似度来测定。与布尔逻辑模型“非此即彼”的刚性检索相比,向量空间模型体现的是一种柔性的信息检索,它不是单纯地确定一个文档是否被命中,大多数情况是介于命中与未命中两者之间。所以,为了更加有效地得到一个合理的检索结果,需要制定一个关于相关度的阈值(threshold),凡与提问向量的相关度大于此阈值的文档,都作为检索结果反馈给用户,并且按相似度大小降序排列输出。这样,向量空间模型的检索匹配就在一种“部分匹配”策略的指导思想下完成了。

作为基于代数论的一个数学模型,向量空间模型对文档的量化处理思想充分发挥了计算机的计算特长,而且自诞生以来,在文本信息检索领域中一直占据着非常重要的地位。它既有布尔检索模型的简洁形式化特点,又有有效的匹配算法设计以及合理的结果排序处理方式,在文本检索(Text Retrieval)、文本分类(Text Categorization/Classification)、文本过滤(Text Filtering)、文本挖掘(Text Mining)、文本浏览与可视化(Text Browsing and Visualization)等领域都有典型的应用。与此同时,VSM在应用过程中还存在着一些需要继续研究的问题,如对处理结果的可解释性较差、现有算法在当前大规模或超大规模真实文本环境中的有效性需要验证、如何与自然语言理解技术进行融合等。

(3)概率检索模型

概率模型是一种实现简单、效果较好的信息检索模型,于1976年由英国城市大学的S.E.Robertson和K.Sparck Jones提出。其基本思想是:给定一个用户提问,则检索系统中存在着一个只包含与提问相关的文档的理想结果集合,记为R。如果能知道集合R的特征及其描述,就能够找出全部相关文档,排除所有无关文档。然而,在用户提出检索要求时,并不知道这个理想结果集合的特征。因此,在第一次检索时就需要对R的特征进行估计。根据初始的估计,系统将形成一个初步的对理想结果集合的概率描述,用户检索出初始文档集。在此基础上,用户可以对初始检索结果集合中文档相关与否进行判断,或者,由系统对检索结果文档的相关性进行自动判别。根据这些反馈信息,系统便可以在后续的检索结果中不断作出优化,改进对理想结果集合的描述,从而在多次交互操作之后使检索结果逐步接近该提问的理想命中结果集合R。

从本质上讲,信息检索是一种具有不确定性的决策判断过程。概率模型清楚地认识到了这种不确定性,利用概率论原理,主要研究表示文档的随机向量在相关文档集和无关文档集中的概率分布,将文档向量与查询向量间的相似程度概率化,通过计算某一给定文档与某一给定用户提问相关的概率从而作出检索决策。不同于布尔模型和空间向量模型,概率模型具有一种内在的相关反馈机制,它把检索处理过程看做是一个不断逼近并最终确认命中文档集合特征的过程,并通过运用某种归纳式学习方法实现系统对检索结果的优化与完善。

概率模型的局限性主要表现在:①各种参数估计难度较大,最初估计标引词在相关文档出现的概率没有任何先验知识,有可能与实际情况出入较大;②需要预先将文档分成相关和不相关的两个集合,在查询不足的情况下如此分类的精度不高,从而造成性能下降;③标引词的权值计算方法为0/1式,仍是二值的,没有考虑到词频等加权因素;且沿用了标引词之间相互独立的基本假定,在描述文档和提问上性能不佳。

(4)模糊检索模型

布尔检索模型主要是基于经典集合论,即元素和集合之间的隶属关系是明确的,只存在是或否两种情况。而在信息检索中,文档和提问之间的相关与不相关不是绝对的,二者的匹配是近似或模糊的。每一个检索词在系统中都对应着一个模糊的命中文档集合,而每一篇文档对于这个命中集合来说,又都具有各自不同的隶属度值(通常小于1)。具体来说,信息检索中的模糊性主要表现在:①用户通常不能准确说明他所需要的信息,在检索过程中会出现“全部”、“一些”等数量上的模糊关系和“相关”、“紧密相关”等相关性方面的模糊概念;②系统中所采用的文献标识只是文献内容的部分和不准确的表示;③大部分文献只是与用户提问部分相关;④用户对于检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定性,人们引入模糊集合理论来构建模糊集合模型。以模糊集合的概念来解释信息检索过程,成为模糊检索模型建立的基础。

模糊集合模型是基于美国自动控制专家札德(L.A.Zadeh)的模糊集合理论,其出发点是用“隶属函数”的概念来描述差异的中间过渡,并通过隶属函数对经典集合论加以推广。模糊集合理论处理的是边界不明确的集合的表示,其中心思想是把集合中的元素和隶属函数结合在一起。隶属函数的取值在[0,1]上,0表示元素不隶属于该集合,1表示完全隶属于该集合,值在0和1之间表示元素为该集合的边际元素。模糊检索将文献看成是提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,取值在[0,1]上。标引词的模糊集合是在标引过程中建立的,通过标引词关联矩阵建立的叙词表来计算文献对标引词的隶属度。在模糊集合检索中,用户的检索提问通常由布尔逻辑式来表达,对于用户需求的处理是把表达用户需求的布尔逻辑式转换成析取范式的形式。计算文献与提问相关的过程类似于经典布尔模型中的计算,只不过在模糊检索中处理的对象是模糊集合而不是普通集合。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集[5]

总的来说,模糊检索模型与经典布尔模型关系密切,它基本保留了布尔检索功能,但更为灵活,对那些既想利用布尔检索长处、又想避免其二值相关性判断局限性的人们来说,能够较好地满足需求。不过该模型的应用范围不是很广泛,且关于隶属函数的确定还需要更加精确有效的方法。

集合论模型、代数论模型和概率论模型的一个共同点是:它们都建立在对信息内容特征的标引与匹配上。长期以来,对这些模型的理论探讨及试验验证,一直是信息检索领域的主要任务。随着信息资源类型的不断丰富,信息检索的匹配机制与标准也在不断发展。除传统的信息内容特征外,信息的结构特征及其提取成为建立新型信息检索系统的另一种可供选择的匹配标准。另外,随着WWW网络环境的日益普及,在超文本技术的支持下,用户的信息检索除了通过索引文档的查询与匹配之外,浏览方式的浏览模型也成为令人关注的研究内容。与此同时,人们对信息检索的过程也进行了研究,从而得到了信息检索主体在检索过程中的认知模型。据此,人们可根据自己的认知思维所得到的检索结论,改造自己的检索观念模型来适应不同检索系统,进而可根据自己的检索结论来评价和改造检索理论,创造出新的信息检索理论以及信息检索系统。对信息检索的认知模型的研究有助于提高检索主体在检索过程中的自觉性和创造性,使检索思维和行动更加明确有效,同时也是对检索理论的进一步完善。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈