首页 百科知识 信息检索的基本模型

信息检索的基本模型

时间:2022-09-30 百科知识 版权反馈
【摘要】:布尔模型是产生最早、应用最广泛的经典信息检索模型。概率论模型利用概率论原理来理解和解决信息检索问题,是基于文档与提问式是否相关的概率来进行信息检索。

第三节 信息检索的基本模型

信息检索需要解决的核心问题之一,就是明确用户的信息需求形成机制以及如何最大限度地满足用户的信息需求。随着信息量和信息类型的快速增加,人们在信息检索过程中开始采用科学的方法。信息检索模型是应用数学知识和工具,对信息检索系统中的信息及信息处理过程进行概括、翻译、解释和抽象,并用特定的数学公式描述其基本原理,从而指导信息检索实践活动。

20世纪中期,数学工具被引入到信息检索领域,研究人员先后提出了不同类型的信息检索数学模型,这些检索模型在信息检索实践中得到了不断的发展和完善。信息检索模型可以分为基于内容的检索模型和结构化数学模型两大类。其中,信息检索的三个基本模型是:布尔模型(Boolean Model)、向量空间模型(Vector Space Model,VSM)和概率模型(Probabilistic Model)。在布尔模型中,文献和查询用标引词集合来表示;在向量空间模型中,文献和查询用空间向量图来表示;概率模型则应用概率论原理来构建文献和查询机制。此外,使用比较广泛的检索模型还有模糊集合模型、扩展布尔模型,以及近年来广受关注的基于本体的检索模型、跨语言信息检索模型,等等。

一、布尔模型

布尔模型是产生最早、应用最广泛的经典信息检索模型。1957年,Y.Bar-Hillel首次探讨了布尔逻辑模型应用于计算机检索的可能性,至20世纪60年代中期,布尔模型正式被大型文学检索系统所采用,此后经久不衰,被各大联机检索系统以及网络搜索引擎所采用,成为各类信息检索系统都普遍采用的经典模型。

布尔检索模型采用了布尔代数和集合论的方法,用布尔表达式表述用户提问,通过对文献标识与提问式的逻辑运算来检索文献。检索提问往往涉及多个概念,同一个概念又可以表达为多个同义词或近义词,为了全面、准确地表达检索提问,检索系统采用布尔逻辑运算将不同的检索词组配起来,形成一个个具有简单概念的检索单元,将这些检索单元进一步组配,形成一个具有复杂概念的布尔表达式,从而表达用户的信息检索需求。

布尔检索的主要优点是形式简洁、结构简单、易学易用;主要不足之处是:检索词没有权重区别,不能体现检索项的主要程度;采用非是即否的精确匹配方式,无法描述与查询条件部分匹配的情况,导致检索结果不够精确,查全率受到影响。

二、向量空间模型

向量空间模型是一种利用统计学方法而建立的数学模型。20世纪60—70年代,G·萨尔斯顿基于部分匹配(“partial matching”)的检索思想,在其开发的实验性检索系统SMART中首次提出了向量空间模型,其工作原理是将检索文档和检索提问式(关键词)都看做是一组数值向量,形成向量空间图,将检索文档向量与检索提问式向量进行相似度测定,对检出的文献按文档与检索提问之间的相似度降序排列,实现文献与查询的部分匹配。

向量空间模型的主要优点是:标引词加权处理,可以灵活地定义标引词与文献的关系深度,从而改进检索效果;部分匹配策略能检出与查询条件接近的文献,避免了布尔逻辑模型非是即否的僵化的缺点;余弦公式可对检索结果按照与提问的相关度排序输出,便于用户修正检索提问。其主要缺点是:检索过程转化为向量的计算方法,不能完全反应文献之间的复杂关系;标引词加权和检索词加权是分离的,随意性大,质量难以保证。

三、经典概率模型

概率论模型利用概率论原理来理解和解决信息检索问题,是基于文档与提问式是否相关的概率来进行信息检索。经典概率模型(Classic Probabilistic)是最早出现的概率模型,此后还出现了推理网络模型(Inference Network Model)和信念网络模型(Belief Network Model)。

经典概率模型由S.E. Robertston和K. Sparck Jones于1976年提出,它的基本指导思想是:给定一个检索提问,则检索系统中存在着一个与该提问相关的理想命中结果集合,如果已知该集合的主要特征及其描述,则用户的检索要求不难实现。但在现实中,用户并不知道这个理想结果集的特征,因此,需要在初始检索时对其进行猜测,并获得一个初步的命中结果集合。用户或者系统对这个初始检索的命中结果集合的文档进行相关性判断,并根据反馈的信息,不断优化和改进后续的检索策略,从而逐步使检索结果接近该提问的理想命中结果集合。

经典概率论的优点是实现简单,文献能根据它们相关的概率以递减的顺序排列。其不足之处是:各种参数估计难度较大;标引词没有考虑词频等加权因素;标引词假定为相互独立

本章思考题

1.试述信息检索的基本原理。

2.信息检索主要经历了哪几个发展阶段?

3.信息检索的基本模型有哪些?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈