首页 理论教育 文本信息检索模型

文本信息检索模型

时间:2022-03-10 理论教育 版权反馈
【摘要】:网络信息检索一般要通过信息的收集、整理、分类、索引,从而产生数据库以供检索。文档的索引与检索模型是WWW索引与检索系统的核心,检索模型的优劣直接影响到系统的效果。文本信息检索模型主要分为两大类:全文检索和基于内容的文本检索。全文信息检索是网络检索的发展方向之一。字表法是对每个单字的出现位置进行索引,并依据单字的位置信息进行检索的文本检索方法。特征提取是利用向量空间模型进行信息检索的关键步骤。

第一节 文本信息检索模型

Internet上的信息资源极其丰富,如何快速、准确地从浩瀚的信息资源中寻找到所需信息已成为困扰网络用户的一大难题。网络信息发现与检索就是针对此问题而发展起来的一项新技术。网络信息检索一般要通过信息的收集、整理、分类、索引,从而产生数据库以供检索。文档的索引与检索模型是WWW索引与检索系统的核心,检索模型的优劣直接影响到系统的效果。文本信息检索模型主要分为两大类:全文检索和基于内容的文本检索。

一、全文检索模型

全文信息检索是网络检索的发展方向之一。全文检索技术最早于1959年出现在美国匹兹堡大学建立的法律情报检索系统中。进入20世纪80年代以后,DIALOG、LEXIS-NEXIS、STN等著名的国际联机检索系统大力推进并发展全文检索数据库。我国也出现了几个有影响的全文检索系统——北京文献服务处全文检索系统(BDSIRS)、万方数据资源系统、中国期刊网、维普公司数据库等。

全文检索是以全文数据库的存贮为基础,以原始记录中的检索词、字间的特定位置为对象的运算,从某种意义上说,全文检索是一种不依赖叙词表而直接使用自由词的检索方法。全文检索的关键是文档的索引,即如何将原文档中所有基本元素的信息以适当的形式记录到索引库中。在中文文档中,“基本元素”可以是单个汉字,也可以是词或词组。根据索引库中索引的元素不同,可以将全文检索分为基于字表的全文检索和基于词表的全文检索两种类型。

(一)字表法

字表法是对每个单字的出现位置进行索引,并依据单字的位置信息进行检索的文本检索方法。字表法索引库的主要部分是每个字的字表信息,建立字表索引时,需要扫描整个源文档,对出现的每一个有效字符,计算其在文档中出现的位置,并将该位置的值加入到对应的字表中。

字表记录了对应字符在源文档中的所有位置信息。考察一个字符串,例如两个字的字符串XY(其中X、Y表示任意的汉字字符),假设X的位置为Px,如果字符串XY在源文档中出现,则Y的位置Py必定等于Px+2(2为两个汉字间的字节距离)。在索引库中,X的字表中包含Px,而Y的字表中也必然包含Px+2。进行检索时,扫描X和Y各自对应的字表,若文档中有该词出现,则必定在X对应的字表中存在位置值Px,Y对应的字表中存在位置值Py,使得Py=Px+2成立,每查到一对这样的位置值,就是检索到了字串XY一次。扫描完两字字表,就可以检索出符合要求的所有信息。

字表法的缺点是生成的索引库庞大(索引文件的长度往往大于源文档的长度,需要对索引库进行压缩处理),检索速度低、错检率高。其优点是适应性强,应用范围广,索引的生成简单,比较适用于内容复杂、新词汇和特殊词汇多的文档的检索。

(二)词表法

与字表法相似,词表法是以能表达一定意义的词为基本检索单位,并根据词的出现位置进行索引和检索的文本检索方法。建立索引时,首先需要对源文档进行词条的切分,然后对切分后的文档词条进行统计,记录每一个出现的词条及其出现的位置。索引的建立较复杂,漏检率较高,且不能进行单字和任意字符串的检索。其优点是适合于大规模应用,索引库规模小,检索的处理速度快,同义、反义等概念检索的实现较为简单,比较适用于特定领域中或内容相对固定的文档的全文检索。

二、基于内容的文本检索技术

基于字表和基于词表的全文检索方法,不考虑文档的具体内容,而仅判断是否包含被检索元素的检索方法。基于内容的检索则是能够根据文档的内容,处理类似“检索出属于多媒体类且包含通信内容的文档”等涉及文档内容查询的检索技术,此种检索模型侧重于文档的主要内容,而舍弃了局部的细节,生成的索引库较小(索引库长度通常为源文档的几十分之一或几百分之一),检索速度快,较为接近人的查询习惯。其中使用较多的是布尔模型、向量空间模型和概率模型。

(一)布尔模型

布尔模型是一种简单的严格匹配模型(Exact Match Model),它定义了一个二值变量集合来表示文档,这些变量对应于文档中的特征项,一般是由训练文档集中的词条或短语组成。如果词条对文档内容有贡献,则赋予True,否则置为False。检索时,根据用户提交的检索条件在文档表示中的逻辑关系是否满足,将检索文档分为两个集合:匹配集和非匹配集。因匹配结果的二值性,而无法在匹配结果集中进行查询结果的相关性排序。

布尔模型的优点是实现简单、检索速度快,在许多检索系统中得到应用,如Yahoo!、搜狐等。其缺点为它的文档表示能力差,无法区分特征项对文档内容贡献的重要程度,并且逻辑表达式过于严格,往往会因为一个条件未满足而忽略其它全部特征,因而造成大量的漏检。

P范数模型是对布尔模型的扩展,它克服了简单布尔模型匹配函数过于严格而导致漏检率高的致命缺陷。在实际使用中,P的取值范围一般为[2,5]。

(二)向量空间模型

向量空间模型(VSM:Vector Space Model)是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,…,Tn)构成,对于每一词条Ti都根据其在文档中的重要程度赋予一定的权值Wi,并将T1,T2,…,Tn看成一个n维坐标中的坐标轴,W1,W2,…,Wn为对应的坐标值。这样由(T1,T2,…,Tn)分解而得的正交词条矢量组就构成了一个文档向量空间,文档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文本向量空间,用词条矢量(T1,W1,T2,W2,…,Tn,Wn)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题。用户查询和被检索文档的相似程度可用向量之间的夹角来度量,夹角越小,说明相似度越高。

表示矢量中词条Ti及其权值Wi的选取被称为特征提取。特征提取是利用向量空间模型进行信息检索的关键步骤。在自然语言文档中,各词条在不同内容的文档中所呈现的频率分布是不同的,因此可根据词条的频率特性用统计的方法进行特征提取。在文档中,词条的重要性与词条在文档内的出现频数成正比,与训练文档集中出现该词条的文档频率数成反比。在实际应用中,为避免因文档长度引起的频数变化,还应对词条权值评价函数作规范化处理。

(三)概率模型

布尔模型和向量空间模型都将文档表示词条视为是相互独立的项,忽略了表示词条间的关联性,而概率模型则考虑到了词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性进行信息检索。二值独立检索模型(BIR:Binary Independence Retrieval)是一种实现简单且效果较好的概率检索模型。

(四)概率推理网络

概率推理网络是近年被提出并深受重视的一种新型检索模型。推理网络模拟人脑的推理思维模式,将文档内容与用户查询匹配的过程转化为一个从文档到查询的推理过程。基本的文本检索推理网络包含文本网络与用户查询网络两部分。网络中文档节点与查询节点间的相关性可以表示为:只要给定文档节点的先验概率和中间节点的条件概率,就可计算出查询节点的后验概率。

推理网络同其它概率模型相比有很多优点,推理网络能够将其它许多概率模型映射到网络中,并能够采用多种检索形式和其他知识源得到的统计数据或经验数据,进行综合检索。

(五)信息检索评价

一般用查全率(Recall)和精度(Precision)来衡量文档表示和检索的效果。查全率为检索出的相关文档数与实际相关文档数之比,查询精度为检索结果集中的相关文档数与结果集文档数之比。一个优秀的索引、检索系统应同时拥有较高的查全率和查询精度。

三、信息发现与索引系统的优化

由于WWW是一个庞大的分布式异构超文本文档库,因此基于其上的资源发现与索引是一项复杂的工作,在进行索引时,必须对索引策略进行优化,并对索引目标进行简化,否则会由于索引的过度复杂或系统资源的局限导致索引系统的失效或崩溃。

(一)文档采集的优化

每一个Web页面的采集,都要经过请求、应答、传输三个费时的环节。为了提高采集的效率,可以将WWW按地域或按子网划分为多个域,在每个域内设置一台或多台专用采集、索引服务器,并同时启动多个进程,并行地进行文档的采集与索引。在采集Web页面时还可以采用如下优化策略:①只采集页面中的文本内容,舍弃其它格式的不可索引对象。②对每一个站点只采集部分文档,因为一个站点的部分页面往往就能体现出整个站点的内容倾向,并且对每个站点只采集少量的页面,就能够提高采集效率和采集目标的覆盖范围。③尽量多地采集索引目录页。

(二)索引的优化

为有效地实现索引的功能和特征,索引必须具备完备性、准确性和集中性。具体而言,每一个待索引文档都包含一部分特殊的文本,如指向此页面的链接文本(<A>域文本、<Title>域文本、<Meta>域文本、<H>域文本)等,这些文本通常对其页面内容有着很高的概括性,对页面进行索引时应对这些文本赋予较高的权值。据统计,大多数文档的前半部分对文档内容的贡献最高(前半部分往往包含标题、摘要、简介、概述、关键词等),所以对文档进行索引时,可以仅对文档的前半部分甚至是前三分之一进行索引,以提高索引效率,减少索引库的规模。

(三)Web技术的改进

采用Robot技术收集信息时,可采用如下策略改进Robot获取网页的质量:①开发多个Robot协调工作,即分布式Robot系统;②把地域相近的URL分配给同一个Robot采集;③与服务器方协作,即在获取服务器信任的基础上,开发生存于某些站点服务器的Robot,在服务器端跟踪服务器上文档的修改、删除、增加等情况,根据不同情况向搜索引擎服务器主动发送信息;或者在服务器上生成关于服务器上文档变更情况的特殊文件,并把需要更新的文档在本地进行预处理,当Robot访问该服务器时,首先浏览这个文件。④对已经获取的URL充分处理;⑤逐渐形成不同更新时间间隔的URL列表;⑥开发不同功能的Robot。此外,在Robot开发过程中,应该考虑的因素还有很多,例如,每个Robot维护自己的DNS解析,开发针对不同语种的Robot,根据时差对Robot进行分组等。

采用Robot技术的一个缺陷是需要将漫游到的页面下载到本地再进行索引,下载的页面中有许多无用的或暂时信息,影响了索引速度,也浪费了系统的通信资源。因此,为了优化Web服务,提高检索工具的搜寻效率,人们提出了几种改进措施:①添加站点描述:每个Web站点都维护一个本站点的内容、结构描述文件,以固定的文件名存放在指定目录下,以后Robot只需读取描述文件即可获得整个站点的准确描述。②添加页面描述:在每个页面的指定域填写页面描述。例如,在HTML3.0中已经加入了Meta域,可用于填写页面的描述。以上两点都处在标准化的过程中,要达到预期效果,还需Web管理员的努力。

四、著名的WWW检索站点所采用的技术

(一)检索软件组件

随着Internet上网站数目的迅速增长,其WWW查询站点也越来越多。如Yahoo、Alta Vista、WebCrawler、Sohu等。这些站点的结构与工作原理基本相同,一般都是由搜索Robots、搜索引擎、文档索引库和查询服务等四大模块组成。其具体功能为:

①Robot。Robot用于WWW的漫游和网页的下载。这是一种在网络上搜索文档且自动跟踪该文档超文本结构并循环检索被参照文档的软件。

②搜索引擎。搜索引擎是搜寻站点的核心,它协调各Robot的工作,并对下载的网页进行索引与组织。

③索引数据库。Robot采集到的网页索引和相关描述信息全部存储在索引数据库中。不同的检索站点记录的内容是不同的,有些记录了网页的全部内容,有的只记录网页的地址、标题、关键词、摘要等信息。不同的检索站点数据库的规模也不相同。数据库的规模直接影响了系统查询的查全率。

④查询服务。查询服务子系统负责接收用户的查询请求和根据用户查询要求进行数据库检索,并将结果集按相关度反馈给用户。

(二)检索工具与检索服务

按照工作方式,可将现有的检索站点分为两大类:检索工具站点和检索服务站点。

1.检索工具站点

它拥有自己的搜索引擎、Robot、索引数据库、按照自己的目的和遍历策略与索引算法建立WWW信息索引库,向用户提供基于自身索引库的查询服务。根据浏览方式、索引技术、查询语言、查询匹配算法等又可将搜索工具进一步分类。例如,按是否隐藏索引结构,搜索工具可分为可分类浏览型和不可分类浏览型,Yahoo、Excite、Lycos等属于分类浏览型。按索引技术、搜索工具可分为全文索引型和非全文索引型,Alta Vista、Excite、WebCrawler以全文索引方式索引了网页的标题和内容,属于全文索引型;Yahoo、Lycos、属于非全文检索型。按查询语言可将其划分为自然语言型和非自然语言型,WebCrawler、InfoSeek属于自然语言型,能够理解像“What is book”之类的简单自然语言查询。按查询匹配算法,搜索工具可分为布尔型、向量型、概率型等,搜寻工具一般同时使用几种匹配算法。

2.检索服务站点

该站点本身不进行WWW的遍历和索引,也没有自己的索引库,它只是向用户提供一个查询界面,将用户提交的查询传送给其他多个检索工具来完成,对各检索工具反馈回的结果经过筛选、组织后,再送交给用户。利用检索服务站点进行查询,查询的范围可涉及多个检索工具的索引数据库,可以起到取长补短的作用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈