首页 百科知识 网络信息资源组织与检索现状

网络信息资源组织与检索现状

时间:2022-02-27 百科知识 版权反馈
【摘要】:下文将对目前网络信息资源的组织和利用现状进行总结和分析,总结利弊,以期提高网络信息资源利用的效果。目前信息检索主要模型有:布尔模型、向量空间模型、概率模型以及概念模型。元数据对于资源描述的特殊性和一般性的矛盾与生俱来,是其本身无法克服的。许多专业或专门领域仍然会有大量的元数据方案,这些元
网络信息资源组织与检索现状_领域本体的半自动构建及检索研究

2.2 网络信息资源组织与检索现状

美国未来学家J.奈比斯特在《大趋势》一书中指出:“我们淹没在信息中,但是却渴求知识”,就是因为“失去控制和无组织的信息在信息社会里并不构成资源,相反,它成为信息工作者的敌人”。因此,有效组织信息,提供全面、快速、准确的信息检索服务,已成为网络时代亟待解决的问题。这是人们充分有效地利用信息资源的前提和保障,也是网络环境中信息组织研究的重点和方向。下文将对目前网络信息资源的组织和利用现状进行总结和分析,总结利弊,以期提高网络信息资源利用的效果。

2.2.1 网络信息资源检索模式

信息检索过程实际上是将检索提问词与文本或文本标引词进行对比匹配的过程。为了提高检索效率,通常采用一些运算方法对检索提问进行技术处理,例如概念相关性、位置相关性等,这些技术处理方法就是通常所说的检索技术。总体来说,目前农史信息资源管理中主要采用了字段限定检索、布尔逻辑检索以及全文检索等传统检索技术进行字词匹配层面的处理,而未达到语义处理的层次,检索技术相对比较低级,智能化程度还不高,这也是导致目前信息检索结果垃圾信息较多的重要原因之一。

目前信息检索主要模型有:布尔模型、向量空间模型、概率模型以及概念模型。

(1)布尔模型

布尔模型是基于经典集合论和布尔代数的一种简单匹配的检索模型,在早期的大多数商业化书目系统中,得到了广泛的关注和应用。布尔模型具有简单、容易理解、简洁的形式化等突出优点,但是,随着检索理论的发展其缺点得到了越来越清醒的认识,那就是无法在匹配结果集中进行相关性的排序,同时,简单的布尔逻辑无法准确描述用户的检索需求,也无法区分词条在文档中所占的权重,并且漏检比较严重。可见布尔模型是一种简单但是不够理想的检索模型。

(2)向量空间模型

向量空间模型中,文档用加权的关键词向量来表示,相似度用两个向量的夹角余弦来计算。该模型优点是比较简单,易于计算,采用给予统计学习方法的词加权处理模式,使得检索效果大大改善,同时能够对检索结果进行排序输出。但由于该模型术语间相互独立的前提假设有些过于简化,容易造成误检(检索到不相关的文档,例如在一词多义情况下)和漏检(没有检索到相关的文档,例如在同义词情况下)。

(3)概率模型

概率模型是基于贝叶斯概率论原理的概率模型,不同于布尔和向量空间模型,它利用相关反馈的归纳学习方法,获取匹配函数,具有一种内在的反馈机制。然而在实际应用中,存在着各种参数估计难度大等因素,另外,有关检索实验表明,该模型在大多数情况下不如向量空间的检索效果。

(4)概念模型

概念模型是采用网状结构来表示概念的组织和分类,索引擎根据该词语概念与其他词语概念的内在关联进行检索。使用概念模型检索,就不再局限于词条本身,当用户输入一个查询词条时,不仅要找出与查询表达式匹配的结果,也要找出包含与查询表达式概念相同或相近的词语的文档,即能实现语义检索。

从上述分析知:互联网上未组织的信息,无序程度非常大。从如此庞大的信息海洋中取出对用户最有用的信息,有必要使用概念检索。在概念检索过程中,不是采用字符匹配或相关的优化策略来查找目标,而是对检索对象进行语义处理,分析该语义段落中的潜在目标对象和查询请求的语义相关性,从而决定是否将其作为结果返回。因此,在检索模型中使用高效的概念表达与组织工具是提高信息检索效果的有效方式之一。

2.2.2 网络信息组织的主要方法

(1)分类标引技术

目前的分类体系,无论是网络信息分类体系还是传统分类法都存在不足。传统分类法是以学科分类和逻辑划分为基础的严密而深细的分类体系,主要以印刷型文献为对象,是一维性的。

①类目都是规范化的、严格受控的,编制和修订都要依靠有关的专家。

②分类体系都是面向图书馆员,体系和规则都较为复杂。

③传统分类法的主要功能是藏书排架,分类途径比较单一。

④缺乏对所应用资源的针对性。将分类对象视为一个整体,不能多维度的描述。

网络信息是多维性的、交互性的、动态性的信息。网络信息分类体系是一种松散的、多维性的分类体系,缺少逻辑性和规范化,不能揭示信息之间的逻辑关系,它主要体现以下几个方面:

①类目设置缺少规律性。网络分类中,其类目设置往往同时采取多个标准,每个标准在使用时又并不完整,有时甚至列出不同等级的类目,使得同位类的设置显得很混乱,缺乏逻辑性和规律性,从而影响信息用户的查找信息的效率。

②类名不规范。有些类名有多个名称,其归属也很随意,很不利于信息用户的检索。

③类目分类没有注释或提示,不能直接找到所需类名,必须逐级翻寻等。

(2)主题标引技术

主题标引是根据特定的主题语言,赋予主题标识的过程,主要有叙词语言和关键词语言等。

当代大多数的检索系统都使用了某种基于关键词的标引和检索技术。将资源包含的关键词全部做索引,创建详尽的关键词索引数据库,以供用户进行关键词检索。这种标引技术以搜索引擎和全文数据库为代表。主要缺陷是采用关键词对词汇缺少词形和词义控制,特别是多义词和同义词问题,使得检索出的文献含有大量无关内容。

图书情报部门采用的是基于主题词表的叙词标引。词形和词义都经过了严格的控制。但是在目前的网络环境下,这种标引技术也遇到了很大的阻碍。一是这种标引大都基于手工,处理的速度远远不及产生的资源速度。二是标引采用的词表,修订周期很长,很多新词得不到及时更新,严重影响标引的质量。

(3)元数据技术

迄今为止,世界上已开发出并付诸使用的元数据有多种。例如:美国联邦地理数据委员会的地理元数据项目(FGDC)、编码文档描述(EAD)、频道定义格式(CDF)、全球信息定位服务(GILS)、博物馆信息计算机交换标准框架(CIMI)、互联网内容选择平台(PICS)和DC元数据等,可以实现资源的多维度描述。

元数据虽然能提供一定语义基础,使资源有了基本的微观结构,但是元数据并不能完全解决信息系统的语义异构问题。元数据对于资源描述的特殊性和一般性的矛盾与生俱来,是其本身无法克服的。或许随着标准化的进程,DC元数据等少数元数据格式将占据主导地位,然而永远不可能统一到仅有少数几种格式。许多专业或专门领域仍然会有大量的元数据方案,这些元数据方案可能局限于一个狭小的领域,其本身就是一种领域本体,但是只有专业的元数据对于专业的应用才是最合适的,与学科外其他领域的互操作性考虑是次要因素。在网络环境下要连接这些“信息孤岛”,必须有某种程度的互操作解决方案,而且最好是标准的解决方案,这就需要在元数据之上再建立某些机制,来灵活地实现信息系统之间的互操作。

知识本体的本质就是领域知识的共享和重用,标准化和形式化的领域本体能够为信息系统之间的高层互操作提供很好的工具。

(4)知识本体

为了解决上述几种技术中所面临的困难,Ontology作为一种能在语义和知识层次上描述信息系统的概念模型建模工具,自被提出以来就引起了国外众多科研人员的关注,并在计算机许多领域得到了广泛的应用,如知识工程、数字图书馆、软件复用、信息检索和Web上异构信息的处理、语义Web等。Ontology具有的良好的概念层次结构和对逻辑推理的支持,特别是其共享性和开放性,因而在信息检索,特别是在基于知识的检索中得到了广泛的应用。Ontology能通过概念之间的关系来表达概念语义的能力,所以能够提高检索的查全率和查准率。

2.2.3 网络信息资源组织现状评价

网络信息数量庞大、类型多样,对网络信息进行有效的组织难度较大。目前,随着计算机技术和信息技术的发展,无论是在网络信息组织的理论上或实践上,都取得了一定的成果,但是我们也应该看到,面对日益激增的庞大网络资源在目前的组织方法和技术中还存在着许多问题。

(1)检索技术分析

作为目前网络上应用最为广泛的一种信息组织工具,搜索引擎的使用在一定程度上避免了用户在互联网上进行信息浏览的盲目性,给用户的信息搜索带来了方便。但是,随着网络信息资源的不断增长,现有搜索引擎在返回大量不相关结果的同时却又漏检了一些相关页面,远远无法满足用户需求。为此,很多搜索引擎采取了不同的技术进行了技术改良,如Google采用先进的PageRank排序技术保证重要的搜索结果排列在结果列表的前面;Goto使用超链接分析和根据用户点击行为分析与重排序的方法,以提高检索结果的相关性;AskJeeves采用逼近式方法让用户选择问题和答案来提高查准率,但效果并不理想。究其原因,可以发现,目前互联网上的信息主要是用HTML标记语言书写的,HTML标记语言的简单性和易用性促进了互联网的快速发展,但是它的标签集只是对内容的显示格式做了标记,数据的表现格式和数据糅合在一起,缺乏对数据内容的标识。例如,在现在的互联网上,<H1>orange</H1>虽然有其特定的表现,但是HTML并没有明确地指出它到底是什么,是指水果还是指颜色,计算机根本无从判断。因而,作为对网络信息资源进行组织的工具,搜索引擎只能基于简单的形式匹配,无法对知识进行理解和处理,也就不可能真正理解用户的查询意图,不可避免地会出现一词多义和同义词现象,无法达到较高的查准率和查全率。另外,由于网络信息之间缺乏良好的语义关联,现在的搜索引擎也不能将显示在不同网页上的相关信息整合在一起提供给用户。

因此,要提高网络信息资源组织的效率,就必须改变目前互联网上一次网络信息资源的描述方式,在网络信息创建之初就加入语义信息,实现基于语义的网络信息资源组织,从而有效提高网络信息资源组织的效率。

(2)资源组织模式分析

在网络信息资源的组织中,建立了一定的语义管理工具,如各种专业的分类体系、主题词表以及各种词典等,但是专业分类法属于面向学科的等级列举式分类法,结构体系过于严谨,类目体系缺乏横向的语义关联;各种语义词典可以提供相关关系的控制,但这种语义控制过于松散,更多的是起到检索扩展的作用,属于信息资源处理的基础数据,如若使之发挥作用,还需进行进一步的语义挖掘。

检索语言是描述信息主题内容的工具,也是用户表达检索提问的语言。信息检索系统中一般将关键词作为描述信息和用户提问的基本单元,尤其是在网络信息资源检索中,大多数搜索引擎都提供按关键词搜索的功能,因为关键词是最简单的自然语言,是实现主题检索的重要途径,而且简单易用,但是关键词不能充分表达概念之间的语义关系,通常难以满足用户的族性信息需求。只能基于简单的形式匹配,无法对知识进行理解和处理,也就不可能真正理解用户的查询意图,无法达到较高的查准率和查全率。目前在网络信息资源组织方式上,除了一部分资源采用粗略的分类体系进行组织外,大部分资源都采用关键词的形式检索。因此,要提高信息资源组织的效率,就必须改变目前信息资源的描述方式,在信息创建之初就加入语义信息,实现基于语义的信息资源组织,从而有效提高信息资源组织的效率。例如,用户查询“唐代的税收”,经过语义匹配,系统可以得出用户的检索意图的真正意图可能是“两税法”。

(3)检索服务分析

目前的信息服务方式,主要有两种,一种是传统的“拉”方式,一般情况下,“拉”方式由用户来控制信息的查找和获取。另一种是与“拉”(pull)方式相对“推”(push)方式,它是由信息的生产者或信息系统来控制信息的流向,也就是信息的主动服务和被动服务。

对于现代信息检索而言,进行深层次的开发和创建,支持以用户为核心的服务模式是目前网络环境下信息服务的主要发展趋势。“推”技术是一种主动信息服务的方式,根据用户个人的需求特征,运用“筛选”、“过滤”机制,将信息不断、主动地提供给用户的一系列服务。例如,某位进行农业经济史研究的农史专家,个人需求特征方面填写“田赋、田制、租佃关系”等关键词,则信息系统就会根据用户的需求,将最新的关于这方面的研究进展及时地以邮件等方式“推送”给该农史专家。

在信息服务方式上,目前的多数的信息资源还处于传统的“拉”(pull)方式。系统根据用户的检索词,得出检索结果被动的返回给用户,还处于被动信息服务方式。因此,应尽快开发“推送”服务的个性化信息服务方式,可以减少用户浏览信息、查找信息、筛选信息的时间,同时还可以节省网络的流量,提高信息服务的质量和效率。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈