首页 百科知识 检索效果评价指标

检索效果评价指标

时间:2022-10-01 百科知识 版权反馈
【摘要】:能否准确地检索出用户所需的信息,关键在于能否准确地选择检索词。这里所谓的“准确”,是指用户所选择的检索词必须与检索系统中标引信息记录所用的标引词相一致。元数据一词,早期主要指网络信息资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。从信息检索的角度看,元数据可以说是电子目录,用于编目、描述存储信息的内容和特征,从而支持信息检索。

第2章 信息检索基础

2.1 信息组织与存储

信息的组织与存储是信息检索的基础。信息检索的基本原理是:通过对大量的、分散无序的信息进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息。其中组织与存储是为了检索,而检索又必须先进行组织与存储。

2.1.1 信息组织

信息组织即信息的有序化与优质化,也就是利用一定的科学规则和方法,通过对信息外在特征和内容特征的表征和排序,实现无序信息流向有序信息流的转换,从而使信息集合达到科学组合,实现有效流通,促进用户对信息的有效获取和利用。具体而言,是指为控制信息的流速和流向、数据和质量等,把传递中的杂乱无序的信息整理为系统有序状态的活动。

信息组织是信息管理的重要环节和基本工作,是信息资源开发利用的主要手段,是信息传播、检索的前期准备。它具有整序信息、科学分流、促进选择、保证利用的功能和作用。

1.信息组织的目的

信息组织的目的可以概括为“实现无序信息向有序信息的转换”。具体地说,信息组织的目的应包括:

①减少社会信息流的混乱程度;

②提高信息产品的质量和价值;

③建立信息产品与用户的联系;

④节省社会信息活动的总成本。

2.信息组织的要求

(1)信息特征有序化

一是要将内容或外在特征相同或者相关的信息集中在一起,把无关的信息区别开来;二是集中在一起的信息要有系统、有条理,按一定标识呈现某种秩序,并能表达某种意义;三是相关信息单元之间的关系要明确化,并能产生某种关联性,或者能给人某种新的启示。

(2)信息流向明确化

现代管理科学的基本原理表明,信息作用力的大小取决于信息流动的方向。信息整序要做到信息流向明确化。首先,要认真研究用户的信息需求和信息行为,按照不同用户的信息活动特征确定信息的传递方向;其次,要注意根据信息环境的发展变化不断调整信息流动的方向,尽量形成信息合力

(3)信息流速适度化

信息流速的不断加快使人们感受到巨大的信息压力,眼花缭乱的信息流可能会降低决策的效率。同时,人们面对的决策问题在不断地发展变化,信息需要也在不断地更新。为此必须适当控制信息流动速度,把握信息传递时机,提高信息的效用。

(4)信息质量最优化

信息质量是信息满足明确和隐含需要能力的特征总和。信息质量的标准主要有可理解性、相关性、可靠性、真实性、及时性、先进性、适用性和可比性等。优化信息质量,才能充分满足需求者的要求。

3.信息组织的内容

(1)信息选择

从采集到的、处于无序状态的信息流中甄别出有用的信息,剔除无用的信息。

(2)信息分析

按照一定的逻辑关系从语法、语义和语用上对选择过的信息内、外特征进行细化、挖掘、加工整理并归类的信息活动。

(3)信息描述与揭示

也称为信息资源描述,根据信息组织和检索的需要,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。

(4)信息存贮

将经过加工整理序化后的信息按照一定的格式和顺序存贮在特定的载体中的一种信息活动。

4.信息组织的方法

(1)信息的传统组织方法

主要有:分类组织法、主题组织法、字顺组织法、号码组织法、自然组织法、时序组织法、地序组织法。

(2)信息的现代组织方法

主要有:字段组织法、网络组织法、文件组织法、主题树组织法、超文本组织法、超媒体组织法、元数据组织法。

5.信息组织的过程

(1)优化选择

优化选择的标准有:相关性选择、可靠性选择、先进性选择(时间和空间)和适用性选择。

优化选择的方法有:比较法、分析法、核查法、引用摘录法、专家评估法。

(2)确定标识

确定标记是指确定该信息区别于其他信息的基本特征,并以适当的形式描述,使其成为该信息的标记。

一条信息之所以有别于其他信息,主要是因为它与其他信息在外部特征和内容特征上有所不同。

2.1.2 信息存储

随着存储技术的发展,印刷存储技术、缩微存储技术、磁存储技术、半导体存储技术和光存储技术先后出现,为信息的存储展现了广阔的前景。

信息存储包括三层含义:一是将所采集的信息,按照一定的规则,记录在相应的载体上;二是将这些信息载体,按照一定的特征和内容性质组成系统有序的,可供检索的集合体;三是应用计算机等先进的技术和手段,提高信息存储的效率和信息利用水平。

1.信息存储过程

为了促进信息的充分交流和有效利用,使用户在信息集合中快速、精确、全面地获得所需要的信息,必须首先对大量、分散、无序的信息集中起来,根据信息的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个具有检索功能的检索系统(如手工检索工具、计算机检索系统等)供用户检索和利用,这就是信息存储过程。

2.检索标识

信息存储是信息检索的基础。存储的目的是为了检索,为了方便检索,必须对存储的信息做标记,这就是检索标识。

检索的基本原理是将用户的检索提问词与检索系统中文献记录的标引词进行比对,当检索提问词与标引词匹配一致时,即为命中,检索成功。

能否准确地检索出用户所需的信息,关键在于能否准确地选择检索词。这里所谓的“准确”,是指用户所选择的检索词必须与检索系统中标引信息记录所用的标引词相一致。检索标识就是为沟通信息标引与信息检索而编制的人工语言,也是连接信息存储和信息检索两个过程中标引人员与检索人员双方思路的渠道,是用于标引和检索提问的约定语言。

要把信息存储和信息检索联系一致,检索标识所表达的概念应该是唯一的,表达的概念同所要表达的事物一一对应,尽量减少一词多义或多词一义的现象,使其在检索系统中具有单义性。

3.检索语言

任何检索语言都是建立在概念逻辑上的。我们可以把相对固定的检索标识称其为检索语言,如主题、分类等。(详见第2.3.4节检索语言)

2.1.3 元数据

1.元数据概念

元数据(metadata)是关于数据的组织、数据域及其关系的信息。简单地说,元数据就是关于数据的数据。元数据一词,早期主要指网络信息资源的描述数据,用于网络信息资源的组织;其后,逐步扩大到各种以电子形式存在的信息资源的描述数据。目前,元数据这一术语实际用于各种类型信息资源的描述记录。

元数据为各种形态的数字化信息单元和资源集合提供规范、一般性的描述。例如,在数据库管理系统中,模式中包含一些元数据,如关系名、关系的字段和属性、属性域等。对于文档来说,就是描述文档的属性。从信息检索的角度看,元数据可以说是电子目录,用于编目、描述存储信息的内容和特征,从而支持信息检索。

元数据的用途:信息检索和数据管理

2.元数据类型

根据功能可将元数据分为管理型元数据、描述型元数据、保存型元数据、技术型元数据、使用型元数据。

根据结构和语境可将元数据分为三组:第一组为全文索引;第二组为简单结构化的普通格式,如DC、RFC1807等;第三组为结构复杂的特殊领域内的格式,如FGDC、GILS、TEI、EAD等。

根据元数据的应用范围,可分为通用性元数据、专业性元数据、web元数据、多媒体元数据。

①通用性元数据。把那些通用性的、描述文档的一般外部属性的元数据称为通用性元数据,它对文档的一般外部属性进行描述,是有关文档的一般性信息,如都柏林核心元数据(Dublin core)和机读目录(MARC)。它是描述文档的一般外部属性,广泛适用的一种元数据。

②专业性元数据。专业性元数据是描述文档内容中包含的主题特征的元数据。例如,生物医学领域的文章采用病理、解剖或药理主题的元数据。

③web元数据。随着web中数据的激增,交换和存取的网络资源越来越多,其用途也各异,因此需要一种元数据,能够对广泛的web资源进行描述。资源描述框架RDF就是这样一种元数据,它用XML作为交换语法,提供应用之间的互操作性,这种框架对web资源进行描述,方便信息的自动处理。它由节点及其属性/值的描述组成。节点可以是任何web资源,包括URI和URL;属性表示节点的性质,其值可以是文本串或其他节点。

④多媒体元数据。对非文本对象的描述,例如图像、音频和视频。不仅可以用关键词来描述图像、音频和视频,而且需要用新的元数据形式来描述它们的丰富视听内容,例如MPEG-7多媒体描述标准及其定义的多媒体描述模式。

3.DC元数据

DC元数据即“都柏林核心(Dublin core)元数据”,由OCLC首倡于1994年,因创始地在美国俄亥俄州(Ohio)首府都柏林而得名。其维护机构为DCMI:Dublin Core Metadata Initiative。

DC元数据规范最基本的内容是包含15个元素的元数据元素集合,用以描述资源对象的语义信息,它是一种常用的元数据,也可以用于web文档类的资源。目前已成为IETF RFC2413、ISO15836、CEN/CWA 13874、Z39.85和澳大利亚、丹麦、芬兰、英国等国际、国家标准。

DC规定的15个元素。

①标题(title):资源的名称。

②创建者(creator):资源的创建者,可以是个人、组织或机构。

③主题(subject):资源的主题内容,它是用以描述资源主要内容的关键词,或分类号码表示的主题词

④描述(description):资源内容的描述信息,可以是摘要、目录、内容图示或内容的文字说明。

⑤出版者(publisher):正式发布资源的实体,如个人、组织或出版机构。

⑥其他贡献者(contributor):除创建者之外的其他撰稿人和贡献者,如插图绘制者、编辑等。

⑦日期(date):资源生存周期中的一些重大日期。它是资源产生或有效使用的日期和时间。

⑧类型(type):资源所属的类别,包括种类、体裁、作品级别等描述性术语。

⑨格式(format):资源的物理或数字表现,可包括媒体类型或资源容量,可用于限定资源显示或操作所需要的软件、硬件或其他设备,容量表示数据所占的空间大小等。

标识符(identifier):资源的唯一标识,如URI(统一资源标识符)、URL(统一资源定位符)、DOI(数字对象标识符)、ISBN(国际标准书号)、ISSN(国际标准刊号)等。

来源(source):资源的来源信息。

语言(language):资源的语言类型,它由语种代码和国家代码组成。

关联(relation):与其他资源的索引关系,用标识系统来标引参考的相关资源。

范围(coverage):资源应用的范围,包括空间位置(地名或地理坐标)、时代(年代、日期或日期 范围)或权限范围。

权限(rights):使用资源的权限信息,包括知识产权、著作权和各种拥有权。如果没 有此项,则表明放弃上述权利。

通过上述15项可以看出,DC元数据解决方案比较全面地概括了资源的主要特征,涵盖了资源的重要检索点(1、2、3项)、辅助检索点或关联检索点(5、6、10、11、13项),以及有价值的描述性信息(4、7、8、9、12、14、15项);其次,它简洁、规范。这15项元数据不仅适用于电子文档,也适用于各类电子化的公务文档,以及产品、商品、藏品目录,具有很高的实用性。

目前DC元数据已包括由一系列扩展元素、元素修饰词、编码体系修饰词、抽象模型、应用纲要等规范组成的标准体系,成为一般性资源描述、特别是互联网语义信息描述(semantic web)的基础性规范。这套体系还在不断地发展、完善中

DC有简单DC和复杂DC之分。简单DC指的是DC的15个核心元素如题名、主题等。与复杂的MARC格式相比,DC只有15个基本元素,较为简单,而且根据DC的可选择原则,可以简化著录项目,只要确保最低限度的7个元素(题名、出版者、形式、类型、标记符、日期和主题)就可以了。复杂DC是在简单DC的基础上引进修饰词的概念,如体系修饰词(scheme)、语种修饰词(lang)、子元素修饰词(sub-element),进一步明确元数据的特性。特别是通过体系修饰词,把MARC的优点和各种已有的分类法、主题词表等控制语言吸收进去。

4.其他常用的元数据格式

常用的元数据格式主要有7种,其中DC(Dublin core,都柏林核心)元数据,适用于网络资源;CDWA(categories for the description of works of art)适用于艺术品;VRA(core categories for visual resources)适用于艺术、建筑、史前古器物、民间文化等艺术类可视化资料;FGDC(federal geographic data committee)称为地理空间元数据内容标准,适用于地理空间信息;GILS(government information locator service)政府信息定位服务,适用于政府公用信息资源;EAD(encode archival description)编码档案描述,适用于档案和手稿资源,包括文本、电子文档、视频和音频;TEI(text encoding initiative)适用于对电子形式全文的编码和描述。

在诸多元数据中最热门的是都柏林核心元数据,在网络信息资源的组织中,除DC外,还有一系列的数据规范值得关注。例如IAFA模板(internet anonymous ftp archive)、web collections、CDF(channel definition format)等。

元数据对丰富的网络资源描述既有一定的格式,又具有灵活性,很好地解决了网络信息资源的发现、控制和管理问题,随着研究和应用的进一步深入,必将使网络信息资源的组织、管理、共享更为便捷、有效。

2.2 信息检索

2.2.1 信息检索的概念

信息检索(information retrieval)一词出现于20世纪50年代。信息检索是伴随着人类社会的发展与进步而不断发展的,随着新技术的出现,信息检索不断地被赋予新的内容。

信息检索可以从广义和狭义两个角度理解。广义的信息检索是指将信息按一定方式组织和存储起来,并根据用户的需要找出相关信息的过程。其中包括存与取两个方面,“存”就是信息存储,是对信息进行收集、标引、描述、组织,并对其特征化的表达集加以整序,形成信息检索工具或检索系统的过程。“取”是信息查找,通过某种查询机制从检索工具或检索系统中查找出用户所需信息的过程。所以信息检索又称为“信息存储与检索”(information storage and retrieval)。

狭义的信息检索是指上述过程的后半部分,即从信息集合中找出满足用户需求的信息的过程,相当于我们平常所说的信息查询(information searching)。

信息检索的全过程包括信息的存储和信息的检索两个方面。信息存储是指编制检索工具和建立检索系统;信息检索即是利用这些检索工具和检索系统来查找所需的信息。

信息检索又称信息存储与检索、情报检索、文献检索、文献信息检索,它们是同一检索过程的不同称呼。从检索的对象来说,可称之为信息检索、文献检索、文献信息检索;从检索的目的来说,称之为情报检索。

信息的查找萌芽于图书馆的参考咨询工作。信息检索包括3个主要环节:①信息内容分析与编码,产生信息记录及检索标识;②组织存储,将全部记录按文件、数据库等形式组成有序的信息集合;③用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。

2.2.2 信息检索的发展

1.信息检索的发展过程

信息检索的发展大概经历了手工信息检索阶段、机械信息检索阶段、计算机信息检索阶段3个阶段。机械信息检索是从20世纪50年代开始的,如穿孔卡片系统。计算机信息检索阶段则依据信息技术应用程度分为:脱机批处理、联机检索、光盘检索、网络检索4个阶段。

(1)脱机批处理检索阶段

在利用计算机进行信息检索的早期,人们用单台计算机的输入输出装置进行检索,检索部门把用户的检索提问汇总到一起,进行批量检索,然后把检索结果通知各个用户,用户不直接接触计算机。

(2)联机检索阶段

20世纪60年代末,由于计算机软硬件技术的不断提高,出现了一台主机带多个终端的联机检索系统。该系统具有分时操作功能,能够使许多相互独立的终端同时进行检索,用户可以使用终端设备直接与主机进行“人机对话”,计算机对用户的提问能及时处理并显示结果。20世纪80年代,发达国家的一些计算机联机检索系统,通过通信网络在世界范围内提供联机检索服务。

联机检索服务是计算机检索走向实用化、规模化、产业化的重要标志。世界上比较著名的联机检索系统有:美国洛克希德公司的DIALOG系统、美国系统开发公司的ORBIT系统、美国医学图书馆的MEDLINE系统、欧洲空间组织的ESA/IRS系统、欧洲共同体的欧洲科技信息联机检索网络EURONET等。

1980年初,中国建筑技术发展中心等单位在我国驻香港海外建筑工程公司设立了我国第一台国际联机信息检索终端,通过香港大东电报局与美国的DIALOG和ORBIT系统联机。1981年底,北方科技情报所在北京与美国DIALOG系统直接联机。

目前,许多科研机构、高校图书馆都开通了国际联机检索服务,如扬州大学图书馆开通了DIALOG、STN系统的联机检索服务。

(3)光盘检索阶段

1984年,美国、日本、欧洲开始利用只读光盘存储专利文献等技术资料。1985年,世界第一个商品化的CD-ROM数据库——Bibliofile(美国国会图书馆机读目录)推出。随着时间的推移,光盘数据库的类型也不断丰富,除了最初的书目数据库外,又出现了文摘数据库、事实数据库、全文数据库、多媒体数据库等。我国也研制成功了中文CD-ROM数据库。

(4)网络检索阶段

进入20世纪90年代,随着互联网的普遍应用,图书馆、信息服务机构和数据库生产商纷纷加入到互联网上,提供各种信息服务。数据库内容几乎涉及所有领域。

互联网为我们获取信息提供了前所未有的方便,也彻底打破了信息检索的区域性和局限性。

2.信息检索的发展趋势

(1)智能化

智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。近年来,智能信息检索(intelligent information retrieval)作为人工智能(AI)的一个独立研究分支得到了迅速发展。在Internet技术迅速普及的今天,面向Internet的信息获取与精化技术已成为当代计算机科学与技术领域中迫切需要研究的课题,将人工智能技术应用于这一领域是人工智能走向应用的一种新的契机与突破口。

(2)可视化

可视化(visualization)的历史可以追溯到2 400多年前。哲学家柏拉图指出,我们通过看来识别物体。据统计,人类获取信息有70%~80%靠视觉,20%靠听觉,10%靠触觉。用图像(visual)取代文字帮助人们检索的优点在于:图像的表达方式生动、形象、准确、效率更高,能从多角度揭示,而纯文字的表达方式是模糊、一维的。

(3)简单化

未来家用电脑将朝着智能化、网络化、人性化和绿色环保的方向发展,操作系统的用户友好性将不断增强,如微软和苹果公司都在致力于操作系统网络化研究,以便使其中的任一应用程序都能“连接”进行“网络检索”,并与网络“交互”;各搜索引擎检索界面更加“傻瓜化”。使用户学习和进行网络信息检索更加容易,网上自动标引、自动文摘、自动跟踪、自动漫游、机器翻译、多媒体技术、动态链技术、数据挖掘和信息推拉等技术逐步发展和完善,会越来越方便用户及时准确地检索信息。这些硬件与软件技术的发展都有利于网络信息检索的简单化。

(4)多样化

多样化首先表现在可以检索的信息形态多样化,如文本、声音、图像、动画。目前网络信息检索的主体是文本信息,基于内容的检索技术和语音识别技术的发展,将使多媒体信息的检索变得逐渐普遍。

多样化的第二个表现是检索工具向多国化、多语种化方向发展。网络的迅速发展,使得整个世界变成了地球村,世界各地上网人数的不断增多,使得英语已无法满足所有用户的需要,语言障碍越来越明显。

多样化的第三个表现是网络检索工具的服务多元化。网络检索工具已不仅仅是单纯的检索工具,正在向其他服务范畴扩展,提供站点评论、天气预报新闻报道、股票点评、各种黄页(如电话号码)、航班和列车时刻表、地图等多种面向大众的信息服务、免费电子信箱,以多种形式满足用户的需要。无论是在国际上还是在国内,检索工具都在朝多元化方向发展,为用户提供全方位服务。

(5)个性化

个性化指各网站注重内容的特色化和注重个性化的检索服务。网络资源的指数级膨胀,使得用户在获得自己需要的信息资源时要花费大量的时间和精力。随着互联网的飞速发展,每个人的不同信息需求将凸现于标准化、单一的“大众需求”之上,并成为各个搜索引擎或网站努力追求的对象。不同的打有消费者个人烙印的产品将成为某个消费者区别他人、感觉自我存在及独特的外在标志,个性化服务成功的实质在于提供了真正适应用户需要的产品,贯彻了以用户为中心的理念。

(6)商业化

网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。网络检索系统已成为新的投资热点。网络检索系统不再仅仅是一种检索工具,而且成为一项产业,它的商业利益成为推动系统完善和扩展的主要动力,网络信息的检索与利用由公用性转向商业化。美国著名的数字媒体评估公司Jupiter Media Metrix日前发布研究报告称,“搜索引擎公司推出的付费添加服务是一个正在兴起的、前景光明的因特网领域,相对于目前低迷的在线广告市场来说,它的发展潜力是非常巨大的”。

2.2.3 信息检索的类型

按不同的分类方式来划分,信息检索的类型也不相同。

1.按内容划分

按检索对象的内容分类,信息检索分为文献检索、数据检索和事实检索。

①文献检索。是指以文献为检索对象,检索与用户信息需求相关的文献的检索过程。其检索对象是包含特定信息的各类文献。例如,““学习型组织”的文献、有关“现代企业制度的建立”的文献。

②数据检索。是指以文献中的数据作为检索对象,查找用户所需要的数值型信息。其检索对象包括各种调查数据、统计数据、特性数据等。例如,查找某一企业的年销售额、某一国家的人口数量、某一物质的密度等。

③事实检索。是指以文献中的事实作为检索对象,查找用户所需要的描述型事实。其检索对象包括机构、企业、人物或其他事物的基本情况。例如,查找某一企业的地址、法人、经营范围,查找某人的生平等。

2.按组织方式划分

按信息检索的组织方式,可分为全文检索、超文本检索和超媒体检索。

①全文检索。是指对存储于数据库中整本书、整篇文章中的任意信息的检索。用户可以根据个人的需要从中获取有关的章节、段落等信息,还可以进行各种频率统计和内容分析。

②超文本检索。超文本是由若干信息结点和表示信息节点之间相关性的链构成的一个具有一定逻辑结构和语义关系的非线性网络。超文本检索是对每个节点中所存信息以及信息链构成的网络中信息的检索。超文本检索强调的是中心节点之间的语义连接结构,要依靠系统提供工具作图示穿行和节点展示,提供浏览查询。

③超媒体检索。是对文本、图像、声音等多种媒体信息的检索,是超文本检索的补充。

3.按检索手段划分

按检索手段(检索设备)分类,信息检索可分为手工检索、机械检索和计算机检索。机械检索和计算机检索通常称之为机器检索,简称机检。

①手工检索。手工检索是指人们利用卡片目录、文摘、索引等检索工具,通过人工查找所需要信息的行为。这种检索方式的特点是节省费用,但检索时间较长。

②机器检索。机器检索是指由人们借助机器(包括计算机)查找信息的行为。机器检索主要包括穿孔卡片检索、缩微检索和计算机检索。这种检索方式的特点是检索时间短、检索效率高,但费用较大、成本高。目前机检主要是指计算机检索。

机检与手检相比,其信息检索的本质没有变化,变化的只是检索手段、检索对象、信息的表示方式、存储信息的结构和匹配方法。详见表2-1。

表2-1 计算机检索与手工检索的区别

4.按检索的时间跨度划分

按检索的时间跨度分类,信息检索可以分为定题信息检索(SDI)、回溯检索。

2.2.4 信息检索的意义

信息检索的意义主要体现在以下几个方面。

①充分利用和掌握有效的信息资源,有利于举一反三,扩大知识视野,学好专业知识和技能。

②掌握科学的信息检索方法,是获取新知识的捷径,可以让学生在广阔的知识领域中不断更新知识,更好地适应社会发展的需求。

③掌握科学的信息检索方法,可以缩短查询信息的时间,获取更多的信息,提高工作效率,有利于就业后了解市场同类产品及销售情况,积极参与市场竞争。

④有利于为个人、企业提供竞争情报和相关信息,为决策作参考。

2.3 检索系统

2.3.1 检索系统的概念

检索系统是为了满足各种各样的信息需求而建立的一整套信息的收集、整理、加工、存储和检索的完整系统。它是由一定的检索设施和加工整理好并存储在相应载体上的信息集合及其他必要设备共同构成的。

检索系统是根据对信息资源中不同对象和层次揭示上的需要,由文献目录、索引、机读数据库、网络搜索引擎等信息资源检索工具构成的以不同检索需要为目标的、形式多样的、完备的系统。

2.3.2 检索系统的分类

所谓检索系统,是指图书情报档案工作者和其他学者按某种方式方法建立起来的供读者查检图书情报档案资料等信息的某种有层次的体系。它们是客观存在的设施和设备,有两大层次。

1.宏观检索系统

我国目前主要有三大文献信息系统,即图书馆系统、情报所系统和档案馆系统,可视为宏观检索系统。

①图书馆系统,纵横交错组成了一个全国性的图书馆网。读者查找图书情报资料,不仅要利用自己所在单位的图书馆,而且可以通过互联网络上图书馆查找信息。高校图书馆系统就是图书馆系统的一个子系统。

②情报信息系统,是以中国科学院文献信息中心和中国科学技术信息研究所为核心的全国信息所网络,以及中国社会科学院情报信息系统。

③档案馆系统,是从中央到地方的各级各类档案馆组成的网络系统。

2.微观检索系统

有手工检索系统和计算机检索系统。

(1)手工检索系统

手工检索系统,是指传统的靠查目录卡片、工具书等来检索的系统,如图书馆目录体系、工具书检索体系等。手工检索是信息检索的传统方式,历经了一个多世纪的发展过程。

手工检索系统由手工检索设备(书本式目录、文摘、索引、卡片柜等)、检索语言、文献库等构成,以人工方式查找和提供信息。在中国,手工检索系统将与计算机检索系统长期共存,互相补充,在信息交流中发挥其应有的作用。

(2)计算机检索系统

简称机检系统,是指用电子计算机和数据库存储、检索文献信息的系统。

计算机检索系统主要由4个部分构成,即计算机硬件、检索软件、数据库、通信网络,数据库是其核心。而这些所有的用于信息检索的电子计算机可以联成一个庞大的网络,进行国内外的联机检索,现已发展成网络检索系统。但仅有计算机和网络还不行,还必须依赖数据库才能检索到文献信息。

①计算机硬件主要包括:服务器、交换机、存储设备、检索终端、数据输入输出设备等。

②检索软件是计算机检索系统的管理系统,其功能是进行信息的存储、组织、检索以及整个系统的运行和管理。检索软件的质量对检索功能和检索速度有重大影响。

③数据库是指至少由一种文档(file)组成,能满足特定目的或特定功能数据处理系统需要的数据集合(ISO/DIS5127)。在计算机存储设备上按一定方式存储的相互关联的数据集合,是检索系统的信息源,也是用户检索的对象。数据库可以随时按照不同的检索要求提供各种组合信息,以满足检索者的需求。一个检索系统可以有一个或多个数据库。

数据库主要由“文档—记录—字段”三个层次构成。文档是指数据库内容的组织形式。一般的说,一个数据库至少包括一个顺排文档和一个倒排文档。顺排文档是将数据库的全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。在倒排文档中,记录的特征标识作为排列依据,其后列出含有此标识的记录号,使用倒排文档可以大大提高检索的效率。记录是文档的基本单元,它是对某一实体的全部属性进行描述的结果。字段是记录的基本单元,它是对实体的具体属性进行描述的结果。

④通信网络是信息传递的设施,起着远距离、高速度、无差错传递信息的作用。由于现代通信技术的发展,公共数据传输技术为信息的传递提供了保障,信息检索逐渐发展成为网络检索,通过数据传输网将各个计算机连接起来。

2.3.3 检索工具

检索工具是指人们用来报道、存储和查找信息线索的工具。它是检索标识的集合体,它的基本职能一方面是揭示信息及其线索,另一方面提供一定的检索手段,使人们可以按照它的规则,从中检索出所需信息的线索。存储的广泛、全面和检索的迅速、准确是对检索工具的基本要求。

1.检索工具的特征

检索工具应具备如下特征。

①详细描述信息的内容特征、外表特征,用户可以根据这些线索查找所需信息。

②每条信息记录必须有检索标识,如分类号、主题词、文献序号、代号、代码等。

③信息条目按一定顺序形成一个有机整体,能够提供多种检索途径,如作者索引、分类索引、主题索引等。

④出版形式多样,可以是图书、期刊、卡片、缩微品、磁带、光盘等,兼备对信息的揭示报道、累积存储和检索利用的功能。

2.检索工具的类型

由于检索工具的著录特征、报道范围、载体形态和检索手段等特征的不同,检索工具有多种划分类型。

(1)按检索手段划分

检索工具按检索手段,可分为手工检索工具、机器检索工具。其中手工检索工具又可分为检索型检索工具和参考型检索工具。

①检索型检索工具

检索型检索工具主要向用户提供信息的线索、出处等,有目录、索引、文摘。

目录,也称书目。它是著录一批相关图书或其他类型的出版物,并按一定次序编排而成的一种检索工具。如《中国国家书目》《中国古籍善本书目》《全国中文期刊联合目录》等。

索引,是记录一批或一种图书、报刊等所载的文章篇名、著者、主题、人名、地名、名词术语等,并标明出处,按一定排检方法组织起来的一种检索工具。索引不同于目录,它是对出版物(书、报、刊等)内的文献单元、知识单元、内容事项等的揭示,并注明出处,方便进行细致深入的检索。如《全国报刊索引》《十三经索引》《全唐诗索引》等。

文摘,是以提供文献内容梗概为目的,不加评论和补充解释,简明、确切在记述文献重要内容的短文。汇集大量文献的文摘,并配上相应的文献题录,按一定的方法编排而成的检索工具,称为文摘型检索工具,简称为文摘。如《新华文摘》《化学文摘》(CA)、《食品科学与技术文摘》(FSTA)等。

②参考型检索工具主要是提供查检资料,解决疑难,通常只供部分阅读。主要有词典、百科全书、年鉴、指南、手册等。

词典(字典),是最常用的一类参考工具书。分为语言性词典(字典)和知识性词典。如《汉语大词典》《康熙字典》《辞海》《牛津高级英汉双解词典》《经济学词典》《中国百科词典》《牛津英汉百科大辞典》等。

百科全书,是参考工具书之王。它是概述人类一切门类或某一门类知识的完备工具书,是知识的总汇。它是对人类已有知识进行汇集、浓缩并使其条理化的产物。现代百科全书的奠基人狄德罗说:百科全书旨在收集天下学问,举其概要,陈于世人面前,并传之后世。人们往往称百科全书是“没有围墙的大学”“精简的图书馆”“工具书之王”,是人们学习和工作中必备的工具书之一。百科全书一般按条目(词条)字顺编排,另附有相应的索引,可供迅速查检。如著名的ABC三大百科全书:《美国大百科全书》(EA)、《新不列颠百科全书》(EB)、《科利尔百科全书》(EC)。国内出版的《中国大百科全书》《世界经济百科全书》《中国企业管理百科全书》《中国农业百科全书》等。

年鉴,按年度系统汇集一定范围内的重大事件、新进展、新知识和新资料,供读者查阅的工具书。它按年度连续出版,所收内容一般以当年为限。它可用来查阅特定领域在当年发生的事件、进展、成果、活动、会议、人物、机构、统计资料、重要文件或文献等方面的信息。如《中国年鉴》《中国经济年鉴》《中国统计年鉴》《扬州年鉴》等。

手册,是汇集经常需要查考的文献、资料、信息及有关专业知识的工具书。手册也称“指南”“便览”“要览”“宝鉴”“必备”“大全”等,如《中华人民共和国资料手册》《美国事物之最》《外贸知识手册》《建筑师设计手册》等。

名录,是提供有关专名(人名、地名、机构名等)的简明信息的工具书。如《世界名人录》《世界科学家名人录》《世界地名录》《中国地名录》《中国工商名录》等。

表谱,采用图表、谱系形式编写的工具书,大多按时间顺序编排。主要用于查检时间、历史事件、人物信息等。如《中国历史纪年表》《两千年中西历对照表》《毛泽东年谱》《白居易家谱》《历代职官表》《中国近代教育大事记》《中国地理沿革表》等。

图录,包括地图和图录两类。如《世界地图集》《中国历史地图集》《中国历史参考图谱》《美国农业地图集》《建筑装饰设计与构造图集》等。

类书,我国古代一种大型的资料性书籍,辑录各门类或某一门类的资料,并依内容或字、韵分门别类编排供寻检、征引的工具书。现存著名的类书有:唐代的《艺文类聚》《初学记》,宋代的《太平御览》《册府元龟》,明代的《永乐大典》,清代的《古今图书集成》。

政书,中国古代记述典章制度的图书,它广泛收集政治、经济、文化制度方面的材料,分门别类系统地加以组织,并详述各种制度的沿革等。由于它具有资料汇编性质,所以一般也把它作为工具书使用。政书一般分两大类,一为记述历代典章制度的通史式政书,以“十通”为代表;一为记述某一朝代典章制度的断代式政书,称为会典、会要。“十通”是《通典》《通志》《文献通考》《续通典》《续通志》《续文献通考》《清朝通典》《清朝通志》《清朝文献通考》《清朝续文献通考》等十部政书的合称。

(2)按载体形态划分

检索工具按物质载体形态可分为:书本式检索工具、卡片式检索工具、缩微式检索工具、机读式检索工具。其中书本式检索工具包括期刊式、单卷式和附录式3种。

(3)按收录的学科范围划分

检索工具按收录的学科范围划分可分为:综合性检索工具、专科性检索工具、专题性检索工具。

综合性检索工具,收录范围是多学科的,如维普中文科技期刊数据库、CNKI的中国期刊全文数据库、万方中国数字化期刊群、联机检索系统DIALOG等。

专科性检索工具,收录范围仅限于某一学科或专业,如《化学文摘》、生物学文摘系列、《工程索引》、医学文献数据库、农业数据库、《食品科学与技术文摘》等

专题性检索工具,收录范围限于某一特定专题,如专利数据库、扬州文化数据库等。

(4)按时间范围划分

检索工具按时间范围划分可分为:预告性检索工具、现期通报性检索工具、回溯性检索工具。

2.3.4 检索语言

1.检索语言的概念

检索语言是根据信息检索的需要创造出来的一种人工语言,是在信息检索领域中用来描述信息特征和表达信息检索提问的一种专用语言。检索语言是一种受控语言,它依据一定的规则对自然语言进行规范,将其编制成表,供信息标引以及检索时使用。信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是一组有规则的、能够反映出信息内容及特征的标识符。

无论是传统的手工检索系统,还是现代的计算机检索系统,都是通过一定的检索语言组织起来的,并为检索系统提供一种统一的、标准的用于信息检索的专用语言。信息资源在存储过程中,其内容特征(分类、主题)和外部特征(如书名、刊名、题名、著者等)按照一定的语言来加以表达,检索信息的提问也必须按照同一的语言来表达,为了使检索过程快速、准确,检索用户与检索系统需要统一的标识系统,这种在信息的存储与检索过程中,共同使用、共同理解的统一的标识就是检索语言。

因使用场合的不同,检索语言也有不同的称谓。例如,在存储信息的过程中用来标引信息,就叫标引语言;用来索引信息时,则叫索引语言;在检索信息过程中又称为检索语言。

信息检索的全过程包括信息的存储和信息的检索两个方面。信息存储是指编制检索工具和建立检索系统;信息检索即是利用这些检索工具和检索系统来查找所需的信息。

当存储信息时,信息标引人员首先要对各种信息进行主题分析,即把它所包含的信息内容分析出来,使之形成若干能代表信息主题的概念,并用检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索系统。

当检索信息时,信息检索人员首先对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需要的概念,并把这些概念转换成检索语言的语词(标识),然后从检索工具或检索系统中查找用该语词标引的文献,从而找到包含所需内容的信息。

由此可见,检索语言是信息检索系统的重要组成部分,在信息检索系统中起着语言保障的作用,是连接标引人员和检索人员双方思想的桥梁,是标引人员和检索人员之间共同遵循的标准语言。实质上就是双方之间约定的共同语言。如果没有信息检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对信息内容的表达(标引用语)和检索人员对相同内容的信息需要的表达(检索用语)取得一致,信息检索也就不可能顺利实现,甚至根本不能实现。

2.检索语言的类型

目前,世界上的信息检索语言有几千种,依其划分方法的不同,其类型也不一样。按描述信息特征的不同,检索语言可分为描述信息外表特征的检索语言和描述信息内容特征的检索语言。

描述信息外表特征的检索语言包括题名(书名、篇名)、著者、出版者、号码(专利号、报告号、标准号等)和引文语言(被引用著者、被引用文献)等。

描述信息内容特征的检索语言包括分类检索语言、主题词检索语言和代码检索语言3种。

(1)分类检索语言

分类检索语言是一种按科学范畴和体系来划分事物的检索语言,按其所属的学科性质进行分类和排列,以阿拉伯数字或以拉丁字母和数字混合作为类目标识符号,以类目的从属关系来表达复杂概念及其在系统中的位置,甚至还表示概念与概念之间关系的一种检索语言。分类检索语言的具体表现形式就是分类法。

分类检索语言又分为体系分类语言、组配分类语言和混合式分类语言。

①体系分类语言

体系分类语言是一种直接体现学科知识分类的等级制概念的标识系统,是通过对概括性信息内容特征进行分类的检索语言。

体系分类语言广泛用于图书、资料的分类和检索,它是图书情报界使用最普遍的一种检索语言,它的具体体现形式就是图书分类法。国际比较著名的分类法有《国际十进分类法》《杜威十进分类法》《美国国会图书馆图书分类法》《国际专利分类法》;国内的分类法有《中国图书馆分类法》《中国科学院图书馆图书分类法》《中国人民大学图书馆图书分类法》等,目前通用的是《中国图书馆分类法》。

体系分类语言是以学科分类为基础,概括信息的内容特征,运用概念划分的方法,按知识门类的逻辑次序,从总到分、从一般到具体、从简单到复杂,进行层层划分,从而产生许多不同级别的类目,层层隶属,形成一个严格按学科门类划分和排列的等级体系。

《中国图书馆分类法》(原称《中国图书馆图书分类法》)是新中国成立后编制出版的一部具有代表性的大型综合性分类法,是当今国内图书馆使用最广泛的分类法体系,简称《中图法》。《中图法》初版于1975年,1999年出版了第四版,《中图法》第五版已于2010年开始在业内推广使用。

表2-2 《中国图书馆分类法》简表

例如:扬州大学图书馆文献分类采用《中图法》,读者可通过分类简表确定所需图书的类目,再到书库中相应的排架位置查找。另外,多数期刊论文的发表需确定《中图法》分类号,读者可利用简表。

读者借书时一定会发现在图书的书脊上有一个标签,上面有由字母和数字组成的号码,这号码就是索书号。索书号是确定一本书图书架位的依据。扬州大学图书馆的索书号就是由中图法的分类号和种次号两部分构成。如迈克尔·波特著的《竞争论》一书的索书号是F270/Z260=2,它的分类号为F270,种次号为Z260=2。

②组配分类语言

组配分类语言也称为组配分类法,是为了适应现代信息资源标引和检索的需要发展起来的分类法类型。它运用概念可分析和综合的原理,将可能构成信息主题的概念分析成为单元和分面,设置若干标准单元的类表。使用时,先分析标引对象的主题,根据主题分析的结果通过相应概念类目的组配表达一个复杂的主题内容。

组配分类法又称分面分类法、分析—综合分类法。

③混合式分类语言

混合式分类语言也称为混合式分类法,它是介于上述两种分类法之间,既应用概念划分和概念原理,又应用概念分析和综合的原理而编制的分类法。

混合式分类法的特点是在等级分类体系的基础上又采用分面组配的方法,以达到细分主题的目的,来满足信息检索的需要。混合式分类法将体系和组配相互融合为一体,目前一些比较知名的网站如新浪、网易等都是采用的这种分类体系。

(2)主题词检索语言

主题词检索语言,是经过选择,用于表达信息内容的词语作为概念标识,并将概念标识按字顺排列组织起来的一种检索语言。经过选择的词语叫主题词,主题词表是主题词语言的体现,词表中的词语作为信息内容的标识和检索信息的依据。

根据词语的选词原则、组配方式、词语规范,主题词检索语言又可分为标题词检索语言、叙词检索语言、关键词检索语言、单元词检索语言等。

标题词是指从自然语言中选取并经过规范化处理,表示事物概念的词、词组或短语。标题词是主题语言系统中最早的一种类型,它通过主标题词和副标题词固定组配来构成检索标识,只能选用“定型”标题词进行标引和检索,反映文献主题概念必然受到限制,不适应时代发展的需要,目前已较少使用。

叙词是指以概念为基础、经过规范化和优选处理的、具有组配功能并能显示词间语义关系的动态性的词或词组。一般来讲,选做的叙词具有概念性、描述性、组配性。经过规范化处理后,还具有语义的关联性、动态性、直观性。叙词法综合了多种信息检索语言的原理和方法,具有多种优越性,适用于计算机和手工检索系统,是目前应用较广的一种语言。CA、EI等著名检索工具都采用了叙词法进行编排。

关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。关键词法主要用于计算机信息加工抽词编制索引,因而称这种索引为关键词索引。网上的搜索引擎和数据库大多采用了关键词法组织信息资源,如网易、搜狐等,中国科技期刊数据库等也使用了关键词法来组织信息。但由于关键词法的词语不规范,影响了信息的查全率和查准率。

单元词又称元词,是指能够用以描述信息所论及主题的最小、最基本的词汇单位。经过规范化的能表达信息主题的元词集合构成元词语言。元词法是通过若干单元词的组配来表达复杂的主题概念的方法。元词语言多用于机械检索,适于用简单的标识和检索手段(如穿孔卡片等)来标识信息。

(3)代码检索语言

代码检索语言是对信息所描述事物的某一方面的特征,用某种代码系统加以描述和标引的语言,如化学物质的分子式、化学物质登记号、基因符号等。

2.4 信息检索的途径、方法和步骤

2.4.1 信息检索的途径

信息检索途径是由提取信息源的外部与内容特征形成的,又称为检索点或检索入口。一般分为外部特征检索途径和内容特征检索途径。

1.外部特征检索途径

①题名途径。是指直接利用已知信息的题名来查找信息的一种方法。题名包括正题名、副题名、并列题名和题名说明文字,一般都能揭示出信息的基本特征,是识别特定文献的一种标识。如反映学科属性的《中国经济年鉴》《古代汉语》,反映地域范围的《扬州概览》,反映时间范围的《汉书》等。

②责任者途径。也称之为著者途径。责任者是指对文献内容进行创作、整理负有直接责任的个人和团体,如著译者、编者、执笔者等。从已知责任者名称查找信息,可系统查出该责任者的全部或大部分论著。但责任者名称多有变化,如用笔名、别名或字、号等,同姓名者亦多。因此,利用责任者途径检索信息时,亦应注意鉴别。

③序号途径:文献出版时所编的号码。如ISBN、报告号、专利号、标准号、文摘号等。

2.内容特征检索途径

①分类途径:按照学科分类体系查找信息的方法。

②主题途径:即所需文献的主题内容。如主题索引、关键词索引等。

③其他途径:依据学科特有的特征查找。如分子式索引、环系索引、子结构索引等。

除此之外,信息检索的途径还有时序、地序途径。

①时序途径。凡是利用以时间先后编排内容的信息,如历史纪年表、人物表谱、历法、编年书目、索引等工具书刊来查找信息的,即采用时序途径。

②地序途径。凡是利用按行政地区编排内容的文献信息,如地图、名胜辞典、地方志书等来查找资料的,如查某一地名的历史沿革,即采用地序途径。

2.4.2 信息检索的方法

信息检索的方法多种多样,分别适用于不同的检索目的和检索要求。常用的检索方法有引文法、常用法、交替法以及排除、限定和合取法。

1.引文法

引文法,也有称为跟踪法、追溯法、扩展法。就是利用文献后所附的参考文献、相关书目、推荐文章和引文注释查找相关文献的方法。当查到一篇新发表的文献后,以文献后面所附的参考文献为线索,由近及远进行逐一追踪的查找方法。

这种由此及彼地扩大检索范围的检索方法,往往可以查到意想不到的切题文献。在检索工具不完备的条件下,广泛地利用文献综述或述评、研究报告等文献后所附的参考文献,不失为扩大检索范围的好方法。优点:不需要利用检索工具、查找方法简单。缺点:检索效率不高,漏检率较大。

2.常用法

常用法即利用检索工具查找文献的方法。是信息时代应掌握的最基本的信息查找方法。又分为顺查法、倒查法和抽查法。

顺查法,按时间顺序由远及近。缺点:费时、工作量大。

逆查法,按时间顺序由近而远。常用于查找新课题或有新内容的老课题。缺点:不如顺查法齐全,可能漏检。

抽查法又称“选查法”,有选择地抽选某一时间段。常用于对课题分析、判断后,选择某一时间段进行查找。虽省时,但可能漏检。

3.交替法

交替法也称分段法、循环法、综合法。交替使用“引文法”和“常用法”的一种综合检索方法。不断循环,直到满足检索要求为止。优点:当检索工具书刊缺期、卷时,也能连续获得所需年限内的文献资料线索。例如,对某一时期的文献集散情况较为了解,即先利用抽查法以越过文献稀少时期。而发现某书或某篇论文的附后索引列有切题文献时,即采用引文检索法以查出所需的全部文献。交替法就是把引文法和常用法结合起来查找文献的方法,即先利用常规检索工具找出一批文献,然后利用这些文献所附的引文进行追溯查找,由此获得更多的文献。

4.排除、限定和合取法

这实际上是将信息加工的方法融入检索中去。思维中使用排除这一概念,是指对查找对象的产生和存在的状态在实践和空间上加以外在否定。把这一方法移植到检索中就是在时间或空间上收缩检索范围。如要查《中国网络资源建设》的文章,确定1994年以前internet未进入中国,则可排除1994年以前的报刊资料,这就是排除法。限定法是相对于排除法而言的,指对查找对象在时间和空间上加以内在的肯定。排除的结果必然是限定,反之亦然。令人满意的答案往往不是完整地记录在某一篇文献中的,如果把不同资料中涉及所需信息的记录都截取下来,汇集到一起,再经过去粗取精,去伪存真的加工,构成一个完整的答案,这就是合取法。采用这一方法,不仅要对各类工具书触类旁通,灵活运用,还要学会分析来自各方面的庞杂的材料。

总之,信息检索方法多种多样,各有所长,应以课题需要和所处的信息环境,灵活采用。

2.4.3 信息检索的步骤

图2-1 信息检索步骤

检索步骤是对查找信息全过程的程序划分,完成一个课题的检索要经过:分析检索课题、制定检索策略、试检索及调整检索策略、正式检索、索取原文等步骤,检索流程见图2-1。

1.分析检索课题

分析检索课题,明确检索目的、要求和检索的范围,这是制定检索策略的基础和前提。任何一个检索都是根据已知去查找未知,通过分析检索课题,明确的已知线索越多,查获所需信息的可能性就越大。

明确检索目的即要弄清楚检索是为什么而进行的,通常检索目的可分为3种。

①科研攻关型:是要解决研究或生产中的一些技术难题,如某一理论、方法、设备、过程等的具体问题,这类检索要求查准率高,只要找到合适的文献即可。

②课题普查型:是要针对某一课题收集系统详尽的资料,这类检索要求查全率高,往往要检索若干年的文献,一般采用回溯检索的方式。

③研究探索型:是要密切跟踪、了解国内外某一方面的最新成果,掌握最新科研动态,这类检索要求信息的新颖、及时性强,多采用定题检索的方式。

明确检索要求与范围,主要应搞清楚检索课题所涉及的学科、专业范围,检索的主题概念是什么,能用哪些名词术语表达,所需要的信息类型是文献、还是具体的数据、事实,对检出文献的类型、语种、出版时间、地域范围等有什么具体要求,是否还有其他的已知线索。如文献名称、有关人名、机构名称、文献号码(专利号、标准号、报告号)等,将已知线索一一分析出来。

2.制定检索策略

检索策略(information retrieval strategy)是指为实现检索目标而制订的全盘计划或方案,是对整个检索过程的谋划与指导。具体包括:

①确定查找范围:根据第一步对检索的时间、地域、语种以及文献类型等的分析,确定一个合理的检索范围。

②选择检索手段:一般来说利用光盘检索系统,结合检索相应的网络数据库能满足多数检索要求;没有机检条件时则选用手工检索。如果光盘检索能满足要求,则不必选用其他检索手段。

③选择检索系统:选择合适的检索系统主要是选择检索工具/数据库,要根据检索课题的内容范围和要求来决定。要了解检索工具/数据库的学科专业范围及各种性能参数,其内容主要包括:

检索工具/数据库的类型是否满足检索需要。

检索工具/数据库的学科专业范围是否与检索课题的学科专业相吻合。

检索工具/数据库收录的文献类型、文献存贮年限、更新周期是否符合检索需求。

检索工具/数据库描述文献的质量,包括对原文的表达程度、标引深度、专指度如何等,是否按标准化著录。

检索工具/数据库提供的检索入口是否与检索课题的已知线索相对应。

检索费用。对于联机检索,费用包括机时费、联机(脱机)打印费、通讯费、字符费等。即使是同一种数据库在不同的检索系统中,检索费用、文档结构、可检字段、检索功能等都不完全相同。

④确定检索途径和检索词:检索途径主要根据分析课题时确定的已知条件,以及所选定的检索工具能够提供的检索途径来决定。常用的检索途径有著者、分类、主题、文献题名、文献号、代码(如分子式、产品型号)、引文等,还有文献类型、出版时间、语种等。每种途径都必须根据已知的特定信息进行查找。

检索词也称检索点,与检索途径相对应,是检索途径的具体化。确定检索词就是将检索课题中包含的各个要素及检索要求转换成检索工具/数据库中允许使用的检索标识。即用所选定的检索工具/数据库的词表(如主题词表、分类表)把检索提问的主题概念表达出来,形成主题词或分类号等,也可以是关键词(视检索系统而定)、人物姓名、地名、文献名等。

⑤构造检索式:检索式是机检中用来表达检索提问的一种逻辑运算式,又称检索表达式或检索提问式。它由检索词和检索系统允许使用的各种运算符组合而成,是检索策略的具体体现。

构造检索式就是把已经确定的检索词和分析检索课题时确定的检索要求用检索系统所支持的各种运算符连接起来,形成检索式。

3.试验性检索

在检索系统中将检索标识与系统中存贮的信息标识进行匹配,查出相关信息,并对所获结果进行分析,看其是否符合需要。如果试查结果满意,可进行正式检索;否则,要分析原因,修改、调整检索策略。调整检索策略包括修改检索式、调整检索词、重新选择检索系统等。

缩检:当检出的记录数量太多时,应采用缩检技术排除不符合需要或相关性较小的记录。可以调整检索式将检索限定在篇名和叙词字段,利用文献的外表特征进行限制检索,增加用逻辑“与”“非”运算,采用位置算符,改用确切的词组,并指定词之间的位置关系,增加新的限定词,选择更专指的检索词等

扩检:当检出的记录数量太少时,则要采用扩检技术扩大检索范围。可以将检索的字段改为文摘、全文字段等,减少或取消限制条件,提高检索词的泛指度,结合使用关键词和叙词,增加同义词和其他相关词并将其与原来的检索词用逻辑“或”算符组配,改用较泛指的检索词,减少逻辑“与”“非”运算,采用截词检索等。

若采用适当的扩检技术,检索结果仍不能令人满意,则考虑更换检索文档,即重新选择检索工具或数据库。

在实现上述调整中,一是从学科专业知识出发,选择泛指词、专指词及相关词,并确定组配逻辑;另一是利用计算机检索系统的功能,从文献的类型、年代、文种等外表特征入手对命中文献集合进行调整与控制,直到获得较满意的检索结果。

4.正式检索

试检获得成功,就可以进行正式检索。在检索中,应灵活运用各种检索方法和检索途径,充分利用各种累积索引,并对各种参照款目进行认真审核与利用。

为确保检索结果的完整性,还应利用其他文献信息源进行查找,如浏览最新的核心刊物来补充检索工具或数据库中尚未报道的最新文献。

5.索取原文

由于书目检索结果得到的只是文献线索,检索结束后,还要根据所获得的文献线索,索取原文。在索取原文过程中,要注意以下问题。

①识别文献类型:不同类型的文献收藏地点不同,在索取原文时首先就要区别文献的类型。

②将缩写刊名恢复全称:检索工具中在文献来源项的著录中,常常将期刊名称按一定的缩写规则进行缩写。

③识别不同语系文字的音译:在西文检索工具中,俄文、中文、日文等的文献作者、出版物名称通常采用音译法转换成英文进行著录。

④利用各种收藏目录:在索取原始文献过程中,要根据不同类型的文献查找不同的联合目录、馆藏目录、联机公共目录等,查知其原文的收藏单位,再进行借阅。

⑤利用文献传递服务,获取远程文章。许多大型检索系统提供文献传递服务,可以根据检索结果,在线提出索取全文的申请,通过E-mail、传真等方式获得原文。

2.5 信息检索技术

2.5.1 信息检索技术

信息检索技术是指利用检索系统,检索有关信息而采用的一系列技术的总称,主要包括布尔逻辑检索技术、截词检索技术、限制检索技术、位置检索技术等。

1.布尔逻辑检索

布尔逻辑得名于George Boole,他是College Cork大学的英国数学家,他在19世纪中叶首次定义了逻辑的代数系统。现在,布尔逻辑在电子学、计算机硬件和软件中有很多应用。

在实际检索中,检索提问涉及的概念往往不止一个,而同一个概念又往往涉及多个同义词或相关词。为了正确地表达检索提问,系统中采用布尔逻辑运算符将不同的检索词组配起来,使一些具有简单概念的检索单元通过组配成为一个具有复杂概念的检索式,用以表达用户的信息检索要求。

所谓布尔逻辑检索(Boolean logical)是用布尔逻辑算符将检索词、短语或代码进行逻辑组配,指定信息的命中条件和组配次序,凡符合逻辑组配所规定条件的为命中信息,否则为非命中信息。它是计算机检索系统中最常用的一种检索方法,逻辑算符主要有:and/与、or/或、not/非。

(1)逻辑“与”

图2-2 逻辑“与”示意图

逻辑“与”也称逻辑乘,用关系词“and”或“*”表示,A and B(或A*B)表示两个概念的交叉和限定关系,只有同时含有这两个概念的记录才算命中信息。检索结果如图2-2所示,图中阴影部分即为同时包含A和B两个概念的命中信息。

如:查找“胰岛素治疗糖尿病”的检索式为:insulin(胰岛素)and diabetes(糖尿病)。

(2)逻辑“或”

图2-3 逻辑“或”示意图

逻辑“或”也称逻辑和,用关系词“or”或“+”表示,A or B(或A+B)表示两个概念的并列关系,记录中只要含有任何一个概念就算命中信息,即凡单独含有概念A或含有概念B或者同时含有A、B两个概念的信息均为命中信息。检索结果如图2-3所示,图中阴影部分即为包含A或B概念的命中信息。

图2-4 逻辑“非”示意图

如:查找“肿瘤”的检索式为:cancer(癌)or tumor(瘤)or carcinoma(癌)

(3)逻辑“非”

逻辑“非”也称逻辑差,用关系词“not”或“-”表示。A not B(或A-B)表示两个概念的排除关系,指记录中含有概念A而不含有概念B的为命中信息。检索结果如图2-4所示,图中阴影部分即为包含A且排除B的命中信息。

如:查找“动物的乙肝病毒(不要人的)”的文献的检索式为:hepatitis B virus(乙肝病毒)not human(人类)。

对于一个复杂的逻辑检索式,检索系统的处理是从左向右进行的。在一个检索式中,可以同时使用多个逻辑运算符,构成一个复合逻辑检索式。复合逻辑检索式中,运算优先级别从高至低依次是非、与、或。可以使用括弧改变运算顺序。

2.截词检索

截词检索(truncation)是指用给定的词干做检索词,查找含有该词干的全部检索词的记录,也称词干检索或字符屏蔽检索。截词检索是指在检索式中用专门的截词符号表示检索词的某一部分允许有一定的词形变化。截词符一般用“?”或“*”表示,不同的系统、数据库,其代表的含义有所不同。如美国DIALOG系统用“?”表示截词符。

截词的方式有多种,按截断部位可分为前截断、后截断、中间截断、前后截断等;按截断长度可以分为有限截断和无限截断。

(1)前截断

前截断也称左截断,截去某个词的前部,是词的后方一致比较,也称后方一致检索。如由“?computer”可检索出含有computer、minicomputer、microcomputer等的信息记录。

(2)后截断

后截断也称右截断,截去某个词的后部,是词的前方一致比较,也称前方一致检索。如由“computer?”可检索出含有computer、computers、computerize、computerized、computerization等的信息记录。

(3)中间截断

截去某个词的中间部分,是词的两边一致比较,也称两边一致检索。凡前后端一致的词,都能检索出,通常用在英美对某些词的不同拼写法。如由“defen?e”可检索出defence和defense。

(4)前后截断

词干的前后各有一个截词符,截去某个词的前部和后部,也称任意匹配检索。如由“?computer?”可检索出computer、computers、computerize、computerized、computerization、minicomputer、microcomputer等的信息记录。

由上述可见:任何一种截词检索,都隐含着布尔逻辑检索的“或”运算。采用截词检索时,既要灵活,又要谨慎,截词的部位要适当,它可以起到扩大检索范围,提高查全率,减少检索词的输入量,节省检索时间,降低检索费用等作用。如果截得太短(输入的字符不得少于3个),将增加检索噪声,影响查准率。

截词检索最早出现在西文检索中,现在中文检索中也大量使用。在中文检索中,我们把一句、一段甚至全文当成一个“词”,如图2-5扬州大学图书馆书目检索系统(http://opac.yzu.edu.cn:8080/opac/search.php),选择检索模式有前方一致、完全匹配、任意匹配3种。前方一致是后截断检索,任意匹配是前后任意匹配。

在多数检索系统中,检索框中输入的检索词,如没有明确选择,大多默认为任意匹配。

图2-5 扬州大学图书馆书目检索系统

3.限制检索

限制检索(range)是指限制检索词在数据库记录中规定的字段范围内出现的信息,方为命中信息的一种检索技术。限制检索适用于在已有一定数量输出记录的基础上,通过指定字段或使用限制符,减少输出信息数,达到优化检索结果。限制检索的方式有多种,例如进行字段检索、使用限制符、采用限制检索命令等。

(1)字段检索

字段检索是把检索词限定在某个(些)字段中,如果记录的相应字段中含有输入的检索词则为命中记录,否则检不中。在检索系统中,数据库设置的可供检索的字段通常有两种:表达文献主题内容特征的基本字段和表达文献外部特征的辅助字段。如在扬州大学图书馆书目检索系统中,选择检索类型,有题名、责任者、主题词、ISBN、订购号、分类号、索书号、出版社、丛书名等字段。

(2)使用限制符

用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。

(3)使用范围符号

如:less than、greater than、from to等,如查找1989—1999年的文献,可表示为:PY =1989:1999或者PY=1989to PY=1999

(4)使用限制指令

限制指令可以分为:一般限制指令(limit,它对事先生成的检索集合进行限制)、全限制指令(limit all,它是在输入检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。

上述几种限制检索方法既可独立使用,也可以混合使用。

如图2-5中,选择文献类型、选择检索类型、选择某个校区等,都是限制检索技术的具体应用。

不同数据库中所包含的字段数目不尽相同,字段名称也不一定相同,常见的检索字段有:

题名   title         TI

文摘    abstract      AB

责任者   author       AU

责任者单位 corporate source  CS

地址    address      AD

刊名    journal      JN

叙词    descriptor     DE

语种    language      LA

主题词   subject      SU

文献类型  document type   DT

4.位置检索

位置检索也叫临近检索。记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样。布尔逻辑运算符有时难以表达某些检索课题确切的提问要求。限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法对检索词之间的相对位置进行限制。

位置检索(proximate)是在检索词之间使用位置算符(也称邻近算符adjacent operators),来规定算符两边的检索词出现在记录中的位置,从而获得不仅包含有指定检索词,而且这些词在记录中的位置也符合特定要求的记录,能够提高检索的准确性,相当于词组检索。位置算符检索是用一些特定的算符(位置算符)来表达检索词与检索词之间的临近关系,并且可以不依赖主题词表而直接使用自由词进行检索的技术方法。

按照两个检索词出现的顺序、距离,可以有多种位置算符。而且对同一位置算符,检索系统不同,规定的位置算符也不同。以美国DIALOG检索系统使用的位置算符为例,介绍如下。

(1)(W)算符

(W)是“with”的缩写,还可以简写为()。这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,两词的词序不可以颠倒。例如,检索式为“communication(W)satellite”时,系统只检索含有“communication satellite”词组的记录。

(2)(nW)算符

(nW)是“n words”的缩写,表示此算符两侧的检索词之间允许插入最多n个词,顺序不可颠倒,例如:laser(1W)print课检索出包含“laser printer”“laser color printer”和“laser and printer”的记录。如:“socialist(1W)economy”可同时查出含有“socialist commodity economy”“socialist planned economy”“socialist national economy”的文献。

(3)(N)算符

(N)是“near”的缩写,这个算符表示其两侧的检索词必须紧密相连,除空格和标点符号外,不得插入其他词或字母,但两词的词序可以颠倒。例如:“computer(N)network”可检索出含有“computer network”“network computer”的记录。

(4)(nN)算符

(nN)表示允许两词间插入最多为n个其他词,包括实词和系统禁用词,且两词的词序可以颠倒。例如:computer(2N)system可检索出含有“computer system”“computer code system”“computer aided design system”“system using modern computer”等形式的记录。

(5)(F)算符

(F)是“field”的缩写。这个算符表示其两侧的检索词必须在同一字段(例如同在题目字段或文摘字段)中出现,而它们在该字段中的相对次序和相对位置的距离不限。例如:water()pollution(F)control表示在同一个字段中(如篇名、文摘、叙词等)同时含有water pollution和control的记录均可检索出来。

(6)(S)算符

(S)是“sub-field”的缩写,表示在此运算符两侧的检索词只要出现在记录的同一个子字段内(例如,在文摘中的一个句子就是一个子字段),此信息即被命中。要求被连接的检索词必须同时出现在记录的同一句子(同一子字段)中,不限制它们在此子字段中的相对次序,中间插入词的数量也不限。例如“high(W)strengh(S)steel”表示只要在同一句子中检索出含有“high strengh和steel”形式的均为命中记录。

在检索过程中,可利用检索字段进行后缀或前缀限制。在检索语句或检索词后加斜线(/),再加后缀代码,或者前缀后加等号(=)来限定查找范围。

例如:查找有关“彩色电视”方面的文献

    ?S(colour or color)(W)(television or TV)/ti,de

上式表示只在篇名和叙词字段中查找,缩小了查找范围。

例如:查找意大利Firenze市的名叫Stabilimento公司的简况

    ?S CO=Stabilimento and CN=Italy and CY=Firenze

上式利用了前缀和后缀代码进行了限制。

5.加权检索

加权检索是某些检索系统中提供的一种定量检索技术。加权检索同布尔检索、截词检索等一样,也是信息检索的一个基本检索技术,但与它们不同的是,加权检索的侧重点不在于判定检索词或字符串是不是在数据库中存在,与别的检索词或字符串是什么关系,而是在于判定检索词或字符串在满足检索逻辑后对文献命中与否的影响程度。加权检索的基本方法是:在每个提问词后面给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。阈值可视命中记录的多寡灵活地进行调整,阈值越高,命中记录越少。

运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高检准率的有效方法。但并不是所有系统都能提供加权检索这种检索技术,而能提供加权检索的系统,对权的定义、加权方式、权值计算和检索结果的判定等方面,又有不同的技术规范。

6.聚类检索

聚类是把没有分类的事物,在不知道应分几类的情况下,根据事物彼此不同的内在属性,将属性相似的信息划分到同一类下面。聚类检索是在对文献进行自动标引的基础上,构造文献的形式化表示——文献向量,然后通过一定的聚类方法,计算出文献与文献之间的相似度,并把相似度较高的文献集中在一起,形成一个个的文献类的检索技术。根据不同的聚类水平的要求,可以形成不同聚类层次的类目体系。在这样的类目体系中,主题相近、内容相关的文献便聚在一起,而相异的则被区分开。

聚类检索的出现,为文献检索尤其是计算机化的信息检索开辟了一个新的天地。文献自动聚类检索系统能够兼有主题检索系统和分类检索系统的优点,同时具备族性检索和特性检索的功能。因此,这种检索方式将有可能在未来的信息检索中大有用武之地。

2.5.2 信息检索技术热点

目前,信息检索已经发展到网络化和智能化的阶段,信息检索的对象从相对封闭、稳定、由独立数据库集中管理的信息内容扩展到开发、动态、更新快、分布广泛、管理松散的web内容。信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师、学生、各专业人士等在内的普通大众,他们对信息检索从方法、技术到结果提出了更高、更多样化的要求。适应网络化、智能化和个性化的需要是当前信息检索技术的热点。

1.智能检索

传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量不高的现象,特别是在网络信息时代,利用关键词匹配很难满足人们检索的要求。

智能检索利用分词词典、同义词典、同音词典改善检索效果,比如用户查询“计算机”时,与“电脑”相关的信息也能检索出来;进一步还可在知识层面或者概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典,形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。比如用户可以进一步缩小查询范围至“微机”“服务器”,或扩大查询至“信息技术”,或查询相关的“电子技术”“软件”“计算机应用”等范畴。另外,智能检索还包括歧义信息和检索处理,如“苹果”,究竟是指水果还是电脑品牌,“华人”与“中华人民共和国”的区分,将通过歧义知识描述库、全文索引、用户检索上下文分析以及用户相关性反馈等技术结合处理,高效、准确地反馈给用户最需要的信息。

智能检索也称之为知识检索,是在现有的信息检索技术以及模型上发展而来的。智能检索和信息检索的不同,就在于知识检索强调了语义,不会和信息检索一样,只是基于字面的机械匹配,它从文章的语义、概念出发,能够揭示文章的内在含义。做到了语义和概念层次上的标引工作,智能检索就提高了查全率和查准率,降低了用户的负担。

智能检索技术吸取多个学科的研究成果,力图通过对文本、图像和视频信息的智能处理,实现信息的精确检索。

2.知识挖掘

知识挖掘源于全球范围内数据库中存储的数据量急剧增加,人们的需求已经不只是简单的查询和维护,而是希望能够对这些数据进行较高层次的处理和分析以得到关于数据总体特征和对发展趋势的预测。知识挖掘最新的描述性定义是由Usama M.Fayyyad等给出的:知识挖掘是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。

知识挖掘目前主要指文本挖掘技术的发展,目的是帮助人们更好地发现、组织、揭示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、自动分类(聚类)和相似性检索等方面。

自动摘要就是利用计算机自动地从原始信息中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往电子信箱、PDA、手机等。

相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相

关反馈的基础,也可用于去重分析。

自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。

3.异构信息整合检索和全息检索

在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等的处理和检索,支持多语种信息的检索,支持结构化数据、半结构化数据及非结构化数据的统一处理,和关系数据库检索的无缝集成以及其他开放检索接口的集成等。

所谓“全息检索”的概念就是支持一切格式和方式的检索,从目前实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。

另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。

随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。

2.6 检索效果评价

检索效果是信息检索服务反映的效率和结果,它反映检索系统的能力,包括技术效果和社会经济效果之分。技术效果主要指信息检索系统的性能和服务质量,以及系统满足用户信息需求的程度。社会经济效果是检索系统通过满足用户信息需求所产生的社会效益和经济效益,如费用、时间等。技术效果和社会经济效果不是对立的,它们是互相联系的统一体。

判定一个检索系统的优劣,主要从质量、费用和时间三方面来衡量。因此,对信息检索的效果评价也应该从这3个方面进行。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。查全率和查准率是判定检索效果的主要标准,而后两者相对来说要次要些。

一个理想的信息检索系统,应该是用户需要什么信息,它就能向用户提供什么信息,用户需要多少信息,它就能提供多少信息;其检索结果不多也不少,检索费用低甚至没有检索费用,且检索时间短。但是,目前要实现这样理想的信息检索系统还存在许多困难。实际上,不同的检索系统,检索效果是不一样的;同样的检索系统,不同的检索能力,其检索效果也是不一样的。对信息检索效果进行评价,就能为改善检索系统性能提供明确的参考依据,进而更有效地满足用户的信息需求。

2.6.1 检索效果评价指标

不同的检索系统,其评价标准有一定的差别。对传统的信息检索系统进行评价时,主要的评价指标包括信息收录范围、查全率、查准率、响应时间、输出方式、新颖率、用户友好程度等。但随着互联网信息检索的兴起,网络信息检索的评价指标也发生了变化,以搜索引擎为例,其评价指标具有多样性,主要评价指标有下面几点。

数据库的规模和内容:覆盖范围、索引组成、更新周期。

索引方法:人工索引、自动索引。

检索功能:布尔逻辑检索、截词检索、限制检索、位置检索、复杂的检索式。

检索效果:响应时间、查全率、查准率、重复率、死链接率。

检索结果:相关性排序、显示内容、输出数量选择、显示格式选择。

用户界面:帮助界面、检索功能说明、检索举例。

不论采用什么评价指标,用户在实际使用过程中最为关心的还是查全率、查准率、响应时间。

查全率和查准率是评价检索系统的两项重要指标,美国学者Perry和Kent在1957年最早提出查全率和查准率的概念。假设进行检索时,检索系统把文献分成两部分,一部分是与检索需求相匹配的文献,并被检索出来,用户根据自己的判断将其分成相关文献(命中)a和不相关文献(噪音)b;另一部分是未能与检索需求相匹配的文献,根据判断也可将其分成相关文献(遗漏)c和不相关文献(拒绝)d。一般情况下,检索出来的文献数量为(a+b),相对整个系统的规模来说是很小的,而未检出的文献(c+d)数量则非常大。

1.查全率(recall ratio)

查全率是指从检索系统中检出的与检索课题相关的文献信息数量与检索系统中实际与该课题相关的文献信息总量之比率。

对于数据库检索系统,查全率为检索出的记录数与数据库中满足用户检索需求的记录数之比;而对于互联网信息检索而言,文献总量是很难计算的,甚至连估算也很困难,因为互联网上信息是瞬息万变的,今天存在的信息,明天就可能找不到了,同时还会出现更多新的信息。要按传统的方式计算查全率,就要检验检索工具反馈的所有检索结果,而检索结果的数量是极其庞大的。为此,相对查全率是一种可以实际操作的指标,但从其定义来看,人为因素的影响较大。

要提高查全率往往要扩大检索范围,但扩大检索范围可能导致查准率下降。为此需要提高标引质量和主题词表质量,优化检索提问式,准确判断文献的相关性和相关程度。具体来说就是规范检索语言,选取适当的检索方法,选择合理有效的检索技术、检索策略,加强标引工作。

2.查准率(precision ratio)

查准率是从检索系统中检出的有关某检索课题的文献信息数量与检出的文献信息总量之比率。

在理想的情况下,系统检索出用户认为相关的全部文献,用户相关性估计和系统相关性判断是重合的,即b=0,c=0,则相全率为100%,查准率也是100%。实际上,这样的检索结果是不可能出现的。一般情况下,查全率的计算比较困难,因为检索系统中相关文献的总量是很难估算的。

同样,对互联网信息检索而言,真实查准率也是很难计算的。因为对于命中结果数量庞大的检索课题来说,相关性判断工作量极大,很难操作。为此可以定义一个相对查准率如下。

这个公式与传统的查准率定义有很大的差别,受人为因素影响太大,缺乏可重复性和客观性。

查全率反映所需文献被检出的程度;查准率则反映系统拒绝非相关文献的能力。两者结合起来反映检索系统的检索效果。信息检索的理想状态是查全率和查准率都达到100%,但这是不可能的。查全率和查准率之间的互逆相关性是由英国C.W.Cleverdon领导的Cranfield试验所发现的,Cleverdon在1962年首次将它运用于实际信息检索系统的评价实验(CranfieldⅡ)中。也就是说,在排除了人为因素的情况下,任何提高查全率的措施都会降低查准率,反之亦然。究其原因根本不是在检索系统本身,而是在检索对象——文献,因为文献所反映的信息与各个学科知识之间的普遍联系,各种知识之间的相互渗透、相互包容是影响查全率和查准率不能同时达到100%,而成反比关系的客观因素,被称为合理影响因素。由其造成的误检和漏检称为合理误检和合理漏检。

在同一个检索系统中,当查全率与查准率达到一定阈值(即查全率在60%~70%之间,查准率在40%~50%之间)后,二者呈互逆关系,查准率每提高1%将导致查全率下降3%。因此,信息检索的最佳效果是查全率为60%~70%,且查准率为40%~50%。

虽然用查全率和查准率可以评价检索效果,实际上它们存在着难以克服的模糊性和局限性。由于检索系统中相关文献总量是个模糊量,无法准确估计,故难以准确计算查全率。另外“相关文献”对不同的检索者而言,认识不一致,其中含有主观因素。因此用上述公式计算查全率和查准率是相对的,它们只能近似地描述检索效果。

3.漏检率(omission ratio)

漏检率是未检出的相关文献数量与系统中相关文献总量之比。

漏检率与查全率是一对互逆的检索指标,二者之和为1,查全率高,漏检率必然低。

4.误检率(noise ratio)

误检率是检索出的不相关文献数量与检索出的文献总量之比。

误检率与查准率是一对互逆的检索指标,二者之和为1,查准率高,误检率必然低。

5.响应时间

响应时间是指从用户提问到提问接受再到检索结果输出平均消耗的时间。手工检索响应时间人为因素影响较多,响应时间一般较长;对单机检索系统的响应时间主要是由系统的处理速度决定的;网络检索的响应时间在相当大的程度上取决于用户使用的通信设备和网络传输速度等外部因素。就是同一检索系统,在不同的时间检索同一问题,其响应时间也可能不一样。

网络检索的响应时间由4个部分组成:用户检索请求到服务器的传输时间;服务器处理检索请求的时间;服务器的检索结果到用户端的传输时间;用户端计算机处理服务器检索结果的时间。其中服务器处理检索请求的时间和用户端计算机处理服务器检索结果的时间主要取决于服务器和客户机的硬件配置、用户的检索请求类型和服务器的负载情况等;用户检索请求到服务器的传输时间和服务器的检索结果到用户端的传输时间主要是信息在网络传输中所造成的延迟。

由此可见,缩短网络检索的响应时间,一方面可以提高服务器和客户机的整体性能,另一方面要增加网络的带宽,控制输入网络的数据量。

6.其他指标

除了查全率、查准率和响应时间外,传统的评价指标还有以下几种。

①收录范围:一个检索系统中收录的文献是否齐全,包括专业范围、语种、年代与文献类型等,这是提高查全率的物质基础。

②工作量:从检索系统中获得相关文献消耗的精力与工作时间。

③可用性:按可靠性、年代与全面性的因素检出文献的价值。

④外观:检索结果的输出格式等。

网络检索工具,尤其是搜索引擎,其评价有其自身的特点。目前网络检索工具主要以自动方式在网络上搜索信息,经过标引形成索引数据库,索引数据库的构成是网络检索工具检索效果实现的基础。

检索工具提供的检索功能,直接影响检索效果,所以网络检索工具除了提供传统的检索功能外,还提供了一些高级检索功能,如多语种检索功能、自然语言检索功能、多媒体检索功能和相关反馈等。

在检索效果评价方面,除查全率、查准率和响应时间外,还应将重复链接数量和死链接数量作为评价指标。

2.6.2 提高检索效果的方法

信息检索效果是评价一个检索系统性能优劣的质量标准,它始终贯穿于信息存储与检索的全过程。用户在进行信息检索时,总是希望把与检索课题相关的信息全面(查全率)、准确(查准率)、迅速(响应时间)地检索出来,获得满意的检索效果。

要提高检索效果,主要应从两方面入手:一是提高检索系统的质量;二是提高用户利用检索系统的水平。检索系统的质量不由用户控制,要提高检索效果,更主要从用户入手。

1.提高检索人员的素质

信息检索是用户具体进行操作的,人的因素占支配和主导作用。在信息检索中主要依靠检索人员的大脑不断进行思考、判断、选择和决定,如检索策略的制定、检索途径与方法的选择、检索技术的运用、检索式的构造等,检索效果与检索人员的知识水平、业务能力、经验和工作责任心密切相关。

(1)提高检索人员的知识素质

检索人员的知识素质包括知识、技能和能力。知识是指信息学、信息组织与存储、信息检索、计算机应用、外语等知识;技能是指咨询解答、信息整序、语言与文字表达等技能;能力是指捕捉信息的能力、超前思维的能力、综合分析的能力等。只有具备一定的检索知识和广博的知识内涵,才能形成一定的检索能力,从而提高检索效果。

(2)提高检索人员的思想素质

思想素质是关系到检索人员全面素质提高的重要因素,并影响着检索效果。主要体现在职业道德精神、检索结果的辨别分析、检索观点的公正等。因此,提高检索人员的思想素质,就是要避免人为因素的影响,进而保证检索效果的提高。

2.优选检索系统

检索系统的质量是决定检索效果的基础,所以优选检索系统是保证检索效果的重要环节。由于检索系统类型多种多样,并各具特色,同时还存在交叉重复现象,对一般用户来说,要熟悉与其专业相关的检索系统的功能不是一件容易的事情,选择恰当的检索系统就更加困难,这就要求检索人员必须全面了解检索系统,如收录范围、标引语言、排检方式等,然后才能根据检索课题的要求,选择专业对口强的检索系统。

不存在可以满足任意检索需求的检索系统,每一个检索系统都有自己的强项和特点。

检索系统选定后,检索途径选择就基本限定,它取决于该检索系统的排检方式和辅助索引的种类。因此,提高检索效果,必须进行检索系统的优选。

3.优化检索策略与步骤

正确的检索策略,可优化检索过程与检索步骤,有助于求得查全率和查准率的适当比例,节省检索时间与费用,取得最佳的检索效果。

由于信息需求的多样性,决定了其检索目的、检索方法与检索步骤的差异性。因此,只有充分了解检索需求,才能有针对性地选择检索系统;只有了解检索目的,才能有效地把握查全率与查准率的关系。如科研立项、科技查新检索强调的是信息的查全率,遗漏信息会造成重复劳动及经济损失;而一般性检索则强调信息的查准率,准则精,便于吸收利用,就能节省时间。同样的检索需求,由于检索目的不同,其检索策略的制定也有所不同,对应的检索步骤也就有所差异。

由于信息量的巨大和信息描述的不规范,利用检索系统检索信息的过程往往是多次检索、不断完善、不断优化的过程。所谓检索优化过程,就是在检索过程中,为了完整描述检索课题的内涵和外延,往往要进行几个概念的组合和表达同一概念的多个同义词的组合,而且在检索过程中也要根据检索结果随时调整检索策略。

为了实现检索策略与步骤的优化,一般是通过布尔逻辑检索、位置检索、限制检索等技术进行优化。

4.精选检索词

使用检索系统进行信息检索时,检索词的选择也是一个重要环节。在选择检索词时主要从下面5个方面进行考虑。

①尽量使用专指性强的词。

②学会使用截词。

③不使用常用词。

④避免使用多义词。

⑤避免出现错别字。

5.巧构检索提问式

运用逻辑算符、位置算符、限定符、通配符及相关的检索技巧来巧构检索提问式,是提高检索效果的有效途径。

6.熟悉检索代码与符号

检索代码与符号是进入检索工具的语言保证,是检索与系统相匹配的关键,其选取是否恰当,将直接影响检索效果。因此检索人员必须利用相应的分类表、词表,选取与检索工具相匹配的正确代码与符号。

7.鉴别检索结果

检索结果的鉴别分为印刷型资源和电子资源。对印刷型资源可从版权页上的出版者、作者和序跋中的作者及相关内容介绍等进行鉴别;对电子资源主要从信息来源与出版、权威性、用户、网站内容、时效性等方面鉴别。

对于用户检索而言,首先要全面、细致地分析检索提问,尽可能列出全部已知线索;制定最优检索策略,并灵活运用各种检索方法,包括合理选用检索系统及数据库,根据检索要求正确使用词表,选取能够全面、准确表达检索提问的检索词,构造出合理的检索式;在检索过程中,灵活、有效地运用各种检索技术和索引文档;还要根据不同的检索要求,适当地调节查全率和查准率。

思考题

1.信息组织的方法有哪些?

2.简述信息检索的定义、类型与作用。

3.简述检索中常用的数据库类型。

4.简述信息检索的基本原理。

5.何谓查全率、查准率?

6.论述信息检索的发展趋势。

7.简述制定检索策略的具体内容。

8.简述常用的扩检技术与缩检技术。

9.简述信息检索的途径、方法和步骤。

10.信息检索技术及其热点。

11.简述检索效果的评价指标。

12.简述提高检索效果的方法。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈