首页 理论教育 计算机信息检索基础知识

计算机信息检索基础知识

时间:2022-03-10 理论教育 版权反馈
【摘要】:据记载,最早的计算机信息检索系统雏形是美国海军机械实验中心使用IBM701型机于1954年初步建成的,这预示着以计算机检索系统为代表的信息检索自动化时期的到来。目前联机信息检索正通过电话网深入到家庭之中,极大地提高了信息资料的可获得性和利用价值,充分实现人类信息资源的共享。

第一节 计算机信息检索基础知识

一、计算机信息检索的产生背景及发展过程

(一)计算机信息检索产生背景及优点

任何事物的产生都是由社会的需求来决定的。当人们对于信息的存在感到无所适从,不能有效地收集、利用时,便对检索、检索工具、检索方式产生了要求。

如何提高人们准确、迅速地识别、搜集、处理、吸收信息和有效地利用信息的能力,已成为一个十分突出的问题。计算机技术、高密度海量存贮技术以及现代化通讯技术、网络技术的飞速发展,为人们利用计算机等现代技术来进行信息存贮和检索提供了物质前提。

1946年第一台计算机问世后不久,计算机就被应用到信息检索中来,比起手工检索,其优点是:

①速度快、效率高,仅几分钟就可以从成千上万条记录中找出所需信息;②检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,尤其是在网络中,几乎每一台个人计算机都可以成为信息源;③检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助光盘和通信网络查询所需信息;④由于数据更新快,可以及时获得最新信息;⑤检索辅助功能完善,使用方便,几乎所有检索系统都有查询服务或提供帮助的功能,界面友好的程度在不断提高,检索结果的输出方式丰富多样。

(二)发展过程

计算机的出现与发展,为信息的自动存贮和管理提供了坚强的物质基础,网络、数据传输等技术有为远距离检索提供了有利条件。所有这些外部条件与信息检索本身的发展要求相结合,就导致了计算机信息检索的产生和迅速发展。计算机信息检索大致经历了以下三个发展阶段:

1.脱机信息检索阶段(1954~1964年)

20世纪50年代初就有人开始研究计算机在信息检索领域的应用,但是当时的计算机尚处于第一代电子管时期,用于信息检索具有很大的局限性。因此几乎没有实用系统,有的也只是内部的实验性或半实验性系统。据记载,最早的计算机信息检索系统雏形是美国海军机械实验中心(NOTS)使用IBM701型机于1954年初步建成的,这预示着以计算机检索系统为代表的信息检索自动化时期的到来。

到了20世纪50年代中期至20世纪60年代初,由于第二代计算机的涌现,计算机系统的软、硬件都有了很大的发展,使得计算机文献处理与信息检索有了很大的活力,从而进入实用化的脱机批处理检索方式阶段。1958年美国国立图书馆首先将美国人卢恩研究完成的计算机自动标引技术,应用于编制《最新医学文献目录》;1961年该图书馆研制了影响颇大的医学文献分析与检索系统,即MEDLINES,编制机读磁带,并于1963年提供检索服务。这一时期检索的特点就是脱机批处理,用磁带作为存贮介质,并且一般都是连续检索。

所谓的脱机检索,传统意义是指系统根据用户需求在机读磁带上顺序扫描寻找匹配的文献,常常是分批处理用户提问,又称批式检索;在网络通信迅速发展的今天,脱机(off-line)检索又常常被称为离线检索,作为在线(on-line)检索或联机检索的补充,如光盘检索就是一种典型的脱机检索,它使20世纪80年代后期濒于消失的传统的脱机检索又有了新的生命。

在脱机检索阶段,由于当时计算机还没有连接通信网,也没有远程终端装置,不能提供实时检索(Question and Answer),所提供的服务只能是进行现刊文献的定题检索(Selective Dissemination of Information)和回溯性检索(Retrospective Search),同时利用计算机编辑出版检索性刊物。它的优点是:可同时进行多项检索;可处理检索关系相当复杂得检索词汇;一次输入作业,生产多种输出的服务能力(它可用于普通印刷索引、专题数目、回溯检索和定题检索)。

2.联机检索(1965~1991年)

在脱机检索过程中,用户不能在检索过程中与主机进行“对话”,信息需求不能即时得到回答,也不能通过检索结果的反馈随时修改检索提问式,同时属于委托检索,信息检索与查询结果之间有一定误差。因此这种检索存在着很大的不便。

所谓联机检索即检索终端通过通信线路与系统的主机连接,在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。联机检索是计算机技术、信息处理技术和现代通信技术三者的有机结合,可以远程实时检索多种数据库、进行人机对话、及时修改策略获得检索结果是联机检索主要的优点。

到了这段时期,由于第三代集成电路计算机的产生和发展以及高密度海量存贮器——硬磁盘及磁盘机的出现,再加上数字通讯技术的发展、分组交换公用数据通信网络的普及,使得信息检索从脱机批处理阶段进入联机检索阶段。在这个时期也可以分为两个阶段:

(1)联机检索推动阶段(1965~1972年)

1965年美国系统发展公司(SDC)研制成功ORBIT(online retrieval of Bibliographic Information-time Shared)联机信息检索软件,开始了联机信息检索系统阶段。与此同时,美国洛克希德导弹与空间公司为美国航空航天局设计了可以检索20万篇NASA文献的第一个对话式联机信息检索软件(RECON)。洛克希德公司利用同一软件与1972年建立提供商业服务的DIALOG联机检索系,至今该系统仍为世界上最著名的信息检索系统。另外,欧洲航天局引进RECON软件于1969年建立ESA/IRS联机检索系统、1972年ORBIT提供商业检索服务。总之,这一阶段由于通信技术、微型计算机以及数据库生产的同步发展,用户实现了联机检索。但是这一阶段的计算机主要是通过电话线路联结,因此联机检索受到地区的限制。

(2)国际联机检索的发展与普及阶段(1973~1994年)

这一阶段,由于第四代和第四代半计算机的出现,以及卫星通讯技术和光线技术的实用化,建立了专用数据通讯网,使得用户冲破时间和空间的限制而进入国际联机检索阶段,大大方便与加速了世界信息资源的交流与利用。

1970年和1975年两个美国通信网络TYMNET和TELNET先后投入商用,他们对联机信息检索服务产生了极大的影响。1972年美国MEDLINE系统率先进入TYMNET网,然后又进入TELNET网。随后DIALOG和ORBIT系统也都进入上述网络。这些网络逐渐延伸到加拿大、欧洲、中国,使得信息检索成为一种国际性业务,在世界范围内实现了信息资源共享。在欧洲,从1980年2月起欧共体的EURONET网开始服务。目前联机信息检索正通过电话网深入到家庭之中,极大地提高了信息资料的可获得性和利用价值,充分实现人类信息资源的共享。

3.网络化检索(1995年— )

脱机检索和联机检索为我们提供了大量的信息资源,但各自又都有着或多或少的缺点,例如联机检索费用昂贵,指令复杂,多为专业检索人员才能使用等。因此,极有必要产生一种新型的信息检索方式。

Internet在20世纪六七十年代初见雏形,80年代末开始迅速流行。1993年美国政府提出NII(国家基础设施建设)计划,兴建以Internet为雏形的信息高速公路。1995年起全球进入了真正的Internet时代。图书馆、信息服务机构和科研机构以及一些大的数据库商纷纷加入到Internet上,为信息需求者提供各种各样的信息服务。目前Internet上的用户已经超过2亿,而且每年还在以极快的速度增加。

随着Internet的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户/服务器联机检索模式开始取代以往的终端/主机结构,成为联机检索的发展趋势,使计算机信息检索进入了又一个崭新的时期——网络信息检索。

网络信息检索,即通过网络接口软件,用户可在任一终端查询各地上网的信息资源。

这个时期,在通信和网络技术扶持下,出现了各种网络信息利用工具。如:WWW浏览器(大有取代其他工具的趋势);Windows平台配备的性能优良的电子邮件工具;思维机器公司推出了WAIS,允许用户检索整个因特网上文本信息资源;明尼苏达大学推出了Gopher,使用户能十分容易地存取因特网上的信息资源;针对FTP资源的Archie;BBS等等。

值得指出的是,网络信息环境的出现,使得信息检索研究的对象和范围不断扩大,研究队伍也突破了原有的以图书情报领域的专家学者为主的框架,众多的信息公司加入到研究开发信息检索系统的行列。可以说,网络使计算机信息检索技术进入一个崭新发展阶段,而网络信息检索又使得网上信息源利用率提高,信息组织更为有序和高效。总之基于因特网的检索系统成为网络信息检索系统的代表。

总之,由于计算机检索具有速度快、效率高,数据内容新、范围广、数量大,操作简便,检索时不受国家和地理位置的限制等特点,计算机信息检索已成为人们获取信息的主要手段。

二、计算机信息检索的基本原理

(一)计算机信息检索的原理

计算机信息检索的本身包含了信息的存贮和查找两个方面。信息存贮主要是按照一定规律,对文献进行分析、标引,形成文献的特征标识(如主题词、关键词、著者等),为文献的查找提供必要的检索工具和途径;信息的查找,则是将用户的信息需求变成检索提问标识,并按照检索系统提供的检索途径,将此标识与系统中存贮的文献特征标识进行比较,从系统中获取两种标识相一致或比较一致的信息,以满足用户的需求。信息存贮是信息查找的基础,信息查找是信息存贮的最终目的。

手工检索的许多原理和规律都渗透到计算机检索中。利用计算机检索信息资料,一般要先分析课题的内容,选取合适的检索词、编制检索提问式,然后通过键盘将提问式输入计算机。提问式中的检索词信息与存贮在磁带、磁盘或光盘上的每篇文献的标识在计算机运算器内进行大小、同异的逻辑比较,如果两者信息一致,说明这篇文献正是所需要的。于是,计算机输出装置立即把这篇文献的存贮信息自动转化为人们能够阅读的文字,打印输出。由此可见,计算机信息检索和手工检索的基本原理是一样的(如图2.1-1),只不过计算机信息检索采用了现代化的设备(计算机)和通信技术,以数字化资源(数据库)作为检索对象来进行的信息检索,检索提问必须先转化为机器可识别的指令,然后在输入计算机中。

img8

图2.1-1

计算机信息检索与手工检索的区别在于:

由于查找的直接执行者不同,计算机检索的组配和手工检索的组配存在着一定的差别。

手工检索过程中,直接执行查找任务的是人,人的思维起着主导作用,检索者可以在检索过程中结合检索的结果不断明确自己的信息需求和不断修改自己的检索提问。在检索过程中,检索提问标识与检索系统中文献特征标识的组配完全可以做到内容、概念和形式上的一致,而无须严格的字面组配。因此所得到的信息一般能符合检索者的信息需求。

计算机信息检索过程中,计算机不具备人脑的思维能力,因此,检索提问标识一经输入检索系统便无法结合系统检索的具体情况不断明确用户的信息需求和修改用户的检索提问标识。同时,在计算机信息检索系统中,检索提问与文献特征标识的组配完全是一种字面组配,即计算机将两种标识完全作为“字符串”来进行类比运算。因此必须要求检索提问标识在形式上与文献特征标识保持完全一致才能匹配。这种字面上的组配,使检索出的文献记录只在字面上与检索提问标识保持一致,而在内容上或概念上就不一定符合用户的检索需求。因此进行计算机检索时,一定要深入分析主题,找出与课题相关的概念和属性,以防止误检和漏检。

在这个信息量十分巨大的时代,我们不可能都采用手工检索,90%的人都选用了计算机进行信息检索,从而大大缩短检索时间。当然计算机不能完全具有人工智能,需要人工去浏览检索结果,也需要人去不断改进检索策略才能有效地完成检索任务。

2.信息检索语言

在图2.1-1中,我们可以很清楚地了解到,在计算机信息检索过程中,信息检索语言起着关键性的作用。在对用户的信息需求和系统中存贮的信息源匹配过程中,信息检索语言具有桥梁的作用,只有使用了信息检索语言,才能有准确的查询标识和信息标识,从而实现匹配。掌握检索语言是掌握检索技巧的基础。

那么,什么才是信息检索语言呢?

所谓的检索语言就是组织文献与检索文献时所使用的语言。它是用来描述文献内容特征、外表特征和表达信息提问的一种人工语言,这种语言在文献的存贮和检索过程中,共同使用、共同理解。

检索语言的基本成分是检索提问词。语言分为自然语言(nature language)和人工语言(artificial language)两种。自然语言采用的检索词是未经加工整理和规范过的,而人工语言采用的是规范化的词。由于自然语言本身存在大量的词汇歧义和语义歧解现象,存贮和检索中不能直接使用,人们便编制了各种检索语言,成为信息处理人员与检索人员之间沟通思想取得一致理解的桥梁。

实际上,在进行信息检索的时候,多数采用的检索语言是表达文献内容特征的检索语言,包括分类语言和主题语言两种。文献内容特征语言与文献外表特征语言相比,在揭示文献特征与表达信息提问方面更具有深度。不同的检索语言构成不同的标识和索引系统,提供用户不同的检索点和检索途径。

分类语言是用分类法来表达各种文献内容的概念,并将各种概念按照学科、专业性质进行分类和系统排列。分类检索语言包括等级体系分类语言和组配分类语言,目前最为普遍使用的是体系分类语言,简称分类法,它能直接体现知识分类的等级制概念标识系统,被广泛用于图书资料的分类和检索。其特点是按学科、专业集中文献,用等级来表示类目的从属性,用列举法来表示类目的完整性。目前常用的分类法包括《杜威十进分类法》(DDC)、《国际十进分类法》(UDC)、《美国国会图书馆分类法》(UCC)、《中国图书馆分类法》、《中国科学院图书馆分类法》等。计算机检索中的很多检索工具,如Yahoo等级式主题指南类搜索引擎,采用的就是分类语言。

信息检索中所说的主题是指文献著者要传达给读者的思想或概念。所谓主题语言,就是利用自然语言的词语来表达文献的主题概念,并按照词语字顺排列组织文献的一种检索语言。用来描述主题概念的词语称为主题词,把主题词按照一种便于检索的方式编排起来,就是主题词表。

主题词表揭示欲处理文献上及信息提问中有可能出现的同义词、近义词、反义词之间的语义关系,展示了同一族系中各主题词的语义等级结构,限定了较含糊的主题词的寓意或确定其意义与范围。一部主题词表通常包括字顺表、范畴表、词族表等。

主题法检索语言分为标题词语言、叙词语言、关键词语言、单元词语言等四种。有关信息检索语言更详细的描述,请参考本书“检索标识语言的识别”这一章节。

三、计算机检索系统的组成与结构

(一)计算机信息检索系统的构成

计算机信息检索系统从物理构成上说,包括计算机硬件、软件、数据库、通讯线路和检索终端五个部分。

计算机的硬件主要包括具有一定性能的主机、外部设备以及与数据处理或数据传输有关的其它设备。其中外部设备包括:外部存贮器、输入输出设备。计算机软件分为系统软件和应用软件。系统软件包括:操作系统、编译程序与汇编程序、诊断程序。应用软件包括:数据库管理系统、建库程序、数据输入输出程序、自动标引程序、文件管理程序等。

一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求就可以了。对检索者来说,必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。

(二)数据库(Database)

数据库是计算机检索的对象,要掌握计算机检索的原理和技巧,首先必须了解清楚数据库的相关知识。

1.数据库定义

数据库是指计算机存储设备上存放的相互关联的数据的有效集合,是计算机信息检索的重要组成部分。数据库是为了满足某方面用户信息需要而被收集在一起的一组有组织(或有序)的信息单元。每个信息单元由若干个独立的结构单元组成,数据元存储在结构单元之中,每个数据元描述一个特殊特性。例如,文献目录数据库包含有关图书、科技报告、期刊论文等方面的信息,在这种特殊情况下,每个信息单元将有诸如著者、标题、出版日期等数据元组成。

文献数据库大多是书目式的数据库,这种数据库里存储的并非是原始文献,而是经过加工的二次文献,即文献的题录或摘要。其结构类似于印刷型的检索工具。数据库是一个包含大量反映文献外表特征和内容特征的著录款目的集合。随着电子技术的日益发展和信息资源的数字化,也逐渐出现了一些全文数据库,如中国学术期刊全文数据库。

2.数据库的类型

数据库按内容性质分,大致可以分为文献型数据库和非文献型数据库两大类型:

(1)文献型数据库。

①书目数据库(bibliographic database),是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。如许多图书馆提供的基于网络的联机公共检索目录(Web-based Online Public Access Catalogue,即OPAC)、中文社科报刊篇名数据库、中国学位论文数据库等。

②全文数据库(full text database),存储的是原始文献的全文,有的是印刷版的电子版,有的则是纯电子出版物,如《人民日报》全文数据库、Science Online(美国的《科学》杂志)等。近些年,特别是法律、商业、经济方面的全文数据库发展、增长得非常迅速。

(2)非文献型数据库。

①数值数据库(numeric databases),主要包含的是数值数据,如美国国立医学图书馆编制的化学物质毒性数据库RTECS,包含了10万多种化学物质的急慢性毒理实验数据。

②事实数据库(fact databases),存储指南、名录、大事记等参考工具书的信息,如美国医生数据咨询库PDQ(Physician Data Query)、中国科技名人数据库等。

③超文本数据库(hypertext databases),存储声音、图像和文字等多种信息,如美国的蛋白质结构数据库PDB,该数据库可以检索和观看蛋白质大分子的三维结构,也称为多媒体数据库。

④术语数据库(Terminological bank):存储有各种名词术语或语言资料,一般来源于词典等。

⑤图像数据库(Graphics databases):存储有某些图像信息,如图片、工程设计图等。

而在国际上还有一种比较通用的分类方法,即把数据库分成三种类型:参考数据库(Reference databases):包括书目数据库、指南数据库;源数据库(Source databases):包括数值数据库、文本-数值数据库、全文数据库、术语数据库、图像数据库等;混合型数据库(Mixed databases)。

数据库是计算机信息检索系统的基础,在科学研究领域中,尤其是文献型数据库更具代表性。所以我们也将以文献型数据库为例来研究数据库的结构及组织。

3.数据库的构成

数据库通常由若干个“文档”(file)组成,每个文档又由大量的“记录”(records)组成,每一条记录又包含了若干“字段”(fields),相当于著录项。如果你使用过最简单的利用FOXBASE编辑的关系型数据库,那么此时你会对数据库的构成又一个比较清晰的认识。

“文档”是数据库中一部分记录的有序集合。“记录”是数据库的信息单元,每条记录(又称为著录款目)描述了一个原始信息的外部特征和内部特征。“字段”是比记录更小的单位,是组成记录的数据项目。例如,Ei Compendex Web数据库将不同年限收录的文献归入不同的文档,文档中每篇文献是一条记录,而篇名、著者、出处、摘要等外部和内部特征就是一个个字段。有的字段还有“子字段”(subfields)构成,例如,标题字段可能会有副标题,副标题字段就是标题字段的子字段;文摘字段中的任何一个句子都是整个文摘字段的子字段。

根据这些字段所描述的原始文献特征的不同,字段又可分为基本索引字段和辅助索引字段。基本索引字段主要用来描述文献的内容特征(或主题特征),包括叙词或主题词(/DE)、自由标引词或关键词(/ID)、篇名或题目(/TI)、文摘(/AB)四个字段;辅助索引字段主要是用来描述文献外部特征的字段,如著者字段(AU=)、刊名字段(JN=)、出版日期字段(PY=)、语种字段(LA=)等。但是需注意的是,在辅助索引字段中,也有一些可以用来表达内容特征,如分类号(Classification Fields,CL=)、产品代码字段(Product Code Fields,PC=)、事件代码字段(Event Code Field,EC=)等。

对于基本索引字段,可以在检索提问式中用后缀来限制,即在检索项后跟“/”和字段名,如building?/ti,可以限制仅在题目字段检索“building?”,从而缩小检索范围;凡是辅助索引字段,可以在检索提问式中用前缀来限制,即在检索项前冠上字段名和“=”,如au=liu h,就可以限制在著者字段检索姓名为liu h的文献。

不同出版商的数据库中,所采用的基本索引字段差异不大,但其所采用的辅助索引字段往往会有所不同。由的数据库采用两三个辅助索引字段,而有的数据库词采用十几个辅助索引字段。

4.数据库的组织和存取方式

为了便于计算机在数据库里进行检索,每一个数据库都存有一个顺排文档(sequential file)和两个倒排文档(inverted file),即数据库是由若干个文档构成的。顺排文档存入了数据库的全部记录,文献记录按照存取号的大小顺序排列,倒排文档存入了数据库全部记录的文献标识特征,这些标识特征按照一定顺序排列而成的。(如主题词、刊名等按照字顺排列,出版时间按时间顺序排列)。

(1)顺排文档 顺排文档是按记录存取号的顺序存入全部记录,它相当于印刷型检索工具的正文部分。“记录”按顺序一个接一个存放,一个存取号对应一条记录,显然存取号越大,对应的记录就越新。由于它存贮着最完整的信息记录,所以,通常又称之为主文档(Master File)。这种存贮方式决定了对记录的存取只能按顺序进行,如果在顺排文档中检索,对每个检索提问式都得按顺序从头到尾进行扫描,数据库的记录越多,扫描的时间就越长,这种检索方式的检索速度较慢。

(2)倒排文档 倒排文档就是将记录中的可检字段(如篇名、作者名、叙词等字段)抽出,按某种顺序重新组织后所得的一种文档,既可以按不同类型的字段分别组织不同的倒排文档,如主题词倒排文档、作者倒排文档等,也可以把不同的字段组成一个混合倒排文档,如基本索引倒排文档,辅助索引倒排文档等。基本索引倒排档就是提取全部记录的基本字段(四个)中的检索词,然后按顺序构成倒排文档,但是一般来讲,连词、冠词等无意义的词不作为检索词。辅助索引倒排档结构与其相似。

倒排文档中的“倒排”两字的涵义是相对于顺排文档而言的。其实在计算机存贮器中,也是按顺排文档方式存取的。二者之间的区别是:顺排文档以完整记录为处理和检索单元,倒排文档则是以记录中的字段为处理和检索单元的。倒排文档相当于检索工具书的“辅助索引”部分。

倒排文档只包括记录的标识、文献篇数及文献存取号,因此在具体检索时,倒排文档必须和顺排文档配合使用。通常先在数据库的倒排文档中查得文献篇数和记录存取号,再从顺排文档中调出文献记录,这就象利用检索工具书时,先查找辅助索引,再查找正文文摘部分的标引款目一样。

在实际的检索系统中,为了提高检索速度,把倒排文档分成了两个文档:索引文档(又称为词典文档)和存取号倒排文档。索引文档存入检索标识、文献篇数以及检索标识的磁盘地址,而存取号倒排文档存入索引文档中所有检索标识的磁盘地址及对应于检索标识的所有记录的存取号。

索引文档提供了数据库的检索点(Access Point),计算机检索系统根据需要和其存贮容量的大小确定为数据库中的哪些字段建索引。国际上一些大型联机系统为记录的每一个字段都做了倒排,这样记录的每一个字段都可以作为检索入口点。

四、计算机信息检索的基本策略及检索效果

(一)计算机信息检索策略概述

计算机检索策略是为计算机信息检索而制定的一系列检索步骤。一个完整检索策略的制定包括数据库的选择、检索词和检索途径的确定、以及有效的使用各种运算符号进行组配。简单来说,计算机检索策略就是为检索课题编制一个合适的检索提问式检索相关的数据库信息。检索策略的优劣对检索效果起着关键性的作用。

检索策略的优劣除了与数据库、检索词、检索途径、运算符等有着密切的关系外,还与检索人员对语言学的了解、对事物的认知能力、专业知识的高低有着密切的关系。另外对检索系统的特性和功能的掌握,以及外语水平都会影响到课题检索成功与否。一个好的检索策略,既可以优化检索过程,节省检索时间和费用,又可以获得最佳的查全率和查准率。

有些时候,尤其是在进行脱机检索和联机检索的时候,信息检索一般都是委托专门的信息检索人员来进行检索,他们对用户检索课题的专业知识通常不熟悉或不了解,从而造成检索结果与用户需求之间造成差异。而要消除这种差异,就需要与用户进行认真的沟通,弄清楚用户的检索目的和课题特征,并帮助用户从检索的角度理顺主题内容,从而有利于建立良好的检索提问式。总之,同用户反复商讨明确用户真正的检索要求,是制定检索策略的基础,也是使系统具有高效针对性、主动性和预见性的重要一环。

而作为数据库的直接检索者,不管是专业的信息检索人员,还是普通的检索用户,并不能说你掌握了各种数据库的操作指令,就能成功检索一个课题,关键是掌握检索策略和检索技巧。由于各种数据库的结构、功能和内容均不同,可以衍生出各种不同的检索策略、技巧,灵活运用检索策略和技巧才能达到理想的效果。检索时编制的检索策略既要反映出课题应有的共性又得考虑主题概念的特殊性。即使这样也需要根据每一部的检索结果随机调整检索策略,否者结果也会令人失望。

(二)计算机信息检索策略制定的具体步骤

1.分析、理解课题

进行主题分析是制定检索策略的依据,也是正确运用运算符编写检索表达式(提问式)的先决条件,在对课题进行检索之前,一定要深入分析课题的主题,它决定了检索策略的质量和检索效果。如果检索者是为其他用户代检课题,所检课题的专业知识往往超越检索员的专业知识范围,那么就一定要多与用户商讨,才能完整表达检索的意图。包括:①了解用户信息需求的目的和意图,目的和意图不同,检索式、检索范围可能就不同;②分析检索课题涉及的学科范围、主题的广度和深度,以便选定合适的检索系统和数据库;③分析课题的时间要求,使得检索更具有针对性,同时也节省检索费用;④分析检索者对检索效果的要求,即检索结果的查全率、查准率要求以及所需文献的大概数量是否提供原始文献等。查全率要求较高时:选择检索词的主题概念范围要宽一些;查准率要求较高时:选择检索词的主题范围要窄一些,专指度要高一些。对于同时要求提供原文的,可选用全文数据库;⑤了解用户对检索费用及其他方面的要求。

进行主题分析相当重要,一个完整主题往往用一些单元概念组合来表示,对这些单元概念进行分析就是主题分析过程,在我们实际检索操作中,有些主题的单元概念往往是一目了然,而有些主题确是隐藏的概念,这种隐藏的概念恰恰是造成漏检、误检的重要因素。因此检索者要特别弄清隐藏的主题。

分析出单元概念后,还要搞清它们之间的逻辑关系,即这些概念之间是上位关系、下位关系、还是同位关系,为后面具体制定检索式奠定基础。

在主题分析时,必须使分析出的主题概念能确切反映用户课题要求,不能以偏代全,也不能以全代偏,否则都会出现漏检或误检。那么主题分析方法有哪些呢?一般在分析主题时,首先要弄清主要对象;其次是主要对象所使用的工艺、方法、设备,或是主要对象在属性方面的研究;最后要弄清要达到什么目的,这就是抓住主题中心,然后围绕主题中心进行主题扩展,达到正确分析目的。

2.选择检索系统和数据库

数据库的选择是编制检索策略的前提,直接影响到检索的成败。选择数据库应该选择与分析出来的主题内容极其相关的数据库为首选数据库,同时,还要根据课题所涉及的范围选择几个辅助或扩充备用数据库。

从常用的几种检索系统的数据库来看,一般光盘检索系统比联机检索系统数据库更新周期长,而Internet网上有许多免费的数据库,可以利用各种信息查询工具,对网上信息进行检索和下载。

3.选择检索词、构造检索式

正确选择检索词与配置合适逻辑关系是制定检索策略的关键。检索词是表达文献信息需求的基本元素,是计算机检索系统中有关数据库进行匹配的基本单元。选择检索词就是把主题概念转变成系统语言。选词的领域越大,对主题内容标引越全,查全率就越高;主题词的专指度越高,对主题内容标引越深,查准率就越高。主题词与主题概念越符合,那么检索效果就越好。

而所谓检索式的构造,就是指计算机信息检索系统中用来表达检索提问的逻辑表达式,由检索词和各种运算符及系统规定的其它组配符构成。

对于编写检索式,由于不同的数据库提供的检索功能有所不同,因此编写之前首先要弄清楚所使用的数据库的检索功能及所采用的操作算符。

检索式中用来连接各检索词的算符按照其功能不同主要可以分为三种:逻辑运算符、位置运算符和截词符。

4.结果显示与二次检索

如果检索结果内容较多,则需进行二次检索,或者浏览题录(简单显示),选择与目标匹配的记录,再详细浏览具体记录;如果结果不是很多,则可以逐篇浏览;当结果为零或极少时,则应该进行扩展检索;如果检索失败或检索结果与课题的相关度很小,则需要更改检索策略,并分析造成误检漏检的原因。

不同的检索策略会产生不同的检索结果,有时命中文献太多,有时又太少,甚至检索结果为零,因此在制定检索策略时一定要深思熟虑,同时要不断根据检索结果并结合课题所涉及的专业知识修改检索策略。检索策略的掌握不是朝夕可得,要在不断的实践中学习、钻研才能逐步掌握。

(三)检索效果

1.衡量检索效果的指标

计算机信息检索的检索效果与手工检索一样,也同样有衡量指标。主要有4个:

查全率(recall ratio):R=a/(a+c)

查准率(precision ratio):P=a/(a+b)

漏检率(omission ratio):O=c/(a+c)

误检率(miss ratio):M=b/(a+b)

检索系统各参量的关系:

img9

当然除了这四个检索指标外,计算机检索还有它特殊的评价标准,如系统响应时间,检索费用等,也可作为检索效果的衡量标准。但从文献的角度来说,查全率和查准率是衡量检索效果的两个主要指标。查全率高,漏检率必然低;查准率越高,误检率就必然越低。

2.提高检索效果的主要措施

提高检索效果,首先要做好两种措施:选择好检索系统和准确使用检索语言。检索系统好比钥匙,是获取所需文献的必要手段;用户所使用的检索语言必须能够准确表达信息的要求,用户的提问必须与检索系统中的检索标识一致,才能检索所需文献。

其次,要分别从查全率、查准率、漏检率、误检率等几个指标入手,合理掌握尺度。

(1)提高查全率的方法:

①选择上位词、同位词及下位词的检索词

为了提高文献查全率,除选择恰当主题词外,还应该选择比恰当主题词内容范围更广的上位主题词、同位主题词及更窄的下位主题词参加检索,否则,有的文献就会漏掉。例如在NTIS数据库中检索“检索液体火箭发动机”的情况:

不考虑上、下位主题词时选用的检索式:

liquid propellant rocket engines (液体火箭发动机,命中838篇)

该主题词上、下位及同位主题词:

liquid propellant rocket engines (液体火箭发动机,命中838篇)

hydrogen oxygen engines     (氢氧发动机,下位主题词)

hydrazine engines        (肼发动机,下位主题词)

solid propellant rocket engines (固体火箭发动机,同位主题词)

检索式应该是1+2+3+(4-5)  (命中2534篇)

从以上结果可以看出,采用上下位主题词检索是提高文献查全率的一个重要方面。

②检索概念要少,同类检索词要多的原则

完整反映一个课题的概念可能有多个,但是为了达到查全的目的,选用的概念要尽量少,同时专指度要低,反映同一概念的检索词要多,这是保证查全的关键。一般反映一个课题的概念可以划分为主要概念和次要概念,基本概念和特殊概念。为了查全,应透彻分析所查课题,正确划分概念的主次并慎重选用概念。对于次要概念和特殊概念应尽量少用或不用,尽量多使用反映主要概念和基本概念的同类检索词。这里所指的同类词是广义的,具体包括以下三个方面:

同一概念的不同表达形式(包括同义词、近义词和相关词等);

同一词的不同词尾变化,这里包含着截词符的使用技巧;

概念的内涵和外延。对于某些课题不能只从表面看问题,应透过现象看本质,找出其隐含的概念。

(2)提高查准率的方法:

①应在多个主题概念中析出主要概念和基本概念,删除重复概念

有时用户提供的课题设计的主题概念较多,根据检索经验,在用逻辑算符进行逻辑组配时,不能简单地认为逻辑组配面越广、越细致,检索出结果针对性就越强。实际上,过严的组配会导致大量的漏检,甚至使得检索结果为零。这是因为在标引文献时,不同的工作人员受专业知识的限制,所选择的主题词会有差别。对于概念较多的课题应该分清主要概念和基本概念,剔除重复概念。

②尽量避免使用泛指的词作为主题概念进行检索。对于一些泛指的词,如生产、制备、工艺、合成等由于其意义广泛,所以编制数据库索引的时候,一般不作为主题词。因此选择主题概念时,应尽量避免使用这些词,除非检索结果非常多,需要进一步缩小范围时才可以使用,但使用时一定要注意把同类词用OR逻辑组配后,再用AND与主题概念进行组合,以避免漏掉相关结果。

③正确理解题意,规范专业用语。对于一些科技信息数据库,一般都需要用规范化术语来进行检索。

(3)分析误检漏检的原因:

当存在误检漏检较严重时,用户需要及时分析误检漏检的原因,主要由:

①主题词本身的多义性导致误检。主题词本身的多义性,使检索结果中包含了大量不相关的结果,屏蔽掉不相关词义的有效方法是采用与主题密切相关的其它主题词进行限制。

②选用不规范的主题词或某些产品的俗称、商品名作为检索词。例如:海绵(应该为泡沫塑料、泡沫橡胶);维他命c(应该为维生素c、抗坏血酸)。

③使用截词符,词截得太短。例如检索分析方法使用检索词“ANAL”?

④同义词和近义词以及相关词没有运用全。例如查找分析仪器,只选用了appratus,而漏掉了equipment、device等。

⑤整体概念和具体概念没有运用全。

⑥检索词专指度过高。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈