首页 理论教育 计算机信息检索的发展概况及类型

计算机信息检索的发展概况及类型

时间:2022-10-31 理论教育 版权反馈
【摘要】:它的成功,初步证明了计算机技术在信息管理方面应用的可行性,标志着人类开始步入利用计算机进行信息检索的新的历史时期。

3.1 计算机信息检索概述

3.1.1 计算机信息检索的发展概况

1.国外计算机信息检索发展概况

自从1946年世界上第一台计算机诞生以来,人们要求快速而准确地获取信息成为可能。20世纪50年代,国外开始了计算机在信息管理中应用的研究。1954年,美国海军兵器中心图书馆利用IBM-701型电子管计算机建立了世界上第一个试验性的计算机信息检索系统。该系统存入文献14 000篇,每周工作3次,进行16次批量检索,耗时约11分钟,输出的是文献号。它的成功,初步证明了计算机技术在信息管理方面应用的可行性,标志着人类开始步入利用计算机进行信息检索的新的历史时期。

50多年来,随着现代计算机技术、现代通信技术以及存储介质的发展,计算机信息检索大体经历了脱机检索阶段、联机检索阶段、光盘检索阶段、网络化联机检索阶段。

(1)脱机检索阶段 早期的计算机没有终端设备,输入数据、命令均用穿孔卡片或纸带,存储介质主要是磁带,检索采用顺序检索技术。受这些客观条件的制约,当时的信息检索是脱机批处理方式,即由用户向计算机操作人员提问,操作人员对提问内容进行主题分析、标引、编写提问式,输入计算机,建立用户提问档,按提问档定期对新到的文献进行批量检索,并将结果及时通知用户。这一时期,重要的脱机检索系统除了1954年美国海军建成的世界上第一个试验性计算机信息检索系统外(1958年美国通用电子公司对该系统进行了改进,使用IBM-704型计算机进行文献的存储和检索,从而可以检索到文献的篇名、作者、文摘等),1959年,美国人卢恩利用IBM-650电子计算机建成了世界上第一个定题检索系统,为科研机构提供一定主题的新式文献服务。1961年,美国化学文摘社用计算机编制《化学题录》,这是第一次公开利用计算机来处理书目信息。此外,还有1962年美国国家航空和航天局开设的NASA系统;1964年美国国家医学图书馆的医学文献分析与检索系统MEDLARS等。

(2)联机检索阶段 实际上,早在20世纪60年代初就有了联机检索的研究与试验。如1962年美国麻省理工学院进行了世界上最早的联机信息检索试验。

1965年以后,第三代集成电路计算机进入实用化阶段,软件上采用分时技术,存储介质发展为磁盘和磁盘机,存储容量大幅度增加,数据库管理及通信技术有了深入的发展,这些为联机检索系统的发展创造了客观条件。1965年系统发展公司进行了首次全国性的联机检索表演。1967年后,许多联机检索系统相继出现:1969年美国第一个大规模联机检索系统NASA的RECON系统全面投入运行;1970年美国洛克希德公司的DIALOG系统和SDC的ORBIT系统相继建成;1970年美国的MEDLARS也发展了联机检索系统;此后不久,欧洲宇航局的ESA-IRS系统和美国纽约时报联机检索系统也投入运行。

(3)光盘检索阶段 20世纪80年代以来,一种新型信息载体——激光光盘在信息检索系统中得到越来越广泛的应用。特别是自1985年第一张商品化的CDROM数据库BIBLIOFILE(即美国国会图书馆的MARC记录)推出以来,大量以CD-ROM为载体的数据库和电子出版物不断涌现,从而使得光盘检索以其操作方便,不受通信线路的影响等特点异军突起,在近10年内得到蓬勃发展,大有与联机检索平分秋色之势。

早期的光盘检索系统是单机驱动器和单用户,为解决多用户同时检索的要求,及同一数据库多张光盘同时检索的要求,出现了复合式驱动器、自动换盘机及光盘网络技术。复合式驱动器可同时处理多张光盘。网络技术是将多个光盘驱动器连接在一台微机上,再与网络连接。这样,每个工作站都可以通过网络服务器查找存放在任何一个光盘驱动器中的光盘数据库,实现CD-ROM资源共享。

(4)网络化联机检索阶段 随着美国和欧洲的通信网络相继投入商用,通信网络与公用电话线相连,为远距离终端联机检索提供的条件。1972年MEDLINE率先加入TYMNET通信网,然后又加入TELENET通信网。随后,DIALOG、ORBIT等系统也相继进入网络。这使得国际通信网所及之处,皆可进行联机检索,并且各大系统的主机也利用了通信网彼此相连。这样,通过国际通信网,实际上是许多计算机检索系统一起构成了一个庞大的联机检索网络,并且在网络中,各检索系统的主机成了网络上的节点,而每个节点又连接着许多终端,如此,网络中任意一台主机的信息,真正实现了信息资源的共享。进入20世纪80年代,随着TCP/IP通信协议的普遍采用,以及美国国家科学基金会的介入,以ARPANET为主干网的国际计算机互联网络Internet进入高速发展期。1990年3月,ARPANET停止运转,NSFNET便成了Internet新的主干网。Internet实际上是一个网络的网络,具有分布式控制的松散结构,它不受任何政府或某个中心的管理或控制,包含了无数个相互协作的组织及网络,网络上的用户既是网络资源的索取者,同时也是网络资源的提供者。

20世纪80年代出现的多媒体技术集成了文本、声音、图像,甚至动画等各种媒体信息,同时将计算机技术、网络通信技术和信息处理技术有机地结合起来,为信息检索系统的发展注入了新的活力,目前,多媒体信息系统已广泛地应用于科技娱乐、服务、商业、教育等领域,使信息检索的深度和广度,以及完整性方面与传统信息检索相比有了较大的飞跃,同时,由于其与计算机技术和通信技术相结合,因而能够实现多媒体信息的远程检索通信。

2.我国计算机信息检索发展概况

我国开展计算机检索的研究始于20世纪70年代中期,1975年我国首次引进国外文献数据库进行计算机检索的试验。1980年初,由中国建筑技术发展中心等单位在我国驻香港海外建筑工程公司设立了我国第一台国际联机检索终端,通过香港大东电报局与美国的DIALOG和ORBIT系统联机。1981年底,北方科技情报所在北京与美国DIALOG系统直接联机,1982年9月,冶金部、石油部、化工部等部委情报所也实现了与DIALOG和ORBIT系统的直接联机。1983年10月,中国科技情报所通过罗马远程数据通信线路与欧洲空间组织的ESA-IRS系统、美国的DIALOG和ORBIT系统直接联机。随后,华东工学院、上海交通大学等高校也纷纷建立了自己的国际联机检索终端。迄今为止,全国已有200多个与美国的DIALOG、ORBIT、BRS、MEDILARS,意大利的ESA-IRS系统,德国、美国、日本合建的STN等20多个国际联机检索系统建立直接联机的国际联机终端。

与此同时,我国的计算机信息检索系统和数据库的建设也取得了可喜的成绩。1978年,中国科技情报所开始试建文献数据库和检索服务系统,初步实现了建库、编辑、排版和定题检索服务功能,只比日本晚两年。目前,中国科技信息所的联机检索系统汇集了科研机构、科技成果、科技名人、中外标准、政策法规等近100种数据库资源,信息总量达1100多万条,每年数据更新60万条以上,检索终端分布在全国各地。1981年,北京文献服务处联机信息检索系统建立并开始服务,该系统拥有文献记录量1700多万篇,中西文数据库17个。1989年,化工部信息所的联机系统正式投入运营,现已建立中文数据库8个、西文数据库1个。此外,中国医学科学院信息所、冶金科技信息所、电子科技信息所、核科技信息所等也建立了国内联机检索系统。

近些年来,我国的通信事业有了很大的发展。1993年9月,中国公用分组数据交换网建成,1995年该网覆盖了全国所有地、市及部分县城,并与世界上的37个分组交换网实现了国际互联。1994年10月,中国公用数字数据网也正式开通并对外营业,该网络的建设采用了当时世界上最先进的数字通信技术。此后邮电部推出的中国公用互联网——CHINANET;国家教委推出的CERNET等,使我们能够更方便地进入当今世界规模最大的Internet进行信息交流与检索,从而使我国的计算机信息检索进入了一个新的发展时期。

3.计算机检索与手工检索的区别

手工检索的许多原理和规律都渗透在计算机检索中。但由于查找的直接执行者不同,所以计算机检索的组配和手工检索的组配存在一定的差别。手工检索过程中,直接执行查找任务的是人,在查找过程中,人的思维一直起着主导作用,检索者可以在检索过程中结合检索的结果不断明确自己的信息需求和不断修改自己的检索提问。在检索过程中,检索提问标识与检索系统中文献特征标识的组配完全可以做到内容、概念和形式上的一致,而无须严格的字面的组配。因此,所得到的信息一般能符合检索者的信息需求。在手工检索过程中,我们可以边检索边分析检索结果,如果检索结果不符合要求或发现新的问题,可以及时调整检索策略,编制新的检索提问式,直到查到满意的结果为止。手工检索的费用很低。但对于普通检索者来说,如果不系统地学习信息检索知识,手工检索工具书使用起来较困难。

在计算机信息检索过程中,计算机不具备人脑的思维能力。因此,检索提问标识一经输入检索系统,便无法结合系统检索的具体情况不断明确用户的信息需求和修改检索提问标识。同时,在计算机信息检索系统中,检索提问标识与文献特征标识的组配完全是一种字面组配,即计算机将两种“标识”完全作为“字符串”来进行类比运算。因此必须要求检索提问标识在形式上与文献特征标识保持完全一致时才能“匹配”。这种字面上的组配,使检索出的文献只在字面上与检索提问标识保持一致,而在内容或概念上就不一定满足用户的信息需求。因此,在进行机检时一定要深入分析主题,找出与课题关系密切的概念和属性,编制理想的检索提问式,以免造成误检和漏检。机检相对来说费用较高。但大多数的检索者,如果条件具备首先应考虑用机检系统来查找,不仅节省时间,而且容易实现。

3.1.2 计算机信息检索及类型

1.计算机信息检索概述

计算机信息检索是指人们在计算机或计算机检索网络的终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出需要的信息,继而再由终端设备显示或打印的过程。由此可见,为了实现信息检索,必须事先将大量的原始信息进行加工处理,存储在计算机中待用,所以广义的计算机信息检索包括信息的存储和检索两个方面。

信息的存储过程就是将所选中的一次文献进行主题分析、标引和著录,按一定格式输入计算机,构成机读数据库记录及文献特征标识,这相当于编制手工检索用的文摘索引等检索工具。

信息的检索过程则是存储的逆过程。用户在对检索课题加以分析,明确检索范围,弄清主题概念,然后用检索语言来表示主题概念,形成检索标识及检索策略,输入到计算机进行查找。这一查找过程实际上是计算机自动比较、匹配的过程,当检索课题所形成的检索特征标识与数据库中的信息特征标识相一致时,则属“检索命中”,计算机即可输出符合要求的信息。检索结果可以联机或脱机打印输出。

狭义的计算机信息检索就是指人们在计算机和计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息,然后再由终端设备显示和打印的过程。本章讨论的是狭义的计算机信息检索。

2.计算机信息检索的类型

计算机信息检索的类型很多,根据检索系统的工作方式可分为以下几种:

(1)脱机信息检索系统。这是一种早期应用的系统,是利用单台计算机的输入输出装置进行检索的系统,用磁带作为存储介质,并且为连续的顺序检索方式,适合大批量的定题信息检索,因此,也称成批检索或定题服务。目前,这种检索方式已基本被淘汰了,在下文中将不再作具体讲解。

(2)联机信息检索系统。联机信息检索系统是由一台主机带多个终端的信息检索系统。这种系统具有分时的操作能力,能够使许多相互独立的终端同时进行检索。通过采用适时操作技术,用户可以使用终端设备直接与计算机“对话”,计算机对用户的提问能及时处理、即刻回答。用户还可以浏览有关信息,随时修改提问,直至得到满意的结果。利用公共通信网和专用通信网,联机信息检索已经超出了一个地区、一个国家的范围,进入国际信息空间。在国内有北京文献服务处联机检索系统、中国科技信息所联机检索系统,在国外有DIALOG、ORBIT、STN这样著名的联机系统。

(3)光盘信息检索系统。光盘是一种激光记录和读取信息的产品,具有存储容量大、保存时间长、成本低等优点。光盘数据库从1985年问世以来便很快占领市场,并得到日益广泛的应用。通过塔式光盘驱动器和自动光盘换盘机及局域网,使多个终端用户能实时共享上百张光盘数据库信息,具有联机检索的特征。

(4)网络化信息检索系统。网络化信息检索是指用户使用自己的计算机通过电信系统与网络相连获取信息的一种检索方式。网络化信息检索系统与联机检索系统所不同的是用户和服务器之间是同等关系,而不是主从关系。在遵守共同的通信协议的前提下,同一个客户可以访问多个服务器,一个服务器也可被多个客户访问。客户既是网络信息的检索者,也是网络信息的提供者。国际互联网Internet就是该系统的典型,Internet网上的主机既可以作为用户访问别的主机里的信息,又可作为信息源被其他终端访问。

3.三种计算机信息检索系统的比较

联机检索、光盘检索与网络检索(或者说Internet信息检索)同计算机信息检索范畴,是一种借助计算机获取信息的手段。它们有着本质的联系和相同之处,如检索原理、数据库结构等都相同;但又有其各自的特点。

使用联机检索可直接利用国内外大量规范化的专业数据库进行信息检索,迅速地查找到相关信息。由于检索分辨率高,有较高的查全率和查准率。但联机费用较高,而且需要熟练的检索技能。

使用光盘检索的最大好处是:用户可以反复进行检索、筛选直至达到最佳的检索效果为止,而不必担心检索时间过长,花大量费用。光盘检索操作简便,凡具有电脑操作知识的人,都能通过光盘检索获得自己所需要的信息。与联机检索和网络检索相比,光盘内容的更新时间要长一些。

使用网络化信息检索,信息资源丰富,可以得到最新的大量的数据、动态信息及多媒体信息,是目前人们最乐意接受的检索方式。通过网络人们不仅能得到自己所需的文学、体育、娱乐等大量的全新的信息,还可以免费得到很多科技、经济、商业等方面的信息,还可以通过注册的形式,进入多个专业联机数据库进行检索。通讯费用也低。但检索速度慢,查全率和查准率低下,检索效果差,信息污染也没有得到有效控制。

3.1.3 计算机信息检索系统的构成

计算机信息检索系统主要由服务器、通信网络、检索终端和数据库组成,如图3-1所示。

img12

图3-1 计算机信息检索系统构成图

(1)服务器。服务器是检索系统的核心部分,在检索过程中需要处理大量的指令和数据,一般要求服务器必须有相当高的运算速度和处理能力,并且具有相当大的存储能力。服务器通常包括硬件和软件。相对来说,硬件决定了系统的检索速度和存储容量,而软件部分则是充分发挥硬件的功能,进行信息的存储、处理、检索以及整个系统的运行管理。服务器的硬件和软件的组成反映了整个信息检索系统的检索能力。

(2)通信网络。通信网络是沟通检索终端与计算机主机的桥梁,其作用是确保信息传递的畅通。是实现联机检索和网上检索的必要条件。国际上大型联机检索系统的主机与世界各地的数据通信网络相连,在网络上有端口,检索用户通过公用电话或专用线路与本地区的数据通信网络相连,然后按拨号,通过卫星通信与主机联机。

(3)检索终端。检索终端是实现用户与检索系统传递信息进行“人机对话”的装置,主要有电传终端、数据终端和微机终端等几种。现在基本上都使用微机终端,由计算机、打印机及调制解调器(MODEM)组成。调制解调器的作用主要是在计算机和通信网络之间进行模拟信号和数字信号的转换。

(4)数据库。数据库是一系列信息记录的集合,是检索系统中的信息源,其作用类似于手工检索工具书。后面将要作详细的介绍。

3.1.4 计算机信息检索策略

检索策略是在分析信息需求实质的基础上确定检索途径与检索用词,并明确名词之间的逻辑关系与查找步骤的科学安排。因此,检索策略的构造一般要经过分析课题、选择检索系统数据库、构造检索提问式、选择检索方法和途径以及调整检索策略等。构造一个良好的检索策略往往涉及各方面的知识和技能。要充分地了解所面对的检索系统的特性和功能,掌握检索系统的标引规则,了解检索方法,构造检索策略。下面,我们以联机信息检索策略的构造为例,来了解一下计算机检索策略的一般构造过程:

(1)填写检索提问表,列出待检索课题的学科专业范围、主题内容及其检索目标。

(2)选择相关数据库,并确定在待检索数据库中的检索途径,以便编制适合所选数据库的检索策略。这一步中隐含了选择检索系统的问题。

(3)对信息检索提问进行概念分析。选择能代表各概念组面的检索词,从而把提问的主题概念转换为适合系统的检索词,完成用户需求从概念表达到计算机系统所能接受的检索表达的转换。目前,由于联机检索系统的自然语言检索不是很强,上述的转换是必要的,而且是重要的。

(4)拟定检索表达式。检索表达式是计算机检索中用来表达用户检索提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符以及系统规定的其他组配连接符号组成。

(5)确定具体的检索程序。

(6)对检索式进行反馈调整。由于信息检索过程中用户的需求存在很大的随机性,对用户信息需求的分析和表达也往往因人而异,再加上检索系统本身功能的不够完善,使得在制定检索策略的过程中必然会存在着一些产生检索失误的潜在根源。为了达到既定的目标,采用各种调节方法和反馈途径对检索策略进行修改、完善是不可避免的。

例题:用国际联机检索查找“用激光散斑法测三维位移量”的文献。

(1)课题分析。

课题目称:用激光散斑法测三维位移量

英文名称:laser speckle method for three-dimension displacement measaswrement

课题说明:用激光散斑法对三维物体受力后或经过其他变形后的位移量进行测量。本课题涉及光学和力学。

(2)选择数据库。该课题属于物理学范畴,选用FILG6NTIS(美国政府研究报告),FILE12,13INSPEC(英国科学文摘)

(3)确定检索词

①laser②speckle③method④displacement⑤measurement

(4)编制检索提问式

(laser(w)speckle??/TI)and(displacement??(w)measurement??)

(5)填写国际联机检索提问单(略)

(6)上机检索

?B6(回车)(连6号文档)

FILE 6:NTIS-64-84/JSS25

(COPR.NTIS)(6号文档简介)

?SS(laser(w)speckle??/TI)and(displacement??(w)measurement??)(回车)(计算机对检索提问式进行检索)

S1 47LASER(W)APECKLE??/TI

S2 390DISPLACEMENT??(W)MEASUREMENT??

S3 5(1)AND(2)(检索结果为5篇)

?PR 3/5/1-5(用第5种打印脱机打印第1-5篇)

?LOGOFF(回车)(结束检索)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈