首页 理论教育 国际联机信息检索基础

国际联机信息检索基础

时间:2022-03-10 理论教育 版权反馈
【摘要】:所谓的联机检索,是与脱机检索相对应的。截至目前,中国大陆也已有200多个联机终端与20多个国际联机检索系统保持联机。除了利用终端检索国际联机检索系统以外,与此同时,我国的联机信息检索也取得了长足的发展,国内一些基础较好、实力较为雄厚的单位也开展了联机检索系统的开发和建设工作。DIALOG系统是目前世界上最大的国际性联机检索服务机构,目前它

第一节 国际联机信息检索基础

一、联机信息检索概况

(一)联机信息检索的起源与发展

所谓的联机检索,是与脱机检索相对应的。早期的计算机由于内存和外部设备都很落后,不可能进行大规模的联机信息检索,人们有了信息检索需求,只有将检索提问提供给专职检索人员,让他们帮助检索,用户不接触计算机,因此称之为“脱机检索”。

随着计算机软、硬件技术及通信技术不断发展,出现了一台主机带多个终端的系统,由于这种系统采用实时操作技术,所以用户可以使用终端设备直接与计算机“对话”,计算机对用户的提问能及时处理、即刻回答,用户可以浏览有关信息,随时修改检索提问,直到得到满意结果。这种检索方式相对于“脱机检索”来说,称之为“联机检索”。因此,联机检索就是检索终端通过通信线路与系统的主机连接,在中央处理机控制下查询系统的几十个甚至上百个数据库,并能够与系统实时对话,随时调整检索策略。

1961年系统发展公司(SDC)率先进行了联机书目和文本检索试验,他们在Protosynthex系统上以交互分时模式全文检索一部百科全书。但是,这个系统的检索是一次性的,无布尔逻辑运算,终端也是用电线与计算机相连的。1964年,洛克希德(Lookheed)公司用Converse联机系统进行了实验。第二年又在Project MAC分时系统上试验检索了一个有35,000篇引文的物理文献数据库。1965年,SDC公司在美国发展研究计划暑(ARPA)的支持下,首次进行了全国范围的联机网络试验,存取20万篇引文。同年,洛克希德公司为美国宇航局(NASA)提供了联机存取20万篇NASA引文服务。作为洛克希德子公司的DIALOG联机检索系统从此就诞生了。1966年,IBM在计算机上建立了联机书目检索系统。1966年至1967年间,出现了一系列的联机系统,如斯坦福大学的SPIRES系统和国立医学图书馆的SDCORBIT的系统。

国际联机检索出现时间虽然不长,但发展得异常迅速,目前世界上国际联机信息检索已发展到相当高的水平,大型的国际联机检索系统有:美国的DIALOG系统、ORBIT系统、意大利的ESA/IRS系统、德、美、日合建的STN系统,此外还有DATASTAR系统、FIZ-TECHNIK系统、BRS系统、OCLC Fisst-Search检索系统、加拿大的I.SHARPS、德国的DIMDI系统、英国的FOODLINE等。

除了出现这么多的大型的国际联机检索系统外,联机检索的发展还表现在以下一些方面:

1.联机数据库规模和数量迅速增长

目前,不仅国际联机检索系统日益增多,其功能越来越完善,而且数据库的规模和数量也迅速增长。现在世界上绝大多数文摘和索引刊物都有机读版本,其中80%以上可以在世界范围内提供联机检索。而且由于纸张和印刷费用的不断上涨,没有相应的印刷版的电子数据库也逐渐增多。

2.用户越来越多

在许多发达国家,联机检索已经成为获取科研资料的主要手段,其使用已相当普遍。美国不少大学教授、公司经理和高级技术专家家里都设有联机检索终端,有人甚至将国际联机检索终端带到海上钻井平台。截至目前,中国大陆也已有200多个联机终端与20多个国际联机检索系统保持联机。

3.服务领域越来越广

国际联机检索服务除了面向科技领域外,还面向经济、管理和社会科学,甚至深入到社会公用事业服务于家庭生活的各个领域之中。因此,联机检索已发展成为一种新兴的产业,它作为当今信息产业的一个重要组成部分,不仅产生了巨大的社会效益,同时也产生了巨大的经济效益。

(二)联机信息检索在中国的发展情况

中国开展计算机检索的研究开始于20世纪70年代中期。1975年我国首次引进国外文献数据库进行计算机检索的试验,1980初,由当时的建工总局建筑研究院情报所等单位在香港海外建筑工程公司设立了我国第一台国际联机信息检索终端,通过香港大东电报局与美国DIALOG和ORBIT系统联机,从此开始了国内检索国际联机系统数据库的历史

1981年,石油部情报所和当时的北方科技情报所分别于3月和12月在北京与美国DIALOG系统、ORBIT系统直接联机,1982年9月,冶金部、化工部等部委情报所也实现了与DIALOG和ORBIT系统的直接联机。到1982年底,全国已有北京、南京等地的五六家单位与国外著名的联机检索系统联机。但是由于受到当时通信条件的限制,除香港终端外,其余都是采用50波特的电传终端,因而耗费通信时间和机时较多,费用较贵,从而影响了用户的使用率。

1983年10月中国科技情报所通过罗马远程数据通信线路(ESANET)建立了几台300波特的数据终端与欧洲空间组织的ESA-IRS系统、美国DIALOG和ORBIT系统联机。

随后,中国科技情报所、北方科技情报所、水电部情报所等通过终端分机时的办法为本系统单位设立了国际联机分终端。发展至如今,在全范围内已有几百家单位成为国际联机用户,一般的省市科技情报所及重点高等院校都有国际联机检索服务,如华东工学院、上海交通大学、南京工学院(东南大学前身)等高校也纷纷建立自己的国际终端。目前,全国已有200多个联机终端与DIALOG、ORBIT、BRS、MEDILARS、ESA-IRS、STN、I.SHARPS等20多个国际系统联机。而且,由于通信技术的不断发展,数据传输速率已得到极大的提高(至少64K),国际联机检索作为国内科研人员获取国外科技信息的一种手段已经不再像以前那么神秘了。人们已经慢慢地接受并喜欢上了这一现代化的检索手段。

除了利用终端检索国际联机检索系统以外,与此同时,我国的联机信息检索也取得了长足的发展,国内一些基础较好、实力较为雄厚的单位也开展了联机检索系统的开发和建设工作。20世纪70年代末,机电部情报所利用引进磁带建库开展定题服务。1984年,北京文献服务处联机信息检索系统(BDSIRS)建成并开始服务。1989年,中国科技情报所(现中国科技信息研究所)的联机检索系统(TRIP)、机电部情报所的联机系统(MEIRS)、化工部情报所的联机系统(CHOICE)先后开通,投入运营服务。国家级政府信息系统,如经济信息、金融、铁路、统计等也形成一定规模并开展服务。许多用户所熟悉的“万方数据资源系统”就是TRIP系统的Web版,该系统包含了上百个数据库,是检索国内科技、经济等方面信息较为全面的一个系统。

二、几种著名的国际联机检索系统

(一)几种国际联机检索系统的概况

1.DIALOG联机检索系统

DIALOG系统是目前世界上最大的国际性联机检索服务机构,目前它拥有各种联机数据库共计600多个,其中源数据库比重最大,超过50%。文献专业范围涉及所有的学科领域,用户遍及全球120多个国家和地区的2万多个机构。在本章的3.2.1节,将详细介绍Dialog国际联机检索系统。

2.ORBIT系统

ORBIT系统是美国Online Retrieval of Bibliographic Information Time-Share的缩写,原意为文献信息分时联机检索。最早属于美国系统发展公司(SDC),现为法国Telecom Multimedia的子公司,有100多个公用数据库,其中有20个以上的数据库与Dialog系统相同。ORBIT也搜集了各个专业领域的信息源,但为了保持竞争地位,其在专利、化学、能源、工程、和电子学领域的信息较为齐全也较具特色。近年来竞争策略有所改变,致力于提供一些DIALOG没有的数据库,如在专利方面,它常年为用户提供WPI和U.S.Patent等,又将美国专利数据库USPA和USPB合并成一个数据库USPM,使用户避免了跨文档检索。ORBIT拥有较先进的软件技术,每天24小时向全世界38,000多终端用户提供联机检索、联机订购原文、定题检索、回溯检索和建立私人文档等服务。

3.ESA/IRS系统

ESA/IRS系统是欧洲最大的联机信息检索系统,由位于意大利弗拉斯卡蒂的欧洲空间信息检索中心(European Space Agency-Information Retrieval Service)经营,也是世界上最大的联机检索系统之一,仅次于美国的DILAOG和ORBIT系统。该系统除了购入美、英一些常见数据库外,还带一些有西欧特色的数据库。目前有130多个数据库,涉及各个科技领域,其中包括大型的美国化学数据库CHEMABS、综合性PACAL数据库、专业性很强的ALUMINUM数据库以及5个数值型数据库PRICEDATA。该系统目前有3,500个终端用户,遍及美洲、北非、中东、亚洲等地。它拥有的数据库中,虽有近半数与DIALOG系统相重复,14%与ORBIT重复,10%与BRS重复,25%与DATA-STAR重复,但也有其特色,包括如DATALINE(金融数据库)、报道英国制造业情况的INDUSTRIAL MARKET LOCATIONS(工业市场信息)、介绍经济和开发方面情况的INFOMAT BIS(商业信息)、提供欧洲国家公司财政信息的NEWSLINE/NEXTLINE(公司金融文档)等,与这些系统的数据库可以相互补充。

4.STN系统

STN系统全称为“国际科技信息网络”(The Scientifical Technical Information-Network International),由德国的卡尔斯鲁厄的信息中心(FIZ Karsruhe)、美国哥伦布市的化学文摘社(CAS)以及日本东京的科技信息中心(JAICI)共同合作,于1983年9月创建的国际联机信息检索服务系统。这三个中心通过海底电缆互相连结,用户可以在世界上的任何地方、任何时间、通过其中任何一个服务中心来使用STN系统的所有资源。

STN系统收录220余个数据库,主要以科技信息为主,其中化学化工信息、建筑和结构以及专利信息是该系统的特色,此外也提供化工产品、药物、生物制品及食品等方面的商情信息。涉及55个专业领域,包括农业、健康安全、生物技术、材料、数学、商业、化学、医学、能源、石油、工程、制药、食品、物理、地质、毒理、政府法规等各基础学科领域和综合技术应用领域。与DIALOG系统不同,STN系统是纯粹的科技信息系统,其面向的用户对象主要是科学技术专业人员。STN采用STN Express检索软件,该软件在检索图形、化学结构式方面具有独到之处,STN系统是世界上第一个实现图形检索的系统,特别是STN的化学物质及结构式检索功能,目前世界上没有任何一个联机检索系统能与STN相媲美。STN系统采用Messenger检索语言,提供英、法、德、三种文字的检索,很多数据库为中国用户免费使用,一天24小时服务。

目前,STN除可采用终端方式进行检索外,还可利用WWW进行检索,为了适应计算机检索网络化的发展趋势,经过升级的STN Express增加了软件网络共享功能、支持TCP/IP协议等功能,并开发了许多适合Internet用户的服务项目。

5.DATA-STAR系统

该系统面向商业的数据库较多,1992年该系统250余个数据库中与商情有关的有近150个,如ABI/INFORM、AMERICAN BANKER、DISCLOSURE、FINANCIAL TIMES ABSTRACTS,以及邓白氏公司和预测公司生产的各种数据库,提供的信息包括商业新闻、金融信息、市场研究、贸易统计、商业分析。DATA-STAR公司信息数据库较多,如收录荷兰、比利时、卢森堡等78,000家公司的HOPPENSTEDT BENELUX,重新统一后的德国商业名录库DDR COMPANIES、提供德国产业和公司财务信息报告的FINN和COIN库,以及BUST(商业贸易机会信息)、EURE(欧洲各国公司名录)等。DATA-STAR系统数据库的最大特色是欧洲信息多,对于想获得欧洲科技与商业信息的用户来说是一个很好的信息源,尤其在商情方面可以弥补DIALOG、BRS、ORBIT等的不足。

6.BRS系统

BRS(Bibliographic Retrieval Service)系统是由美国书目检索服务公司于1986年建立,目前拥有大约150个公用数据库和40多个私人数据库,6,200多万篇文献记录,是美国第二大综合性计算机联机书目检索服务系统。BRS系统提供的检索服务范围涉及医学、生物科学、教育、健康、物理和社会科学,以及其它综合性学科。BRS系统虽从整体上逊色于DIALOG系统,但它有独特的文档,如工业与国际标准等产品标准信息库,其收费也比较低廉。BRS系统一周服务140小时。

7.OCLC FirstSearch系统

OCLC(Online Computer Library Center),即联机计算机图书馆中心,总部在美国俄亥俄州的都伯林,创建于1967年,是世界上最大的为读者提供文献信息服务的机构。它是一个不以赢利为目的的、互相合作的成员组织,是以推动更多的人检索世界上的信息,实现资源共享,并减少信息的费用作为主要目的,提供基于计算机的编目、参考咨询、资源共享和资源保存服务。First-Search是OCLC提供的服务之一。据2002年底统计,使用OCLC产品和服务的用户已达86个国家和地区,43,559个图书馆和教育科研机构,其中成员馆14,925个。OCLC的主页网址:http://www.oclc.org/home。

FirstSearch是一个联机检索服务系统,该系统于1992年10月开始应用,现在使用的是1999年完成的最新版本。当前,通过FirstSearch可查阅70多个数据库,这些库涉及的主题广泛,基本上覆盖了各个领域和学科。这些数据库中包含着图书和期刊文章、会议录、工业通告、财政报告、研究发现、图书评论、组织概貌等类型的记录,而且还包含有文献信息、馆藏地点、索引、目录、全文资料及其它通信网络运行,也接收来自Internet的访问,以便向世界各地的图书馆提供其产品和服务。

(二)几种国际联机检索系统的对比

各种国际联机检索系统均为广大的用户提供了大量的信息检索服务,虽然作用是相同的,但在各系统的规模、发展情况等方面表现出各具特色、差异共存的局面。表3.1-1列出各主要国际联机检索系统的终端数量及数据库容量,以供参考。

表3.1-1

img15

三、国际联机信息检索系统的组成

联机信息检索系统主要是由计算机、检索终端、通讯系统和数据库组成,如图3.1-1所示。

(一)中央计算机(host system;mainframe)

中央计算机又简称“主机”,是联机检索系统的核心部分,它包括硬件和软件两大块。硬件部分包括中央处理机、中央存储器、通讯部件、控制部件和连接外设的通道输入和输出子系统等,决定了系统的检索速度和存储容量;而软件部分(系统软件和检索软件)则决定了信息的存储、处理、检索以及整个系统的运行和管理。它们反映整个检索系统的能力。

img16

图3.1-1

(二)检索终端(Terminal)

检索终端是联机检索系统与用户“人机对话”建立联系的窗口。用户使用联机系统时首先接触到的就是检索终端,利用检索终端向中央计算机发送检索指令和检索语言,中央计算机的反应也即时反馈到检索终端上来。比较常见的检索终端有:

1.屏幕显示终端

也称简易终端,这种终端由一个键盘和一个显示屏幕组成,可以带有一台打印机,数据通过键盘发送,同时显示在屏幕或打印到记录纸上。

2.计算机终端

也称智能终端,该终端配上一定的通讯软件,就可以将计算机作为检索终端。检索时,数据可以通过键盘发送,也可预先存入内存或外存设备,由计算机直接发送。与屏幕显示终端相比,其最大的不同是能够存储数据。

3.电传终端

即普通的电传机也可作检索终端,其操作与一般的电传发送相同。

现在基本上用的都是计算机检索终端,由计算机、打印机及调制解调器组成。通过计算机的外部设备,可输入、修改各种检索指令,打印机可将检索终端发送和接受的信息记录在纸介质上。

(三)通讯系统(Communication network)

检索终端通过通讯网络与中央计算机联机。联机检索的通讯系统一般包括通讯网络、自动呼叫应答机、调制解调器(Modem)、通讯控制器和多元化装置等设备。其中,通讯网络及调制解调器与用户有着密切的关系。

1.通讯网络

一般来说,联机检索在本国部分的通讯往往采用电话线路,仅仅在国与国之间、洲与洲之间的远程通讯才采用卫星信道或海底电缆线道。

通讯网络有这样一些类型:一是公用电话网,用户通过拨号和租用专线与中央计算机连接,检索结果也通过电话线传送,按时计费,通信质量较差,用这样的线路进行数据传输往往会出现较多的误码,影响检索效果;二是专用数据通讯网,线路质量好,使用方便,但租赁费用昂贵,而且由于专用网的机线设备利用率低,不能实现公用的数据交换,正逐渐被公用数据网取代。三是公用数据网,由于采用分组交换技术(或称分组交换网),线路利用率高、时延小、可靠性好、灵活性强,因而得到了最广泛的应用。著名的有Telenet、Tymnet(美国)、Datapac(加拿大)、EPSS(英国)、Tramspac(法国)、Euronet(欧共体)等。中国第一个公用分组交换网(CNPAC)开通于1989年,到1994年这个网就已有了3,000余家联机用户。现在,国际上大的联机检索系统的主机都与本地区数据通信网络相联,在网络上有端口,检索用户通过公用电话线路或专用线路与本地的数据通信网络相联,然后按拨对方主机的端口地址号,通过各种通信与主机相联。

过去国内联机检索的通讯网络一般都采用专用线或公用电话线,通过这些专线或电话线进入Chinapac,由此联结国外通讯网络节点,如美国TYMNET、TELENET、欧洲的ESANET等。目前,随着Internet网在中国的高速发展以及国内教学科研网络取得的巨大成绩,联机检索的通讯途径越来越多样化,分组交换网也成为主要的通讯网络。

2.调制解调器

调制解调器是实现远程通讯的重要设备。它的基本功能是将数据源送来的数据信号变成音频信号(称为调制),同时将线路接收的音频信号变换成串行的数字信号(称为解调),并传送给数据接收器。以这种形式,数字信号就能沿一根标准的电话线传递。此外,调制解调器还有其他一些辅助功能:如建立连接能力的功能;在发送设备、接受设备和终端之间建立同步交换与控制关系的功能;改变音频信道的功能等。

(四)数据库

数据库是检索系统存贮文献和数据的场所,数据库的内容和质量直接关系到用户对检索系统的利用率,是联机检索系统中最关键的部分。计算机软、硬件的配置,其目的就在于让用户快速准确地从数据库中检索出符合要求的资料。如果没有数据库,一切信息检索系统将成为“无米之炊”。

系统拥有的各种数据库称联机数据库,由系统本身自建或由数据库生产者提供,并经过格式转换变成可供联机检索用的、具有标准格式或系统内部格式的数据,装入系统的磁盘构成数据库的主文档。为了节省存储空间并便于随机存取,系统要建立主文档的索引文档,指明每条记录在磁盘上的存储起始地址。为了便于用户从不同途径查询数据库,还要从主文档中抽取可检字段(如作者、题名、主题词分类号、自由词等),加以排序和归并,组成倒排档。有关数据库的定义、组织与结构,请参考本书第二章。

数据库是“计算机检索文档中的数据存贮”,也就是说,数据库是一系列记录的集合,是检索系统的信息源。联机检索系统的数据库主要存贮在计算机的磁带、磁盘、光盘或其他存贮介质上。

联机检索数据库主要分为参考数据库(Reference databas)和源数据库(Source database)两大类。参考数据库指的是书目数据库和咨询数据库(包括计划说明、机构、活动、个人情况和其他一些非印刷型文献等);源数据库包括数值数据库、文本-数值数据库、特种数据库(类似字典或手册的类型的出版物,用户可直接检索到化学、物理等方面的数据)、以及全文数据库等。

四、国际联机信息检索的特点

随着计算机技术、网络技术、信息处理技术的高速发展,联机信息检索与脱机检索、光盘检索相比,不论在信息量、检索速度,还是在检索的结果上,无疑都具有明显的优势。但是由于Internet的出现和ISP的巨大增长,传统的联机信息检索也遇到了强大的挑战。这里我们通过对联机信息检索特点的剖析,以期对今后检索方式的选择,能作出方向性的导航作用。

(一)国际联机信息检索的优点

1.与手工检索、脱机检索、光盘检索相比

(1)查找迅速 过去用手工检索需耗时几周、甚至几个月的检索课题,使用联机检索只要几分钟极短的时间就能完成。由于联机系统的主机运算速度很快,在含有数百万条记录的数据库中,一条检索指令几秒钟就可得到响应,一般查找一个课题,只需几分钟至几十分钟就可完成。

(2)收录文献内容广泛全面 联机信息检索系统不仅主机的运算速度快,而且内外存贮器的容量也非常大。因此一般都能容纳众多的数据库,如美国DIALOG国际联机检索系统中有600多个数据库,每个数据库可收录几千万条甚至上亿条文献记录,涉及的时间从几年到几十年,并包括多个国家,多种语言。现在的数据库都涉及多个学科及人类衣食住行等生活各个领域,通过联机系统不仅能立即得到各种类型文献资料和文摘,而且能得到产品的性能、规格、价格以及各种统计资料和行情信息等。对于一些交叉学科的检索课题,有关信息分散在各种专业的文献中,用手工或其它形式的计算机检索手段进行检索,一次只能查一种工具书或一个数据库,而国际联机检索系统大多具备跨库检索的功能,允许用户用一种检索策略一次查多个不同的数据库,从而可以一次性地将分布在各个学科数据库中的有关文献检索出来。有人用“A world of information is at your fingertips”来描述联机检索还是很恰如其分的。

(3)检索途径多,检索方便,可随机调整检索策略 联机检索系统对数据库记录的许多字段都做了索引,这些索引字段均可作为检索入口,特别是篇名、文摘字段采用文中自由词查找的方法,更是工具书无法办到的。另外,检索界面多样化,有的是命令式检索,有的是菜单式检索,有的是混合式检索,用户只要掌握任意一种方法,都可进行检索。另外,“人机对话”式的检索,可以让用户随时分析判断检索结果,根据需要扩大或缩小检索范围,不断地调整检索策略,直到获得满意的检索结果。

(4)报道及时。联机系统都能及时更新数据库中的信息 如DIALOG系统中的EI Compendex Plus(工程索引)、WPI(世界专利索引)每周更新一次,报纸类的数据库每天更新一次,商情类的数据库随时都在更新。

(5)资源共享 由于通过通信卫星将检索系统与检索终端联成网络,因而用户检索时不受任何地理位置的限制,可以跨国或跨地区进行信息检索。任何国家或地区的任何部门或单位,只要与联机检索系统签订了合同并备有检索终端,就可以利用通信网络跨国或跨区检索,实现国际信息资源共享。

(6)检索结果输出方式灵活、实用 国际联机检索的结果可以联机显示阅读、打印,也可脱机打印。

2.与Internet网络检索相比

(1)内容、条理清晰 联机信息检索基本上是集中式管理,有专人负责维护整个系统,定期更新信息。当用户希望获得信息时,知道向谁申请注册、向谁索取资料和缴付费用、如何选库等,无论是用户或该系统的管理者都可以了解系统中究竟有多少信息,如何找到。这种有条理的管理是网络所不及的。因此,目前诸如科技查新服务等基本上仍由国际联机检索系统完成。

(2)信息质数高 联机检索系统是个成熟的系统,信息质量较高,数据库都经过了严格的加工、标引,信息的附加值高,可靠性好,来源可靠。它撇弃了世界上的杂乱信息,不用担心出现Internet网上那种良莠不分、加工粗糙的信息。

(3)安全性强 集中管理的最主要优点是安全性有了一定保障,Internet上大量不健康的信息泛滥成灾,且存在着大量难以检测的病毒,防火墙屡屡被攻破,引发泄密等一系列问题。安全问题是网络中最头疼的问题,在这方面远远不如国际联机检索系统。

(4)国际联机检索的准确率较网络检索高 尽管Internet上有非常丰富的信息源,但因为它不属于某个固定的机构,信息几乎是无组织的,有用的信息往往被埋在大量无用的信息中,需要检索者再次进行人工筛选。而联机系统隶属于某个机构,信息都经过精心加工,提供多种检索途径,因而检索效率和准确率较高。当然,随着搜索技术的发展,网络检索质量近年有了很大改进。

正因为如此,国际联机检索在网络产业高速发展的今天,仍然是计算机信息检索的重要方式之一。

(二)国际联机信息检索的缺点

1.与手工检索、脱机检索、光盘检索相比

(1)检索费用高 国际联机信息检索的检索费用不仅包括文献记录的显示(打印费)、字符费和计算机检索时用去的机时费,而且还包括国际和国内的通讯费。

(2)检索质量较难控制 计算机不具备人脑的思维能力,完全按照输入的检索词或其它标识进行机械“匹配”来命中文献。所以,检索的查全和查准质量完全取决于所用检索词及其组配关系,这是一个比较复杂而难处理的问题,有时为了取得正确的检索词和检索策略,还需要事先进行手工检索或光盘检索。

2.与Internet网络检索相比

①集中式管理主要缺点是主机负担重,一旦出现故障,则整个网络都将处于瘫痪状态。另外,联机网络的扩展性较差,由于采用的技术标准原则上是不公开的,因而相关技术缺乏发展的动力,灵活性较差。

②在信息组织方式上,传统联机系统的普通文本数据库多以线性方式组织,其基本组成单位是记录;而在Internet上,基于WWW的信息组织采用超文本组织方式,其数据库由节点和链路组成,节点表示知识单元、片段或其组合,链路表示这些节点间的关系,因而可以按单元、片段、关系将知识存贮,用链路网将同一文献或不同文献的相关部分结构化地连接起来,这是传统检索系统没有做到的。超文本技术还使得信息的形式不仅仅限于字符,还可以是声音、图像、动画或其他多媒体的形式,这也是传统联机系统难以做到的。

③Internet不是一种网络,而是一个由许多类型、结构不同的分组交换网通过路由器连接而成的一个庞大的、能整体运作的网络。这种分布式的系统将分散的资源调集在一起解决同一个问题,分散的用户可以共享网络中各点的数据而不必知道某种资源的具体地址,这一特点是传统联机系统远远不及的。

④Internet是面向最终用户的,操作较联机方便。由于网络信息检索工具多采用客户机/服务器结构,Windows界面交互式作业,菜单驱动,用户无须经过专门训练便可自己进行检索,而传统联机系统多需要专业人员或有经验的用户操作。

五、国际联机信息检索的基本过程及方法

国际联机信息检索的基本过程指的是从用户有信息需求开始、到确定检索策略、上机操作直至获得检索结果或原始文献这样一个过程。国际联机信息检索多以检索专业人员代替用户上机操作,因此,不充分了解提问的学科范围、主题内容、文献类型、时间、地域、文种范围、资料详略程度等,就会使查全率和查准率低下,甚至造成检索失败。检索人员与用户的沟通往往通过填写检索提问单,将提问单上的项目设计得周全一些固然重要,但不能仅仅依靠提问单,有条件的话应与用户直接对话,或让用户参与提问逻辑式的编制和试检,通过反馈修正检索方案。如果是用户亲自上机,也应在操作前作好充分准备,设计几套方案,这对于大型、复杂的课题检索尤为重要。具体来说,国际联机信息检索的基本过程大致有以下几个步骤:

(一)明确信息需求及检索范围,确定检索目标

在国际联机信息检索过程中,各类科研人员的信息需求肯定是不同的。作为用户,首先就需要明确自己的信息需求和检索目标,例如查找什么学科、达到什么检索目的等。一般来讲,信息需求不外乎以下三类:

1.攻关型

科研人员在科研或生产中需解决某一关键问题,只要求检索出某一主题、某一方面的信息资料。这种需求类型对查准率要求较高。

2.普查型

从事基础理论研究、应用理论研究、教材编写及申请发明、成果鉴定的科研人员,需要全面系统地收集某一主题范围的全部文献资料。对查全率要求较高,其信息需求带有横向普查、纵向追溯的特点。

3.探索型

对选择新课题与应用新技术的科研人员,需要了解和掌握国内外的经济行情、最新动态以及最新研究进展或研究成果。这种需求就要求所提供的信息新颖且及时,信息内容可以不甚具体,只要能有一些启发性的文献即可,对查全率、查准率的要求均不高。

除了要明确信息需求的类型外,还需要制定一些相关的检索要求。这是因为很少有用户能把他的需要清楚地表达出来,因此帮助用户全面、准确地表达自己的信息需求是提高检索质量的重要一环。专业检索人员除对用户的需要、期望、目的和文献数量、需求紧迫程度、检索范围心中有数外,还应注意需求的文献语种、年限、文献类型打印格式、费用要求、用户查阅过哪些资料、已经掌握了哪些信息等一些细节问题和背景情况(即科研人员对检索课题的研究历史与现状的真实评估等),这些都是不容忽视的。

尽管如此,信息需求与信息提问之间还是总是有差距的,因为这涉及到信息用户能否对自己的信息需求充分准确地表达出来的问题。

(二)根据信息需求分析检索课题,确定检索词

这是一个对课题进行概念分析和掌握课题的内容实质,找出最恰当的能代表主题概念的若干个词或词组的过程。

分析需求内容是选择对口数据库、文档和检索词的关键,学科范围和主题概念越清楚,检索往往越顺利。如果提问属于多学科或交叉学科,则分别列出这些学科的相关部分的具体范围,从分类途径选用上下位类以便扩检或缩检。检索人员应在用户的帮助下展开提问的全部主题概念(多列出一些专业词汇),明确主题之间的关系(并列关系、主从关系还是交叉关系)。经过分析,选择能代表各概念组面的检索词,从而完成用户信息需求由概念表达到计算机系统所能接受的检索标识表达的转换。

检索词是表达用户信息需求和检索课题内容的基本元素,也是国际联机信息检索系统进行匹配的基本单元。检索词确定得准确与否,直接关系到检索策略的质量,从而严重影响检索效果。检索词一般先请用户自己列出和解释专业术语,检索专业人员需弄清楚用户使用的自然语言(非受控词)和系统使用的规范化的检索词之间的差异,以便使检索式编制得尽可能地贴近用户的需求。

检索词分为两类:受控词和非受控词。受控词是事先规范化的检索语言,取自主题词表、叙词表、分类表等,检索时应优先选用其中的受控词。非受控词是指非规范化的自然语言词汇,又称自由词。两者各有优缺点,受控词的检索效率高,一旦选定宽度适当的概念,系统就能检出这一概念的全部内容,而且,由于标引人员已事先解决了自然语言中的同义、近义关系,使检索相对容易,但由于其先组配的性质,受控词不能及时反映新事物的发展,概念数量有限,结构复杂,不能适应数量众多、要求各异的信息用户,也不易为非专业人员掌握。非受控词可以在一定程度上弥补这些缺陷。非受控词具有可任意选词、专指性强、不需要熟悉词表、能使用新产生的名词术语及时检索与新概念有关的文献,但主要缺点是不能提供概念的等级结构,不能检索宽泛概念,解决同义词、近义词、相关词的结合或连接问题。

受控词和非受控词的作用是互补的,数据库的词表与我们要查询的主题概念并非存在一一对应的关系,很多概念得不到反映,因此,当检索结果不满意时,要对选词进行分析,要多备用一些词汇,根据具体情况决定增、删和替换。

(三)选择国际联机检索系统及数据库

明确了用户的信息需求和检索词后,就要根据具体的信息需求选择合适的数据库。数据库选择得准确与否将直接影响到检索结果的好坏,数据库选择之前,先得考虑联机检索系统的选择。

1.选择国际联机检索系统应考虑的因素

许多联机检索系统经过多年的发展和竞争,已具备一定的规模,往往一条相同的信息在不同的系统中都可以查到,对用户来说就有一个检索前的系统选择问题。与手工检索工具书一样,选择系统也有以下一些因素要考虑:

(1)时间范围 同样一个数据库常常被不止一个系统收录,但有的仅收录一部分,有的收录全部内容,这一点可以从系统数据库标明的时间范围看出来,如CA库在ESA/IRS中从1969年开始,而在DIALOG中则从1967年开始。

(2)可检字段 同一数据库的可检字段在不同的系统中也可能不一样,比较可检字段在不同系统中的数量也是系统选择标准之一。

(3)打印格式 系统能否满足按字段打印检索结果的要求(如著者、题目、文摘等),还是仅给出几个标准格式。如ORBIT系统除了三个标准格式外,还允许检索者组建其他所需打印格式,而DIALOG和ESA-IRS则只有标准格式。

(4)记录的信息量。要调查了解同一数据库是否在不同检索系统中的记录都包含同样多的信息,或者哪一检索系统包含有更多的标引信息或文摘。

(5)检索功能 如果一个特殊的检索需要使用位置运算符或截断功能,应考虑哪一个系统有这个功能。

(6)联机订购 能否获取原文对用户已越来越重要,直接利用中文检索,不仅可解决语言障碍,也较容易获取中文资料,国内用户利用国际联机检索常常会碰到找不到原文的问题。

(7)价格 不同系统存在着价格差异,这是系统选择要考虑的最重要的因数之一。检索费用一直是影响我国用户使用国际联机系统的种种重要因数,国内联机系统检索费一般不到国际联机系统的一半,因此应该首先查阅国内的系统是否提供了国际联机系统中常用的大型联机数据库。

考虑上述因素后,选择合适的国际联机信息检索系统。然后根据课题内容,选择数据库。

2.选择数据库应遵循的原则

选择合适的数据库,一般首先需要考虑数据库的性能指标,包括:收录的文献范围、数据库的更新频率、标引与词表、记录结构和检索入口点、数据库的检索费用等。此外,针对特定的信息需求,选择数据库还应遵循以下原则:

(1)要根据信息需求的内容、专业范围及检索目的来选择数据库 若检索课题内容全面广泛,则要同时使用几种不同的数据库;若检索课题专业性较强,则需要非常对口的文献,即专业文档。

(2)对已经选定的数据库,检索者还须考虑是否熟悉及有无检索经验

(3)选择数据库时,还应考虑数据库是否有对应的印刷型工具书 当用户需求的文献量较大时,应尽量选择那些记录存取号与书本式检索刊物文摘号相同的数据库,以节省费用。

(4)考虑数据库记录的来源,及是否容易得到原始文献

(5)当几个数据库内容交叉重复率高时,在输出检索结果时,应选用机时费和打印费低廉的数据库

对于专职检索人员来说,熟悉数据库时通过日常工作中经验的不断积累来完成的。而对于一个新手或用户来讲,了解、熟悉数据库有两种较为简便和快捷的办法:

第一,根据主题分析得到的主题词查阅检索系统提供的“数据库主题指南”,可以了解到包含该主题词内容的数据库文档号及名称。

第二,根据系统所提供的数据库总索引文档联机选择数据库。如DIALOGD的411文档DIALINDEX、ORBIT系统的DBI、BRS系统的CROS等。用户可以用事先拟定的检索提问式进行查询总索引文档,系统会显示响应的数据库中含有已输检索式的文献记录篇数。

(四)确定逻辑组配、检索途径,编制检索提问式

这一步骤实际上就是制定国际联机检索的检索策略的过程。所谓检索策略就是在分析信息需求的基础上,明确检索范围,选择检索途径,确定检索词和逻辑组配方法,通过试检或反馈进行调整,使整个检索计划体现用户的目标。从狭义的角度讲,制定检索策略就是编制检索提问式,即合理运用布尔逻辑算符、位置算符、截词等方法,同时确定相应合理的检索途径(检索字段)。各国际联机检索系统的运算符、截词符不尽相同。这里我们主要掌握DIALOG国际联机检索系统的各种算符、截词符、检索字段。

(五)初步在上机操作后评价检索结果,随即调整检索策略

一次上机操作,初步的文献检索结果就联机显示出来,此时可用退出联机或用暂时关机来浏览文献并给出反馈信息,调查检索结果能否满足用户的信息需求等各种情况。在检索时,有时会得到并不太令人满意的结果,此时,要考虑数据输入或检索策略方面的问题,随机调整检索策略。

无论是先利用系统的数据库总索引文档进行试探性检索,还是直接进入专业文档进行检索,都可以根据系统的响应情况,对检索策略进行随机调整。

(六)决定输出方式和检索结果的信息反馈

输出检索结果,就需要采用一定的输出方式,各个数据库提供了各种方式的输出格式,每种格式能得到的文献内容特征和外表特征均不一样,数据库的蓝页(参见本书3.2.4)上一般都有格式说明。

明确了以何种格式输出后,就可以运用相应打印指令输出检索结果。对于最终结果的输出,要视用户需求文献的时间,若并非特别紧迫的就可采用脱机打印然后邮寄的方式,以节省费用,否则就采用联机打印。

检索过程进行到最后,即用户都检索结果趋于满意,结束此次上机检索之后,对记录结果的分类、分析以及用户使用这些信息以后所得到得实际效果这方面的信息反馈,也是完整检索过程的不可缺少的一步,这有助于提高国际联机检索的服务质量。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈