首页 理论教育 检索系统构成

检索系统构成

时间:2022-03-18 理论教育 版权反馈
【摘要】:计算机信息检索系统从物理构成上说包括计算机硬件、软件、数据库、通讯线路和检索终端5个部分。随着大容量计算机分时系统以及相应检索软件的研制成功,联机检索中由最先的内部使用,发展到面向社会公众的商业性服务;由区域性、全国性的联机检索系统,发展成为跨国性的远距离联机检索。无数的科研机构、高等学校、联机检索系统都将自己的资源放到了网上,供人们检索使用。

计算机信息检索系统从物理构成上说包括计算机硬件、软件、数据库、通讯线路和检索终端5个部分。一般而言,软件由计算机信息检索系统的开发商制作,通讯线路、硬件和检索终端只要满足计算机检索系统的要求就行。对检索用户来说,他们必须了解的是数据库的结构和类型,以便根据不同的检索要求选择合适的数据库和检索途径。

(一)数据库结构

数据库是指计算机存储设备上存放的相互关联的数据的有序集合,是计算机信息检索的重要组成部分。数据库通常由若干个文档组成,每个文档又由若干个记录组成,每条记录则包含若干字段。

1.文档(file) 是数据库中一部分记录的有序集合,包括顺排文档和倒排文档。

(1)顺排文档:是按文献信息记录的输入顺序(即序号)排列的文档,相当于印刷型检索工具的正文部分。在顺排文档中,记录按顺序一个接一个地存放,一个存取号对应一条记录,存取号越大,对应的记录就越新。由于它存储有记录的最完整的信息,所以通常又把它称之为主文档(master file)。如果在顺排文档中检索,对每个检索式都得按顺序从头到尾进行扫描,存储的记录越多,扫描的时间就越长,从而严重影响检索的速度。

(2)倒排文档:是把顺排文档中具有检索意义的检索标识如主题词、著者姓名、刊名等标引词抽出,依某种顺序依次排列而成的文档。倒排文档实际上相当于印刷型检索工具中的辅助索引。倒排文档与顺排文档的区别是:顺排文档以完整记录作为处理和检索的单元,倒排文档以记录中的字段作为处理和检索的单元。根据数据库的内部结构,一个数据库至少包含一个顺排文档和一个倒排文档。

2.记录(record) 是构成数据库的基本信息单元,每条记录都包含原始信息的一系列外表和内容特征,如序号、篇名、主题词、著者、刊名等。文献数据库中的一条记录通常代表一篇文献。

3.字段(field) 是比记录更小的单位,是组成记录的数据项。一条记录由多个字段构成,如一篇期刊论文的记录由篇名、作者、作者单位、刊名等字段组成。每一字段通常由2个字母所组成的代码表示,如TI(title)、AU(author)。

(二)数据库的类型

1.按计算机检索的工作方式划分

(1)联机检索数据库:20世纪50年代最早出现的计算机信息检索服务方式是脱机信息检索,尽管它大大提高了检索效率,但也存在着检索周期长、用户不能直接参与检索过程等缺点。20世纪60年代随着计算机处理数据能力的提高和大容量存储介质的出现,单台计算机可以通过通信线路连接多个终端,相应出现的联机信息检索服务弥补了脱机检索的缺点。如Dialog、Medlars等联机检索系统。联机检索方式是一种以大、中型计算机做主机,用户通过终端可以直接和主机实现联机对话,检索主机系统所拥有的数据库的检索方式。随着大容量计算机分时系统以及相应检索软件的研制成功,联机检索中由最先的内部使用,发展到面向社会公众的商业性服务;由区域性、全国性的联机检索系统,发展成为跨国性的远距离联机检索。联机检索可以不受地理位置影响,在检索过程中可以随时修改检索策略,检索结果可以有多种输出格式,但它也存在着费用昂贵,检索人员必须熟悉不同检索系统的检索语言等缺点。进入20世纪90年代后,国际互联网的发展使得联机信息检索向网络信息检索发展,网络信息检索服务已成为联机检索阶段的延伸。

(2)光盘检索数据库:是利用光盘存储器微机、光盘驱动器进行的一种文献信息检索方式。按照读写方式,光盘可以分为只读型光盘(CD-ROM)、一次写入型光盘(WORM)和可擦写型光盘(CD-RW)三种。将数据库内容存储于光盘之上就制成了光盘数据库,通常光盘数据库都使用只读型光盘。20世纪90年代,随着光盘塔的问世,光盘检索网络化,使光盘资源实现了共享。光盘数据库具有以下特点:①光盘存储容量大,占据物理空间小:例如每年一张的Medline光盘可以收录美国的《医学索引》、《牙科文献索引》和《国际护理索引》的全年内容,并且多数记录增加了文摘内容。②读取速度快:利用光盘塔和光盘库等设备可进行跨盘检索,检索浏览范围可以跨及多年。检索策略制定好后,检索一个课题只需要几分钟,甚至更短。③费用低:光盘和光驱是批量生产,成本较低,加之光盘检索不涉及远程通讯,可以不受时间限制进行检索,整个检索费用也就相对较低。④对硬件有一定要求:随着光盘数据库数量的增多,尤其是一些全文光盘数据库的出现,各信息服务机构面临的是要么增加光盘库或光盘塔,要么增加服务器容量的选择。由于目前多数信息服务机构的做法是将光盘数据库的内容做入磁盘阵列服务器以供局域网内的用户共享,光盘对硬件的压力日益严重。所以网络数据库是检索数据库的主要发展方向。生物医学领域常用的光盘数据库有Medline数据库、中国生物医学文献数据库(CBMdisc)等。

(3)网络检索数据库:是检索网络信息资源的数据库。20世纪90年代是网络时代,因特网的出现和WWW的广泛使用,使信息的存储、检索和利用发生了巨大的变化。无数的科研机构、高等学校、联机检索系统都将自己的资源放到了网上,供人们检索使用。网络资源大致可以分为两类,一类是来自正式文献信息源的信息,内容可靠、质量高,一般都有检索平台;另一类是各类网站上的信息,这些信息包罗万象、良莠不齐,一般用搜索引擎等网络工具进行检索。

2.按内容和功能划分

(1)书目数据库(Bibliographic Database):是机读的目录、索引和文摘检索工具,检索结果是文献的线索而非原文。如许多图书馆提供的基于网络的联机公共检索目录(Web-based Online Public Access Catalogue)、Medline、CBMDisc等。

(2)全文数据库(Full Text Database):它存储的是原始文献信息的全文,有的是印刷版的电子版,有的则是纯电子出版物,如中国学术期刊数据库,中文科技期刊数据库等。

(3)数值数据库(Numeric Database):主要包括调查数据、统计数据等,是一类以数据形式为用户提供信息服务的数据库,如人口统计数据库、发病率与病死率统计数据库、GenBank基因序列数据库等。

(4)事实数据库(Fact Database):它存储指南、名录、大事记等参考工具书的信息,如美国医生数据咨询库PDQ(physician data query)。

(5)超文本型数据库(Hypertext Database):它存储声音、图像和文字等多种信息,如美国的蛋白质结构数据库(PDB),该数据库可以检索和观看蛋白质大分子的三维结构。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈