首页 理论教育 计算机信息检索的基本知识

计算机信息检索的基本知识

时间:2022-03-04 理论教育 版权反馈
【摘要】:计算机检索系统中的数据库,是计算机检索系统的主要信息源。多媒体数据库是近年来出现的新型数据库,它不仅可以存储文本信息,还可以同时存储图形、图像和声音,检索时可以获得图文并茂的效果。文档是书目数据库和文献检索系统内部数据组成的基本形式,是由若干个逻辑记录构成的信息集合。在书目数据库中,记录含有题名、著者、出版年份、主题词、文摘等字段。

4.2 计算机信息检索的基本知识

计算机信息检索,从狭义上讲是指利用电子计算机或计算机检索网络,通过设置特定的检索指令、检索词和检索策略,从计算机数据库中查询所需信息的过程,突出了一个取的过程。从广义上则包含了计算机存、取信息两方面的内容,存指的是生成文档或数据库的过程,即根据检索对应的需求,收集有关学科或主题范围的文献,并进行加工、标引,按规定的格式输入计算机,构成可供检索的数据库。存是取的基础,取则是存的逆过程。计算机检索就是用户将检索的内容和要求,转换成一系列的提问式,并输入计算机进行查找,计算机将它与机内存储的数据进行匹配、比较和运算,符合要求则属“检索命中”,并对检索结果进行输出。

4.2.1 计算机信息检索基本流程(见图4-1)

计算机检索系统中的数据库,是计算机检索系统的主要信息源。它指按一定结构形式组织存储在磁带、磁盘、光盘等计算机直接存取介质上的相关数据的集合。数据库是可以共享的某些具有共同的存取方式和一定的组织方式的相关数据的集合。数据库中保存的是一系列相互关联的数据,如国家银行的账目数据、企业员工的人事档案、产品的销售数据等,这些数据有共同的特性,而不是杂乱无章的。其次这些数据在放入数据库时,必须有一定的数据结构和组织方式,这样才能保证数据库中大量的数据可以为多个用户反复多次使用。因此,“相关数据”、“共同的存取方式和一定的组织方式”以及数据的“共享”构成了数据库的三个基本要素。

img4

图4-1

数据库的类型有很多种,可以根据不同的标准进行分类,如按存储介质分、按数据库内容分、按数据库用途分,等等。在信息资源管理中,通常是将数据库信息内容作为划分标准,分为书目型、数据型、事实型、全文型、多媒体型等类型。

(1)文献书目型数据库。文献书目型数据库是一种二次文献数据库,主要以文献或书目形式记录在磁盘、磁带或光盘上,数据库主要收录文摘、索引期刊和图书书目等,以引导用户查找一次文献。代表性的文献书目型数据库有《EI Compendex》(美国工程索引)、《INSPEC》(科学文摘)、《CB-ISTIC》(中国科技期刊篇名数据库)等。

(2)数据型数据库。数据型数据库主要以数据形式记录物质或材料的各种特性、参数、常数、价格等,它来自于原始文献的统计数据、调研数据或经过处理的物理、化学等各种数据的集合。数据型数据库主要包含数值数据;有的也包含文字,文字是用来定义数值数据库的最小量的文字,有时也称文本—数值数据库。与文献书目型数据库相比,数值数据库是更高层次上进行信息深加工的产物,它提供了科学研究中试验、测量、计算、记录和工程设计、经济分析与预测、工业规划等方面的数据。

(3)事实型数据库。事实型数据库主要是对一些公司、团体、研究机构、名人等作一些目录型的简单介绍,包括人名录、机构指南等。通过这类数据库可查到公司、团体、研究机构的地址、电话号码、产品目录、研究项目或名人简历、化学物质的名称、分子式登记号等记录内容。

(4)全文型数据库。全文型数据库是指存储一次文献的全文或其中主要部分的数据库。用户通过文中的某一词汇或短语,便可以直接检索出原始文献的全文,目前以金融、商业或时速新闻等全文库比较多见。

(5)多媒体型数据库。多媒体数据库是近年来出现的新型数据库,它不仅可以存储文本信息,还可以同时存储图形、图像和声音,检索时可以获得图文并茂的效果。随着社会和科技的不断进步,多媒体数据库将会越来越多地出现在我们的生活中。

4.2.2 文献数据库结构

我们知道数据库中存放的是一系列彼此相关的数据,具体到计算机信息检索系统所用的数据库,其主要部分是各种主文档(或称顺排文档)和索引文档(或称倒排文档)。每个文档都是由许多个记录所组成的,每一条记录又由不同的数据项(或称字段)组成,每一个字段都有标识符,字段中所含的真实内容叫数据(或字段的属性值)。因此可以这样说,多个字段构成一个记录,多个记录构成一个文档,多个文档共同组成计算机信息检索系统完整的数据库。

(1)文档。文档是书目数据库和文献检索系统内部数据组成的基本形式,是由若干个逻辑记录构成的信息集合。从数据库的内部结构看,通常一个数据库至少包括一个顺排文档和一个倒排文档。

顺排文档是将数据库全部记录按照记录号的大小排列而成的文献集合,它构成了数据库的主体内容。由于顺排文档中主题词等特征标识的无序性,使系统空间过大,检索速度慢、实用性差。

倒排文档是把记录中一切可检索字段(或属性值)如著者姓名、主题词、叙词等抽出,按照一定顺序排列起来,即将具有同一属性的所有记录列出。倒排文档可以大大提高检索的效率。

二者的区别是:顺排文档是以文献的完整记录为顺序处理和检索文献的,而倒排文档则以文献信息的属性(记录中的字段)来处理和检索文献的。在实际运行的数据库中,倒排文档通常有若干个,用以建立多个不同属性的标识。另外根据检索习惯,首先知道的是含有检索词的记录数而不是显示具体记录,因此数据库中专门建立索引词典和记录号倒排文档。

(2)记录。记录是文档的基本单元,由若干个字段组成,它是对某一实体的全部属性进行描述的结果。在全文数据库中,一条记录相当于一篇完整的文献,在书目数据库中,一条记录相当于一条题录或文摘。

(3)字段。字段是文献记录的基本单元,是对文献具体属性的描述。在书目数据库中,记录含有题名、著者、出版年份、主题词、文摘等字段。字段又分为基本字段和辅助字段两种:

基本字段是反映了文献内容特征,又称为基本索引。

辅助字段是反映文献外部特征的字段,又称辅助索引。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈