首页 理论教育 文献数据库的类型和数据库的数据结构

文献数据库的类型和数据库的数据结构

时间:2022-10-13 理论教育 版权反馈
【摘要】:目前多数书目型数据库既能提供书目线索,同时又提供相关链接,指引浏览全文,大多数索引型和文摘型数据库也都在向全文数据库发展。因此,全文数据库与书目数据库相比,具有更为直接、迅速、详尽而可靠的特点。目前,术语型数据库大多是辞书、词典、百科全书等数字化版本。数值数据库不仅可直接提供数据信息,还具有统计、运算和分析数据的功能。数值数据库的数据分为微观数据和宏观数据两类。

3.4.1 文献数据库的类型

根据数据库所存储的信息类型不同可划分为文献线索型数据库、全文型数据库、术语型数据库、事实型数据库、数值型数据库及多媒体数据库等。

(1)文献线索型数据库

文献线索型数据库是一种存储目录、文摘、索引、题录等二次文献的数据库。检索的结果是文献线索或摘要,而不是文献原文。常用的有书目型数据库、索引型数据库和文摘型数据库等。

1)书目型数据库

书目型数据库是一种存储和检索书目信息的文献数据库,通常都是传统图书目录的机读化产物,故又称机读目录,主要报道馆藏各种文献的书目信息和存储地址。通过该类数据库可以获取有关文献信息的外部特征、原文的存储地址,有提要的书目还可获得文献信息的内容特征。目前多数书目型数据库既能提供书目线索,同时又提供相关链接,指引浏览全文,大多数索引型和文摘型数据库也都在向全文数据库发展。

2)索引型数据库

索引型数据库是一种存储和检索期刊论文外部特征信息的数据库,利用该类数据库可以获取查询原文的线索。

3)文摘型数据库

文摘型数据库是一种不仅提供文献外部特征,而且还提供文献内容摘要信息的数据库。利用它既可获得文献信息线索,又可对原文内容信息有所了解。

(2)全文数据库

全文数据库是一种存储文献全文或其中主要部分的源数据库,主要是指各种图书、期刊、法律条文及案例、新闻报道以及百科全书、手册、年鉴等全部文字或原著的全部内容,被转换成计算机可读的形式。它将二次文献的检索同原文献的获取融为一体,用户可用自然语言检索,从数据库中直接获取所需文献全文及字、句、段、章、节及相关信息。因此,全文数据库与书目数据库相比,具有更为直接、迅速、详尽而可靠的特点。按文献类型划分,全文数据库包括电子图书全文库、电子期刊全文库、电子报纸全文库等。

(3)术语型数据库

术语型数据库也称词语型数据库,是专门存储揭示各类名词、术语、词语的形、音、义与使用方法以及词义演变、发展等信息的检索工具。目前,术语型数据库大多是辞书、词典、百科全书等数字化版本。

(4)事实型数据库

事实型数据库也称指南型数据库,是一种存储简单而确定的、独立存在的非文献信息,如机构、人物、产品、年份、地理位置、事件等,每个条目都是对一个事实的确切、完整的描述。因此,事实型数据库提供的是关于各类型事物的实体性信息。事实型数据库类型较多,按信息内容划分有人物数据库、机构名录数据库、产品或商品信息数据库以及投资指南库、基金指南库、商标指南库、技术标准库等。

(5)数值型数据库

数值型数据库是一种以自然数值形式表示、计算机可读的数据集合。数值性数据是从文献中分析、概括、提取出来,或从调研、观测及统计工作中直接获得的数据,包括定义数值和说明这些数据项所必需的文字(文本数据)。数值数据库不仅可直接提供数据信息,还具有统计、运算和分析数据的功能。

数值数据库的数据分为微观数据和宏观数据两类。微观数据描述的是个体或事件的信息;而宏观数据是综合统计数据,它可以直接来自应用领域,也可以是微观数据的综合分析结果,包括统计数据库、管理数据库、科学数据库等。

(6)多媒体和超媒体数据库

多媒体数据库是多媒体技术、Internet技术、网络技术与传统数据库技术相结合的产物,是一种能够对文本、数值、图形、图像、声音、动画、视频等复杂的多媒体对象进行一体化存储、管理和检索的数据库。它克服了普通数据库信息类型的单一性、信息传播的单向性和信息使用的被动性等缺点,人们可从中同时获得多种形式的信息。超媒体数据库是多媒体的网络式表达,它存储的是文本、图形、图像、视频等各种媒体信息以及它们的组合形式,人们可根据需要在多媒体信息单元之间快速检索和浏览。

3.4.2 数据库的数据结构

数据库主要部分是由一系列记录所组成的文档。

(1)数据库的记录格式

记录是构成数据库的基本单元,是对某一实体属性进行描述的结果。一个数据库可能包含几万条甚至几十万条记录,一条记录又包含若干个数据字段。这些数据字段就是文摘中的若干著录项目,如原始文献的篇名、著者、文献出处、出版时间、文摘、主题词及语种等,它们是构成记录的最小信息单元。

为了方便计算和检索,每一个字段都有自己特定的标识符,称为字段名,如AB代表文摘字段、TI代表篇名字段、AU代表著者字段、CS代表著者所在工作单位、SO代表文献出处、LA代表语种、DT代表文献类型等。

一条完整的记录由检索系统存取号、索引字段组成。

1)检索系统存取号

检索系统存取号是计算机检索系统为每一条记录规定的能被计算机识别的特定号码。在同一个数据库中,每篇文献只有一个存取号,通常存取号由6~9位数字组成,出现在每条记录的左上角。

2)索引字段

索引字段分为基本索引字段和辅助索引字段,基本索引字段用来表征文献主题内容特征的字段,包括题名、文摘、叙词、自由标引词4种字段,提供从主题内容特征查找文献的途径;辅助索引字段是表征文献外部特征的字段,包括著者、文献出处、出版年份、语种、分类代码等字段,提供从文献的外部特征查找文献的途径。数据库记录的著录项目(字段)较多,因此计算机检索能够提供比手工检索更丰富的检索途径。值得指出的是,不同的数据库其记录的字段种类、数目、名称、代码不尽相同,在检索时,可根据每个数据库的使用说明了解可查询字段的设置情况及使用方法。

(2)数据库的文档结构

文档结构是计算机检索系统中数据库的每条记录数据项的编排方式,有顺排文档和倒排文档两种。

1)顺排文档

顺排文档存入了数据库的全部记录,文献记录按照存取号的大小顺序排列,类似于检索刊物中按文摘号排列文摘款目。每一篇文献为一条记录单元,一个存取号对应一条记录,存取号越大,对应的记录就越新。由于它存储记录的是最完整的信息,因此,又把它称为主文档。如果在顺排文档中进行检索,计算机就要对每个检索提问式逐一扫描库中每条记录,存储的记录越多,扫描的时间就越长,这样检索效率会很低。

2)倒排文档

倒排文档是将主文档中的可检字段(如主题词、著者)抽出,按某种顺序重新排列所形成的一种文档。不同的字段组织成不同的倒排文档(如主题词倒排文档、著者倒排文档等)。倒排文档可以按主题词的字顺排,也可按分类号的大小排。按表达文献内容特征的主题词排列的文档称为基本索引文档;按表达文献外部特征排列的文档称为辅助索引文档。倒排文档只有文献的标识、文献命中篇数及文献存取号,因此,在实施检索时,必须与顺排文档配合使用,先在数据库的倒排文档中查得文献篇数及其记录存取号,再根据存取号从顺排文档中调出文献记录。

倒排文档类似于检索工具中的辅助索引。倒排文档与顺排文档的区别是:顺排文档以完整记录为处理和检索单元;倒排文档以记录中的字段为处理和检索单元。

所谓“倒排”,是指在倒排文档中的记录存放形式是“倒序”的,即文摘号在后,而主题词在前。

一个检索文档的倒排总是及时备好的,因此机检时计算机的主要工作就是“查表”。例如,当用户查找关于A AND B的文献时,机器立即在倒排文档中搜索,取出A和B各自的命中文献号,再对这两个集合进行AND的布尔运算,得到命中文献记录号的集合,最后显示命中多少个记录。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈