首页 理论教育 数据库实验报告结果分析万能模板

数据库实验报告结果分析万能模板

时间:2022-04-12 理论教育 版权反馈
【摘要】:包括书目数据库和全文数据库。是文献信息数据库中最常见的数据库。检索书目数据库得到的最终结果是所需文献的线索。全文数据库是一种存储文献全文或其中的主要部分的源数据库。与文献数据库相比,数值数据库是人们对信息进行深加工的产物。数值数据库主要涉及科学技术和社会科学。书目数据库中的一条记录就相当于书本式检索刊物中的一条文摘条目或题录,或相当于图书目录中的一条著录款目。

(一)文献信息数据库的概念及类型

1.概念 数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源管理工具,是计算机信息检索系统的重要组成部分,是信息检索的基础。

根据ISO/DIS 5127号标准(文献与情报工作术语),数据库被定义为:“至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。”通俗地说,数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合;或简单地定义为:一个或多个机器可读,并按一定方式编制而成的文献记录集合。

2.类型 数据库的内容相当广泛,从各类型科学文献到各类信息,包罗万象,无所不有。对于数据库类型的划分,根据不同的标准有不同的类型。

(1)按照国际通用的分类方法,数据库通常划分为:①参考数据库(reference database)。指引用户到另一信息源以获得原文或其他细节的一类数据库。它包括书目数据库和指南数据库。②源数据库(source database)。能直接提供原始资料或具体数据的自足性数据库,用户不必再查阅其他信息源。它又可分为:数值数据库、文本—数值数据库、全文数据库、术语数据库、图像数据库。③混合型数据库(mixed database)。能同时存储多种不同类型数据的数据库。

(2)按所收录对象不同,可以分成两大类:①文献型数据库。包括书目数据库和全文数据库。②非文献型数据库。包括数值数据库、指南数据库、术语数据库和图像数据库。

(3)按数据库的内容划分为以下类型(较常用的分类):

①书目数据库(bibliographic database)。又称参考型数据库(reference database)/文献目录型数据库/目录型数据库。是文献信息数据库中最常见的数据库。书目数据库中的每一条记录就是一篇论文或一件专利,或一本专著等的题录或文摘。提供文献的特征,如篇名、著者、文献来源、文摘等,是查找文献线索的数据库。检索书目数据库得到的最终结果是所需文献的线索。该类型数据库主要是文摘索引等检索工具的机读版,即二次文献数据库。

②全文数据库(full text database)。全文数据库是一种存储文献全文或其中的主要部分的源数据库。它是将文献检索和全文提供于一体,是近年来发展较快和前景看好的一类数据库。目前的中文全文数据库有:中国期刊全文数据库、中文科技期刊数据库、万方系统的数字化期刊全文库;常用的英文全文数据库有OVID全文期刊库、荷兰的Elsevier Science、美国UMI公司的ProQuest Medical Library等。

与其他数据库相比,全文数据库有许多特点和优点,主要有以下方面:

直接性,能直接检索出原始文献或解决问题所需要的文献资料,不必进行二次检索。

详尽性,文献的正文部分或附属部分都可以检索和显示,用户可以直接查看到文献正文中的每一段、每一句和每个词,还可能看到某些边缘性情报。

快速,用户可通过检索系统快速地浏览、检索和获得文献原文。

标引简单,绝大多数全文库都利用计算机进行全文自动抽词标引,生成倒排档。

检索语言多用自然语言,少数用受控语言。

全文数据库虽有诸多优点,但也存在一些缺点。例如:存储空间太大,要求检索系统配备有特大容量的存储设备。存储10万册图书或装订好的期刊(假定每册为300页)的全文及其倒排档,大约需要200GB。

文本转换问题,它要求检索系统能接受和处理文献正文中的各种类型的数据,包括特殊的字符和格式以及各种图像,还必须能接受那些非本系统直接录入,而是由其他文字处理机、电子信息系统、编辑排版系统提供的格式不同的文本数据。因而,对系统的硬件和软件要求多。

③数值数据库(numeric database)。是一种以自然数值形式表示、计算机可读的数据集合。此类数据库中主要包含的是数字数据,数字是指可以计算、测量或以数值表示的项目。有的也包含用来定义数字所必需的少量文字。

数值性数据是人们从文献资料中分析提取出来的,或是从实验、观测或统计工作中得到的。把这些数据收集起来,经过核实、检验和加工整理,按一定方式组织起来,利用计算机进行存储和检索,就成了数值数据库。如果数据库中还含有定义数值和说明这些数据项所必需的文字,就是文本-数值数据库。与文献数据库相比,数值数据库是人们对信息进行深加工的产物。它可以直接提供解决问题时所需要的数据,是进行各种统计分析、定量研究、管理决策和预测的重要工具。

数值数据库主要涉及科学技术和社会科学。科学领域的数值数据库有两个明显特性。一是学科性,即每一个库都涉及某一科学技术领域的专门化语言,如化合物数据库的化学结构图就是一例;二是国际性,许多数值库的建设都要依赖于国际合作,例如:有关生物化学基因的数据库,往往是国际合作的结晶。

④事实数据库(fact database)。是存储有关某些客体的一般指示性描述的参考数据库。存储的数据一般是用来描述人物、机构、事物等非文献信息源的情况、过程、现象、特性等方面的事实性信息。此类数据库对用户起着一种指示、介绍、牵线搭桥的作用。因此,又称为指南型数据库或指示型数据库(referral databases)。它的主要用途是供用户查询有关某一事物的发生时间、地点、过程或简要情况。它主要包括各种名录数据库、传记数据库等。

⑤多媒体数据库(multimedia database)。是数据库技术和多媒体技术相结合的产物,是文本、图像、视频、音频、动画等多媒体信息的结合体。

⑥知识库(knowledge base)。是按一定要求存储在计算机中的相互关联的某些事实或知识的集合,它经过分类、组织和有序化,成为构造专家系统的核心和基础。知识库是在普通数据库的基础上,有针对性地从中抽取知识点,按一定的知识体系进行整序和分析而组织起来的数据库。

(二)文献信息数据库的结构

数据库是记录的集合,记录又是由若干字段构成。一个数据库通常被人为地分成若干文档。

1.记录与字段 记录(record)是构成数据库的信息单元,每条记录都描述了一原始信息的外表和内容特征。书目数据库中的一条记录通常是对一篇文献的描述,包括题录、文摘、主题词等。书目数据库中的一条记录就相当于书本式检索刊物中的一条文摘条目或题录,或相当于图书目录中的一条著录款目。其他类型的数据库中的记录则是某种信息单元,例如,一种药物的描述,一组数值的集合等等。

一条记录通常由一些数据项组成,这些组成记录的数据项称为字段(Field)。字段是记录的下级数据单位,用来描述实体的某一属性。在书目数据库的记录中,字段的划分与文献著录事项的划分相一致。一个字段与一个著录项目相对应。所以,一个记录中通常含有文献号字段、题名字段、作者字段、出版字段、语种字段、文摘字段、主题词字段、分类号字段等。每个字段的具体内容称为字段值(field value)或属性值(attribute value)。

子字段(subfield)是字段的下一级数据单位。在有些字段中,它们的值往往由多个子项构成。例如,出版字段含有出版者、出版地和出版年,主题词字段含有若干个主题词等,为了方便,就把这样的字段分成若干个子字段。

2.文档 文档(file)在这里有两层含义:①文档是数据库中一部分记录的集合,或者说若干逻辑记录构成的信息集合成为文档,它是数据库的下位词。许多大型数据库往往包含有数以万计的记录,为便于用户检索,常被划分为若干文档。②文档是数据库的结构。众多记录构成可检索的数据库,必须进行合理的组织,建立一个顺排文档和至少一个倒排文档相互关联才能提供检索。

顺序文档(sequential file):以文献记录作为信息存储单元,按文献记录入藏的存取号从小到大排列而形成的目录式文档,由于它存储有关于每篇文献的最完整信息,所以通常又把它称为主文档(master File),它相当于印刷型检索工具的正文部分。这种存储方式决定了对记录的存取只能顺序进行,它使记录之间紧密排列在一起,文档的修改和删除操作比较简单,但插入操作较为麻烦。

倒排文档(inverted file):正如书本检索工具的正文部分需要配备辅助索引才便于查阅一样,以文献为单位顺序排列的主文档也需要设置一种类似于索引的文档来支持按文献的属性特征去快速检索出有关的记录。这种文档就是倒排文档,简称倒排档,就是把记录中一切可检字段或属性值(如著者名、主题词等)抽出,按某种顺序重新加以组织后所得到的一种文档。既可以按不同类型的字段组成不同的倒排档,也可以把所有不同的字段组成一个混合倒排档。在计算机存储器中,倒排档也可以按顺序文档方式存取。二者的主要区别是:主文档以文献的完整记录为处理和检索单元,倒排档则以文献的属性(记录中的字段)为处理和检索单元。倒排档是从主文档中派生出来的一种文档,因此,称之为辅助文档。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈