首页 理论教育 数字图书馆的信息结构

数字图书馆的信息结构

时间:2022-03-05 理论教育 版权反馈
【摘要】:数字图书馆的信息是由经过数字技术处理的数据元素组成的。数字图书馆要充分反映信息的复杂性。数字对象是数字图书馆体系结构的基本单位,数字图书馆是数字对象的集合,一般来说,数字对象由元数据、数字资料和调度码组成。例如,一个数字对象的数字资料可以是用XML标记的文本或一条记录在数字图书馆体系中,为完成各种需求的检索一定要对各种信息进行有效的组织。

5.2.1 数字图书馆的信息结构

(1)数字信息的一般概念

传统图书馆除了拥有大量的传统文本信息,还包括迅速发展的非文本信息(如照片、图片、艺术作品等)、视频音频资料(如音乐带、电视电影、动画游戏资料等)、多维图像和数据(如全息图像)、数字流信息(如卫星信息、宇宙数据等)。如果将上述这些不同的信息进行数字化,生成计算机能识别的二进制编码,就可形成数字信息。

数字图书馆的信息是由经过数字技术处理的数据元素组成的。这些元素包括数字对象(digital object)、元数据(metadata)、调度码(handle),后者又称标识符。数字对象存放于资源库(repository)中,以一定结构的数字形式来表达信息内容(content)。

数字图书馆要充分反映信息的复杂性。为了标识信息的复杂性,需要将若干数字对象组合起来。这些被组合起来的数字对象就称为数字对象集,所有数字对象都有相同的基本形式,但每个数字对象集的结构取决于它所代表的信息内容,而不是数据元素的存储形式。

在数字图书馆中,有许多种不同形式的资料,其信息有多种类型,例如,带SGML的全文、WWW对象、计算机程序等。对每种类型的资料都应按数字对象集的条例和规划加以描述,即每种对象用什么标识符,对象集的每个数字对象及相关元数据的内部结构是如何构成的,对象如何命名等。

(2)数字对象

数字对象是数字图书馆体系结构的基本单位,数字图书馆是数字对象的集合,一般来说,数字对象由元数据、数字资料和调度码组成。

元数据:它是结构化的关于数据的数据,它是存储在数字对象中的信息,包含一些识别对象的条件、条款和调度码。其功能是管理网络环境下的数字对象,如数字对象的存储、复制和传递的管理。

数字资料:它是指对文本经扫描转换后的数字化标识,即二进制数字。数字对象中的数字资料是数字图书馆的原型资料。例如,一个数字对象的数字资料可以是用XML标记的文本或一条记录在数字图书馆体系中,为完成各种需求的检索一定要对各种信息进行有效的组织。其信息都是以基本单位进行存储,例如,数字化的地图、一段正文、一个Web网页、一张扫描的照片等,都按数字对象的形式存储。

下面就数字对象的一般结构特性进行综述。

相关性:是指本对象与其他对象的相关性,例如,部分、整体、系列等。举例来说,一篇已数字化的全文可能与章节内容、前言、索引、插图、附录、参考文献等数字对象相关。

数字格式:同一个项目可能用几种数字格式进行存储,目前大多数都使用XML格式,也可能要把一种格式转换成另一种格式。不同的格式包含着不同的信息,例如用XML格式描述的正文页的信息与附录格式的内容是不同的。

数字对象的变化:数字对象容易改变,数字对象应该能够反映这种变化。例如,一种书有不同的版本,一个Web网页每月变化几次。

权限和许可权:数字对象的每一个元素都有与之相关的不同权限和许可权。

总的来说,在数字图书馆中,信息被作为数字对象存储。数字对象包含三方面的内容:第一是资料内容,可以是文本形式,也可以是用XML来置标的编码,也可以是图片、视频、音频的数字形式;第二是元数据,包含一个数字对象的调度码、对象的产权数据和一种权利说明书等;第三是管理信息,如格式、标识符、数据使用说明等。

(3)数据类型、结构元数据和元对象

数字图书馆的信息体系结构是以三个简单概念为依据的,即数据类型、结构元数据和元对象。

第一个是数据类型。数据的每一个项目都有一个相关的数据类型,用以描述数据的技术性质,如格式、处理方法等。

第二个是结构元数据。它是指描述资料的类型、标题、著者、版本、相关关系和数字资料的其他特性的元数据。它是一种不可再分的元数据。如MARC就是一种结构元数据。

第三个是元对象。它提供对数字对象集的引用,最简单的元对象是一个指向其他数字对象的调度码的列表。例如,列出某物理想的所有数字化版本的数字对象即是一个元对象,一本诗歌选集可以按每首诗为一个数字对象,一本诗集的元对象就是列出所有诗篇的数字对象。

(4)数据规范原则

为规范描述结构元数据和元对象,应制订规范说明书。该说明书要符合下述原则:

●每一个数据项都有一个明确的数据类型,类型指定了数据的格式和可施加的操作。例如,数据的压缩采用JPEG格式,应用特殊方法进行处理。

●所有的元数据都要有明确的编码。所有需要管理的藏书或提供查询的元数据都要进行编码,如“TXT”指示全文本文档。但没有语义信息的评述数据不能作为元数据,也不能单独进行编码。

●给知识产权赋予一个调度码。赋予知识产权一个调度码标志,并把它作为一个独立的数字对象,从而提供了一种访问途径,人们可以通过该标志访问数据对象。例如在一篇数字化正文中包含一些可单独使用的插图,则每个插图都可制成带知识产权的调度码,并作为独立的数据对象。

●元对象可用于连续数据对象。在数字图书馆中,一条记录的全部元数据可能存放在一个对象库多个位置,也可存入二次文献的书目索引中,或存入辅助目录中。元对象提供与各个数据对象的联系,或与所有结构元数据的联系,用户不必知道数据对象集中的存储结构,只要用元对象去查询,就可获得更多的数据对象,如一个项目所有版本额度连续信息,一个项目的所有结构元数据的信息。

●调度码可以用于识别元对象中的项目。一个项目对象包含一个目录,可用调度码去识别该目录的每个项目,从而就提供了一个灵活的信息结构,利用这种结构可以很方便地按顺序重新组织馆藏(对象库)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈