首页 百科知识 数字计算机是以什么为处理对象的

数字计算机是以什么为处理对象的

时间:2022-10-01 百科知识 版权反馈
【摘要】:数字图书馆的信息门户将存放在馆内数据库、数据仓库和文档中的信息转变成可利用的信息,并把这些信息传送到读者面前。一般来说,数字图书馆信息组织的相关标准包括以下3方面的内容。

4.6 数字图书馆

互联网上的信息资源具有各自不同的描述、组织和检索方式,而且质量也良莠不齐。数字图书馆的基本目标就是对类型多样、格式复杂、数量庞大、储存分散的数字信息实现知识化组织,使整个网络成为一个虚拟的、单一的、有组织的、结构化的信息集合,并通过互联网提供跨仓储的、统一的、高效的无缝检索。

4.6.1 数字图书馆信息组织与服务的特点

20世纪90年代兴起的“数字图书馆”一词,起源于1993年由美国国家科学基金会(NSF)、美国国防部尖端研究项目机构(DARPA)、国家航空与太空总署(NASA)联合发起的数字图书馆创始工程(Digital Library Initiative,代号DLI)。此后,数字图书馆一词迅速被计算机科学界、图书馆界以及其他各领域所采纳。按照Carl Lagoze和Sandra Payette的定义,数字图书馆包括由数字对象构成的馆藏(内容)和与数字对象的存储、发现、检索和保存有关的服务(功能)。一般来说,数字图书馆中的信息资源和所提供的核心服务具有如下主要特征[89]:

(1)分布资源的有序集成(Collection Service)。WWW方式在提供对全球分布式资源访问方面取得了前所未有的成功,但这也同时导致了以WWW方式提供的信息资源的无序性,因此在数字图书馆中有必要提供资源的集成服务。数字图书馆通过对分布式的数字信息资源进行统一分类,按照统一标准进行贮存和描述,使用统一界面进行检索、浏览,使得信息组织跨越了空间限制,有序地集成了不存在于同一个地方,而是分布在不同的数据服务器上的信息对象。

(2)信息资源的有效组织(Data Management)。数字图书馆的信息门户将存放在馆内数据库、数据仓库和文档中的信息转变成可利用的信息,并把这些信息传送到读者面前。这种组织不是简单地在页面上增加一个数据连接,而是通过集成化的方法把原有应用通过一个核心组件服务器集合在一起,并获取其他应用系统中的相关数据和消息;最后所有独立、分散的应用系统通过事件、消息和数据的相关性集成为一个有机整体。

(3)单一访问入口(Single Access Channel)。所有用户都可以通过单一的入口访问他们需要的信息。这个单一入口就是一个信息资源发布和传播的网站。对于用户来说,所使用的工具是一个简单的浏览器。对于图书馆应用系统来说,这是一种客户端的应用模式,系统维护只在后台服务器上进行,无需维护前端应用,可以快速升级,降低了维护费用,方便了用户使用。

(4)个性化服务(Personalized Information Environment)。每个使用数字图书馆信息门户的用户都有自己的描述文件,通过它来定义自己的角色并过滤信息。要实现个性化必须提供能够涵盖所有功能和可能的选项,而且还要提供自由定制的功能,而对于数据和时间相关的个性化定制远比页面信息的定制更加复杂。因此要实现信息的个性化服务需要数据库厂商和中间件提供商向系统开发人员提供相应的工具或组件。

4.6.2 数字图书馆信息组织的原则、标准与规范

数字图书馆集成了大量分布、异构、开放的信息资源,要在这样大规模的综合系统中实现资源内容的广泛获取、长期保存以及有效的互操作与交换,必须在信息资源的组织阶段就遵循统一的标准和规范。一般来说,数字图书馆信息组织的相关标准包括以下3方面的内容。

4.6.2.1 数字内容创建的标准规范

数字图书馆的数字内容既包括由传统载体数字化而形成的内容对象,也包括原生数字形态的内容对象。一般来说,创建数字内容对象的标准规范主要涵盖内容编码标准、内容对象格式标准、内容对象标识标准等3个方面。

(1)内容编码标准。内容编码涉及数据内容的计算机编码形式和标记形式,是制约数字信息资源可使用性和持续性的最基本条件。资源内容在编码层次遵循的标准,包括基本编码标准如国际标准ISO/IEC 10646/UNICODE,国内标准GB2312-1980、GBI 3000-1993和GBI 8030-2000;特殊编码标准,包括设计数学符号和公式、化学符号、矢量信息、地理坐标等的编码标准,如基于XML的开放标记语言Math ML(Mathematical Markup Language)、CML(ChemicalMarkup Language)和GML(Geography Markup Language)等。

(2)内容对象格式标准。对数字内容的描述必须支持格式的自动识别和解析功能,以便调用合适的模块来处理数据内容。数据格式涉及文本、图像、音频、视频、多媒体等数据内容,适用标准也随之变化。其中文本数据的格式标准涉及两种类型:作为文本文件时,要求采用HTML、XHTML和XML;作为图像形式的文本数据可以采用TIFF格式、JPEG格式或PDF格式。图像数据的格式标准根据保存、浏览或预览格式而有所不同。一般对保存格式要求用TIFF;对浏览格式要求用JPEG;对预览格式可用GIF。视频数据的格式标准一般首选MPEG,另外也可使用Apple Quicktime、MS Real Video等格式。音频数据的格式标准则采用MP3、WAV、Apple Quicktime、MS Real Audio等格式。最后矢量数据的格式标准主要是SVG。

(3)内容对象标识标准。由于数字对象可能是不同层级的数据内容,因此一般并不规定具体的标志格式标准,而只是对标识原则有所规定,这些原则包括:必须按照规范的命名体系用唯一、永久的标识符对数字对象予以命名,标识符应与资源位置分离;命名体系的规则应该公开和明确,一般应遵从IEFT/URI体系;如果资源系统因为技术和其他原因不能遵循公共命名体系及其解析系统,应建立和公布内容数字对象标志规则,以便多个唯一标识符系统间能够进行互操作,等等。

4.6.2.2 数字对象描述(元数据)的应用原则

元数据作为描述数字对象的数据,是所有信息资源建设项目的重要基础,因此必须规定描述数字对象的原则和基本方法,或者在具体范围内规定实际应用的元数据的标准与规范。

(1)任何希望提供公共、长期和可靠服务的数字图书馆都应该编制关于数字对象的元数据。

(2)应尽量采用标准或通用的元数据格式。当然,由于实际上很难有任何一种格式能够满足所有需要,目前许多领域开始探索建设开放的元数据体系,以实现不同元数据之间的转换、共享和互操作。

(3)所使用的元数据格式应适用于具体的资源类型和应用要求。如OhioLINK规定了它的Digital Media Center的资源描述格式[90]:一般科学与技术资料、人文科学资料、档案资料、音乐资料采用DC;生命科学和医学资源采用基于DC的扩展格式;地理信息资源采用FGCD/CSDGM格式;艺术与建筑资源采用VRA Core格式,等等。

(4)元数据内容描述应使用标准的内容编码体系,包括主题或分类词表、资源类型、语种、国别或地区、时间等,以确保描述内容的可交换性。例如英国e-GMF规定将建立一个全国性的跨部门词表(UKPan-Government Thesaurus),澳大利亚AGLS也要求采用统一政府词表。

4.6.2.3 数字馆藏及其组织过程的描述标准

信息资源采集处理完毕以后,还必须按照一定的主题、资源类型、用户范围、生成过程、使用管理范围等将它们组织成可供实际使用的数字信息馆藏(Collections)。对组织过程以及数字馆藏的描述是元数据体系的一个有机组成部分,其标准和规范包括以下几个层次:

首先,是关于数字信息馆藏本身的描述规范。这种元数据记录涉及资源内容、资源建设者与管理者、资源使用与管理条件、与其他数字馆藏的关系等方面的内容,支持用户或用户代理自动发现、选择和使用所需要的资源集合,是大范围资源建设体系的基础。

其次,是关于数字信息馆藏组织机制的描述规范。这些机制包括类别组织、频道划分、模块集合或者是复杂的知识组织系统(包括分类法、主题词表、Site Map、Information Architecture,Ontologies等)。这一类型的元数据可以是文本、结构化文本、规范格式和计算机可读形式,支持对数字馆藏知识组织体系的自动识别、解析、集成、定制和检索。

再次,是关于数字馆藏管理机制的描述规范。这一类型的元数据包括对资源选择标准、资源使用政策、知识产权管理政策、隐私保护政策、资源长期保存政策等方面及其实施机制的描述。这些元数据支持用户和其他系统有效地发现、灵活地选择和利用相应的信息系统,支持信息系统自动配置、灵活定制、动态修改和规范管理有关管理机制,其发展趋势是构建规范的、结构化的和计算机可读的管理机制元数据。

最后,是关于资源组织建设过程、原则、方法及相应标准规范的描述。尽管这一层次的描述难于归入传统的元数据体系,但是它对形成资源建设规范、指导信息资源建设具有十分重要的意义。

4.6.3 数字图书馆的信息组织结构

数字图书馆的信息组织结构包含两层含义:第一,数字对象的组织结构。数字对象是数字仓储中表示信息的基本逻辑单位,如一篇文章、一张图片、一部音乐作品或是一段影像。数字对象的信息结构是数字图书馆的基本问题,它决定着进一步的信息组织、处理和利用方式。第二,分布式信息资源的宏观组织结构,也就是数字图书馆馆藏本身的组织结构。数字图书馆的收藏可以特指本地的信息仓储,也可以是互联的信息仓储的集合。数字图书馆应建立一个统一的、互操作的、可扩展的组织框架,将分布互联的信息仓储集成为一个整体,在此基础上提供高质量的信息服务,如屏蔽各仓储的差异,提供统一的服务接口、语义化检索、智能代理等。以下主要探讨上述第二种组织结构。

数字图书馆必须能够灵活、方便地组织任何以数字形式表现的信息,为此,它采用数字对象系统、句柄系统、仓储系统和索引服务系统作为基本构件。其中数字对象存储在仓储中用句柄来标识;存储在数字对象中的信息称为内容,内容被分成数据,关于数据的信息叫做属性或称为元数据。

(1)数字对象系统。数字图书馆基础结构中的内容以数字对象作为基本实体进行存储、访问、发送和管理。一个数字对象是一个数据结构,它主要包括数字材料(或数据)、元数据和句柄。其中句柄是该数据的唯一标识符。

(2)句柄系统(名录服务系统)。句柄系统提供标志数字信息资源的分布式目录服务,其核心是句柄(handle)。句柄是数据的重要替代信息,其基本原理是赋予每一个数字化信息资源一个永久的、唯一的名称(URN);资源位置发生改变时,句柄不改变,因而资源名字是永久性的。每一个句柄由两部分组成:第一部分是命名授权(naming authority)部分,称为前缀;第二部分是唯一的局部名字(local name)部分,称为后缀。前后缀之间用“/”连接起来。句柄的定义如下:

<Handle>=<Naming Authority>“/”<Local Name>

其中命名授权主要是唯一标志管理、建立和拥有数字化信息对象的单位;局部名字则是前缀所代表的单位赋予数字对象的系统唯一的标识符。局部名字往往可以和系统内部指针联系起来。整个句柄系统则采用层次服务模型,顶层是一个全局句柄注册系统,底层是多个句柄服务系统,它们共同负责数据名字的创建、解析和管理。

(3)仓储服务系统。仓储是一种可通过网络访问的存储系统,相当于数字图书馆的“书架”。通过向相应的仓储发送服务请求,可以存取和检索其中存储的数字对象。仓储除了包含数字对象,也包含了其他相关信息、服务和管理信息。仓储具有一个正式的、唯一的名称,由一个全局命名许可系统(Global Naming Authority)分配和批准。

仓储的实现采用3层结构。其中仓储外壳是仓储与外界的接口部分,它根据仓储访问协议(RAP)实现数字对象的内外格式转换,并管理用户权限和访问许可;对象管理层是在永久存储层所提供的服务和仓储外壳层所提供的界面之间的一种接口,它同时提供数字对象及其所在位置之间的映射;永久存储层永久存储仓储中的信息。

(4)索引服务系统。索引服务系统是数字图书馆信息基础结构的一个重要组成部分,其任务是进行资源发现,从而使用户能够方便地从数字图书馆的馆藏中寻找和发现所需的对象。索引服务系统的工作原理是:索引服务器收集关于数字对象的信息,这些信息可以是数字对象的替代信息如传统图书馆的编目记录,或者是对象的全部内容如全文搜索引擎使用的全文信息,并将之组织成结构化的索引。当用户向索引服务器提交查询式以后,系统返回含有与查询式匹配的数字对象的URN的结果集,然后客户或代理将这些URN提交至名录服务器以访问相应的数字对象。

在分布式数字对象系统的体系结构中,一个拥有数字材料的用户要使该材料供系统使用,首先应将数据放入数字对象,再请求从句柄生成器获得一个句柄,随后将数字对象存入一个或多个仓储中为他人所用。把数字对象存入仓储时,应在一个全局句柄注册系统注册句柄和仓储的名称。这样,用户就可以通过向句柄服务器提交一个句柄而获得存放相应数字对象的网络名称或仓储地址

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈