首页 理论教育 数字档案馆建设的其他相关问题

数字档案馆建设的其他相关问题

时间:2022-02-28 理论教育 版权反馈
【摘要】:数字档案馆是一个海量、异构的多媒体信息库。在网络分布式环境下,为实现馆际数字档案馆系统的互联互通,保障数字档案馆建设的可持续发展,数字档案馆应建设成为一个开放性、可扩展的信息系统。元数据在数字档案馆建设中的作用主要体现在:保障电子文档的真实性、完整性和有效性;有助于对电子文档信息的组织、维护、检索;有助于异构平台和不同类型数据的整合和共享。

数字档案馆建设是对现代信息和网络技术的全面应用,涵盖了档案管理业务的各个方面,其中涉及数字化信息生成、数字档案的标识和存储、数据自动分类和智能化信息检索、数字档案信息的长久保存和安全、系统构架设计等多个方面。这些问题能否顺利解决,直接关系数字档案馆建设的成败和效益。

1.数字化生成技术

数字化生成技术包括信息扫描技术、文字识别技术、图像处理技术、音视频转换技术、多媒体压缩技术等。它们为数字档案馆建设中海量馆藏档案资料的数字化转换提供了技术支撑,使人们能够方便快捷地将各种模拟信息转换为数字信息,为后面的数字化加工、处理和成果利用提供了基础。

2.智能检索技术

智能化的信息检索和自动分类技术,是数字档案资源开发利用工作中的重要一环。智能化信息检索技术包括自动分类检索、关键词检索、全文检索、多媒体检索等。综合应用这些技术,可以提高数字档案资源的查全率和查准率,使用户非常方便、快捷地找到所需要的档案信息,提高工作效率和质量。

3.中间件技术和集群技术

数字档案馆是一个集多种技术于一体的复杂系统,运行于分布式的应用环境中,包括异构的操作系统、硬件平台、通信协议、数据库和各式各样的开发工具等,组成结构极为复杂多变。为保护已有投资,保障数字档案馆系统的安全、稳定运行,并保障数字档案馆系统的可扩展性,采用中间件和集群技术是一个比较好的选择。如通过中间件技术可以解决分布式应用环境中的异构和分布式通信问题;采用集群技术可以保障系统的安全、可靠运行,在发生故障时把损失减到最小。

4.海量数据存储和检索技术

高容量、高性能的存储技术是数字档案馆海量数据存储、管理的基础,是数字档案馆的关键技术之一。数字档案馆是一个海量、异构的多媒体信息库。信息种类多而复杂多变,不同类型的数据具有不同的管理要求,要解决海量数字档案资源的存储问题,一般可以通过两种方法,一方面是采用高性能、高压缩比的数据压缩技术,并借助网络流媒体、缓冲加载、点对点传输(P2P)等传输技术,实现大容量多媒体数据的网络在线浏览和观看。另一方面是开发容量大、性能好的在线和离线存储介质,采用先进的存储构架和并发检索技术,对海量档案信息进行有序存储、管理和利用,如采用大容量的磁盘阵列、光盘库磁带库技术等。

5.异构系统的互操作技术

在网络分布式环境下,为实现馆际数字档案馆系统的互联互通,保障数字档案馆建设的可持续发展,数字档案馆应建设成为一个开放性、可扩展的信息系统。基于XML技术的Web Services是一种新兴的异构系统通信模型技术,它是在现有各种异构平台的基础上构建一个通用的与平台无关,语言无关的技术层,各种不同平台之上的应用依靠这个技术层来实现彼此的连接和集成,这种松散的互操作方式正适合广义数字档案馆群之间的互联,也是解决数字档案馆系统和电子政务等外部异构平台互操作的有效技术解决方案

然而由于计算机技术迅速变化的特性以及数字存储媒体寿命的短暂性,致使人类在长期保存已经形成或即将形成的各种数字信息时面临着巨大的挑战。要实现数字信息的长久保存,主要应解决好数字信息的可读性、可用性、可理解性、完整性和真实性问题。发达国家早在20世纪90年代初就对数字信息长期保存进行了大量的研究。1999年成立的永久保护电子文件真实性国际研究项目(简称InterPARES)由包括美国、英国、加拿大、中国等10余个国家的档案馆以及一些大学和研究机构共同参与研究,其主要目标是“建立一整套的理论和方法,为永久保护电子文件及其真实性提供模型构建方针、策略和元数据标准,确保电子文件及其真实性的永久保存”(电子文件的保存格式及要求详见第四章)。目前实现数字信息长期保存的技术措施主要有更新、技术典藏、模拟和迁移等方式。具体保存策略如下图示例(表5-3):

表5-3 数字信息长期保存策略

当然,要实现数字档案资源的长久保存,还应高度重视应用系统开放性设计和数字档案资源格式的标准化、规范化问题。特别是在电子文件接收、档案资源数字化和文件格式迁移等工作中,应高度重视数字档案资源的文件格式选择、数据封装和元数据标准等问题。

要对数字档案馆的海量数字化信息资源进行有效的存储、组织管理和检索利用,必须对数字化文档信息按照标准格式进行详细的描述、著录和标引,建立元数据库。元数据在数字档案馆建设中的作用主要体现在:保障电子文档的真实性、完整性和有效性;有助于对电子文档信息的组织、维护、检索;有助于异构平台和不同类型数据的整合和共享。

编制元数据时,应合理选择元数据的编码语言。目前常见的元数据编码语言有XML(可扩展标记语言)、SGML(标准通用标记语言)等。如目前在国际档案界应用较广泛的EAD标准就采用了SGML描述语言,而最近出台的元数据标准中则大都改用SGML的简化子集——XML来描述。XML标记语言具有使用简单、便于计算机处理等优点,在大多数操作系统平台上得到了支持,已成为事实上的元数据标准编码语言,同样适用于档案元数据描述语言。

元数据生成后,为便于实时维护,应对元数据和其对应的对象数据进行封装。封装有打包封装、分离存储、混合式存储三种方式。在数字档案馆建设中,一般采用分离存储或混合式存储的方式,即将元数据存储在广义数字档案馆的统一元数据库中,而将对象数据(或一些利用率不高的对象数据)分散存储在各个体档案馆,这样既可通过网络实现一站式检索,又可通过元数据中记录的资源位置统一标识码进行调度和提供对象数据服务。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈