首页 理论教育 信息资源数字化研究进展

信息资源数字化研究进展

时间:2022-03-04 理论教育 版权反馈
【摘要】:由于篇幅所限,本文仅结合其中的5个重要阶段,对信息资源数字化的一些领域的理论研究与实践进展进行一些探索。数字化目标在于实现对信息资源的长期有效保存,这一命题是信息资源数字化项目的一个讨论热点。但遗憾的是,到目前为止,还没有一个被广泛接受的标准。然而,在实践上,图书馆将信息资源的数字版作为其长久保存的策略的确非常令人担忧,因为长期维护数字资源还有很多重要问题有待解决。

信息资源数字化研究进展

臧国全

(武汉大学信息管理系 武汉 430072)

(郑州大学信息管理系 郑州 450052)

【摘要】信息资源数字化项目是一项比较复杂的系统工程,其生命周期中的主要阶段有项目规划、数字化内容选择、数字化准备、数字保存和有关标准框架等。本文从下述角度勾画了这类项目国内外理论研究与实践进展:项目规划目标与规划内容、数字化内容选择的理论探讨与实践应用、数字化生产的软硬件与环境准备、数字资源长期保存现状考察与分析、数字迁移风险分析与评估、数字保存系统认证模型与实施、数字化项目标准等级与框架。

【关键词】信息资源数字化 数字图书馆 数字保存

Situation of Research on Information Resources Digitization

Zang Guo-quan

Department of Information Management of Zhengzhou University,Zhengzhou,P.R.China,450052

【Abstract】Information resources digitization is a complicated sys-temic project,which’s life circle includes several steps such like project programming,digital content selection,digitization preparation,digital preservation and standard framework etc.The following aspects are discussed in this paper to describe the theory and the practice on the project:the aim and items of project planning;the theoretical discussion and practical application of digitization selection;the preparation for software,hardware and environment of digital production;the analysis for long-term digital preservation based on survey;analysis and evaluation for digital migration risk;model and implement of digital repository certification;standard class and framework for digitization project.

【Key words】Information resources digitization Digital library Digital preservation

目前,从事信息资源数字化的实体主要有两大类:商业性企业(如Google、中国学术期刊电子杂志社等)和图书情报机构。两者既有相似之处,又存在诸多差异。本文的研究界定在后者,同时包括前者的成功经验对后者应用的探索。

信息资源数字化项目是一项比较复杂的系统工程,其生命周期主要包括项目规划、数字化内容选择、数字化准备、数字化生产、数字保存、元数据析取、数字资源发布、知识产权管理、项目管理和有关标准框架等阶段。由于篇幅所限,本文仅结合其中的5个重要阶段(项目规划、数字化内容选择、数字化准备、数字保存和有关标准框架),对信息资源数字化的一些领域的理论研究与实践进展进行一些探索。

1 项目规划

信息资源数字化的第一步工作就是对项目进行规划,项目规划的目的是明晰下述5个典型问题:做什么,谁来做,在哪里做,什么时间做和如何做。可通过确定项目目标、组合人力资源、调研相似项目和分析项目实施风险等来实现。

1.1 项目目标

每一个数字化项目都有其自己的明确目标,通常情况下,这个目标有两大范畴:其一是将图书馆馆藏中具有较高价值的文献资源数字化后通过因特网向公众提供浏览,以实现文献本身的传播价值,也即数字存取;其二是保护易碎载体资源,即数字保存。项目目标与数字化项目生命周期的各个阶段都有直接关系。因此,确定项目目标是整个项目实施的关键环节。

项目目标的确定应遵循的基本原则有:项目目标必须具体、明确,并具有可操作性;与图书馆可用资源相比,项目目标应具有现实性;在多馆合作的数字化项目中,项目的目标应体现各参与馆的价值。(1)

1.1.1 项目目标之一:数字保存

数字化目标在于实现对信息资源的长期有效保存,这一命题是信息资源数字化项目的一个讨论热点。基于这一命题,业界强烈建议构建一个用于数字对象(尤其是数字扫描所生成的数字图像)生产的质量标准,以满足其长期保存的要求。但遗憾的是,到目前为止,还没有一个被广泛接受的标准。提出这个命题的基本理由在于:数字化项目生产的数字主文档以及由该主文档所派生的各种完整副本是原始信息资源的复制,理论上讲保留了原始资源中所有重要信息,只不过是载体不同而已,并且可以通过对它们的存储介质和文件格式进行适当的迁移和对它们的信息内容进行必要的修复和备份,就可以达到永久保存的目的。

然而,在实践上,图书馆将信息资源的数字版作为其长久保存的策略的确非常令人担忧,因为长期维护数字资源还有很多重要问题有待解决。计算机软硬件和文件格式的不断发展,使得对过去的数字资源难以有效存取,即使用于数字资源保存的硬件和存储介质完整无缺,但其存取技术的过时也不可避免。目前所采用的两种数字资源维护策略(数字迁移和仿真),还没有非常充足的实例能够证明其对数字资源长期存取的有效性,因为在这个过程中涉及很多未知变量。

数字迁移法(migration)也可称格式转换法,着眼于数字资源本身,保证软件与硬件的发展不影响其存取。这就要通过改变或更新数字资源的文档格式,使其适应新的软件和硬件环境,其目的在于使用户采用当前软硬件有效地访问和浏览过去的数字资源。使用这种方法,当数字资源的文件格式出现过时危机时,就将其转化为新的文件格式。例如,如果技术发展表明PDF 1.1版本将很快不能存取,所有用该格式保存的数字资源就要被转化为新的版本格式(如PDF 1.4版本格式)。这样,数字资源就进入了下一个可被访问的生命周期,直到PDF 1.4版本格式出现不可存取危机为止。这时,就要再进行下一个数据迁移过程。迁移法的最大优点在于数字资源总是以能够被普遍接受的格式为人们所使用,现行的硬件与软件能够毫无障碍地访问数字资源,且可以被复制。迁移法的主要缺点有三:其一是在格式转化过程中,数字资源的一些样式(layout)甚至一些数据将会丢失。如果数字资源的原始样式需要重点保存,迁移法或许不是最好的选择。其二是迁移法的操作对象是数字资源集合中的单件资源,如果数字资源集合庞大,转化过程很长,工作量很大。其三是如果数字资源的文件格式已作废或所用的转换工具不再有效,那么采用这种方法进行格式转换就不可行。(2)因此,采用数据迁移策略时,必须不断地开发并运行转换程序,以免数字资源的格式过时。

仿真法(emulation)也可称环境改变法,这并不改变数字资源本身,而是改变数字资源所在的环境,其目的是构建一个采用新的软硬件技术访问原格式数字资源的环境。仿真法的采用不改变数字资源的文件格式,也不改变用于数字资源访问的软件或浏览器,但要提供采用原来浏览软件来浏览原始格式数字资源的一个工具,这个工具称为仿真工具。仿真工具在新的环境下工作,使原来的浏览器和原来的工作平台适应新的环境。仿真法的最大优点在于保持数字资源的外观(look-feel),比如,保存书籍时,其真实的外观就可以长久被保存。但仿真法的一个最大缺点是开发和维护这种仿真工具是非常复杂的,也是很困难的,成本也是非常高的。在实际应用中,要维护多个仿真工具,但即使这样也很难确保这些工具对未来计算机平台的有效性。

无论采取哪种方法,业界已经证实,数字资源的维护成本是非常昂贵的(3)。在迁移法实施过程中,有很多转换工具都可以用来实现数字资源的格式转换,并且这种转换过程相对来说比较简单,甚至很多转换工具也是免费的,但其费用与要转换的数字资源集合的规模有直接关系,另外随着技术的快速更新,格式转换之间的周期也越来越短。所以,数字资源集合的规模越大,每次格式转化的对象就越多,所需费用就越多;格式转换周期越短,所需费用也越多。仿真法所需费用虽然与数字资源的规模没有关系,但仿真工具的开发、维护和使用费用都是非常高的。

然而,数字化有助于信息资源的保存是不容置疑的,因为至少可以减少用户对原始资源载体的操作。对珍稀和高价值信息资源的周而复始的访问所导致的对其载体的破坏是众所周知的,这些资源的管理者不断探索限制其访问的方法。更糟糕的是,如果原始资源载体被损坏到难以修复的程度,就可能不再用于公共访问,而仅将之用于科研需要,甚至完全限制任何场合的使用。很明显,对这类信息资源进行数字化而产生的高分辨率数字图像可以替代原始信息资源,为广大用户提供了对其存取和浏览的另一种途径,避免了对原始信息资源的操作,从而也保护了这些资源载体。正如数字图书馆专家P.Noerr所说:“物理性的操作对易损信息资源载体最具有破坏性,保存这些资源载体的最好方法之一就是限制物理性的访问。这也是创建数字图书馆的最主要原因之一。”(4)

但是,尽管这样也不能否认一个基本事实,就是原始信息资源的任何替代品(无论是数字化格式的还是微缩格式的)都仅仅是替代品,而不能完全取代原始资源。数字化文件和微缩胶片不能永久地保存原始资源内容。所以,信息资源数字化不能替代乃至否定图书馆为长久保存原始信息资源而进行的不懈努力。

1.1.2 胶片的应用

在数字化过程中胶片的使用是众所周知的。许多时候,数字资源是通过对现存胶片的扫描来实现的,比如,牛津大学图书馆在对其馆藏的西方手稿进行数字化时就采用这种方式。理由很简单,无论是图书馆自己实施数字化项目还是外包实施数字化项目,对微缩胶片进行数字扫描要比直接对原始信息资源进行数字扫描要便宜得多。但这里存在着一个问题,微缩胶片的质量是否能够达到足够的标准?从微缩胶片获取的数字图像是否能够满足用户的需求?

但是,如果要被数字化的信息资源还没有胶片这种替代品,特别是对那些需要保护而进行数字扫描的信息资源来说,问题就很难办了。目前已经证实,如果环境合适,微缩胶片是保存信息资源的最佳方式。如果将胶片存储在标准化环境中,它可以保存几百年,但数字文件保存期限具有很强的不确定性,尽管可以投入昂贵的维护费用以及数据格式的迁移费用来延长其存取时间。

1997年,Alan Howell在全面普查报刊数字化项目后,认为:“保存报刊信息资源的最有效方式是采用微缩胶片。纸质报刊的寿命在25年到100年之间,取决于它们的柔韧度、使用情况以及所存放的环境。如果将这些信息资源拍摄为胶片,以35毫米的聚脂卤化银为介质,按照国际标准进行相关处理,存储在可控制的环境中,这样,胶片就可以存放几百年。这时,胶片就可以作为保存主体,对胶片进行扫描就可生成数字图像。”(5)并由此得出结论:信息资源胶片化也许是一种最重要的信息资源保存策略。随着胶片视觉效果的改进以及为便于对其数字化而出台的一系列相关标准,这个结论就更加可信了。

美国耶鲁大学图书馆的“开放图书”数字化项目认为:众多图书馆公认,微缩胶片是一种优秀的长期存储信息内容的载体的主要原因在于其具有寿命长和技术成本低的特征。可是,微缩胶片的线性特征使其难以存取,从而导致对其浏览和阅读的麻烦,且需要特殊设备的支持,不易做到对内容进行结构化组织和利用,也不能生成高质量的印刷品。(6)

用胶片记录黑白/灰度图像更清楚些。而由于彩色图像呈现出更多的维度,这就使得胶片上的彩色图像消退更快,每隔24年就需要更新一次,不过,技术的进步已经使彩色胶片寿命得到了大幅度延长。实际上,胶片的维护频率非常低,几十年不更新是很常见的事,即使错过了一个更新周期也无关大局。与胶片形成鲜明对比的是,数字资源的更新和迁移周期一般为3年至5年,如果错过了这个周期,就会导致数字图像的灾难性破坏。如果将印刷型信息资源载体的酸性腐蚀称为“慢速损坏”,那么,数字信息资源的过时可被称为“快速损坏”。在信息资源数字化领域中,使用胶片的方法有两种,正如哥伦比亚州大学的“数字图像技术项目”中所介绍的,“可以直接对信息资源载体本身进行数字扫描,也可以先将信息资源拍摄成胶片,然后再对胶片进行扫描。胶片可以是常见的35mm幻灯片,4×5的幻灯片,微缩胶片和单帧胶片。如果对胶片进行正确保存,可以作为保存信息资源的替代品。胶片的质量对数字图像的质量有着直接影响。如果胶片是劣质的、有划伤的、有消退的或是聚焦不准的,对它扫描得到的数字图像必然质量较差。如果胶片是优质的,扫描就会得到质量较好的数字图像。尽可能使用照相底片。每对幻灯片或其他类型的胶片进行一次信息转储,就会使原本信息丢失一些细节和分辨率,扫描得到的数字图像的质量就会差一些”。(7)

这里,一个关键问题是:是应该先制成微缩胶片,然后再从胶片获得数字图像,还是直接生成数字图像,然后再由数字图像输出胶片?不同的数字化项目的做法也不尽一样。美国耶鲁大学图书馆的数字化项目是先制作成胶片,然后再对胶片进行扫描生成数字图像。而美国康乃尔大学图书馆则相反,它所实施的“微缩胶片计算机输出(COM)”项目是先进行数字扫描生成数字图像,然后再由数字图像输出胶片。COM项目对这两种方案所生成的数字图像质量、胶片质量和所需费用比较研究后,得出的结论是:(1)先数字扫描再输出胶片的方式所产生的微缩胶片的质量较高,甚至超过了ANSI/AIIM的标准,并且如果对原始资源的数字扫描进行有效的质量控制,所得到数字图像的质量也高。(2)这种方式的整体费用也较低。(3)从整个数字化流程的系统角度来看,采用这种方法从原始文献到生成可存取的数字图像只涉及一个步骤。(8)

然而,这并不是说COM项目的方案是最佳的选择。实际上,选择哪种方案,要具体结合原始文献的特征、项目实施机构的能力以及对数字图像和相关服务的要求等。例如,澳大利亚的Ferguson数字化项目(9),最初不能确定是采用康乃尔大学图书馆COM项目方案(先数字扫描,再输出胶片),还是采用耶鲁大学图书馆的“开放图书项目”方案(先拍摄成胶片,再将胶片扫描成为数字图像),在对自己的实际情况考察研究后,他们采用了后者。

针对康乃尔大学的COM项目和耶鲁大学“开放图书项目”的不同做法,最近Chapman,Conway和Kenney三人对“用于易损书籍的未来保存的复合方法(数字图像与胶片相结合)”进行研究。其结论是:(1)尽管不少人认为数字信息将取代微缩胶片,数字图像虽然可以提高用户对其的访问量,但还不能确保其永久保存;(2)数字资源的昂贵保存费用在可被广泛接受之前,微缩胶片作为保存介质仍然是一种最佳的选择。(10)

1.1.3 项目目标之二:数字存取

数字资源虽然需要不断投资实现长期保存,但是它的一个效用已被广泛认同,即便于用户存取。数字资源的广泛传播很容易实现,可通过Web或FTP方式,且对其浏览也不需要昂贵设备支持。

因此,信息资源数字化工作绝对不是一个短期行为。Chapman和Kenney的观点已得到广泛认可(11),即数字资源的生产和选择是长期为用户服务的,只有这样,数字化生产和维护的投资才会有经济上的可行性。

数字化能够提高对其内容的分析能力,可以对数字对象进行编辑和合并等操作,而这个过程对原始信息资源将不会产生任何破坏。研究人员可以采用诸如图像分析处理软件等工具对数字文件进行各种分析,这同样对原始信息资源不会产生任何影响。然而,访问量的增加是有利有弊的,数字资源的可广泛获取性(如通过Web)必然导致用户对原始文献的访问需求增多。实际上,早期用户对缩微胶片的广泛访问也证实了这一点。因此,制作高品质的数字图像是非常必要的,因为它可以用来尽可能多地取代实体文献,从而减少用户对原始文献的访问需求。但应该承认,即便制作了最高品质的数字图像,用户对原始文献的访问需求量也不可能降低到零。

由上可知,数字资源的最主要优势在于便于用户访问,但它作为原始文献的一种长期的标准保存方式则存在很多缺陷。不要认为,数字化仅仅是为了满足当前用户需求的一种方式。已经实施的众多的信息资源数字化项目已经得出一条重要经验:数字化主文档只有支持多种形式的输出(如印刷输出、微缩胶片输出、用于传播的副本输出以及其他用途的小型文件输出等),才具有真正的效用价值和实现投资效益的尽可能最大化,不过,这里也有个度的问题,其设置要受具体项目的时间和资金所限。

1.2 项目规划的其他内容

除了确定项目目标外,项目规划阶段涉及的其他内容主要有:

(1)人力资源组合。项目实施之前,所需人力资源必须是可获取的。人力资源不仅包括图书馆中可以抽调的工作人员和外聘人员,还包括项目实施所需的技术和知识,以及相应的软硬件资源等。

人力资源组合应符合下述要求(12):确保有足够的人力资源来实施项目;将人员分配固定到每一项工作中;对项目所需的软硬件知识和技能进行培训;人力资源组合的重点在于构建一个既具有项目实施所需技能又有类似项目实施经验的技术人员核心集体。

(2)相似项目的调研。调研已经实施的类似项目,一方面有助于规划项目实施所需的软硬件,制订合理的生产流程,避免类似项目中的一些失误;另一方面有助于激发项目设计者的新思维,使项目规划更加周密和完善,并且通过与相似项目的比较,比较准确地估算出项目实施的工程量。另外,通过参照其他类似项目,可以确认要实施项目的可行性,从而增强对项目实施结果的自信。

在项目规划初期,相似项目调研的时间越早越好。调研过程中,项目规划小组尽可能地与已实施类似项目的规划人员接触,学习经验,汲取教训。

(3)项目实施风险分析。项目规划的目的在于尽可能地保证项目成功实施。然而,规划本身并不能排除所有风险,所以,构建一个框架体系从而以一种有效的方式来应对不可预见的风险就成为了项目规划的一项任务。

信息资源数字化项目的风险分析至少应包括下述5个方面的内容:①知识产权风险。数字对象通过因特网传播的本身就是对原始文献的再次发布,这期间涉及原始文献的知识产权问题,其中的风险分析有:对一些没有经过许可而进行数字化发布的文献资源的后果是什么;如果的确发生了侵权行为,对项目的影响是什么。②可靠性风险。对一些公共信息资源,其法律价值是非常重要的,采取什么方法确保信息资源来源的可靠性。③真实性风险。采取什么方法和使用什么工具确保数字化后的内容与原始资源的一致性。④资金保障风险。项目实施的资金保障对项目达到预期目的来说同样存在着潜在风险。如果在项目实施过程中出现了资金保障问题,对项目的影响有哪些,应对方案是什么。⑤技术人员风险。雇佣技术人员或有经验的人员是否可行,如果不可行,对项目的实施计划的影响有哪些。

2 数字化内容选择

信息资源数字化内容选择是依据确定的标准进行相符性判断,将符合条件的原始资源遴选出来,继而进行数字化加工的一个过程。良好的选择原则有助于确保以尽可能低的成本将最重要和最有用的信息资源进行数字化,避免知识产权纠纷,产生良好的社会效益和尽可能高的投资回报。

数字化内容选择的原因有很多,概括起来主要有(13):(1)Web访问的需要。数字化的产品是通过网络被广大用户存取利用,而网络用户组成非常复杂,一些非法用户可能会对数字资源以及通过数字资源访问的原始资源的安全构成威胁。(2)解决数字化生产高成本和图书馆经费有限性之间矛盾的需要。几乎没有图书馆有充足的资源来对整个馆藏进行数字化,内容选择不可避免。(3)数字资源管理的需要。技术的快速发展使数字化项目所生成的数字资源的生命周期越来越短,投入巨资进行数字迁移是延长数字资源生命的一个重要途径,昂贵的维护成本就必须考虑数字化的内容选择。(4)产权保护的需要。图书馆对绝大多数馆藏都缺乏产权的拥有,只能选择那些能够得到产权许可的馆藏进行数字化。(5)特殊文献的考虑。图书馆大多收藏一些对文化伦理乃至民族情感很敏感的信息资源,对这些资源进行数字化就要考虑很多因素。(6)残缺文献处理成本的考虑。图书馆馆藏文献中有一部分是残缺不全的,对这些文献进行数字化之前就要进行补缺或相应的说明,其费用是非常可观的。(7)图书馆信誉的需要。图书馆作为责任机构,要对所数字化且发布的信息资源的可靠性和准确性负责。

2.1 数字化内容选择的理论研究

一些学者已对数字化内容的选择原则进行过探讨。1997年,JISC/NPO在数字资源长期保存的研究报告中得出的结论是(14),为了数字保存的需要,制定数字化内容选择原则可以根据原始文献的类型,由图书馆的不同部门来完成,数字化内容选择的基本原则应该是原始文献的永久价值,用于印刷型信息资源的选择标准可以作为数字化内容选择的参考。英国数字图书馆专家Beagrie和Greenstein认为(15),数字化内容的选择过程包含在整个数字化的方针框架之内。英国艾塞克斯大学数字档案项目最近的调查表明(16):数字化内容的选择过程可以归纳为一系列困难的选择,包括如何预测信息资源的未来价值,如何确定不断更新的信息资源的完整性等。美国D.Hazen等人认为(17):数字化内容的选择过程依赖于对整个数字化项目实施过程中的主要阶段的预测,选择原则不仅取决于原始信息资源本身的价值、重要性和特点,而且也取决于数字化过程的质量,比如,如何从原始资源中抓取足够的相关信息,数字资源如何组织、索引、发布和维护。

英国学者Paul Ayris在其论文《数字化内容选择指南》中,将数字化内容的选择原则分为4个范畴(18):评估(Assessment)、收获(Gains)、标准(Standard)和管理(Management),并对每个范畴都设计了5个原则。资源评估方面涉及的原则有用户保障、数字化与馆藏建设方针的一致性、数字化对本地或国家的数字资源的贡献性、业已存在的相应数字资源的评价、数字化的目的(数字保存和数字存取)。数字化收获方面涉及的主要原则有大幅度降低对原始易碎资源载体存取的可能性、增强信息资源的可用性、数字导航的易用性、虚拟资源集合的构建、损坏的原始资源的利用。标准方面涉及的主要原则有数字化采用国家和国际标准、图书馆所支持的各种硬件平台对数字资源的可获取性、获取和使用数字资源浏览软件的容易性、元数据与国际标准的相符性、数字保存的软硬件要求和数据迁移要求等。管理方面涉及的主要原则有:资金的充足性、满足投资者的要求、产权许可的可授权性、图书馆拥有实施数字化项目的专家、与商业企业建立伙伴关系和成本效益。

2005年,Katherine M.Wisser在《数字化指南》一文中,就信息资源数字化内容选择提出了7项原则,分别是:用户保障原则、对图书馆的影响原则、知识控制原则、知识产权原则、数字保存原则、技术可行性原则和价值原则。(19)

2.2 数字化内容选择的实践研究

已经实施的一些著名的信息资源数字化项目制定了供其采用的数字化内容选择原则,这些原则在信息资源数字化建设历程中具有非常重要的影响。

2.2.1 美国国会图书馆信息资源数字化内容选择原则

美国国会图书馆信息资源数字化的一系列项目是实施最早影响最大的项目,在其漫长的实践过程中,逐步形成了一套适合本馆实际的数字化内容选择原则,这些原则包括下述6个方面(20):

(1)价值。应该优先考虑对国家具有重要价值和处于危险保存状态的信息资源。这类信息资源数字版本的传播将对原始资源的保存、安全及减少其手工操作等方面都具有重要意义。

(2)状态。对于那些由于处于损伤、易碎以及存储在不稳定介质上而无法提供服务的信息资源,数字化是一种提供服务的选择。

(3)使用。对于那些用户利用频率高或者检索成本高的信息资源,数字化有利于提高对其访问的方便性,降低检索成本。

(4)原始资源特点。以不同的物理形式存储和具有地方特色的信息资源适合于数字化。

(5)试验型信息资源。有些情况下,用于大规模生产的数字化技术或方法还不存在或不太成熟,就要选择一些类型的信息资源进行试验和测试,从而探讨用于特定类型资源大规模数字化的技术或方法的可行性。

(6)有助于存取。尤其是通过数字化可以大幅度增加存取能力的微缩胶卷和印刷型资源。

2.2.2 哥伦比亚大学图书馆信息资源数字化内容选择原则

哥伦比亚大学图书馆的信息资源数字化项目中内容选择原则有下述6个方面(21):

(1)内容价值原则。信息资源的内容应该有足够的价值以确保未来一段时间内有特定用户群体使用。数字化产品应该对哥伦比亚大学职工及其他相关用户具有直接用途,包括:支持当前的重要活动;对哥伦比亚大学的日常运行具有重要意义;数字化产品应有一个当前活跃的用户群体支持;对哥伦比亚大学图书馆的数字化项目具有宣传价值;即使一些馆藏资源的现实使用率较低,但有理由相信对应的数字化版本可吸引新用户;在合作数字化项目中,一些数字化产品是其他合作伙伴需要的。

(2)价值增值原则。数字资源不仅仅是原始资源的再现,还应该具有价值的增值性。具体体现在:①馆藏资源的潜在增值。数字化对象的一部分分布在不同的机构,通过数字化可以进行在线重组,从而实现虚拟馆藏;有助于一个主题领域的“核心资源”(critical mass)的形成;有助于在线检索;实现分散在不同地方或不同格式的相关信息资源的灵活整合。②强化知识存取。通过数字化产生新的工具来强化知识控制,增强扩大用户检索范围和操作数字化图像和内容的能力,提高本地或惟一资源的广泛传播能力。

(3)知识产权原则。必须根据相应的法律对数字化资源的知识产权进行管理,任何对数字资源存取的可能限制必须通过本单位的现行机制进行有效管理。知识产权管理的因素有:数字化内容属于公共领域的,不存在产权纠纷;哥伦比亚大学对要数字化并进行传播的信息资源要拥有合法的产权;哥伦比亚大学可从产权拥有者获取产权许可;信息资源的私有问题可以被澄清;数字产品的存取可被合理控制。

(4)数字保存原则。数字化内容选择必须有利于原始资源及其产生的数字化文件的保存。数字化生成的替代品应该大幅度降低对易碎载体资源的访问。对于采用其他方式不易使用的馆藏,数字化可提供对其存取的方法。可以保护由于被偷盗和毁损而处于高度危险状态的信息资源。

(5)技术可行性原则。数字化项目首先要评估技术的可行性,包括现行的技术和设备以及软件能否以用户所需的方式对信息资源进行数字化加工、显示和存储。

(6)知识控制原则。数字化内容选择应该体现对原始资源以及数字化版本提供合适的知识控制。信息资源的组织形式适合于在线使用,组织方法合理,有利于析出合适的元数据。

2.2.3 加州大学图书馆信息资源数字化内容选择原则(22)

(1)馆藏发展原则。至少有一个学术机构建议进行数字化的馆藏资源。数字化能够强化信息价值的馆藏资源,如增加信息的流通率,增加信息的功能,增加与相关信息资源的链接能力等。有助于特定主题领域“核心资源”形成的馆藏资源。

(2)保存原则。保存处于危险状态的馆藏资源,如由于高频率使用、馆舍环境差以及物理退化等原因导致资源载体处于濒危状态的馆藏资源;图书馆能够通过刷新和迁移等技术实现数字资源长期维护的馆藏资源;能够基于图书馆的服务方针确保安全数字化的馆藏资源;能够实现信息知识的充分抓取而不造成原始资源损伤的馆藏资源。

(3)存取原则。数字资源能够整合在图书馆现有服务项目之中的馆藏资源;根据图书馆所采用的标准,能够被其所支持的计算机平台和网络所访问的馆藏资源;能够对任何存取限制进行控制的馆藏资源;具有用于文件识别、技术抓取、资源出处、资源之间和资源内部的导航描述所需元数据的馆藏资源。

(4)机构和资助者的原则。满足资助者的利益,与其他数字化项目相协调,数字资源具有市场潜力,或能够与商业化的信息提供者建立伙伴关系,提高图书馆的声誉。

2.2.4 哈佛大学图书馆信息数字化内容选择原则

哈佛大学图书馆设计了用于数字化内容选择的流程图(见表1)(23),任何一件馆藏资源只有满足所有决策内容方能进行数字化。

表1 哈佛大学图书馆数字化内容选择的流程图

img31

2.3 对数字化内容选择原则的思考

不同的数字化项目的内容选择原则可能不尽相同,甚至存在很大差异,但从宏观上讲,图书馆的一般数字化项目的内容选择应该遵从下述原则。

2.3.1 产权保证原则

馆藏资源的产权状态识别与数字化项目实施和数字资源发布所在的国家地区有关,每个国家都有自己的知识产权保护法律。已有学者针对信息资源数字化项目制定了产权状态识别模型,比如,美国北卡罗莱纳州立大学法律图书馆主任Laura N.Gasaway建立并维护的用于图书产权状态识别模型(24),康乃尔大学Peter Hirtle教授构建了用于手稿产权状态的识别模型(25),印地安那州立大学和德克萨斯州立大学的产权管理中心也分别提供了图书馆信息资源产权状态识别框架(26)

馆藏资源的产权归属有三种情况:其一是不存在产权纠纷的资源,这类资源可以自由数字化发布;其二是产权归实施数字化的机构所有,这类资源在进行数字化之前需要单位内部许可;其三是产权归他人所有,这类资源在数字化之前必须得到产权所有者的书面许可。获取版权许可常常意味着要支付版权费,因此要权衡这些资源的价值以及数字化后的潜在效益。

保护产权的方式也要经产权所有者认可。目前数字化项目中保护产权的主要技术有:对每个数字图像添加可视水印或版权戳;给每个数字图像添加不可视水印,这种水印标志可以用来证实数字图像的版权身份,也可用来跟踪这个数字图像在因特网上的传播轨迹。对数字图像加密,并仅把密钥发送给注册用户,这种方法会限制公共存取。将公共浏览的图像限制在低分辨率;将公共存取限制在截取数字图像的一小部分之中,这种方法在一些项目中应用得非常成功;将图像的浏览权仅限定在一些注册或被授权的用户。

2.3.2 原始文献知识价值原则

影响原始信息资源的知识价值因素有很多,但主要包括资源的惟一性、相关价值、对相关主题领域理解的重要性、对相关主题领域覆盖的广度和深度、实用性和准确度、特定主题领域中其他载体记录质量差的信息内容、具有强化项目实施的历史价值以及数字化产品潜在的长期价值等。另外,文献知识价值也可能包括管理价值、艺术价值、证据价值和市场价值。

文献知识价值的判断具有很大程度的主观性,其结果可能因人而异。但尽管如此,知识价值也必须是数字化内容选择的重要原则之一。

2.3.3 用户保障原则

用户保障的本质就是馆藏文献的利用率,理论上讲,信息资源数字化项目应该把有限的资金用在利用率高的资源的数字化上。

但有一些问题需特别关注。其一是要对利用率高的文献的原因进行分析,如果主要用户群体分布在本地,且类似文献又不存在,这类文献的利用率自然可能高,但数字化后发布在网络上,其利用率如何就比较难以判断,因为这时的用户就不仅局限于本地了。其二是文献的利用率有时与文献的知识价值并不一致,有些具有高知识价值的文献由于存放地点和图书馆存取方针的限制或目录的不完整等因素,可能利用率偏低。其三是利用率也会与文献的物理状态有关,一些文献的物理状态限制了用户访问,比如易碎载体的文献、古旧的手稿等。其四是在多馆合作数字化项目中,一些大部头的系列文献分散在各成员单位,对这些文献的访问率可能较低,但数字化后可以形成完整的虚拟馆藏,其访问率可能就会提高。其五是一些技术因素不应该成为阻止一些文献数字化的原因,比如,一些文献的数字化图像的格式或尺寸导致在网上传播速度慢,以至用户难以浏览,但技术的快速发展(如带宽的不断提高)可能在数字化周期之内就能得到解决,另外数字化本身也是促进技术发展的一个重要动因。

2.3.4 原始文献物理特性原则

在数字化内容选择过程中,需要考虑的与原始文献物理特征相关的问题有:原始文献的物理状态是否有利于数字化。其内容是否能被目前的数字化技术完全和充分地抓取。物理材质和形状是否会对数字化过程构成障碍。是否有保存良好的替代品(如微缩胶片)。

最常见的物理材质有一般纸张、牛皮纸、草纸、微缩胶片、光学材料、三维物体、玻璃器皿、记录音频的盒带光盘和磁带、视频等。不同物理材质的文献需要不同的技术进行数字化,比如,一般纸张可以采用数字扫描,但三维物体只能采用数码拍照。物理材质对其内容的充分抓取也有重大影响,比如,一般纸张中内容的抓取要比草纸充分得多。甚至,有些物理材质的内容数字化目前还难以实施。所以,只能选择那些当前技术条件下适合于数字化的载体材质馆藏资源。

载体的物理尺寸也是影响内容选择的一个重要因素。比如,常见扫描设备对大型地图和海报进行数字化很困难,这时,也许对其替代物(如照片)进行扫描是一种较好的选择。

载体的健壮性对数字化内容选择也会产生影响。比如,一些珍贵或易损的资源需要在特殊环境中数字化。牛津大学的“难民研究数字化项目”和耶鲁大学的“开放图书项目”支持资源载体的拆分,以提高数字化设备的吞吐量。健壮性的另一个体现是对数字化处理的特殊要求,如牛津大学的“塞尔特语和中世纪手抄本数字化项目”要求设计一种特殊的保护托架来放置手稿。

2.3.5 数字保存原则

为了保存的需要,数字化内容选择的原则之一是安全数字化(safe digitization),包括原始信息资源的状态允许被完全数字化;数字化实施过程需要搬运原始资源时,其状态适合于搬运;尽可能扫描原始资源的替代品(如照片),从而减少对原始资源的损伤;数字化的产品必须建档,并制定由于时间和技术变化等因素导致的长期维护策略。

数字保存的另一层含义是保护易碎载体的原始资源。数字资源的本身就是原始资源的新版本,可以代替原始资源供用户访问,并由此减少对原始文献的操作从而使原始资源得到保护。

2.3.6 成本效益原则

馆藏文献的数字化成本受众多因素影响。分辨率越高的图像所需的成本也越高,彩色图像的成本要比黑白图像的成本高。数字化生成纯文本文件有助于全文检索,且占用较少的存储空间,但需要OCR识别,并需要大量的人工校对。如果生成带标记的文本文件(如XML文件),虽然有助于各种分析乃至纳入数据库管理,但成本必然增加。成本也取决于数字化过程,比如,单页扫描比装订在一起扫描成本要低,保存状态良好的资源扫描要比保存状态差的资源扫描所需成本低,因为后者需要更多的人工处理。

从效益角度看,受益最大的是用户。另外,数字化也便于图书馆管理人员对馆藏资源的管理,并能更高效地提供服务。

尽可能提高成本效益是数字化内容选择的宗旨。实现相同功能而采用不同方法的成本会有所不同,比如,数字化生成文本文件与生成图像文件,后者加入元数据与图像文件链接,两种方法得到的效果可能差不多,但很明显后者的成本要低些。另外,规模越大的项目单件数字化成本要低,长期保存的费用也会降低。

2.3.7 避免重复数字化原则

对于已有数字化版本的馆藏避免再次数字化是内容选择的一个基本原则。但要考虑已有数字化版本的质量、记录状况和功能是否能够满足用户的需要,以及获取数字化版本的条件。甚至还要评估获取数字化版本与重新数字化两者所需费用。

2.3.8 技术条件限制原则

数字化内容选择将受现有技术条件的限制。与技术条件有关的因素有:数字技术生成的文献数字版与原始文献包含信息的相符程度;数字资源显示在用户终端的质量;图书馆支持的现行平台和网络环境对数字资源的存取能力;数字资源网络传播速度的合理性;对未来用户使用先进设备的预测,以免日后需重新扫描;搜索引擎对图书馆数字资源的索引能力。

另外,还要考虑一些特殊资源数字化的技术可行性。如需要超高分辨率的文献资源、颜色至关重要的原始资源、超大尺寸的资源、三维形态的资源以及易读性很差的资源载体。

3 数字化准备

数字化准备包括数字化工作环境的布置和软硬件系统的安装调试。环境应该适合于数字化的操作,包括光亮度、湿度、震动以及被数字化资源的移动等。硬件安装包括数字化过程所需的扫描仪、数码相机等有关设备,以及连接这些硬件设备的计算机网络基础设施。软件系统包括图像生成软件、过程处理软件、元数据析出软件和质量控制软件等。

3.1 硬件系统准备

典型的硬件系统包括数字图像生产设备(数码相机、扫描仪以及用于胶卷、模拟视频和音频的数字化转换设备等)和连接这些设备的数字化平台(计算机、操作系统、网络等)。其中数码相机和扫描仪是目前采用的两种不同图像生成设备,用于两种不同的生产方式。硬件系统对项目最终产品的质量有着重大影响。因为购置硬件设备投资较大,如果项目周期较短,可以选择租用或使用其他机构的设备,这样可以节约项目经费。

硬件系统的安装和调试应注意的事项有:(1)硬件系统安装完毕后,要对其质量和性能进行测试,可采用对各种样品进行数字化后的图像质量进行评估的方法来调试硬件系统的性能。(2)图像生成设备的分辨率要调到合适程度,这取决于被数字化资源的性质。比如,对于数字化后利用率较低的资源,分辨率应该低一点,但分辨率必须保证数字化过程中能够抓取资源对象的信息细节。如果调高分辨率不能抓取资源中更多信息,那么高分辨率也就失去了意义,因为高分辨率生成的图像要比低分辨率占用更大的存储空间。(3)图像生成设备所生成的图像文件应以无损失或尽可能少损失的格式保存,符合这种要求的典型格式是TIFF。(4)与扫描设备相连的计算机应该配置大容量的存储设备,从而保存数字化生成的图像文件,并应及时备份。(27)

3.2 软件系统准备

由硬件系统生成的数字化文件在使用之前常常需要加工处理,比如颜色需要修整。图像的边沿需要剪切等。另外,生成的主文件的体积常常非常大,需要压缩以便存储和网络发布传播。这些工作都需要相应的软件来完成。

硬件系统常常自带一些软件,但对大多数的数字化项目来说,这些软件具有的性能都是不够的。因此,数字化项目应该视其经费情况采购一些性能较好的软件。

对软件性能的要求取决于项目的目标。应该注意的是,如果不修改数字化生成的主文件,很多软件都可胜任基本操作。但是,这样处理的时间成本加上其他方面的成本常常要远高于性能强的软件购置成本。

软件起码应该具备的功能有:打开大体积的图像文件;修改图像的分辨率和颜色;对一个特定图像文件,能够以不同的体积存储为多种版本;可以选择和复制图像中一部分,并将其作为一个文件来保存;以不同的文件格式进行导出。一些免费软件可以胜任这些功能,但购买商业软件不仅可以保证质量,而且还节约时间,并可获取技术支持。

在需要OCR识别的数字化项目中,OCR软件的选择也是非常重要的。任何OCR软件都允许手工编辑和修改,但不同的OCR软件的编辑和校对性能不一样,因此时间和人力的消耗也有很大差异,所以对各种OCR软件包进行评价是必要的。

3.3 数字化环境准备

许多珍贵资源和易碎载体资源在数字化过程中对环境都有一定的要求。尤其是数字化过程对资源本身导致负面影响的操作,因此环境尤为重要。

设置数字化环境应注意:咨询专家意见,确保原始资源搬移的安全以及数字化环境的适宜;数字化场所应固定,不宜随便更换,因为工作场所的变更或重新布置常常会导致原始资源的损伤、丢失和其他负面影响,并且也会导致时间的浪费;如果原始资源对光亮度和湿度有特殊要求的话,数字化环境就应该尽可能地满足这些特殊的要求。

3.4 原始文献搬运操作

在很多情况下,被数字化的原始文献资源都是非常珍贵的,因此,对搬运过程可能导致的负面影响应该降到最小程度。

在搬运前,咨询长期保管原始资源的工作人员,并将任何搬运的特殊要求输入到数字化项目库中,搬运时,应该查询这个数据库。数字化项目本身应该具有灵活性,对独一无二的原始资源的任何损伤都是无法挽回的,而数字化项目的任何不便都是可以克服的。如果可能,将数字化设备(如数码相机)带到原始资源的存放处进行数字化,这样就避免了搬运操作可能导致的负面作用。

4 数字保存

4.1 数字保存现状分析

数字保存是信息资源数字化项目生命周期中的一个重要阶段,其目的是确保数字资源的长期有效存取。作为数字图书馆建设的前提和基础构造,数字保存多年来一直是学术界一个异常热门的研究主题,图书馆是这类项目的主要实施者。欧美国家是这个领域的领航者,我国则刚刚起步。普查一下国外图书馆的实践现状,就不难发现,在这红火的背后,呈现出太多的危机与困境。国内图书馆的决策者应冷静思考,全面规划方能少走弯路。

4.1.1 国外图书馆高层管理重视不足,数字保存方针制定实施不容乐观

图书馆高层管理对数字保存重视的一个标志是保存方针的制定与实施。很多图书馆在信息资源数字化项目规划阶段没有制定数字资源的长期保存方针,甚至根本没有将数字保存视为数字化项目的一个核心组成。康乃尔大学图书馆调查报告显示(28)(本节下述所有关于康乃尔大学图书馆的调查数据均来自该参考文献),2003~2004年只有26%的图书馆(n82)制定有明确的长期保存方针,2005年上升到63%(n32)。2001年美国数字图书馆联合会调查中,33%的图书馆(n21)制定有数字资源长期保存方针。(29)2002年美国图书馆信息资源协会的调查中,只有6%的图书馆(n67)制定有保存计划。(30)1998年国际研究图书馆集团(RLG)的调查报告显示(31)(本节下述所有关于RLG的调查数据均来自该参考文献),也只有大约50%的图书馆制定有数字资源管理方针,这其中包括数字资源获取和数字化生产指南等。虽然这些调查很不全面,甚至有些调查结果看起来似乎还有点矛盾,但从中完全可以窥视到,缺乏数字保存方针在信息资源数字化项目中普遍存在。

数字资源长期保存方针包括制定、管理决策层审议通过和实施三个环节,康乃尔大学图书馆2003~2005年的调查中虽然平均有35%的图书馆制定了长期保存方针,但其中只有大约1/3通过管理决策层的审议并得到有效实施。

数字资源长期保存方针的内容主要包括图书馆与主要责任机构(数字资源长期保存公司、出版商、原始信息资源的产权拥有者等)就责任和义务达成的书面协议、有关数字资源保存之前进行筛选的指导方针、长期保存质量控制方针、全面详细的数字保存指南、数字迁移计划、适合于被保存数字资源特性的数字保存战略等。2005年康乃尔大学图书馆针对制定并实施长期保存方针的图书馆进行调查,大约有50%的图书馆对上述前三项内容有明确规定,45%的图书馆有保存战略,但有超过49%的图书馆没有数字迁移计划和全面详细的数字保存指南。这表明,在数字保存方针的一些关键方面还没有引起图书馆的高度重视。

4.1.2 数字保存所需资源相对匮乏,长期存取面临困境

图书馆数字资源长期保存项目需要大量资金、人力和技术等资源的持续支持,根据相关调查,这些资源均相对不足,对数字资源的长期存取构成严重威胁。

资金支持缺口甚大,数字保存困难重重。2005年康乃尔大学图书馆的调查中,高达62%的图书馆缺乏可持续的支持数字长期保存所需的资金保障,其中,50%的图书馆依赖于政府的一次性投资或一些机构和个人的随机赞助,12%的图书馆没有任何资金来源。

人力资源保障欠佳,技术与管理专家严重缺乏。在2005年康乃尔大学图书馆的调查中,59%的图书馆配备专业员工负责数字资源的长期保存,但高达41%的图书馆则对此没有固定负责人。技术专家和组织管理专家也是数字资源长期保存的一个重要因素,该调查表明,拥有这两类专家的图书馆分别为78%和57%,很明显,组织管理专家比技术专家更短缺。但在1998年RLG的调查中,严重缺乏数字资源长期保存的组织管理专家和技术专家是非常普遍的现象,只有25%的图书馆声称拥有这两种类型的专家。当然,这些专家都可以通过培训和外部雇佣来获取,在前者的调查中,有44%的图书馆拥有充足的培训技能和计划,34%的图书馆雇佣外部专家。

拥有一批专业员工和高水平的专家队伍是人力资源的主体,但图书馆决策层的强有力的支持则是数字保存项目成功实施的关键。2005年康乃尔大学图书馆的调查显示,有47%的图书馆高层管理决策层将数字资源长期保存视为图书馆的一项重点工作。

技术资源相对乐观。在上述调查中,59%的图书馆拥有充足的软硬件资源来建立和可持续地实施数字资源的长期保存,并可根据需要进行技术更新,只有12%的图书馆技术基础不足。

4.1.3 技术更新严重威胁数字保存,图书馆应对措施相对滞后

数字保存的技术保障主要包括数字文件格式、存储介质、数字文件管理和数字保存系统。

存储格式相对集中,常见格式使用率较高。康乃尔大学图书馆两次调查(2003~2004年,2005年)的结果表明,在常用的11种格式中,只有保存GIS格式文件的图书馆不到一半(45%),其他格式使用率都比较高,超过90%的图书馆保存数字图像格式、PDF格式和Web站点格式,85%的图书馆保存WORD格式以及数据库和电子表格格式,70%的图书馆保存有视频和音频格式。但1998年RLG的调查则比较分散,只有36%的图书馆保存视频格式,55.6%保存WORD格式,50%保存音频格式,38.9%保存视频和38.9%保存电子表格格式。RLG的调查显示,绝大多数图书馆至少保存6种不同格式的数字文件,而康乃尔大学图书馆的调查结果显示至少保存有9种不同格式。

主流介质使用率高,选择方式欠合理。2005年康乃尔大学图书馆调查表明,接近90%的图书馆采用光存储介质和磁性存储介质,85%的图书馆采用在线存储。选择光介质、磁性介质和在线方式保存数字主文档的分别为69%、42%和61%,保存存取副本的分别是63%、15%和69%,保存其他备份的分别是69%、63%和38%。这里,令人惊讶的是有相当一部分图书馆选择了在线方式保存数字主文档和其他备份,甚至还有高达63%的图书馆采用移动存储设备(CD、DVD等)保存存取副本。

数字文件缺乏有效管理,技术支持过时且缺乏相应对策。数字文件管理的内容比较广泛,主要包括:文件备份、存储介质刷新与迁移、存储介质检测、灾难恢复计划、环境控制、存取控制、高质量存储介质选用等。表2是康乃尔大学图书馆2003~2004年和2005年两次调查中拥有这些管理方式的图书馆所占比例。

表2 康乃尔大学图书馆对数字文件管理方式的调查结果

img32

数字资源长期保存的最大威胁来自于文件格式、存储介质以及用于对其存取和使用的软硬件支持的过时。1988年RLG的调查中,41.7%的图书馆缺乏应对这类威胁的操作和技术支持层面上的能力,2005年康乃尔大学的调查中,44%的图书馆遇到同样的问题,并且有28%的图书馆对这个问题没有回答,所以,实际数字可能更高。技术过时管理是数字保存中的一项非常紧迫的工作,然而,在2003~2005年康乃尔大学图书馆的两次调查中,整体上不到一半的图书馆有延长其生命周期的应对措施,详细分项为:40%的图书馆已采取措施避免软件过时,34%已采取措施避免硬件过时,35%已采取措施避免存储驱动过时,53%已采取措施避免存储介质过时,43%已采取措施避免文件格式过时。

数字保存系统(Digital repository)是一个新领域,对数字资源的长期保存有着重要意义。有两个关键文件促进了这个领域的快速发展,其一是“开放档案信息系统参考模型”(OAIS)(32),已于2003年成为国际标准ISO14721,其二是2002年的RLG/OCLC的报告“数字存储信任:特性与职责”(33)。数字保存系统的目的在于不同数字资源数据库的数据共享,实现用户的跨库检索。在2003~2004年和2005年康乃尔大学图书馆的两次调查中,有超过1/3的图书馆已实现某种形式的数字保存仓储,近40%的图书馆正在采用OAIS标准,具体有,25%的图书馆加入数字保存仓储服务联盟,25%的图书馆委托第三方,近80%的图书馆自己开发软件或采用著名的仓储软件Dspace(34)或Fedora(35)实施。

各种调查数据显示,图书馆对数字资源长期保存的重视程度不断提高,究其原因最主要的还在于该问题已经到了无法再回避的地步了。1998年RLG的调查表明,图书馆已经认识到了数字资源的获取与其完善的保存实践息息相关,2003~2005年康乃尔大学图书馆的调查也说明,数字资源的普遍性致使图书馆对其长期存取的关注与日俱增,不少图书馆在方针政策的制定与实施、管理层的重视、所需各种资源的配备与支持、技术基础的准备与优化和长期保存的实践方面都有长足进展。这两次调查结果的最大区别在于,前者将因技术更新导致数字资源的存取过时作为最大威胁,后者已将其列为5个最大影响因素的第4位,但将方针与规划的缺乏列为第1位。康乃尔大学图书馆根据2005年的调查结果,总结出了目前对图书馆数字资源长期保存构成最大威胁的5个因素以及它们的威胁程度(见表3)。

表3 目前对图书馆数字资源长期保存构成最大威胁的5个因素

img33

4.1.4 国内图书馆数字保存应理性思考,全面规划方能长期存取

欧美国家的信息资源数字化开展最早,相应的数字保存项目历史也最悠久,所需各种资源公认为最雄厚,积累的知识和经验也最丰富,但即使这样,目前的状况还令人非常尴尬,这的确是一本很好的教科书,值得我们认真学习与研究。相比之下,国内图书馆的数字保存刚刚起步,目前仅有少数几个文献机构进行研究和试验。因此,国内图书馆这类项目的决策者,应统筹规划,方有可能少走弯路。

(1)规划保存政策,构建国家宏观数字存取战略。国家数字保存政策是国家层面上有效实施数字资源长期保存的管理保证,内容涉及技术、组织、人文、法律、权益管理、知识产权等各方面,还包括国际国内合作、商业运作、相关培训、质量管理和审计策略等。目前国际上已经有许多国家的机构正在制定有关的政策,有的已经实施,有的还在讨论中。美国国会早在2000年就已通过立法建立了国家数字信息基础结构和保存项目(NDIIPP),指定由国会图书馆负责数字资源长期保存国家计划。联合国教科文组织(UNESCO)于2003年也颁布了《保存数字遗产宪章》(36)。数字保存是一个需要持续投资的成本昂贵的项目,缺乏国家层面上数字保存政策的实施结果可能有:缺乏技术规范,致使保存质量难以保障;图书馆背上沉重的经济负担,使得经费本来就异常困难的图书馆雪上加霜;缺乏保存标准,使得各个保存项目之间难以实现数据交换和资源共享,用户的跨库检索更是无法实现。应该承认,一些国家(尤其是发达国家)制定(乃至通过立法形式强制实施)的国家数字保存政策,虽然在实施过程中还存在一些问题,但对整个国家的数字保存的确已经起到了积极的作用。国内一些管理机构正在研究或已经制定出了用于本领域的数字保存政策,如CALIS等,但国家层面上的数字保存政策目前还是一个空白。我国应该参照一些国际组织或欧美国家的做法,尽快制定国家数字保存政策,构建国家宏观数字存取战略。

(2)规划保存框架,构建专业机构外包型管理模式。目前一些国家已经出现了专业机构承担专门领域或专门格式的数字资源长期保存项目,如英国的人文艺术数据服务中心负责社会科学和人文科学的数字资源长期保存,大英图书馆声音文件资料部负责声音文件的保存,荷兰科学信息服务所负责图像文件的长期保存,国际上主要出版商出版发行的电子期刊(e-journals)大多委托给荷兰国家图书馆数字存档系统(e-Depot)进行长期保存。与图书馆自己实施保存相比,专业保存机构保存成本低,且技术过时风险由保存机构承担,图书馆无须配备相应的管理和技术专家。我国图书馆的数字保存项目也可以寻找和委托给相应的专业保存机构实施,这对规模不大的数字保存项目可能更为合适,当然,成熟的可信赖的保存机构的存在是前提,但在市场经济已充分发展的今天,这类机构的诞生是必然的。

(3)规划保存成本,构建可持续的资金支持体系。虽然业界公认,编制一个科学的资金需求计划对数字长期保存项目至关重要,但到目前为止,这类项目的成本构成还没有一个清晰界定,再加上作为成本重头的技术过时维护费用存在着很大的不可预测性和难以精确计量性,使得制定可持续的资金支持计划存在较大风险。从整体上讲,保存成本可分为不变成本和可变成本两大部分,前者主要包括人力资源、软硬件支持、保存所需环境的创建维护以及日常管理等项成本,后者主要包括因技术过时而进行数字迁移或数字仿真所需的费用。不变成本相对比较容易估算,而可变成本不仅与数字资源的规模有关,而且与技术过失的频率和程度相关。欧美国家的数字长期保存费用主要来自于用户使用的收费和一些大财团的赞助,但国内图书馆这类项目可能主要靠行政投资,基于市场机制的数字资源用户有偿服务模式还有待研究,所以,在项目立项初始构建一个可持续的资金支持计划是数字长期保存成功的关键。

(4)规划保存策略,构建可行的应用技术方案。数字保存应用技术方案是实现数字资源长期存取的基础,目前已经出现的方案有数字迁移、数字仿真、环境封装、技术保存等,有些方案在应用中得到了很好的实施,有些还只停留在理论层面。图书馆在规划数字保存应用技术方案时,应遵循的基本原则有:可行性、可持续性、实用性和合理性。数字迁移比较成熟,应用也比较广泛,但成本高,风险大,难以保存数字资源外观。数字仿真技术复杂,目前成熟度差,但数字资源外观可不发生任何改变。环境封装可以保存数字对象上下文的关系,但由于刷新元数据存在困难,且相应软件也停留在开发阶段,因此这种方案实际上还停留在探讨阶段。技术保存又称硬件博物馆,对于大数据量的长期保存实现起来比较困难。应用技术方案的选择是整个数字保存计划的核心,应考虑的因素非常多,但数字资源本身的保存特性是选择技术方案的最重要依据。如果存在多个方案可满足数字保存的需求,就要利用效能分析进行评价,从中选择一个最理想的方案。

4.2 数字迁移风险管理

4.2.1 数字迁移的原因与类型

数字迁移的原因有很多,其中大部分都与文件格式有关。非结构化的或没有格式的文件是一个简单的二进制数据流,软件开发商对数据文件进行结构化,从而允许他们的软件对数据文件进行有效的读写数据操作。随着软件应用越来越复杂,文件格式的种类也快速增长。随着软件的不断进化,新格式或格式的新版本不断地取代已有的格式或版本,这就使得以已过时格式存储的数字资源必须进行不断的迁移,从而确保用户对其存取。具体原因如下(37):

(1)格式过时或市场份额非常小。导致这种现象的原因可能有三:其一是软件开发商退出市场,或改变了商业重点,或停止了对原格式的支持;其二是主导市场的软件开发商已经放弃了这种格式的应用;其三是原格式的灵活度不足以支持新软件机制。

(2)原格式依赖于特定硬件和操作系统,而这个环境被其他操作系统所取代。

(3)格式本身是专有的,开发商又不公开其格式信息。

(4)数字资源管理要求格式简单化。大型数字资源仓库常常包含用于同一应用的不同时期生产的不同格式的数字文档,这种情况下,数字资源仓库为了维护各种版本就必须支付额外的管理和存储费用。

(5)元数据需求的增长。很明显,数字资源的简单描述不足以管理大型数据文件仓库,内嵌型元数据对于当前文件格式的未来版本来说也许是实用的和所需的,复杂的元数据需求可能要求改变元数据文件的格式。

从实施情况来看,数字迁移主要有下述几种类型:

(1)数字文件的日常刷新。若干年前,数字资源从一种存储介质转存到另外一种存储介质是迁移的主要形式。然而,随着存储介质的稳定性和可靠性的提高,目前这种形式的数字迁移越来越少。

(2)当数字文件从一种应用转到另一种应用时,需要改变数字文档的格式。这种迁移形式的一个例子是数字文档从苹果机操作系统的应用转到WINDOWS操作系统的应用。

(3)数字资源格式本身的完全改变。比如,将WORD格式文件转换为ASCII文件。

(4)从数字主文档格式制作副本。一些情况下,数字化主文档不适合于公共存取,这时就要生成适合存取格式的文件副本。如存储的是直接扫描格式TIFF,为了发布和公共存取需要,可能要转换为PDF格式的文件副本。

4.2.2 数字迁移风险分析

作为一种数字资源保存策略,数字迁移的过程和结果都具有不确定性。为了尽可能减少这种不确定性所带来的风险,方法之一是构建一个风险管理框架,该框架将整个迁移过程分解为若干个可描述的且可计量的步骤,风险评估就是将风险分析过程进行结构化的一种方法,如果这种方法描述和使用得当,不同人对数字文件的相同信息进行评估,所得到的风险值应该基本相同。

数字迁移风险主要有三大范畴(38):其一是与数字资源管理相关的风险。这类风险包括缺乏机构支持、资金、系统软硬件以及数字文档管理人员等。这些都是数字资源管理的重要组成部分,数字资源乃至其拥有者都在不同程度上受数字迁移影响,与数字资源有关的法律政策也会增加迁移的风险。其二是与数据文件格式相关的风险。这些包括在迁移过程中容易被修改的文件内部结构要素。其三是与格式转换过程相关的风险。格式转换软件的转换结果可能理想,也可能不理想,转换错误或有或无,或大或小。

如果将上述三大范畴进行细化,数字迁移风险包括的具体内容如下(39):

(1)内容稳定性风险(指二进制数据流的结构)。包括:软件虫、对存储介质误操作和设备机械故障等因素导致二进制数据流的破坏;新的压缩方式所产生的文件格式对二进制数据流配置的改变;文件头信息没有迁移,或迁移不完整,或迁移错误;数字图像的质量(如分辨率、颜色等)受到二进制数据流配置改变的影响;新的文件格式改变了字节顺序等。

(2)安全性风险。格式迁移影响了采用水印和数字戳等加密技术对原始数字资源进行加密的信息。

(3)内容连贯性和完整性风险(与其他相关文件的关系,或与数字环境中诸如软硬件依赖性之间的关系)。包括:由于对不同软硬件的依赖性,浏览和访问新的文件格式需要新的配置;与其他文件的链接(如元数据文件、脚本等)在迁移过程中被改变;由于文件格式组织或新的压缩方法导致新格式的文件体积减小,使存储更密集,并产生潜在的文件目录结构问题;由于新存储介质或操作系统的文件组织协议导致文件存储更密集,影响标签和文件结构等。

(4)参考性风险(在数字图像集合中检索特定数字图像的能力)。包括:由于文件格式的更新和受URL的影响,文件扩展名被改变;迁移活动没有被完整记录,导致来源信息不完整或不精确,这对未来的迁移活动带来潜在问题。

(5)成本风险。包括:数字迁移性质的差异可能导致每个迁移周期涉及不同步骤,因此,长期保存的数字迁移成本具有不可预测性;由于信息资源的价值难以精确衡量,所以,迁移的优先顺序无法设置;迁移成本有时难以精确计算等。

(6)人力资源风险。包括:在整个数字迁移决策过程中,员工的轮换和缺乏连续性导致长期计划难以实施,尤其是在元数据抓取不充分以及缺乏完整迁移过程记录的情况下;员工缺乏足够的技术技能;迁移周期的难以预测性使得人力资源需求规划(如技能、时间、资金等)更加困难等。

(7)功能风险。包括:新文件格式对原文件格式数字资源的一些功能(如打印)产生影响;数字迁移增加或减少原始文件的性能以及需要对检索界面进行修改,如新格式要求对Web界面的支持;新文件格式不支持的原文件格式中一些功能在迁移过程中丢失;原文件格式的一些信息增值在迁移过程中丢失等。

(8)知识产权风险。产权管理限制新格式产生的一些数字资源的应用,如,一些数字资源的产权许可仅仅限定在一定分辨率范围内的图像发布,而新格式生成的图像超出了这个分辨率范围。

4.2.3 数字迁移风险评估与测度

数字迁移过程可用图1表示:

img34

图1 数字迁移过程示意图

这里,转换软件有三种类型:其一是为技术人员一个特定数字迁移项目由编写的程序;其二是为一个特定目的而编写的商业软件,如抽取不同格式原文件中的一些数据生成一个新格式数据文件;其三是大众化商业转换程序,如在苹果机和PC机文件格式之间相互转换的软件。上述每种类型的转换软件各有优缺点,第一种类型针对性强,但开发周期长且费用高,商业性软件虽然成本低廉,但针对性一般来说较差。

转换软件的主要功能在于实现数字资源的格式转换,在实际应用中风险值最高,对这种类型风险进行评估包括下述4个方面(40):

(1)同构数字资源转换过程风险评估。其方法是对比数字文件转换前后的格式属性,关键在于需要知道原始文件格式的所有特征,然后在转换后的新格式文件中寻找这些特征的存在情况。比较过程是由人工进行,虽然非常费时,但最准确。

作为这种评估方法的一个变通,选择具有代表性的测试文件进行格式转换,然后人工计算这些文件转换前后格式属性的吻合情况,并以此为参照点评估整个数字资源集合的转换风险。这种评估方法适合于原始文件的格式是一种类型的数字资源集合。

(2)异构数字资源转换过程风险评估。可以将异构数字资源集合分解为若干个同构数字资源子集合,采用上述方法对每个子集合进行风险评估,再汇总为整个集合的风险值。如果这个数字资源集合包括的文件种类和数量庞大,这种方式费用昂贵又缺乏效率。

另一种方法是采用一个文件阅读器。首先界定每种类型格式文件迁移风险的格式特征,训练文件阅读器完全准确地识别这些特征,然后执行该阅读器遍历检查每个文件迁移前后的特征值。在检查过程中,如果发现目标文件与原文件格式特征值不一致时,就记录下来,记录的内容包括文件的名称、文件的位置、与文件相关的风险特征的类型和数量等。检查一批文件后,将这些记录汇总成报告输出。一个好的文件阅读器应该具有足够的灵活性,能够阅读几乎所有格式的文件,能够识别定义的所有风险特征。

上述两种方法的出发点都是要完全准确地获取文件的格式特征信息,然而由于大多数文件格式都具有专有性,致使获取这类信息非常困难,而这又正是数字迁移风险评估的关键所在。所以,应该提倡文件格式的开放化和标准化。

(3)转换软件风险评估。如果存在多个转换软件供用户选择,且每个软件都能提供主要的乃至全部的核心性能,同时又提供一些可选性能,这时就需要设计一些指标对这些软件进行评估,以便选择出适合于特定数字迁移项目的转换软件。

一个理想的数字迁移软件至少应该具备下述性能:能够分析原文件格式与目标文件格式的差别,能够识别和报告迁移风险的等级,能够精确地将原格式文件迁移到目标格式文件,能够进行单个文件迁移也能够进行成批文件的迁移,能够提供迁移记录等。

(4)元数据风险评估。在对数字资源主文档迁移时,必须考虑相应的元数据迁移。离开元数据,主文档可能就没有任何信息意义。元数据的文件格式可能与主文档的格式完全不同,比如,主文档格式是TIFF,而描述该主文档的元数据文件格式是HTML,如果主文档的名字或地址在迁移过程中发生变化,那么元数据中的相应内容就必须改变,否则,主文档就无法被存取。

数字迁移风险的测度有两个指标:风险概率和风险影响。

Gregory W.Lawrence等人将风险概率分为5个等级(41):非常高(5级,风险概率在26%~99%之间),高(4级,风险概率在11%~25%之间),中(3级,风险概率在6%~10%之间),低(2级,风险概率在1%~5%之间)和非常低(1级,风险概率低于1%)。同样,风险影响也分为5个级别:灾难性(E级,信息完全不可逆转丢失,无法从其他资源中再生成),非常严重(D级,信息部分不可逆转丢失,并且不可能从其他资源中再生成),严重(C级,信息完全丢失,可从其他形式的资源中完全再生成),重大(B级,信息部分丢失,可从其他形式资源中完全再生成)和较小(A级,信息部分或完全丢失,但都可从其他数字文件中复制)。

这样,针对某件特定数字资源进行数字迁移的风险主要有5个等级:5E(风险概率非常高,且导致灾难性影响),3D(风险概率中等,且导致非常严重的影响),2C(风险概率较低,且导致严重影响),1B(风险概率非常低,且导致重大影响),1A(风险概率非常低,且导致较小影响)。以下是一个详细的数字迁移风险测度二维图(42)(见图2):

img35

图2 数字迁移风险决策图

在上图中,如果测度值落在1A-B至2A-B之间,数字迁移风险较小,迁移可进行。如果测度值落在1C-D、2C-D、3A-D、4A-D之间,数字迁移过程风险很高,迁移应该推迟,直到这些风险降低。如果测度值落在1E、2E、3E、4E和5A-E之间,数字迁移应该禁止。

由上可知,数字迁移的风险可以计量,风险值的大小在不同的迁移条件下会有所不同,有时差别可能会很大,产生风险的主要原因在于原文件和目标文件格式特征的差异。可以采用不同方法评估和计量格式特征迁移风险的等级。对大多数文件格式来说,文件的基本结构具有共性,所以对一种格式的特征分析可以用来加深对其他格式的理解。

相对于文件格式迁移风险存在较大区别来说,组织机构、软硬件和元数据的迁移风险大同小异。对数据迁移项目的各种要素风险在项目实施之前都必须进行评估和计量。

在数字迁移项目中,最大的困难在于对风险的性质和风险值的解释,比如,什么时候某种风险可以接受,能够接受的风险值是多少等。风险评估工具不能代替经验,更不能代替有效且正确的判断。风险评估工具不是万能的,即使最完善的工具也不能确保数据迁移的万无一失。

4.3 数字保存系统认证

4.3.1 数字保存系统认证缘起

随着数字资源的快速增长,对其存取和管理服务的可信任性要求也与日俱增。从本质上讲,数字资源从形式到内容都是容易改变的,也是最容易受到攻击的。保存时间越长,数字资源的可用性、真实性、完整性和可靠性所面临的挑战就越大。简单地说,数字保存系统是存储数字资源的集合,并向用户提供各种形式的服务。数字保存系统的基本价值在于其可信任性和存取数字信息的能力,确保数字资源的安全和真实,并有利于数字资源的各种利用。实现该目的的最有效方法就是对保存数字资源的仓储系统进行认证。由于保存系统的建立和运行是由保存机构来实现的,所以,对其认证不仅仅包括系统性能和所存储数字资源的可信任性,还包括保存机构及其相关设施的可信任性。

对数字保存系统认证的研究至少已有10年历史。早在1996年,受研究图书馆集团(RLG)和数字资源存取委员会(CPA)的委托,数字信息保存工作组(TFADI)在其著名的研究报告《保存数字信息》中论述道(43),“数字保存基础设施的关键因素之一是要有足够的值得信赖的数字保存机构对数字资源进行存储、迁移和存取。可信任保存机构不能自我鉴别产生,需要一个科学的认证过程来创建一个可信任的环境”。但在当时,认证引起了强烈的争议,因为业界很多人认为将严格的认证指标强加给正处于萌芽和形成阶段的数字保存系统是非常勉强的,另外一个主要原因是当时几乎没有实际运行数字保存系统的机构,所以该工作组停止了认证程序的细节制定。

然而,随着时间的推移,业界普遍认为数字资源的长期保存需要付出更多的代价、技能和资源。即使保存机构具有多年在保存非数字资源的良好信誉,也不能断言这些机构在长期保存数字资源方面值得信任。数字资源的保存风险性是与生俱来的,保存机构必须通过对数字仓储系统的认证方可证明其具有保存数字资源可信任的能力。另外,各种数字化项目产生的数字资源快速增长,甚至出版商也广泛采用电子出版模式将其电子出版物的长期保存工作委托给专业保存机构,数字资源的安全和长期存取不仅来自于技术的挑战,也来自于保存机构的挑战,如基础设施、资金以及对利润的追求等。虽然数字保存增长迅速,但支撑这些数字仓储的系统大多缺乏一些确保数字资源可信任性的重要功能。实际上,已有很多有名的或无名的机构在提供数字保存服务,但具备《保存数字信息》中确定的长期保存管理条件者为数不多(44)。于是就出现了《OAIS参考模型》(45),这使得数字保存系统基础设施的构建得到进一步发展。该参考模型试图建立一个统一的数字资源长期保存所需的条件,并提供一个用来描述数字资源长期保存系统的共同环境、功能组件和数字对象。实际上,《OAIS参考模型》在2002年作为ISO标准发布之前,许多数字保存机构就采用OAIS来设计数字保存系统的基本框架。很多机构声称符合OAIS,并将其作为运行的数字保存系统具有可信任性的参照。但是,当时根本就不存在“符合OAIS”的确切定义,更谈不上对其进行测度的机制。

2002年,RLG和OCLC共同发表了《可信任数字保存系统:属性和职责》(46),对于不同规模的文化和学术机构所运行的数字保存系统的可信任性和可持续性进一步构建了一个属性和职责框架。这个框架非常宽泛,足以包容各种环境、技术基础和机构职责,为可信任的数字保存系统提供了一个认证基础。该框架所建立的高级别的组织和技术属性以及所探讨的数字保存系统的可能的认证模型,对保存机构非常实用,并可与OAIS结合一起作为数字资源保存规划的工具。这个认证框架比较全面地总结了数字保存系统的特性,强调了对数字保存系统进行认证的必要性,推荐了认证程序和审计指标。

2005年5月,研究图书馆中心(CRL)发布了“数字资源保存系统认证项目”(47),同年8月,RLG—NARA也联合发布了《数字保存系统认证项目草案》(48)。这两项成果不仅制定了认证标准,而且还制定了认证过程所采用的方法。

4.3.2 数字保存系统认证模型

有很多方法可用来构建和维护一个可信任的数字保存系统。有些情况下,由于他们的经历或名声,数字资源的保存者或服务提供者已经被认为是值得信任的。但在更多的情况下,数字资源的保存者没有处理数字资源足够长的历史,就必须采用一些新的方法来展示它们的能力和可靠性。一些机构,如国家图书馆,在传统环境中已经被广泛信任,那么一般的推理是,在数字环境下,它们也同样能够继续扮演这种角色(49)。实际上,新的环境需要所有的参与者重新建立他们的可信任机制,但如何建立?这里有几个相关的问题:可信任状态一开始怎样构建。维持这种可信任状态需要什么。也许最重要的是,采用什么机制来核实可信任状态。怎样断定一个数字保存系统处于可信任状态。实际上,大多数可信任状态的实现都来自于过程的有效性。

一些著名的国际组织已经出台了数字保存系统的一些认证模型,这些模型给出了认证指标体系,界定了指标的含义,描述了指标的获取与实施方法。虽然数字保存系统的认证实践刚刚开始,但无疑这些模型的建立对认证工作的广泛实施起着不可低估的作用。

《可信任数字保存系统:属性和职责》(50)报告详细描述了一个数字保存系统实现可信任状态的认证模型。该模型包括的认证项目主要有:仓储系统符合OAIS参考模型、运行机构的管理职责和生存能力、运行仓储系统所需资金的可持续保障、构建和实施仓储系统的技术和程序的合适性与开放性、系统安全以及过程的可控制性等。该模型还对认证项目的实施提供了操作性较强的方法,包括:建立明晰的和可具操作性的方针和程序、实施所有安全标准(包括灾难性破坏的恢复标准)、仓储系统长期使命的明确定义、商业活动的促销策略与方法、合理的商业计划的支撑、开放型技术解决方案(包括软硬件)的采纳、所有保存活动的详细记录、用户需求的全面分析、元数据的合理与详尽析出、管理机制和服务质量测度的标准化等。该模型还进一步界定了数字保存系统可信任性认证的三个最基本层面:仓储系统运行机构怎样赢得目标用户的信任、仓储系统运行机构如何信任数字资源提供者和服务提供商以及用户又怎样信任一个数字保存系统提供的数字资源。

RLG-NASA数字保存仓储认证工作组发布的《数字保存系统认证项目草案》(51)中所设计的认证模型将认证项目分为四大部分,每个部分又包括若干个指标。第一部分是有关仓储系统运行机构的指标,包括机构的数字保存能力、机构的结构与人员组成、保存程序与保存方针的框架结构、资金的可持续性支持、保存机构与相关主体(数字资源提供者、服务提供商等)之间的合约与产权许可等。第二部分是有关数字保存系统性能的指标,包括数字资源内容收录标准、数字资源的保存管理方针、保存计划、长期保存策略(如数字迁移和数字仿真等)、各种类型的元数据管理、数字资源存取功能和存取安全管理。第三部分是有关目标用户管理和数字资源利用的指标,包括用户情况及其需求的调研与记录、系统拥有能够满足用户需求的元数据状况、用户对数字资源存取活动的方针与实施的完整记录、系统拥有确保其数字资源获取和管理的可被用户理解的机制。第四部分是有关仓储系统技术基础设施的指标,包括符合ISO17799认证标准,保障数字信息安全与可信任的技术基础,拥有检测、报告、管理与恢复数字资源损坏的有效机制,定义存储介质迁移的方法与策略,构建和测试由技术环境改变所产生影响的评估机制,系统拥有合适的软硬件技术以实现其目标的能力,实施系统环境分析的能力,拥有充分实施所有安全需求的机制,拥有灾难性准备和恢复方案并对该方案进行定期测试等。该模型在界定数字保存系统的基本属性方面代表了一个新的起点,同时也提出了一些基本问题,如没有遵循OAIS的数字保存系统能否被认为是可信任的。也许问题的答案取决于系统框架以及系统被信任的目的。

德国网络信息计划(DINI)(52)和数字资源长期保存专家网络系统(NELSDR)(53)在构建数字保存系统认证模型以及认证标准的研发方面也颇具特色,在业界具有相当影响。另外,商业代理发起组织委员会(COSO)(54)、信息与相关技术控制组织(COBIT)(55)和IT基础设施图书馆(ITIL)(56)都提供了非常有用的基于IT的数字保存系统认证模型,这些都是对RLG-NARA认证模型的补充。其中,COSO支持机构互检,通过商业伦理、有效的内部控制和合作管理等手段强化资金支持报告的质量。COBIT是一个开放的标准化IT控制框架,具有完善的数字资源和内嵌在COSO框架内部的相关技术的传播与管理机制。ITIL是COBIT框架性能的一个补充。这些认证模型以及所建立的指标体系虽然没有一个声称可以完全确保数字资源的长期有效保存,但它们的确在许多方面都有非常优秀之处。

除此之外,比较有影响的还有一些相关标准:如质量保障标准(ISO9000系列)、信息安全标准(ISO17799:2005)和数字资源管理标准(ISO15489:2001)等。这些标准虽然没有直接给出数字保存系统的认证模型,但对这类模型的构建起着规范作用。

可信任认证实施的一个关键步骤在于实现可信任状态能给仓储系统带来的益处。数字资源生产的资金提供者和用户都期望存在一个可信任机制用来判断一个数字保存系统是否值得信任以及可信任的等级。数字保存系统采用认证模型对其可信任状态进行认证时,要考虑的最主要因素有:认证模型与运行仓储系统的机构目标的相吻合程度、对实现机构特定商业价值的有利程度以及实现可信任状态的成本与收益之间的权衡比较。

4.3.3 数字保存系统认证实施

早在1996年,数字资源保存工作组(TFADI)在大力提倡建立可信任数字保存系统的同时,指出可信任状态不能简单地自我授予,需要一个认证模型来对其进行全面认证。数字保存系统认证的实施涉及许多因素,其中最主要的可能是认证对象的选择、认证的级别、认证师的信息保障和认证阶段之间的审计等。

对一个特定的数字保存系统来说,在确定认证项目之后,就要确定要认证的数字资源提供商和服务提供商。仓储系统的运行管理机构可能与其保存的数字资源提供者不一致,更多情况下是一个仓储系统拥有多个数字资源提供者,如日本著名的数字保存系统“the KB e-Deopt”的数字资源提供商就包括了全球十多个著名的电子期刊出版商(57),不同的提供商所提供的数字资源的质量可能不同,有些提供商所提供的数字资源可能是免认证的。同样,如果大多数用户认为认证是其选择服务提供商的一个重要因素,那么从商业角度来讲,服务提供商就必须进行认证。甚至在一些领域里,对一些服务提供商的认证是法律上的义务。当然,如果认证成本太高或认证过程过于复杂,那么认证就失去了吸引力。但对于绝大多数的数字资源提供商和服务提供商来说,并非一定要进行认证,成本效益分析是认证对象选择的衡量基础。

认证有不同的等级。很明显,数字保存系统自我认证是级别最低的认证,对系统内部过程管理很有用途,可以使用类似于RLGNARA的认证项目来进行。对于那些申请更高级别认证的仓储系统,自我认证是必须进行的。另外,为了降低存储风险,自我认证也是一种最常用的方法。有效的自我认证可以降低外部认证的成本。级别越高的认证涉及的认证项目越多,认证成本也越高,因此并非每一个数字保存系统都需要最高级别的认证。

认证工作的具体实施者是系统认证师。认证师需要大量信息来对认证对象进行理解。最初的仓储系统自我认证已确认其信息基础设施足够充分,完全能够满足外部认证的严格要求。认证师需求的信息包括:数字资源保存方针、工作流程、保存记录、资金和人力资源记录以及整个系统的运行数据等。只有认证指标具有可测度性,目标具有可计量性,认证师才能得出比较客观的结论。认证过程需要分析仓储系统中各种对象之间的关系,对数字资源生产者和消费者的需求分析将有助于考察仓储系统的运行绩效。系统的各种功能以及与操作者之间的关系也是认证的重点,因为这方面的认证将有助于考察仓储系统的健壮性和保存数字资源真实性和可理解性。

认证的时间跨度也是要考虑的一个重要因素。从时间维度,对任何一个数字保存系统的认证不可能是无限的。随着时间的推移,环境的改变,认证项目的变化,再次认证不可避免。因此,数字保存系统可信任性认证具有阶段性,每两个阶段之间要进行若干次的审计。审计的目的在于在下次认证之前确保仓储系统可信任状态的连续性,主要方式是对仓储系统进行评估,主要内容是将评估结果与上次的认证状态进行相符性比较。对仓储系统进行审计有时会出现一些问题,比如,应该审计的内容有哪些,是全面审计还是有重点地审计,机构内部审计还是聘请外部机构进行审计,审计结果是否要公开,荷兰国家档案馆的Hans Hofman在对如何处理审计结果时评价(58),公布外部审计报告本身就是对仓储系统的一个有力的促进机制,对那些存在诸多缺憾的仓储系统尤其如此,至少在保存机构内部公布审计结果将有助于仓储系统的完善。

5 数字化项目实施标准框架

5.1 标准的含义与作用

信息资源数字化是一种耗资巨大的项目,不同图书馆实施这类项目的目的可能不尽一致,进行数字化的资源类型可能不同,所服务的用户群体可能有着很大差异,乃至要实现的社会效益和经济效益也可能不一致,但它们有一个共同的目标,就是寻求投资效益(包括经济效益和社会效益)最大化,追求数字产品应用的范围最广泛化、时间最持久化。这就要求数字产品及其生产机制规范化。规范化的关键在于采用一套行之有效的标准确保数字化生产、数字资源管理和传播的一致性和兼容性。这里标准的含义是指对数字化项目的成功实践进行归纳总结而得出的各种规范和指导原则。

信息资源数字化项目中标准的作用有:(1)互操作,用户可以跨越数字化项目实现对数字资源的无缝访问,且无须专门工具。(2)开放存取,采用开放标准和通用格式,数字资源将被广泛访问,并方便多语言用户和残疾人的利用。(3)保存,可确保数字资源能够长期使用,以使其投资效益最大化。(4)安全,保护数字资源知识产权和用户个人隐私,确保数字资源的完整性和准确性。

相反,一个缺乏标准的数字化项目,其实施的结果将会对下述三方产生消极影响:(1)用户。数字资源可能因为缺乏足够的描述,或者使用一种专用的方式传播,或者需要一种特殊的工具来使用,或者采用一种专用的格式,致使用户难以找到所需的最合适信息。(2)投资机构。由于缺少标准的采用,致使数字化项目的实施缺乏应有的效率,所采用的技术缺乏优化性能,所生产出的产品无法满足用户和市场的需求,其投资就可能浪费,难以回收。(3)信息资源的创作者。他们的产权难以得到保护。

5.2 标准的等级

不同数字化项目所采用的标准可能存在着一些差别甚至较大的差别,从鼓励采用数字化生产成功案例到要求作为其投资条件而必须采用的一些规范等。但是,如果把这类项目作为一个整体来研究,通常情况下,其采用的标准有下述两大类型:

(1)必备标准。是被广泛接受并且在目前的信息资源数字化项目实施中已经被广泛使用的标准,所有的数字化项目都必须采用这类标准。

(2)指导原则。是数字化生产的良好或成功案例,但有理由(例如,这些原则仍处于发展阶段,并非完全成熟)不把它作为强制性标准,数字化项目应该重视这些指导原则并尽可能发挥其作用。

在信息资源数字化项目的相关文档描述中,一般使用“必须”、“应该”和“可以”三个词汇来说明标准等级的应用。

①“必须”。意味着项目必须完全遵循。这类标准包括所有的必备标准和部分指导原则。

②“应该”。意味着有确实的原因不把一些指导原则作为必备标准,但是在它们被忽略之前要慎重考虑。对于技术标准来说,还意味着在项目实施过程中有可能被推广应用。

③“可以”。意味着一些指导原则值得关注,但项目实施不受其限制。因此,“可以”经常被用来描述那些正处于形成阶段的标准。

本文也使用上述三个词汇来描述数字化项目采用标准的等级,并试图根据数字化项目“生命周期”的几个主要阶段(项目准备、数字主文档存储、元数据描述、数字资源发布和资源共享等),阐述每个阶段应遵循的标准框架和指导原则。

5.3 项目准备标准框架

数字化项目在准备阶段,必须清晰界定要被数字化的原始信息资源的范围以及生产的数字资源的用途。当选择数字化实施过程所需的软硬件设备时,项目必须考虑原始信息资源的主要特性:如格式、大小、状况和颜色等(59)

5.3.1 硬件选择

数字化项目必须全面考察可用硬件设备的范围与性能、对不同类型信息资源进行数字化时的影响因素以及与其他硬件设备的连接方式。必须确保在可接受的成本价格内所选设备生产出的数字资源质量能够满足预期的使用要求。在购买数字化设备或获取相关数字化服务之前应该充分咨询,且应该基于项目的特定需求制定出精确的成本预算。

5.3.2 软件选择

数字化项目必须熟知在数字图像生成与处理过程中所需软件的用途,以及每一个软件产品所需的配套软硬件条件。必须保证软件在可接受的成本价格范围内,提供为满足数字资源应用所需的功能,以及满足相关人员的使用需求。

5.3.3 环境设置

为数字化项目生产过程构建一个适宜的环境是非常重要的,其目的在于保证高效地生产出高质量的数字资源,并使对原始信息资源载体的破坏降低到最低程度。图书馆数字化项目可以通过购买相关设备和使用现有设备自己实施,也可以外包给一个机构来实施,项目必须清楚影响这两种实施方式的选择因素,这些因素不仅仅包括成本,而且还包括对资源载体的操作需求等。

5.3.4 原始信息资源载体处理

原始资源载体的保护对象涉及被数字化的信息资源载体和为了数字化而产生的中间载体(例如模拟图像)两个方面。项目必须慎重评估原始信息资源载体经历数字化生产过程可能导致的任何损伤危险,尤其是对那些独一无二的、价值高的和易碎的资源载体,必须制定原始资源载体的保护措施。

5.3.5 人员培训

项目必须保证所有参与人员都要受到适当的使用数字化软硬件设备以及处理原始资源载体技能的培训,确保数字化过程的生产效率,同时将对原始资源载体的破坏降低到最低程度。

5.4 数字主文档保存与管理标准框架

数字主文档保存必须被视为数字化生产过程的一个有机部分。保存依赖于数字资源生产的过程记录,因为所保存的重要信息都是在这个过程中产生的。项目必须考虑从高质量的数字化主文档所产生的所有副本(如为了在因特网上传播而产生的压缩副本等)的价值,这将有助于周期性的数据迁移和新数字产品的开发利用。保存不仅仅是选择合适的文件格式和数字介质的类型,而且应该将其视为数字资源管理的基础工作,以保证其长期和重复使用,这个过程依赖于数字化生产之外的其他众多因素,如政策的稳定性、资金的可持续保障和数字资源的知识产权拥有状态等。数字化生产过程可以采用很多技术方法以有利于日后的数字资源保存,比如,许多数字化项目在生产过程中就对数字主文档采集了大量元数据(60)

5.4.1 文档格式

为了使数字资源得到广泛的访问存取,新建数字资源应该采用开放的文档格式。使用开放的文档格式可以增强互操作性和资源的重复利用,并能根据不同的使用目的进行创建和修改,避免对特定供应商的依赖性。

但是,有些情况下没有相关的开放标准,或者相关标准太新以至于没有合适的广泛应用工具。这时,项目可以采用专用格式,但应该考虑数字文档格式的迁移策略,以便将来把这种专用格式转换为开放格式。另外,采用专用格式时,项目应该在资金允许和可存取的框架内调整需求,以满足整个项目对专用格式的适用性。

(1)文本型数字资源的生产与保存。

字符编码。字符编码是将字符表示成数字形式的一种算法,通过将字符序列转换为8位数字序列来实现。数字资源的应用都要标明文档所用的编码方式以解释文档的代码。数字化项目应该明确标明文本型数字文档所使用的编码,比如,XML文档就应该将其编码方式记录在XML的声明标签中。在XHTML文档中,XML声明可以省去,但编码必须记录在http-equiv属性和meta元素中(61)

文档格式(62)。文本型数字文档的创建与管理应该采用结构化格式,以方便其转换为HTML和XML格式。很多种情况下,将文本型数字文档保存为SGML格式或符合已经公开发布的DTD或XML SCHEMAS的XML格式是最好的选择,但应该对相应的DTD或SCHEMA是有效的。文本型数字资源可以以文件方式存储,也可以存储在数据库里。项目应该清晰解释采用标准格式对文本进行编码的目的,并应该以这种格式进行数据存储。项目可以将文本型数字资源以最新的HTML或XHTML版本格式存储。有些情况下,数字化项目也可以选择PDF格式保存文本型数字资源。但PDF是一种专用格式,需要专门的浏览软件来浏览内容。就像采用其他所有专用格式一样,这种解决方案是有风险的,项目应该评估这种方式的潜在成本,并且还应该为其探索数据迁移策略,以便未来将其转换为开放标准格式。

(2)静态数字图像的生产与保存。

静态数字图像分为两类:光栅图像和矢量图像。光栅图像采用栅格或矩阵的形式,矩阵里的每个图像元素(像素)都有一个惟一的定位和一个可以被编辑的独立的颜色值。矢量图像是由画图程序根据一组数学算法来完成的。

光栅图像(63)。当生产和存储光栅图像时,需要考虑两个因素:格式和质量参数。

光栅图像应该以非压缩形式保存,这种图像通常是由数字化过程产生的,且没有被应用程序进行任何的后续处理。光栅图像必须采用下列格式:TIFF、PNG、GIF、JPEG。这里需要考虑两个主要参数:空间分辨率和颜色分辨率。空间分辨率是指图像中每英寸的像素数量。颜色分辨率表示颜色信息的位数,例如,如果用8位表示颜色就可以表示256种颜色。

光栅图像质量参数的选择取决于信息资源载体的原始尺寸、原始资源中内容细节的数量和数字图像的用途三个因素。

光栅图像生产时应该在成本许可的范围内设置为合适的最高空间分辨率和颜色分辨率,数字化项目必须确定数字图像的最低质量要求。在某些情况下,例如选用较廉价的数码相机,所产生的数字图像比较适合以JPEG/SPIFF格式保存,这种格式保存的图像幅度小、质量低,比较适合于在Web站点上一些小型事件的展示,但强烈建议这种数码相机不能用于大规模信息资源的数字化生产。

矢量图像(64)。矢量图像一般是对多维实物型资源数字化的结果,其创建和保存应该采用开放的格式(如SVG格式),并采用xml语言来描述图形。也可采用Macromedia Flash专有格式,但是必须考虑数据格式的迁移策略。另外,Flash格式应避免使用文本,以便将来开发多语种版本。

(3)视频数字资源的生产与保存(65)

视频数字资源应该保存为非压缩格式(如avi格式),不应该编码,直接从录像设备中获取,并不经程序进行任何后续处理。视频资源创建时应该在成本框架内考虑可能用途设置合适的最高空间分辨率、颜色分辨率和帧速率。每个项目必须考虑对视频资源所需的最低质量要求。另外,视频数字资源也可以保存为MPEG格式、WMF格式、ASF格式或Quicktime格式。

(4)音频数字资源的生产与保存。

音频数字资源应该保存为非压缩格式(如微软的WAV格式或苹果公司的AIFF格式),直接从记录设备中获得,并不经任何后续处理(如消除噪声的处理)。也可以使用其他压缩格式,如MP3、WMA、RealAudio、AU等。

5.4.2 存储介质选择(66)

不同的数字存储介质在数据存取时对软硬件有不同的要求,且在管理方面都存在着一些差异。连续访问数字介质的风险主要有两个方面:介质的物理退化或其自身损伤,以及技术变化导致访问介质所需的软硬件过时。

数字化项目产生的数字资源一般存储在文件服务器的多个硬盘上,并常常在移动存储设备上备份。数据写入时,常用的移动存储介质是光学介质(CD-R和DVD)。存储介质的选择应该注重质量和品牌以及供应商的信誉,介质的处理、使用、保存要符合供应商的说明。

数字化项目应该考虑将所有的数字资源(元数据和数字图像)保存在两种不同的介质上,至少拷贝保存一份在主站点以外的介质上,以确保主站点出现灾难性损坏时数据的安全。数据在不同介质的备份必须有文档记录。另外,存储介质在其生命周期内应该定时刷新,更新记录也应该归档。

5.4.3 保存策略(67)

主要有三种技术方法来实现数字资源的保存:技术保存、技术仿真和数据迁移。前两种方法侧重访问数字资源所使用的技术,其方式是对原软硬件进行维护,或采用当前技术复制初始环境。

数据迁移策略侧重对数字资源的维持,以使其转换为当前技术可以访问的格式,在这个方案中,数字资源经常从一种技术环境迁移到另一种技术环境,同时要尽可能保持原始数字资源内容、可用性和功能的完整。有些迁移需要将数字资源从一种介质或设备转入到另一种介质或设备,同时也许还要将数字资源从一种格式转到另一种格式。还有些迁移仅仅需要一个相对简单的格式转换。迁移到一个不同的技术环境常常需要复杂的技术处理,甚至还要付出相当代价。

项目应该明确数据迁移的要求,并应该制定实现迁移过程的方针和指导性框架。元数据也是迁移的一个关键部分。一些迁移过程会导致数字图像的一些功能改变甚至丢失,这时元数据就有助于用户理解数字资源的原始技术环境。

5.5 元数据描述标准框架

元数据从字面上可以理解为“关于数据的数据”,但是它通常被认为是根据资源而建立的能够有助于对资源进行一系列操作的结构化数据。这里所说的资源可以是数字化的,也可以是非数字化的,对资源的操作可以是开发、管理(包括权限管理)和长期保存等。不同的元数据可以支持不同的操作功能。

不同类型的资源有着不同的元数据描述标准框架。例如,博物馆建立了SPECTRUM(68)和CDWA元数据标准框架来支持博物馆馆藏资源的管理,档案馆建立了ISAD(G)(69)、ISAAR(CPF)和EAD(70)元数据标准框架来支持档案馆馆藏资源的管理,图书馆使用MARC元数据标准系列来支持书目数据的管理与交换。

信息资源数字化项目应该熟知所在领域的元数据标准,并应该完整记录元数据文档。这个文档应该列出所用的所有元数据元素的详细目录,以及这些元素对数字资源进行描述的方法。

5.5.1 描述性元数据

描述性元数据主要用于对数字资源的检索和知识发现。数字化项目应该知晓采用描述性元数据的条件,为了支持各种应用对数字资源的检索,项目必须获取和存储足够的描述性元数据。

都柏林核心元数据集(DCMES(71))是一个常用的且非常简单的描述性元数据框架,它定义了15个描述资源的元素,但并不意味着数字化项目只提供简单的DC元数据,DC只是支持资源查找的最低需要。在实际应用中,DC可以是数字化项目元数据一个子集。鉴于DC的广泛应用,任何数字化项目所采用的元数据方案应该与DC框架相符。

5.5.2 管理性元数据

管理性元数据是被用来管理数字对象的,提供关于建立和使用数字资源限制的信息,包括技术性元数据(用于描述数字资源的技术特征)、原始资源元数据(用于描述数字资源所基于的原始信息资源的状态)、数字资源历史元数据(用于描述数字资源自创建后,对其进行各种操作的历史信息)和产权管理元数据(用于描述数字资源的版权、使用限制和许可协议等信息)。

技术性元数据包括的信息只能在数字化进程中捕获,如所用数字化设备及其参数的信息、数字加工机构的信息等。一些技术性元数据也可以从所使用的数字化软件中产生。

这种类型的元数据目前还没有一个标准。美国国家信息标准组织(NISO)的一个委员会日前发布了用于静态图像管理的技术性元数据字典草案(72)

数字化项目应该知晓对技术性元数据的需求,且必须捕捉并存储充足的技术性元数据用于数字资源的管理。

5.5.3 保存性元数据

1998年,美国研究型图书馆组织(RLG)成立的保存性元数据工作组发布了支持数字资源保存的元数据集合(73),该集合由16个基本元素组成。开放档案信息系统(OAIS)参考模型试图提供一个用于数字档案开发与比较研究的高级架构(74),该架构由功能模型和信息模型组成,分别用来描述文档的操作和支持这些操作需的元数据。基于OAIS的模型框架,OCLC/RLG保存性元数据的一个工作组开发了直接用于保存性元数据的OAIS信息模型的两个组件(75):内容信息组件和保存描述信息组件。

5.5.4 结构性元数据

结构性元数据描述的是复合型信息资源组成部分之间的逻辑和物理关系,比如一本印刷型书包含的页顺序。数字化过程可能产生一系列独立的数字资源,比如一本书也许一页产生一个数字图像,很明显,这些数字图像具有逻辑顺序,这个逻辑顺序对数字资源的操作和使用是非常重要的。

元数据编码和转换标准(METS)(76)为描述性、管理性和结构性元数据提供了一个编码格式,这种格式不仅支持数字资源的管理,而且还支持数字资源跨系统的交换。IMS内容包装规范提供了一种用于描述结构性元数据的方式(77)

数字化项目应该熟知对数字资源的结构性元数据的需求,以及METS在结构性元数据方面的作用和IMS的职能。

5.5.5 数字资源集合的元数据

一件数字资源是一个数字化项目所产生的数字资源集合的一个细胞,一个数字化项目所产生的数字资源集合又仅仅是社会提供各种类型数字化服务的数字资源整体的一个组成部分。数字资源集合应该被描述,以便用户能够发现该集合的一些重要特征,以及方便将各种数字资源集合整合为范围更广的数字资源集合整体,并提供跨集合的数字化服务。

数字化项目应该强化对数字资源集合特征的揭示与描述,如数字化项目内容和活动的范围(机构内部的、某个领域的、某个区域的、国家范围的、国际范围的等),应该采用合适的元数据框架对其进行描述,应该知晓RSLP数字资源集合描述框架(78)、Minera定义的数字资源集合描述模型(79)和刚出现的DC数字资源集合描述应用框架(80)

5.6数字资源发布标准框架

最终用户对数字资源的获取主要是通过因特网,发布前的准备工作主要是要对数字主文档进行处理,从而生成适合于在因特网环境中传播的数字资源副本,常用的方法是降低画面质量以生成其尺寸大小适合于网络传输的文件。

同样,视频与音频是用来供用户下载或在线播放的,这就需要在用户端建立一个缓冲区,在线播放前,视频与音频数据先传输到这个缓冲区,而不是把整个文件一次传输给用户。当缓冲区满时,在线播放开始,同时后续数据继续向缓冲区传输。

在发布过程中,必须考虑用户所采用的硬件设备和客户端软件类型以及用户所能够使用的带宽限制。

为了尽可能扩大用户的应用范围,项目应该提供不同尺寸、不同格式和不同分辨率的数字资源,同时应该定期检查有关传输格式和参数的标准。这里的传输格式应该和文件存储格式相联系。

5.6.1 传输过程

(1)文本型数字资源传输。

①字符编码。文本文件所用的字符编码应该能在HTTP服务器间传播。一些基于XML的协议要求使用特殊的字符编码,例如关于元数据收割的OAI协议需要使用UTF-8码。

②文件格式。文本文件必须以XHTML或HTML的最新版本进行传输。有些情况下也可以使用符合DTD或Schemas的SGML或XML格式。另外,传输如PDF、RTF或Word等专用格式的文本文件可以采用HTML文档中的附件格式,但必须确保其可获得性。

(2)静态图像传输。光栅图像在Web上应该以GIF或PNG格式传输。矢量图像在Web上应该以SVG格式传输。

(3)视频传输。项目应该考虑用户获取音频可能会受到带宽的限制,所以要提供不同尺寸的多种文件供下载选择或不同质量的流文件供在线播放。

供下载的视频在Web上传输应该使用MPEG格式、微软的AVI格式、WMV格式或苹果公司的Quicktime格式。视频的流文件在Web上应该使用微软的ASF格式、WMV格式或者苹果公司的Quicktime格式。

(4)音频传输。项目应该考虑用户获取音频可能会受到带宽的限制,所以要提供不同大小的文件供下载选择,或不同质量的流文件供在线播放。

音频下载时,应该以压缩格式在Web上传播,可以使用MP3格式、RA格式或WMA格式。当对音质要求为接近CD时,应该使用256Kbps比特率,160Kbps比特率提供的音质也不错。音频也可以使用微软的WAV/AIFF或者Sun公司的AU格式以非压缩形式传输。

在线播放时,音频流文件在Web上应该使用MP3格式、RA格式或微软的WMA格式。

(5)数字资源定位。数字资源在因特网上应该有确定的和独一无二的地址,终端用户能够直接和可靠地引用一个独立的数字资源,而不是链接到整个项目的Web站点。项目应该使用同一资源标识符(URI)(81)实现这个功能,并应该确保URI的相对稳定性。这种URI不应该包含关于文件的格式、服务器技术、服务提供商的组织结构以及其他数字资源在生命周期中可能发生变化的信息。

5.6.2 Web站点

数字资源必须通过Web浏览器进行访问,通常选用HTTP协议。如果使用其他协议(例如Z39.50),必须有可用的网关提供Web浏览器的访问路径。项目应该寻求各种途径以使其Web站点的访问利用量最大化。

(1)可获取性。项目必须确保可以被不同类型的浏览器、硬件系统、程序和终端的访问。

Web站点必须能够支持W3C推荐的规范浏览器,如HTML/ XHTM、CSS和DOM浏览器等。使用专用文件格式和带插件技术浏览的数字化项目必须保证数字资源能够被没有插件的浏览器访问。在站点导航中要慎重使用如Javascript和Macromedia Flash等技术。

Web站点的外观应该遵循W3C推荐的样式单,应使用W3C推荐的CSS最新版本(82)。项目必须执行W3C的Web可访问性计划(WAI)(83)的规范,以确保残疾人的访问。项目必须达到WAI的A级规范,并应该努力实现WAI的AA级规范。

(2)安全性。数字资源传输必须以尽可能安全的方式进行操作。所有涉及设备的配置应该在提供网络服务最少化的原则下进行,同时应该装有防火墙,并以项目提供的端口接入因特网。

项目应该使用ISO/IEC17799:2000提供的行业守则,任何个人信息的管理和使用必须遵守相关国家的法律法规,一些涉及用户的隐私信息(如用户名、密码、信用卡等信息)通过网络从用户端传输到服务器时,必须使用SSL(84)对数据加密。SSL的使用能增强终端用户对服务的可信度。

(3)用户认证。一些项目限制一部分数字资源的访问(如对一些高分辨率的数字资源),可通过用户身份认证的方法来实现,用户认证工具应该把用户名和密码联系起来。在基于Web的项目中,必须使用HTTP认证机制将用户名与密码捆绑一起从用户的浏览器输到服务器。

有些情况下,基于IP地址的认证(将终端IP地址与已知的IP地址清单比较)可以改变用户名和密码的认证方法。但这种方法强烈建议谨慎采用,因为不断增加的ISP使用动态IP地址影响了这种认证方法的有效性,导致可管理的IP地址清单难以维护,移动用户和使用防火墙的用户也使IP认证难以管理。数字化项目也可以选择第三方的认证服务系统来管理用户名和密码。

(4)服务绩效。绩效指标被用于客观评价Web服务的效果,从而直接或间接地提供对数字化工程进行评估。最常用的绩效分析方法就是使用Web服务器日志文件,通过对其分析可以获取有关服务和用户使用方式的有价值信息。

项目必须维护对其Web站点的统计数据,并应该通过这些统计数据来分析数字资源的使用状况。

5.7 资源共享标准框架

一个数字化项目生产出的数字资源仅仅是所有数字化项目产生的数字资源的一小部分,为了实现数字资源的共享,每一个数字化项目必须公开其生产的数字资源的元数据,以便其数字资源能够被其他应用和服务所使用,这就需要使用一个或多个协议或接口。

针对一个特定的数字化项目来说,公开哪些元数据以及采用什么方式公开,与数字资源的特性和要共享元数据的应用和服务有关。

数字化项目都应该公开其数字资源集合的元数据记录,也可以公开这个数字资源集合中每一件数字资源的元数据。当然,公开这两个层面上的元数据时都要声明其使用的条件和条款。

为了便于各种数字服务之间的互操作乃至数据交换,数字化项目应该提供以简单的DC形式描述的元数据。当数字资源属于教学型或具有教学价值时,数字化项目应该同时提供基于IEEE教学对象元数据的描述。项目应该对公开的元数据的产权进行管理。

5.7.1 元数据收割

数字化项目应该把基于元数据收割的开放文档计划协议(OAI-PMH)(85)向其他服务提供商提供元数据。项目可以建立符合OAI的元数据知识库,以方便其元数据的收割。元数据知识库应该包括元数据权限的声明,以确保该项目对所提供的元数据的拥有权。

5.7.2 分布式搜索

数字化项目可以使用Z39.50(86),这是一个通过用户界面对异构数据库进行远程检索的网络协议,该协议最常用的检索对象是书目数据。使用Z39.50协议的数字化项目必须知晓Bath文档(87)以及相关的跨域互操作方法。

数字化项目也可以使用检索Web服务协议(SRW/SRU)(88),该协议基于Z39.50协议的语义,采用Web服务技术实现相似功能。

5.7.3 RDF框架与Web本体

数字化项目可以共享和利用符合RDF规范(89)的Web信息资源。RDF提供了一个简单的资源描述标准,虽然目前还没有为RDF数据库制定专门的查询界面标准,但该标准的出现指日可待。

数字化项目可以利用Web本体语言(OWL)(90)创建Web本体。OWL基于RDF和RDF Schema,丰富了用于描述属性和范畴的词汇,便于创建机器可处理的基本概念定义和这些基本概念之间的关系。项目可以探索所创建本体的语义互操作性,这种本体可以是基于CIDOC的概念参考模型(CRM)(91)或基于ABC本体模型(92)。CRM提供了一个用于信息资源描述的通用的且可扩展的语义框架,可协调不同类型信息资源的模型。ABC本体是一个顶级本体,用于数字图书馆中各种元数据框架的互操作。

img36

【作者简介】臧国全,男,汉族,1963年8月出生,郑州大学信息管理系,教授,系副主任,博士,武汉大学信息管理学院在站博士后。主要学术兼职有:中国图书馆学会学术委员会委员、中国索引学会学术委员会委员。主要研究方向:数字图书馆、信息检索。主持的项目主要有:国家社科基金项目“图书馆信息资源数字化建设模式研究”,中国博士后基金项目“数字资源长期保存策略研究”,河南省科技攻关项目“中文数字图书馆网络系统研究”等。代表作有:《虚拟图书馆理论与实践》,发表论文40余篇。

【注释】

(1)Minerva.Good practices in digitization.http://www.minervaeurope.org/structure/workinggroups/goodpract/document/bestpracticehandbook1_2.pdf(访问时间:2004/10/20)

(2)Caplan,Priscilla.Building a digital preservation archive:Tales from the front,The Journal of Information and Knowledge Management Systems,2004(1): 35-39

(3)United Kingdom’s CEDARS project.The overall problems of preserving digital information.http://www.curl.ac.uk/cedarsinfo.shtml(访问时间:2005/ 05/20)

(4)P.Noerr.ELAG/Progress Reports.http://www.kb.nl/coop/elag/elag98/reports/usa1.doc(访问时间:2005/06/10)

(5)Alan Howell.Film Scanning of Newspaper Collections:International Initiatives.http://www.thames.rlg.org/preserv/diginews/diginews2.html#film/scanning(访问时间:2005/07/10)

(6)University of Yale.“Open Book”Project.http://www.clir.org/cpa/reports/openbook/openbook.html(访问时间:2005/07/10)

(7)University of Columbia.Technical Recommendations for Digital Imaging Projects.http://www.columbia.edu/acis/dl/imagespec2.html(访问时间: 2005/07/20)

(8)Anne R.Kenney.The Cornell Digital to Microfilm Conversion Project:Final Report to NEH.http://www.thames.rlg.org/preserv/diginews/diginews2.html#com(访问时间:2005/07/20)

(9)Colin Webb.A Hybrid Approach to Reformatting Rare Australiana.http://www.nla.gov.au/nla/staffpaper/cwebb1.html(访问时间:2005/07/20)

(10)Chapman,et.al.http://www.rlg.org/preserv/diginews/diginews2.html#hardware&software(访问时间:2005/07/20)

(11)Stephen Chapman,Anne R.Kenney.Digital Conversion of Research Library Materials.http://www.dlib.org/dlib/october96/cornell/10月chapman.html(访问时间:2005/07/20)

(12)UNESCO.Guidelines for digitization projects for collection and holdings in the public domain,particularly those held by libraries and archives..http:// www.ifla.org/VII/s19/pubs/digit/guide.pdf(访问时间:2004/12/29)

(13)Maxine K.Sitts,Handbook for digital projects:A Management Tool for Preservation and Access.http://www.nedcc.org/digital/dman.pdf(访问时间: 2005/07/20)

(14)D.Haynes,et.al.Responsibility for digital archiving and long term access to digital data.Elib study,2003(3):44

(15)N.Beagrie,D.Greenstein.Astrategic Policy framework for creqting and preserving digital collections.http://vads.ahds.ac.uk/guides/creating_quide/sect7月2.html(访问时间:2005/07/20)

(16)The Data Archive,University of Essex.An investigaton into the digital preservation needs of universities and research funders:the future ofunpublished research materials.http://www.ukoln.ac.uk/services/papers/bl/blri10月9/ datrep.html(访问时间:2005/07/30)

(17)D.Hazen,et.al.Selecting research collections for digitization.http://eprints.ucl.ac.uk/archive/00000492/01日/paul_ayris3.pdf(访问时间:2005/07/30)

(18)Paul Ayris.Guidance for Selecting Materials for Digitisation.http:// www.rlg.org/preserv/joint/ayris.html(访问时间:2005/07/30)

(19)Katherine M.Wisser.Guidelines for Digitization.http://www.ncecho.org/Guide/toc.htm(访问时间:2005/07/30)

(20)Library of Congress.Selection Criteria for Preservation Digital Reformatting.http://www.loc.gov/preserv/prd/presdig/presselection.html(访问时间: 2005/07/30)

(21)Columbia University Libraries Selection Criteria for Digital Imaging. http://www.columbia.edu/cu/libraries/digital/criteria.html(访问时间:2005/ 07/30)

(22)University of California Selection Criteria for Digitization.http:// libraries.universityofcalifornia.edu/cdc/pag/digselec.html(访问时间:2005/07/ 30)

(23)Harvard University.Selection for Digitization:a Decision/Making Matrix. http://www.clir.org/pubs/reports/hazen/matrix.html(访问时间:2005/07/30)

(24)Lolly Gasaway.When U.S.works pass the public domain.htt www.unc.edu/%7 Eunclng/public/d.htm(访问时间:2005/07/30) p://

(25)Peter Hirtle.Copyright Term and the Public Domain in the United S http://www.copyright.cornell.edu/training/Hirtle_Public_Domain.htm时间:2005/07/30) tates.(访问

(26)Copyright Management Center.http://www.copyright.iupui.edu问时间:2005/07/30);Copyright Crash Course.http:/ copyright.iupui.edu/(访问时间:2005/07/30)/(访/www.

(27)Colorado Digitization Project.Digital Toolbox.http://www.cdpheritage.org/resource/toolbox/index.html(访问时间:2004/10/09)

(28)Anne R.Kenney,Ellie Buckley.Developing Digital Preservation Programs:the Cornell Survey of Institutional Readiness,2003~2005.RLG DigiNews,AUG.15,2005年.(访问时间:2005/09/10)

(29)Daniel Greenstein,Suzanne E.Thorin.Survey Data:Principal Preliminary Results.http://www.clir.org/pubs/reports/pub10月9/appendix2.html(访问时间:2005/09/20)

(30)Anne R.Kenney,Deirdre C.Stam.The State of Preservation Programs in American College and Research Libraries:Building a Common Understanding and Action Agenda.www.clir.org/pubs/reports/pub111/contents.html(访问时间: 2005/09/20)

(31)Margaret Hedstrom,Sheon Montgomery.Digital Preservation Needs and Requirements in RLG Member Institutions.http://www.rlg.org/legacy/preserv/ digpres.html(访问时间:2005/09/20)

(32)The Consultative Committee for Space Data System.Reference Model for an Open Archival Information System(OAIS).http://www.ccsds.org/documents/650x0b1.pdf(访问时间:2005/09/20)

(33)RLG,OCLC.Attributes of a Trusted Digital Repository:Meeting the Needs of Research Resources.http://www.rlg.org/longterm/attributes01日.pdf(访问时间:2005/09/20)

(34)Dspace.http://www.dspace.org(访问时间:2005/09/20)

(35)Fedora.Fedora project:an Open—Source Dig Repository Management System.http://www.fedora.info/(访问时间:2005/09/20)

(36)UNESCO.保存数字遗产宪章.http://unesco.chinainfo.gov.cn/Upload/20041216000411月admin0082.pdf(访问时间:2005/09/20).

(37)Bennett,John C.A Framework of Data Types and Formats and Issues Affecting the Long Term Preservation of Digital Material.http://www.ukoln.ac.uk/ services/elib/papers/supporting/#blric(访问时间:2005/07/20)

(38)Euhlir,Paul.Framework for the Preservation of and Permanent Public Access to USDA Digital Publications.http://preserve.nal.usda.gov:8300/npp/ frameprt.html(访问时间:2005/07/25)

(39)Lawrence,Gregory W.et al.Risk Management of Digital Information:A File Format Investigation.http://www.clir.org/pubs/reports/pub93/pub93.pdf(访问时间:2005/07/29)

(40)Haynes,David,et al.Responsibility for Digital Archiving and Long Term Access to Digital Data.http://www.ukoln.ac.uk/services/elib/papers/supporting/#blric(访问时间:2005/08/10)

(41)Lawrence,Gregory W.et al.Risk Management of Digital Information:A File Format Investigation.http://www.clir.org/pubs/reports/pub93/pub93.pdf(访问时间:2005/07/29)

(42)McNamee,David.Assessing Risk Assessment.http://www.mc2consulting.com/riskart2.htm(访问时间:2005/08/10)

(43)The Task Force on Archiving of Digital Information.Preserving Digital Information.http://www.rlg.org/ArchTF/(访问时间:2005/10/10)

(44)S.Anderson and R.Heery.Digital Repositories Review.http:// www.jisc.ac.uk/uploaded_documents/digital/repositories/review/2005.pdf(访问时间:2005/10/20)

(45)Reference Model for an Open Archival Information System(OAIS).http://www.ccsds.org/documents/650x0b1.pdf(访问时间:2005/10/20)

(46)RLG/OCLC Working Group on Digital Archive Attributes.Trusted Digital Repositories:Attributes and Responsibilities.http://www.rlg.org/en/pdfs/repositories.pdf(访问时间:2005/10/25)

(47)Center for Research Libraries(CRL).Audit and Certification of Digital Archives.http://www.crl.edu/content.asp?l1=13&l2=58&l3=142(访问时间:2005/10/20)

(48)RLG/National Archives and Records Administration(NARA).RLG Completes Checklist for the Certification of Trusted Digital Repositories.http:// www.rlg.org/en/page.php?Page_ID=20647(访问时间:2005/10/25)

(49)S.Ross.Digital Library Development Review.http://www.natlib.govt.nz/files/ross_report.pdf(访问时间:2005/10/30)

(50)RLG/OCLC Working Group on Digital Archive Attributes.Trusted Digital Repositories:Attributes and Responsibilities.http://www.rlg.org/en/pdfs/repositories.pdf(访问时间:2005/10/25)

(51)RLG/National Archives and Records Administration(NARA).RLG Completes Checklist for the Certification of Trusted Digital Repositories.http:// www.rlg.org/en/page.php?Page_ID=20647(访问时间:2005/10/25)

(52)The German Initiative for Networked Information(DINI).Deutsche Initiative für Netzwerkinformation eV.http://www.dini.de/(访问时间:2005/10/30)

(53)Network of Expertise in Long/term STOrage of Digital Resources(nestor).http://www.langzeitarchivierung.de/index.php(访问时间:2005/10/30)

(54)The Committee of Sponsoring Organizations of the Treadway Commission(COSO).http://www.coso.org/(访问时间:2005/10/10)

(55)Control Objectives for Information and Related Technologies(COBIT).http://www.isaca.org/cobit(访问时间:2005/10/10)

(56)IT Infrastructure Library(ITIL).http://www.ogc.gov.uk/index.asp? id=2261(访问时间:2005/10/01)

(57)Oltmans,Van Wijngaarden.Digital Preservation in Practice:The e/Depot at the Koninklijke Bibliotheek.The Journal of Information and Knowledge Management Systems,2004(1):89/99

(58)Hans Hofman. DigiCULT Thematic.http://www.digicult.info/downloads/thematic_issue_1_final.pdf(访问时间:2005/10/20)

(59)TASI.Advice:Creating Digital Images.http://www.tasi.ac.uk/advice/ creating/(访问时间:2005/10/20)

(60)Preservation Management of Digital Materials Handbook.http:// www.dpconline.org/graphics/handbook/(访问日期:2005/11/20)The Digitization Process.http://www.ukoln.ac.uk/nof/support/help/papers/(访问时间:2005/11/20)

(61)The Unicode Consortium.The Unicode Standard,Version 4.0.0.http://www.unicode.org/versions/Unicode4.0.0/(访问时间:2005/11/20)Extensible Markup Language(XML)1.0.http://www.w3.org/TR/REC/xml/(访问时间:2005/11/20)XHTML 1.0,The Extensible HyperText Markup Language. http://www.w3.org/TR/xhtml1/(访问时间:2005/11/20)

(62)ISO 8879:1986.Information Processing//Text and Office Systems// Standard Generalized Markup Language(SGML).(访问时间:2005/11/20).http://xml.coverpages.org/sgml.htmlExtensible Markup Language(XML)1.0.(访问时间:2005/11/20).http://www.w3.org/TR/REC/xml/Text Encoding Initiative(TEI).(访问时间:2005/11/20).http://www.tei/c.org/(访问时间:2005/11/20)

(63)Tagged Image File Format(TIFF).http://www.itu.int/itudoc/itu/t/ com16/tiff/fx/docs/tiff6.pdfJoint Photographic Expert Group(JPEG).(访问时间: 2005/11/20).http://www.w3.org/Graphics/JPEG/(访问时间:2005/11/ 20).JPEG Still Picture Interchange File Format(SPIFF).http://www.jpeg.org/ public/spiff.pdf(访问时间:2005/11/20)

(64)Scalable Vector Graphics(SVG).http://www.w3.org/TR/SVG/(访问时间:2005/11/20)

(65)Moving Pictures Experts Group(MPEG).http://www.cselt.it/mpeg/(访问时间:2005/11/20)

(66)Preservation Management of Digital Materials.http://www.dpconline.org/graphics/handbook/(访问时间:2005/11/20).TASI.Advice:Using CD/R and DVD/R for Digital Preservation.http://www.tasi.ac.uk/advice/delivering/cdr/dvdr.html(访问时间:2005/11/20)

(67)Preservation Management of Digital Materials Handbook.http:// www.dpconline.org/graphics/handbook/(访问时间:2005/11/20).The State of Digital Preservation:An International Perspective.http://www.tasi.ac.uk/advice/creating/creating.htm(访问时间:2005/11/20)

(68)SPECTRUM.the UK Museum Documentation Standard,Categories for the Description of Works of Art(CDWA).http://www.getty.edu/research/conducting_research/standards/cdwa/(访问时间:2005/11/20)

(69)International Standard for Archival Description(General)(ISAD(G)). 2 Edition.http://www.ica.org/biblio/isad_g_2e.pdf(访问日期:2005/11/ 20)

(70)Encoded Archival Description(EAD).http://www.loc.gov/ead/(访问时间:2005/11/20)

(71)Dublin Core Metadata Element Set,Version 1.1.http://dublincore.org/ documents/dces/(访问时间:2005/11/20)

(72)NISO Z39.87/20日02 AIIM 20/20日02 Data Dictionary//Technical Metadata for Digital Still Images.www.niso.org/standards/resources/Z39_87_trial_use.pdf(访问时间:2005/11/20)

(73)RLG Working Group on Preservation Issues of Metadata.http:// www.rlg.org/preserv/presmeta.html(访问时间:2005/11/20)

(74)Reference Model for an Open Archival Information System(OAIS).http://www.ccsds.org/documents/pdf/CCSDS/650.0/R/2.pdf(访问时间: 2005/11/20)

(75)Preservation Metadata and the OAIS Information Model:A Metadata Framework to Support the Preservation of Digital Objects.http://www.oclc.org/research/projects(访问时间:2005/11/20)

(76)Metadata Encoding and Transmission Standard(METS).http:// www.loc.gov/standards/mets/(访问时间:2005/11/20)

(77)IMS Content Packaging.http://www.imsproject.org/content/packaging/(访问日期:2005/11/20)

(78)RSLP Collection Description.http://www.ukoln.ac.uk/metadata/rslp/(访问时间:2005/11/20)

(79)Minerva.Deliverable D3.2:Inventories,discovery of digitised content&multilingual issues:Feasibility survey of the common platform.http:// www.minervaeurope.org/intranet/reports/D3_2.pdf(访问时间:2005/11/20)

(80)Dublin Core Collection Description Application Profile.http:// dublincore.org/groups/collections/(访问时间:2005/11/20)

(81)Uniform Resource Identifiers(URI).http://www.w3.org/Addressing/(访问时间:2005/11/20)

(82)Cascading Style Sheets(CSS),Level 2.http://www.w3.org/TR/REC/ CSS2/(访问时间:2005/11/20)

(83)Web Accessibility Initiative(WAI).http://www.w3.org/WAI/(访问时间:2005/11/20)

(84)Web Accessibility Initiative(WAI).http://www.w3.org/WAI/(访问时间:2005/11/20)

(85)Open Archives Initiative Protocol for Metadata Harvesting(OAI/PMH).http://www.openarchives.org/(访问时间:2005/11/20)

(86)Z39.50 Maintenance Agency.http://www.loc.gov/z3950/agency/(访问时间:2005/11/20)

(87)Bath Profile.http://www.nlc/bnc.ca/bath/tp/bath2/e.htm(访问日:2005/11/20)期

(88)SRW.Search/Retrieve Web Service.http://lcweb.loc.gov/z3950/ agency/zing/srw/(访问时间:2005/11/20)

(89)Resource Description Framework(RDF).http://www.w3.org/RDF/(访问时间:2005/11/20)

(90)Web Ontology Language(OWL).http://www.w3.org/2001/sw/ WebOnt/(访问时间:2005/11/20)

(91)CIDOC Conceptual Reference Model(CRM).http://cidoc.ics.forth.gr/(访问时间:2005/11/20)

(92)The ABC Ontology and Model.http://jodi.ecs.soton.ac.uk/Articles/ v02/i02/Lagoze/(访问时间:2005/11/20)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈