数字科学信息保存

时间：2024-10-01 百科知识版权反馈

【摘要】：就数字科学信息的保存工作而言，近10年来才受到各国的普遍关注，在世界各地出现了众多数字科学信息的长期保存项目。但是，谁应该承担长期保存数字科学信息的责任，目前还没有清楚的界定。第二类则是原生型数字科学信息，是一开始就以数字形式存在的信息，而且通常仅以数字形式存在。

5.1　数字科学信息保存

由于数字媒体有限的寿命及其运行的技术环境飞速发展，数字信息的长期保存遂成为一种十分必要的、独立的新功能。1996年前后，欧美国家相关机构和研究人员针对数字媒体的寿命开展了一系列研究(Task Force on Archiving of Digital Information，1996; Mackenzie Owen and van derWalle，1996)。数字保存要研究的课题包括管理和控制技术过时的风险，应对数据管理方法的变化，开发和实施非专有标准等。

5.1.1　必要性与决策因素

目前科研单位面临着管理海量的、各种类型科学信息和数据的严峻挑战:每天有成百上千兆字节的数据生成，其中包括一些永远不可能重复的历史事件和数据。但是，媒介技术，包括操作系统、文件格式、输入输出设备、编程语言、应用软件乃至媒介本身不可控制的过时老化和更新换代使全球不断增长的数字科学信息资源面临严重的威胁。一个典型的事例是，美国1960年的人口调查统计数据存储在只有用UNIVAC typeⅡ—A tape drive才能读的磁带上，而全世界只有两台机器可以读这种磁带，一台在日本，一台在Smithsonian博物馆。很多类似的信息已经永远无法读取了，这样的实例不胜枚举。早期互联网的很多数字物件已经不存在了，1995～1999年在IEEEComputer和Communications of the ACM上被引用的文献，在2000年时就有28%不能再获取，到2002年这个数字增加到41%。^[1]

由于数字技术发展太快，人类还没有比较完善的应对计划和方法。就数字科学信息的保存工作而言，近10年来才受到各国的普遍关注，在世界各地出现了众多数字科学信息的长期保存项目。如在荷兰，Koninklijke Bibliotheek与IBM合作建立了一个基于仿真和“全球虚拟机”(UVC，Universal Virtual Machine)的科学文献数字档案(http://www.kb.nl/dnp/e-depot/e-depot-en.html);美国国家医学图书馆(US National Library of Medicine)通过PMC(PubMed Central)仓储创建了数字档案(http://www.pubmedcentral.nih.gov/);美国物理学会(APS，American Physical Society)的PROLA(http:// prola.aps.org/)档案以数字形式保存了1893年以来APS出版的期刊;美国国家航空航天局(NASA)和美国太空数据系统咨询委员会(CCSDS)联合制定OAIS标准，旨在对资源的存取和长期保存规定概念和框架以作为国际标准组织的未来标准，等等。

但是，科学信息长期保存的许多方案和相关措施都还处在摸索和实验阶段。而且，长期保存策略是一个系统工程，其决策涉及方方面面的因素。比如，各种数字科学信息资源之间的关系，信息资源和元数据的管理模式，资源集中与分散的程度、内容与元数据的复制与备份情况，资源所有者和用户的期望与需求，以及现存保存机制和机构等都会影响相关决策。在进行科学数字信息资源的保存决策时，其他需要考虑的问题如^[2]:

●用哪种编码格式?因为某些格式比其他格式更易于保存。

●为了履行保存职责，需要元数据吗?如果需要，采用何种元数据?如何获取、存取元数据并使之与馆藏相联系?

●不同种类和类型的科学信息资料分别保存多久?如何决策?由谁决策?决策的标准是什么?

●是否提供数字科学信息的开放和公共存取?如何设定信息删除、存档、转移的权限?

●采用何种技术保存策略?为避免技术落后，出版商和仓储必须清醒地意识到技术进步与发展的趋势，而且不同的主体可以相互合作。

●数字作品的完整性和署名权如何保证?

●从作者那里获得存储、转换、实施技术保存策略、删除和保存资料的授权。仓储等必须一开始就与存放人就版权和权利问题达成协议。

●电子印本仓储委员会的管理层由经理和用户组成，其职责是制定政策、谈判和签署存放协议。

●基础设施服务，包括数字科学信息的摄入、存档、数据管理和存取。这是当前电子印本仓储的核心功能，也可以外包给专门的数据仓储服务机构。

●如何寻求专家的支持服务，尤其是在履行保存规划的设计与开发职能之时。

5.1.2　数字科学信息的保存责任

传统上，只要期刊对读者有价值，单个图书馆就会长期保存印刷型期刊。许多国家有法定的保存图书馆，保障研究人员和学者对期刊，尤其是本国出版的期刊的存取。但是，谁应该承担长期保存数字科学信息的责任，目前还没有清楚的界定。是数字科学信息的作者、出版机构、管理机构、用户，还是其他责任者?有人认为出版商应该负责，也有人认为国家图书馆应该负责。2000年以来，英国的大不列颠图书馆开始尝试收集万维网上的资料，包括数字期刊，并与一些电子出版商开展合作。但是，该国和大部分国家一样，并没有数字信息资源保存的相关立法。

以开放存取期刊为例，其作为一国的科学研究成果，同样应该被长期正式地加以保存。但是在当前的实践中，保存工作面临许多不确定性。如果期刊持续出版，那么读者可以同时通过法定保存机构和期刊出版机构来存取内容;如果开放期刊停刊，理论上保存机构仍然应该提供存取功能。因此，开放存取期刊的长期保存要求法定典藏图书馆和开放存取出版商之间的讨论和合作。如果没有立法规定法定保存机构，那么出版商就要承担这个责任。但是由于商业性出版机构无法绝对避免破产或者停止营业的风险，因此其先前所出版的数字文献就有丢失的可能。

数字科学信息的长期保存需要投入可观的人力和资金，但是其效果的显现是一个长久的过程，更遑论带来投资收益。^[3]因此，不能指望完全由商业性出版机构来承担数字科学信息资源的长期保存责任。实际上，迄今为止许多研究长期保存的相关项目都由图书馆、档案馆和政策制定机构开展。从有利于保存活动的长期开展和相关标准的广泛采纳来看，当前作者、出版者、公共部门和用户共同参与的做法是必然的，也是必要的。

5.1.3　不同类型信息的保存

数字科学信息可以分为两大类:第一类是数字化的科学信息，指的是对以前存在的科学信息制品数字化以后形成的产品。它们不一定与原作一模一样，只能算是原物的一种表现形式。第二类则是原生型数字科学信息，是一开始就以数字形式存在的信息，而且通常仅以数字形式存在。每种数字信息资源，如开放存取仓储、开放存取期刊、普通万维网信息、数据库、多媒体产品等都具有不同的性质、价值、目标和结构。因此，其长期保存的涵义和策略都有所不同。

如果文章首先在仓储和开放存取期刊发布，那么它们显然应该保证读者能够在一定时期内存取该论文;关键问题在于要保存多久。相关的保存决策还要考虑以下因素:论文类型，是预印本、后印本、开放存取论文还是附加材料(如数据、评议意见以及修改稿等);论文在一段时间内的价值，等等。

电子印本文档的根本目的是促进存取，但是它有各种各样的组织方式。主题仓储和机构仓储的核心内容有很大不同，相应地，其保存政策也应该有差异。机构仓储主要针对机构的智力成果，并用于提高机构的可见度、扩大机构的影响，并方便用户存取。而主题仓储的目的在于促进某一学科领域的信息存取。前者可以按照研究者个人、研究小组、院系等来组织材料，后者则集中反映该学科领域的研究进展。相应的，两者的保存策略和决策者都应该有所不同。

单个仓储可以有单独的保存政策，但是很可能它必须保存在不止一个地方。而且它也必须同时考虑其他仓储、开放存取出版商和其他保存机构如研究图书馆、法定保存图书馆等的情况。如果开放存取仓储的目的只是提供最新研究成果，那么可以不必考虑长期保存问题。但是调查研究显示，将论文存入仓储的作者通常希望仓储即使不能永久至少也能够代为保存10～15年。还有人认为电子印本仓储无需保存后印本，因为它只是正式出版文献的补充;而且后者另有保存渠道。但是，对于纯电子形式的论文，如果没有法定图书馆和纯电子出版商承担这个责任，那么电子印本仓储就应该承担。就像LOCKSS(Lots of Copies Keep Stuff Safe)项目名字本身预示的那样，在电子科学信息长期保存的早期阶段，仓储应该承担保存责任。

同样必须考虑伴随资料预印本和后印本的问题。正式出版的论文当然要作为研究成果记录长期保存，但是电子印本仓储文本不一定要保存正式出版的文献，因为另外有机构承担此项任务。此外，仓储必须决定附加材料是否也要长期保存。如果它们是正式发表论文不可分割的部分，那么也许就应该与论文一起保存。后印本如果只是正式出版文献的副本，而且后者的长期存取是有保障的，那么后印本就未必需要长期保存。但是，当前论文的长期保存充满许多不确定因素。因此，后印本的保存工作可以视为加强安全的手段，以防原始纯电子期刊的丢失。如果仅是中短期保存后印本，那么成本不会很高。预印本要考虑的问题又有所不同，包括:它是否为正式出版论文的前身;预印本、同行评议记录和修改过程是否有内在的长期保存价值。如果预印本只是正式发表文献的前身，那么也许并无必要加以长期保存。但是在某些特殊情况下，可能预印本和过程文件都具有长久的保存价值，例如作者是名人或者十分重要、论文讨论了有争议的题目，或者论文涉及新学科，等等。还有，如果是最终未能发表的论文，那么也许预印本和评议意见就没有长期保存的价值。但如果是受到资助的研究项目，那么资助者有权要求保存成果附件。预印本和过程文件，如手稿、通信等，应该由作者决定如何保存以及是否要将这些材料给予或者出售给仓储。

电子印本仓储至少应该有一个副本。如果某位研究者离开了机构，或者机构终止了某项研究，那么相关研究成果就应该转入新的仓储以便存取。仓储中的电子印本如何存储在很大程度上取决于仓储的组织和管理模式。即使仓储应负保存之职，也并非每一个个体仓储都应如此。一般来说，开放存取仓储的保存方式有以下几种:

●完全的电子印本仓储——属于大型机构，完全地承担保存之职。

●专家支持的电子印本仓储——利用外部专家的技能实现数字保存。

●外包保存职能的电子印本仓储——由外部组织完全负担和控制保存工作。

●外包电子印本仓储服务——单个的研究项目或机构利用外部仓储服务。

5.1.4　技术解决方案

传统的信息保存工作首先要评价和确定保存需求以及信息资源面临的风险;其次要创建安全、适宜的物理环境，并保证在使用过程中尽量不破坏资源，以及修复已经发生的损害等。在数字环境中，信息保存仍然要完成类似任务，只是对于“损害”和“有用”的定义有了变化。另外，针对不同类型数字信息的具体保护行为也有所不同。还有，数字信息保存实际上涉及两种保存，其中“物理保存”可以通过把比特流从一种媒介拷贝到另一种媒介来进行，而更加具有挑战性的“逻辑保存”对于计算机和人类解释、使用及理解数字信息都是至关重要的。^[4]从根本上来说，数字科学信息长期保存的目的是使信息的有效生命最大化，其中涉及技术、经济和管理诸问题。从具体做法上来看，并不一定要永久保存信息，或者以信息的原始格式加以保存。

20世纪90年代中期以来，许多研究项目都将工作重点放在开发技术和组织方面的解决方案。目前主要的解决方案有两种:即迁移(migration)和仿真(emulation)。前者使用范围更广。

迁移技术包括从上一代技术周期性地向下一代技术转移，其中的技术既包括软件也包括硬件。有几种类型的迁移，分别使用不同的方法论，并对应不同的目标、分析和实施模块。但是，所有迁移技术的核心都是原始比特流的迁移，以便它们能够被阅读、理解并在其他新平台上正常运行。它要实现的目标和手段包括应用软件、格式的后向兼容，以及不同应用系统的互操作性。这种迁移可以用通用软件包加以解决。但是这种方式只能提供一定范围内的短期保存。更加易于管理的、系统化的长期迁移方法是利用标准集(standard set)加以限制，以减少格式的多样性。如果这一点能够被大范围的生产商、经销商和仓储采用，就可以减少迁移的频率。其次就是避免使用专有格式。此类标准化的要求如文本和元数据使用SGML、XML，图像使用TIFF，等等。但是在某些方面仍然缺乏可用的开放标准，而充斥着众多事实标准，因为它们在满足用户的当下需求方面具有优势。

仿真程序用于提供与某应用平台同样的功能，但却不是原来的平台。它们可以独立于硬件和操作系统。这种技术不需要迁移原始数字对象，原始文件和应用都可以保留。它是在操作系统及激活保存资料的程序之间的软件，通过虚拟机来模拟原有环境的特性。仿真技术仍然处在发展的初期阶段。其困难包括在未来技术不断发展和更新换代的环境中，创建和维护仿真机的可行性。但它在某种程度上优于纯粹的信息迁移，因为它可以保存数字对象的原样。

另一种技术是封装。工作原理是原封不动地保存数字对象，同时保存解释它所必需的细节。这样原来用于创建和存取该对象的应用系统可以在将来的平台上重建。UPF(Universal Preservation Format)就是一个例子。^[5]但它和仿真面临着类似的问题。要记录原始对象及其应用情况是很困难的，尤其在格式和软件都普遍属于专有产品的情形下。而且利用封装技术每保存一个对象，都需要记录很多额外信息，所以存在着资源的浪费。而且也不能保证将来不需要迁移。

由于这3种技术各有优缺点和强弱项，所以在某一个既定的环境中可以综合采用，互相补充。^[6]

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈