首页 理论教育 数字信息资源长期保存与维护的必要性

数字信息资源长期保存与维护的必要性

时间:2022-03-10 理论教育 版权反馈
【摘要】:数字信息资源已经成为研究和教育活动的主要信息源。数字信息资源以传统信息资源难以比拟的优势逐渐成为信息资源的主体。美国政府把数字信息资源的生产、传播、获取和利用,作为国家信息化建设的关键和重点。数据的重要性不言而喻。数字保存联盟第一年活动的报告就指出,长期保存我们的数字资产是一个渐近的步伐。根据数字信息资源产生的形态可以分为数字再造资源和原生数字资源。

5.1 数字信息资源长期保存与维护的必要性

5.1.1 数字信息资源是重要的数字资产

随着计算机技术、通讯与网络技术以及多媒体技术、数据库技术的发展,特别是数字技术的不断发展,信息的生产、存储和传递的方式发生了革命性的变化。数字信息资源已经成为研究(特别是科技研究)和教育活动的主要信息源。越来越多的学术交流活动、智力劳动成果以数字化形式或仅以数字化形式展现。

数字信息资源以传统信息资源难以比拟的优势逐渐成为信息资源的主体。数字信息资源作为信息资源的重要组成部分越来越受到各国政府与图书馆界的重视,在有些国家甚至被置于国家战略资源的高度,被誉为国家的“数字资产”(Digital Assets),是学术研究信息的数字存档,一个国家的科技创新能力以及与此相关的国际竞争力都依赖于其快速、有效地开发与利用数字信息资源的能力。自20世纪90年代中期以来,欧美发达国家和地区,对数字信息资源的建设和利用给予了高度的重视。美国政府把数字信息资源的生产、传播、获取和利用,作为国家信息化建设的关键和重点。加拿大在2002年提出的国家创新体系中,将建立国家数字科技信息网作为其重要组成部分。

随着数字技术和数字出版的发展,越来越多的有价值的信息内容已经而且只能以数字形式来管理、保存、使用,数字资源每年还以50%~100%的速度增长。根据加州大学伯克利分校信息管理与系统学院(School of Information Management and Systems,简称SIMS)的统计,若把美国国会图书馆的1700万册馆藏全部数字化(Digitized with Full Formatting),将产生136TB(1TB=1024GB,1GB=1024MB,1MB=1024KB,1KB=1024Byte)数据;仅2002年产生的纸张、胶片、磁盘和光盘存储的信息大约有5艾字节(5EB),92%的新信息是存储在磁性载体(主要是硬盘)上;5艾字节相当于37000个与国会图书馆拥有相同藏书规模的新图书馆的信息量(2)。可见数字信息资源的数量很大。

随着信息科技的发展,“数据”在社会经济中的地位也越来越重要。据国家信息中心首席工程师宁家骏先生介绍,世界著名的权威研究机构West World公司的报告指出:100兆(MB)数据的价值超过100万美元(3)。数据的重要性不言而喻。

如何保障这些有益于我们的研究和教育活动、丰富我们生活的数字资产的安全,并使之可长期存取,是我们需要关注的问题,也是全社会的责任。数字保存联盟第一年活动的报告就指出,长期保存我们的数字资产是一个渐近的步伐(4)

5.1.2 数字信息资源具有脆弱的特性

(1)数字信息资源比物理信息资源更脆弱

美国的“国家数字信息基础设施和保藏计划”(National Digital Information Infrastructure and Preservation Program,简称NDIIPP)网站明确指出,“在许多情况下,数字资源比物理资源更脆弱。这些文档本身更容易被毁坏,或者它们存储的载体很容易被淘汰”。

(2)原生数字信息资源面临着更大的消失和不可获得的风险

根据数字信息资源产生的形态可以分为数字再造资源和原生数字资源。数字再造资源(Digital Double Materials)是对以前存在的物件进行数字化再造而形成的“数字拷贝”,不声称与原作一模一样,只是原物的一种表现形式,往往能利用数字化的特长将原物更好展现和利用,如美国国会图书馆的“美国的记忆”,就是对美国历史上重要的文献进行数字化处理。原生数字资源(Digital Born Materials)是仅仅以数字形式存在的数据,例如:万维网网站、电子出版物、多媒体产品、文化或科技数据库,等等(5)

“原生数字资源”没有其他的存储形式,一旦破坏,就永远丢失。“因为通常没有单独制造出来数字格式资料的模拟(物理)材料版本,这些作为历史资源的所谓‘原生数字资源'即面临着更大的消失和不可获得的风险,或阻止未来研究人员利用它们原始的形式研究它们的风险。数以百万的数字资料,诸如安装在早期互联网上的网站,已经消失了——不全面或不能使用原始的版本。”(6)为了保存商业网站产生时期(Birth of the Dot Com Era),尤其是1994—2001年期间美国商业文化中面临消失危险的数字资源,在NDIIPP项目中,马里兰大学Robert H.Smith商学院和因特网档案馆等机构通过两个Web商业存档门户——“商业计划档案”(7)和“商业网站档案”(8)以及直接与商业网站时代的参与者联系收集有关资源。

2005年7月,在NDIIPP项目两年召开一次的会议上,纽约大学交互式远程通讯项目(Interactive Telecommunications Program)的Clay Shirky说,“要想使数字信息资源长期保存,必须定期对其进行查看或备份,若只保存数字形态,当然会丢失,而且时间会很短”。对于一些特殊的数字信息资源而言,其长期保存的难度更大。如数字地理空间数据的保存涉及数据转换、文件大小、适当的数据格式、版权以及文档格式的复杂性等。为了保存数字地理空间数据,斯坦福大学等承担了国家地理空间数字档案(National Geospatial Digital Archive,简称NGDA)的建设任务,并通过亚历山大数字图书馆(Alexandria Digital Library,简称ADL)软件界面提供联邦检索(9)

由于计算机界面的变化,有的数据已无法再读取,如1960美国人口调查统计数据存储在只有用UNIVAC TypeⅡ-A Tape Drive才能读的磁带上,全世界只有两台机器可以读,一台在日本,一台在Smithsonian博物馆(10)。更为严重的是,有的信息永远无法读取。如早期因特网的很多数字物件已不复存在。1995—1999年在IEEE Computer和Communications of the ACM上被引用的文献在2000年时就有28%不再可获得,到2002年增加到41%(11)

(3)数字信息资源的长期可获得性面临许多威胁

数字资源长期可获得性的威胁包括技术、法律、金融、组织等因素,数字信息的长期可获得性不仅仅是图书馆的问题、技术问题、经费和某个机构的问题,或者是研究机构、教育机构、文化机构的问题。它是从事知识创造、加工、管理的一个专业化问题,是为了确保我们的信息被我们的下一代获得。它同时是一个发展的问题,可以保障我们创造的知识被用来促进发展。它甚至是我们政府的一个政治问题,需要保护我们的知识资产,这些知识资产大部分是由公共资金资助而产生的。数字化信息如此具有基础性、普遍性,长期保存的负担已经远远超出单个和某些机构的能力,长期保存数据价值的丧失经常是由于机构的短期目标和市场利益。因此,数字信息的保存十分迫切,很多国家已认识到保存数字信息资源的紧迫性,为此进行了一系列研究和实验。2003年8月,美国国家自然科学基金委(NSF)和美国国会图书馆联合发布了报告《现在是行动起来的时候了:数字存档与长期保存的研究挑战》(12)

5.1.3 有利于将珍贵的数字信息资源提供使用

保存的目的是为了提供使用。国家科技图书文献中心理事长师昌绪院士在2007年10月11—12日召开的“国际数字资源长期保存国际会议(iPRES)”上指出,“长期保存的知识资产可以被当前受到数字化鸿沟限制的人们在将来的某一天使用,使得我们的下一代也可以从中获益”。(13)美国研究图书馆组织(RLG)和国家档案与记录管理委员会(National Archives and Records Administration,简称NARA)合作的“数字仓储认证项目”(Digital Repository Certification)就是为了帮助进行可靠存储、迁移和对数字收藏提供存取的数字仓储。

国内外已出现多个将珍贵历史、文献等资源数字化并提供使用的项目。最有名的当推美国国会图书馆(LC)于1990—1995年间实施的试验性计划“美国记忆”(American Memory)项目。该计划的数字馆藏对象主要为美国的历史文献,包括历史照片、手稿、历史档案及其他文献等。LC作为一个收藏宏富的国家图书馆,其数字化的政策和方法突出了保藏和利用这两个要点,该计划的做法也影响了后来许多公共图书馆的数字图书馆计划。由于“美国记忆”计划的成功,后来就演变成为美国国会图书馆牵头、美国许多其他机构参与建设的国家数字图书馆项目(National Digital Library Program,简称NDLP)。NDLP可将950多万条美国历史文献通过因特网向全球用户提供免费访问,可用的访问网站有“美国记忆”(14)、“美国的图书馆”(15)和“展览”(16)。除了国家级项目外,美国还有许多地方数字图书馆项目,如美国俄亥俄州历史数字馆藏“俄亥俄记忆:俄亥俄历史缩影”(17),美国俄亥俄州沃兴屯市历史数字馆藏(Worthington Memory)(18),科罗拉多州数字化项目(Colorado Digitization Program,简称CDP)和加利福尼亚数字图书馆(California Digital Library,简称CDL)(19)等。澳大利亚政府1995年拨款1 000万澳元进行国家图书馆和博物馆的数字化项目(20),主要是一些古老文献和土著文化遗产的数字化。国家维多利亚图书馆已将数十万张各个时期的照片进行了数字化,并在网上建立了图片数字图书馆。法国国家图书馆的Gallica项目(21)始于1997年,该计划由国家投资,由国家文化部数字化研究所统一组织协调,由国家图书馆主要负责对图书资料的建库工作。在因特网上免费提供14世纪各种图书中的1000幅彩色插图及其历史线索介绍解说,组成了“查理五世皇帝的时代”(1330—1380年)可查询的数据集。其中含有17类内容,这是法国国家图书馆的第一个数字图书馆。2007年度,日本国立国会图书馆确立优先发展的领域包括4个方面,其中,第二个方面是“创建数字档案”,持续稳定地对国会图书馆馆藏进行数字化,并扩大全文资源在互联网上的获取范围;特别是要确保在2010年以前“明治以来数字图书馆”(Digital Library from the Meiji Era)项目中,基本完成大正时期(1912—1926年)出版的大部分书籍的数字化并提供给公众;通过“网页存档计划”(Web Archiving Project,简称WARP)加强对日本境内发布的互联网档案信息资源的存取,争取在2009年以前建成一个可以满足长期保存需求的数字档案系统(22)。国外类似的项目还有自动长期存储国际上主要出版商电子期刊的荷兰国家图书馆数字存档系统e-Depot(23)

2008—2015年中国国家图书馆拟完成馆藏特色资源库的建设,向公众提供具有中国文化特色的信息资源,包括:甲骨资源库、金石拓片资源库、敦煌资源库、地方志资源库、图书馆学资源库、中国国情资源库、中国博士论文资源库、中国学资源库等;建立中文互联网信息资源库,保存中国重要的网站网页信息,并向公众提供查询服务(24)

为了将散落的敦煌文献聚集起来以利于更好地研究,1993年,中国国家图书馆、大英图书馆、新德里国立博物馆、法国国家图书馆、圣比得堡东方研究院、柏林国家图书馆倡议成立国际敦煌学项目。1994年国际敦煌学项目(International Dunhuang Project,简称IDP)正式成立(25)。1998年10月IDP英文网站(26)开通,目前上网图片已达上万幅。2001年4月在中国国家图书馆设立IDP办公室。中英两国共同合作开展的国际敦煌学项目——数字敦煌中文网站(27)于2002年11月11日开通,首批上网数据文献目录达上万条,文献50余件,图片300多幅,国家图书馆拟将馆藏所有敦煌文献陆续数字化上网。台湾大学数字典藏资源中心(NTU Digital Archives Resource Center,简称DARC)为“台湾大学典藏数字化计划”提供资源与服务整合的界面(28),以促进台湾地区文献文物、植物标本、昆虫标本、地质科学、人类考古、动物博物馆等数字化成果的长久典藏与有效取用。

联合国教科文组织(UNESCO)于1992年发起“世界记忆项目(Memory of the World Programme)”(29),其目的是保护世界文化遗产,将数字化了的文化遗产在因特网上公开,提高人们对文献遗产,特别是濒危文献遗产重要性的认识。“世界记忆”工程是世界遗产项目的延伸,关注的是文献遗产的保护,具体指手稿、图书馆和档案馆保存的珍贵文件以及口述历史记录等。世界记忆工程通过建立地区级和国家级委员会开展活动。(30)

为了确保珍贵的原生数字资源的保护与长期存取,国内外已启动许多保存网络信息资源的项目。美国国会图书馆自1997年开始进行网络信息保存试验项目——因特网电子资源虚拟存档的映射(Mapping the Internet Electronic Resources Virtual Archive,简称Minerva Prototype)(31)。1996年,澳大利亚国家图书馆建立网络信息资源保存项目——保护与存取澳大利亚的网络文献资源(Preserving and Accessing Networked Documentary Resources of Australia,简称PANDORA)(32)。1996年,瑞典皇家图书馆设立网络信息资源收集项目——Kulturarw3,进行电子资源基础建设,收集、保存瑞典的网络信息资源,并提供网上获取(33)。法国国家图书馆于1999年底开始了网络信息资源保存的研究项目。在国家973和985项目支持下,北京大学网络实验室开发建设的中国网页历史信息存储与展示系统——中国Web信息博物馆(Web InfoMall),目前已经维护有25亿以中文为主的网页,并以平均每月4 500万网页的速度扩大规模(34)。中国国家图书馆自2003年起已启动网络资源长期保存试验项目,已保存中国所有的2万多个政府网站的公开信息、100多种中文电子报以及一些专题性资源(35)

5.1.4 数字信息保存已引起国际关注

1999年在布达佩斯召开的世界科技大会(World Conference on Science)就意识到对科学信息存档的重要性。国家标准化组织已将开放存档信息系统参考模型(Open Archival Information System Reference Model)批准为国际标准。为了使促进科技记录长期可存取的问题受到关注,作为创造、传播与使用科技信息的机构间交流的独特的论坛,国际科技信息委员会(The International Council for Scientific and Technical Information,简称ICSTI)自20世纪90年代起就与图书馆、出版社、档案馆以及联合国教科文组织等国际组织开展合作,ICSTI还发布了关于《保持对科学数字记录的永久可获得》的声明(36)

为应对数字资源长期保存带来的挑战,欧美等发达的图书馆和相关联盟正在大力开展研究和试验。JSTOR是一家非营利组织,肩负着创建和维护重要学术期刊的权威档案及提供对这些期刊的尽可能广泛的访问的双重任务(37)。英国数字管理中心(The Digital Curation Centre,简称DCC)、欧洲数字保存机构(Digital Preservation Europe)、欧洲数字储存基础设施研究项目(Digital Repository Infrastructure VisionforEuropeanResearch,简称DRIVER)、数字化资源储存技术网络(Network of Expertise in Long-Term Storage of Digital Resources,简称NESTOR)联合于2007年11月在柏林洪堡大学(Humboldt University)的Adlershof校区召开了“科学与学术数字仓储内容长期保护与存取的实践与挑战研讨会”,大会关注的领域有:技术基础设施与社会支持框架,选择、评价、吸收和描述,知识库的业务活动,发现和存取,质量控制、自我审查和认定等。此次大会是继2005年DCC在英国剑桥大学的数字化内容长期保存大会之后的又一次盛会(38)

我国相关部门、图书馆界等都已经意识到科技文献和科技信息长期保存存在的危机,并已经在科技部支持下开始建立数字化资源长期保存网络的尝试,组织国内主要科技信息机构协商联合建立数字资源的长期保存机制,联合开发和试验长期保存系统。国家科学图书馆早在2004年就已经开始跟踪研究,并启动了相关研究试验,目前已形成了一支从事数字资源长期保存的研究团队。以科研项目形式开展了数字资源持久保存国际合作试验、数字化科技信息资源长期保存体系与政策机制、网络信息资源保存的理论与方法方面的研究。国家科学图书馆承担了国家科技文献平台的数字科技资源长期保存的可行性研究与实施规划任务,正在科技部和国家科技文献平台的支持下积极推进建立数字化国际科技期刊长期保存网络系统。目前还在积极构建的数字资源长期保存技术示范体系,核心系统及相关规范、流程已经初步完成,并选择了Nature、Springer、维普三家数据库进行试运行。另外以国外原型系统为基础与研究所合作开发的“研究所知识库系统”可以支持研究所存放和保存自己成员的科研论文、科技报告、学位论文和其他形式的知识资产,目前已在中国科学院力学所、数学研究院等若干研究所试用,正准备向该院其他研究所推广使用。国际数字资源长期保存国际会议(International Conference on the Digital Preservation,简称iPRES)是数字资源长期保存领域最权威的国际性系列会议之一,自2004年首次组织以来,已经逐步形成了在中、欧、美国家轮流召开的格局。2004年7月和2007年10月,中国科学院国家科学图书馆先后组织召开了2次“中欧数字资源长期保存国际研讨会”,来自英、美、德、法、澳大利亚等国家图书馆、著名大学的专家学者与我国大型文献情报机构的专家学者共同围绕数字资源长期保存领域所取得的进展和最佳实践进行了交流讨论。《现代图书情报技术》还刊登了张智雄博士组织的系列论文,这些成果从技术体系、技术策略、技术标准等角度对数字信息资源保存当中的技术问题作了分析和论述。

为了了解国际上数字信息资源保存的现状与进展,IFLA于2006年出版了长达271页的《数字保存的网络化:世界15个国家图书馆的实践》(39),涉及的国家图书馆有:澳大利亚、奥地利、加拿大、中国、丹麦、法国、德国、日本、荷兰、新西兰、葡萄牙、瑞典、瑞士、英国和美国。美国图书馆与信息资源委员会发布了研究报告《国际数字保存的现状》(40)和《美国大学与研究图书馆数

字保存项目的现状》(41)。数字保存联盟(Digital Preservation Coalition,简称DPC)和澳大利亚的数字信息资源保存门户——保护对数字信息的存取

(Preserving Access to Digital Information,简称PADI)共同出版季刊《数字保存新动态》(42)。美国研究图书馆协会调查了2000—2001年保存的现状(43)

图书馆和出版社在数字信息保存领域做出了许多努力。哈佛大学图书馆于2001年12月完成了65页的关于电子期刊存档的调查(44)。国际上许多大大小小的出版社(包括商业出版社与非营利出版社)都开始了出版物的存档计划,有的还与图书馆界开展了合作。国际图联(IFLA)与国际出版商协会(International Publishers' Association,简称IPA)联合指导小组共同发布了《IFLA/IPA永久保存世界记忆:关于存档与保护数字信息的联合声明》(45)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈