首页 百科知识 开放存取仓储

开放存取仓储

时间:2022-10-01 百科知识 版权反馈
【摘要】:开放存取仓储是实现开放存取的重要途径之一。这便于科学信息迅速、快捷地在各学科领域广泛传播,从而推动科学信息无障碍交流的目的。开放存取仓储是20世纪90年代以来兴起的一种新兴的科学信息交流与资源共享模式。因此,自开放存取仓储问世以来发展十分迅猛。

4.3 开放存取仓储

开放存取仓储是实现开放存取的重要途径之一。利用开放存取仓储,科学家、学者和研究人员可以通过自行典藏(Self-Archiving)技术自由地提交、存放、检索、下载和使用研究资料及研究成果。这便于科学信息迅速、快捷地在各学科领域广泛传播,从而推动科学信息无障碍交流的目的。开放存取仓储内存放和发布的可以是文献的预印本(Preprint)、后印本(或勘误本,Postprint),可以是已正式发表或出版的论文、专著,也可以是传统上无法通过正规渠道出版的科学数据、技术报告、工作文件、机构记录等。由于进入开放存取仓储的数字资源一般并不需要经过类似传统编辑、评审那样的质量控制程序,因此与其认为开放存取仓储是一种出版平台,不如把它看做是按学科或者按机构组织或者重新组织科学和学术信息的新型平台与模式。

4.3.1 开放存取仓储概况

开放存取仓储是20世纪90年代以来兴起的一种新兴的科学信息交流与资源共享模式。首先,与其他科学信息组织模式相比,它最大的特点是以在全球范围内实现开放存取为宗旨。对于科学研究本身而言,开放存取仓储大量收录论文预印本,克服科研成果的出版时滞,提高了科学信息交流效率;收录那些不便以传统出版物形式发表和出版但又对科学发现和科学研究有着重要支撑作用的资料,如大量的数据集、各种格式的图形文件、视频文件、音频文件以及多媒体资料等,有利于提高科学研究的效率;尽量取消存取科学信息与文献时包括费用、权限限制在内的各种障碍,改进了科学信息交流机制,拓展了科学信息获取途径,扩大了科学信息传播范围。其次,对于研究者而言,通过开放存取仓储,他们可以安全、自由地存取与研究相关的各种资料和成果,大大方便了研究工作;而且存放在开放存取仓储中的研究论文能够被尽可能多的读者阅读、引用,由此可以提高研究者的学术声誉和影响力。[25]最后,对于科研和科研资助机构而言,开放存取仓储削弱了传统STM出版商对学术资源的垄断,使包括高等院校在内的学术机构重新掌握了对科研成果的控制权;降低了这些机构及其图书馆获取学术资源的经济成本;拓展了向学术界和社会大众展示其科学研究和学术活动的途径,提高了它们的显示度、地位与公共价值。因此,自开放存取仓储问世以来发展十分迅猛。截至2007年9月7日,在开放存取仓储目录OpenDOAR(Directory of Open Access Repositories)上登记的仓储数量为930个;开放存储仓储记录ROAR(Registry of Open Access Repositories)的统计数量为926个(见图4-1)。[26]

img38

图4-1 ROAR开放存取仓储及其记录数量历年统计[27]

开放存取仓储在全世界的分布很不均衡,其中数量最多的是欧洲和北美,占到80%左右,其他所有地区加起来不过20%。[28]这与世界文化与科技发展的世界版图有一定程度的一致性。按国家考察得到的结果也进一步证实了这一点。根据OpenDOAR的统计,美国的仓储数量最多,达到260个,占当前仓储数量的28%。随后分别是德国、英国、澳大利亚、荷兰、法国、日本、加拿大。其他所有国家的仓储数量不到总数的5%(见图4-2)。

img39

图4-2 各国开放存取仓储的数量分布[29]

从仓储所使用的语言来看,有许多仓储采用不止一种语言,但是作为国际科学交流语言的英语,其主流地位是无可争辩的。根据DOAR的统计,有803个仓储使用英语,即当前的开放存取仓储中有83%左右使用英语。使用德语的仓储有130个,占14%;法语65个,占7%;西班牙语53个,占5%;荷兰语40个,占4%;日语34个,占3%;瑞典语31个,占3%;意大利语29个,占3%;葡萄牙语19个,占2%;波兰语9个,占0.9%;各有8个仓储采用中文、芬兰语,分别占总数的0.8%;各有6个仓储采用加泰罗尼亚语、挪威语、俄语,分别占总数的0.6%;各有5个仓储采用丹麦语、希腊语,分别占总数的0.5%;各有4个仓储采用韩语、拉丁语,分别占总数的0.4%;各有3个仓储采用克罗地亚语、印第语,分别占总数的0.3%;各有2个仓储采用阿富汗语、希伯莱语、匈牙利语、毛利语、乌克兰语,分别占总数的0.2%;各有1个仓储采用捷克语、冰岛语、卡纳达语、马来语、塞尔维亚语、斯洛文尼亚语、乌尔都语、意第绪语,分别占总数的0.1%(见图4-3)。

按开放存取仓储的学科分布来看,有一半的大型机构其仓储收录的学科种类十分全面(Multidisciplinary);一些工程类、农业类专科院校以及主题仓储通常覆盖少数几个学科。各个学科的分布,按数量从高到低分别是自然科学,农业、食品和兽医学,生物学和生物化学,化学与化工地球与行星科学,生态与环境学,数学与统计学,物理与天文学,保健与医学,技术总论,建筑学,工民建,计算机科学与IT技术,电子与电气工程,机械工程与材料,艺术与人文科学总论,工艺美术与表演艺术,地理与区域研究,历史与考古学,语言与文学,哲学与宗教,社会科学总论,商业与经济学,教育学,法律与政治学,图书馆与信息科学,管理与计划,心理学(见图4-4)。

在过去的20年左右时间里,开放存取仓储发展势头良好,尤其最近几年几乎每天都有新仓储或仓储试点项目问世,但是在开放存取仓储今后的发展过程中仍然面临诸如操作性问题、维护和可持续发展问题和法律问题等的挑战。

img40

图4-3 开放存取仓储使用的语言[30]

img41

图4-4 开放存取仓储的学科分布[31]

4.3.2 主题仓储和机构仓储

开放存取仓储可以分为按学科和主题聚集数字科学信息的主题仓储,典型的如物理学领域的arXiv(www.arxiv.org/)和认知科学领域的CogPrints(http://cogprints.ecs.soton.ac.uk/);以及由大学等机构集成本单位数字科研产出的机构仓储,典型的如美国麻省理工学院(MIT)的DSpace(http://libraries.mit.edu/dspace-mit/index.html)、美国佛罗里达州立大学图书馆的D-Scholarship(http://dscholarship.lib.fsu.edu/)、英国南安普顿大学的EPrints(http://eprints.soton.ac.uk/)等。但是两种仓储所采用的系统软件基本上是一样的,在很多场合区分也并不十分严格。例如,CERN的仓储(CERNDocument Server)就既可以算是机构仓储,存取CERN的研究成果,又可以算是高能物理领域的主题仓储。这一点也体现在开放存取仓储目录OpenDOAR和开放存取仓储记录ROAR中,它们都没有对两种仓储进行严格的区分。不过,OpenDOAR有一个主题仓储和机构仓储的分类统计,可以让人们大致地了解这两种仓储的数量比。截至2007年9月12日,机构仓储,主要是高等教育和科学研究机构的仓储有746个,占总数的80%;主题仓储118个,占总数的13%;混合型仓储52个,占总数的6%;政府仓储14个,占总数的2%(见图4-5)。这与目前认为机构仓储具备更好的发展势头和前景的看法是一致的。

4.3.2.1 主题仓储

20世纪90年代初,出现了旨在让全世界读者能够免费地、尽快地存取某一学科领域科研成果的电子预印本服务器(e-print servers)。这些服务器也叫做“仓储”(repositories)或“档案库”(archives)。它们成为传播初步的科研成果和未经同行评议的文献的非正式交流平台。经过10余年的发展,这种按学科聚集文献的主题仓储变得日益重要,其所收录的数字资源已不限于论文预印本,应用范围也从原来的物理学等领域扩展到了认知科学、卫生保健乃至人文社会科学等更为广阔的学科领域。如今,高能物理和数学领域的arXiv;经济学领域的RePEc(Research Papers in Economics)[32];认知科学领域的CogPrints;天文学、天体物理学和地理学领域的NTRS(NASA Technical Report Server)[33]和ADS(The Smithsonian/NASAAstrophysics Data System)[34];计算机科学领域的NCSTRL(Networked Computer Science Technical Reference Library)[35];化学领域的CPS(Chemistry Preprint Server)[36]等,都已经成为各自学科领域中现存同行评议框架下科学信息交流渠道的重要数字化拓展。相比较而言,在传统上并不重视预印本作用的学科领域,主题仓储的发展相对落后。

img42

图4-5 开放存取仓储的类型[37]

中国国内的电子预印本系统一般来说规模较小。1997年山东大学高能物理研究室提供的预印本服务(http://hepg.sdu.edu.cn/Service/preprint.html)可能是我国最早创建的电子预印本系统,但其规模很小,只是利用Web超链接功能建立了一些包含有论文预印本的外国网页。后来不断有一些小型电子预印本系统出现,如北京大学数学研究所从1999年开始收录数学领域的英文论文预印本系统(http://www.math.pku.edu.cn:8000/inst/preprint/index.php),它具备电子预印本系统的全部基本功能,用户可以浏览论文预印本的元数据记录,也可以从作者、标题、提交年代检索论文,还可以上传论文。还有如上海天文台图书馆的电子预印本(http://202.127.29.72/others/dzyyb.htm)、福建省科技信息研究所数字科技文献馆的论文预印本(http://szwxzx.fjinfo.gov.cn/yyb.htm)等。这些专业电子预印本系统绝大部分集中在数学领域,规模较小,功能简单,但是收录范围集中,交流目标明确,因此在特定主题领域起到了比期刊更快速、自由的学术交流效果。[38]2000年以后,中国出现了3家综合性的主题仓储:中国科技论文在线(http://www.paper.edu.cn/index.php)、中国预印本服务系统(http://prep.nstl.gov.cn/eprint/index.jsp)、奇迹文库(http://www.qiji.cn/eprint/)等预印本网站,以及一些国外学术论文预印本的中国镜像站,如arXiv在中国的数理科学电子预印本镜像库(http://xxx.itp.ac.cn)等。

4.3.2.2 机构仓储

2001年,俄亥俄州立大学高级行政官员和图书馆馆长约瑟夫·J·布兰宁在探讨开发远程教育体系时,提出建立俄亥俄州立大学知识仓储,以保存该校师生员工生产的数字知识产品的计划。这是机构仓储最初的雏形。2002年11月,惠普公司斥资1 800万美元与麻省理工学院合作开发的DSpace系统在两年多的辛勤工作后正式面世。同年在“第六届欧洲数字图书馆先进技术研讨会”上,MacKenzie Smith做了《DSpace:来自麻省理工学院图书馆和惠普实验室的机构仓储》[39]的学术报告,详细介绍了DSpace的构建原理、运行情况以及在学术交流和数字资源长期保存中的重要作用。SPARC的权威人士RaymCrow也于当年发表了《机构仓储现状》[40]和《SPARC机构仓储一览及数字资源指南》[41],这两篇文档提出了作为学术交流新模式的机构仓储概念,呼吁广泛构建机构仓储,并为建立机构仓储提供了理论依据。自此,全球范围内大规模的机构仓储建设开始了。

所谓机构仓储又称机构资料库、机构信息库、机构知识库、机构典藏库等。关于机构仓储的定义,有一部分研究者们倾向于从数字资源集合的角度进行界定。如RaymCrow认为机构仓储是收集、保存一个或多个大学智力产出的数字资源集合。[42]Foster[43]和加拿大研究图书馆学会(CARL,Canadian Association of Research Libraries)[44]等学者和机构都持类似看法。还有一些学者从服务的角度来定义机构仓储。实际上,早在RaymCrow的《机构仓储现状》中就提到了机构仓储的两个层面,即内容层面和服务层面。不同之处只是后来研究者们将服务提升到了更加重要的地位。2003年,网络信息联盟(CNI,Coalition for Networked Information)的执行理事Clifford A.Lynch认为机构仓储是大学为其社区成员提供的一系列服务,这些服务包括管理和传播大学及其社区成员创作的数字资料;或者确切地说就是长期妥善保存、组织以及传播那些数字资料。[45]2004年6月24日在伦敦召开的“机构仓储及其对出版业的影响”研讨会,与会者包括来自英、美等国的100多位研究人员和实践工作者。在会上,他们延续了对机构仓储的这种观点,即机构仓储是基于机构的服务,对机构所创建的内容进行存储、传播、管理和监测。

综上所述,机构仓储是在数字化、网络化环境中,为方便学术资源存取、促进学术交流而产生的数字信息组织方式,是获取、长久保存以及管理来自一个或多个学术机构的知识产品并将其提供给用户访问的一种数字化信息及其服务的集合。严格来说,机构仓储应该满足4个条件:①由学术机构创建;②资源是学术性的;③资料是长期积累的;④资源是开放的并且能够满足互操作要求。[46]

机构仓储作为实现开放存取的重要途径之一,受到了以大专院校为主的众多学术机构的充分重视,一些大学甚至联合起来建设机构仓储,如著名的DSpace联盟就是由美、英等国的7所知名大学共同构建的。加拿大高校图书馆协会牵头的机构仓储试点项目(Institutional Repository Pilot Project),截至2006年它的27个成员机构中有18家已经建成,或者在未来6个月内即将建成自己的机构仓储。[47]许多国家政府也十分关注本国机构仓储的发展情况,其中有的国家政府制定相关政策直接支持机构仓储的发展;有的国家如英国与荷兰[48],则启动大型国家项目来推动机构仓储的建设和有关标准的应用及实施;还有的国家,如德国建立国家级的机构来保证机构仓储的建设符合一定标准。

2005年5月10~11日,美国网络信息联盟(CNI)、英国联合信息系统委员会(JISC)和荷兰SURF基金会共同主办了“机构仓储战略调研会”(Making the Strategic Case for Institutional Repositories)。在会议筹备期间,主办方对澳大利亚、加拿大、美国和10个欧洲国家,包括比利时、法国、英国、丹麦、挪威、瑞典、芬兰、德国、意大利和荷兰的学术类机构仓储部署和发展情况进行了问卷调查和分析研究。调查显示,即使是在这些西方发达国家,在机构仓储的总量、建有仓储的机构占该国研究性大学总数的比例、机构仓储的规模等方面也差距悬殊(见表4-1)。在德国,机构仓储的数量甚至超过大学的数量,因为某一所高等教育机构可能建有多个仓储,如学位论文仓储、工作文件仓储和视频资料仓储等。这种现象在其他国家也不同程度地存在着。还有一些国家,建有机构仓储的大学比例非常低,如芬兰只有5%。至于机构仓储的资源,有些国家的机构仓储收录完整的资源对象,也有一些国家侧重于收录资源对象的元数据。比如荷兰,它的每个机构仓储平均收录12 500条记录,其中只有3 000条可以获取完整的对象文件。[49]

表4-1 13国学术类机构仓储的发展水平(2005年6月)

img43

从机构仓储的资源类型来看,大多数以传统的科技和学术文献形式,即专著、论文和学位论文为主。但是也有一些例外,比如澳大利亚机构仓储中的数字论文和专著并不多,倒是原始资料的数量占到机构仓储资源总量的83%(见表4-2)。

表4-2 机构仓储收录的资源类型(百分比%)

img44

续表

img45

另外,从覆盖的学科范围来看,各个国家的情况也很不相同。德国和澳大利亚的机构仓储中,人文和社会科学的资源占到一半左右,比利时、瑞典和英国则以自然科学、生命科学和工程学方面的资料为主,还有法国、德国和荷兰,其他学科类别的资料占到相当大的比重(见表4-3)。

表4-3 学科仓储覆盖的学科范围

img46

续表

img47

这是迄今为止较为全面和权威的一次相关调查,覆盖的国家数量也比较多。从中国的情况来看,浙江大学(http://libweb.zju.edu.cn/librarian/dspace/dspace.jsp)和厦门大学(http://dspace.xmu.edu.cn/)都采用了DSpace系统。我国香港科技大学最初于2003年2月建成机构仓储,它也采用DSpace系统软件,遵循OAI-PMH和SRW/U协议,支持中日韩语言编码,采用CNRI HANDLE永久唯一标识符,并参加了谷歌实验计划(Google Polite Project)。该仓储最初只有105篇计算机科学的报告,发展至今已收录40个社群、134个子集、1951篇文献。所有资料被OAIster服务器收录。另外,如我国香港中文大学的仓储Dspace SIR(Scholarly Information Repository),我国台湾“中央”研究院的数字典藏科技计划(MATT,http://140.109.6.190:8080/index.jsp)则尚未对外开放。

4.3.3 系统软件

开放存取仓储的软件系统可以分为3类:①开源软件,著名的如Dspace、EPrints、Fedora、Archimede、CDSware、Greenstone等;②专有软件或者出于商业目的开发的软件,如来自商业集成商Ebrary(www.ebrary.com)的仓储软件是为了向订阅其数据库产品的客户提供内容而开发的,还有如美国加利福尼亚大学伯克利电子出版社的Bepress系统等;③本地化软件,通常是大学为了某种应用,如开始独立地建设仓储而专门开发的,如由马普学会(Max Planck Gesellschaft)开发的MPGEdoc,斯图加特大学开发的OPUS(Online Publications University of Stuttgart),以及由大学联盟开发的MyCoRe等。[50]

2004年8月,美国开放社会研究所(OSI,Open Society Institute)在发布的第三版《机构仓储软件指南》中,列出了Archimede、ARNO、CDSware、DSpace、Eprints、Fedora、i-Tor、MyCoRe和OPUS共9个仓储软件系统,并从基本情况、技术细节、仓储和系统管理、内容管理、用户接口和查询功能、存档、系统维护等7个方面对这些系统进行了详细的对比研究。[51]据当年的不完全统计,仅这9个系统全世界就超过了200个用户。[52]近3年来,随着开放存取仓储的迅猛发展,涌现了更多的相关软件系统。截至2007年9月21日,ROAR列出了17种软件,OpenDOAR列出了61种软件;其中以DSpace和Eprints两种软件应用最广,各有200家左右用户(参见表4-4)。

表4-4 主要开放存取仓储软件系统的应用情况[53]

img48

每种软件系统都有自己的设计原则、目标和特色。DSpace支持以社区为基础的内容管理和资料提交过程,擅长处理异质数字内容,同时能够提供数字资料保存的技术方法,使得它特别适合需要展示和保存学术和科研成果的机构采纳;ARNO系统善于集中处理元数据;CDSware能够对存储不同类型资料的大型机构仓储进行操作,它以MARC21作为编目标准;Eprints提供一种简单实用的仓储系统,它尤其关注仓储中PS、PDF、ASCII和HTML格式的数字条目;Fedora是一种功能齐全的数字图书馆系统,能够对多个机构仓储进行协调;i-Tor配备了工具箱,能够创建一个以整合方式对多个数据库内容进行存取和传播的环境;MyCoRe则着重强调配置软件的灵活性,以支持不同类型的数字图书馆和机构仓储; Archimede系统支持多语种机构仓储的构建;OPUS系统专为德国大学提供构建大型的及多样化用户的机构仓储的基础软件系统。[54]下面,将具体介绍一些重要的机构仓储软件。

(1)Dspace[55]

美国麻省理工学院图书馆与美国惠普公司联合开发的Dspace是用于自行存储开放存取资源的系统软件。该软件于2002年发布,是一个内容管理和发布的开放源代码软件,运行在Linux和Unix平台上,遵循BSD协议,用户可以直接利用或者改写软件来创建自己的数字图书馆系统并与其他机构联网。最新版本是2006年3月17日发布的DSpace 1.4 alpha 1版本。目前有200多所学校和科研机构使用Dspace系统。DSpace允许各社区定制不同的工作流程和相关政策,并将各用户群体整合在一个大的机构仓储系统之中。

(2)Eprints[56]

2000年,英国南安普顿大学开发了免费软件系统Eprints的第一个版本,从2.3版本开始支持全文检索,目前已发展到Eprints 3版本。Eprints采用Perl程序语言编写,可运行于阿帕奇(Apache)网络服务器和MySQL数据库,遵循OAI-PHM2.0协议。该项目最初由CogPrints赞助开发,现在由英国JISC与英国国家科学基金会(NSF,the National Science Foundation)共同支持。它已成为“开放引用工程”(Open Citation Project)和DL12国际数字图书馆计划(DL12 International Digital Libraries Project)的组成部分。该软件目前支持PostScript、PDF、ASCII、HTML等多种文件类型。Eprints具有较大的灵活性,支持各种元数据标准。通过它可以创建与OAI兼容的文档,这样它们就能够被Google等软件准确定位并搜索到。

(3)ARNO

荷兰在线学术研究工程(Academic Research in the Netherlands Online)开发了一种支持机构仓储的软件ARNO。项目最初由IWI(荷兰语“科技信息应用改革”的首字母缩写)基金资助,早期参与者为荷兰阿姆斯特丹大学、提尔堡大学和德温特大学。2003年10月,系统公开发行使用,此后一直在上述大学以及鹿特丹大学、马斯特里奇特大学使用。ARNO系统是一种灵活性很强的内容管理工具。它提供一种能够创建、管理和揭示以OAI为元数据标准的机构仓储的系统工具,支持对机构仓储的内容和终端用户提交系统进行集中的创建和管理。具体的做法是把不同社区的元数据和与元数据对应的内容统一到一个个文件库中,各个文件库再组合成一个机构库。它也提供与世界上异地机构库的连接。但是,目前ARNO系统尚不能提供成熟的用户终端界面,它需要与其他软件技术如iPort、i-Tor等结合使用才能提供完善的功能。

(4)CDSware[57]

CDSware(CERN Document Server Software)是瑞士Jean-Yves Le Meur等开发的,初衷是为支持欧洲粒子物理研究所(CERN,European Laboratory for Particle Physics)的文档服务器。该软件由CERN管理,提供开放使用。它支持电子预印本服务器、图书馆网上编目以及其他以网络为基础的文件存储系统。CERN运用CDSware软件管理450多个资料收藏机构,目前拥有80多万条书目记录和36多万条全文文件记录,收藏类型包括预印本、期刊论文、图书、图片等。[58]用户通过CDSware可以检索这些书目信息和全文文件。2006年7月1日,CDSware改名为CDS Invenio。

(5)Fedora系统[59]

弗吉尼亚大学和康奈尔大学共同开发并实施了Fedora(Flexible Extensible Digital Object and Repository Architecture)系统。该系统是基于Linux的开源软件,具有很强的灵活性和扩展性,可以建立功能全面的机构仓储和其他支持互操作的数字图书馆。它显示了如何使用基于万维网的技术、包括XML和其他万维网服务技术来部署分布式的数字图书馆体系。该技术系统由3个部分组成:管理服务子系统(Management Service,API-M)规定了管理机构仓储的界面;存取服务子系统(Access Service,API-A)规定了存取机构仓储数字对象的界面;轻存取子系统(Access-Lite Service,API-A-Lite)是新改进的提供http网络服务的存取系统。[60]当前该系统的最新版本是Fedora 7。

(6)i-Tor[61]

i-Tor是用于开放式机构仓储的一种技术和方法,由荷兰科技信息服务研究所(NIWI,Institute for Scientific Information Services)的创新技术应用部开发。通过i-Tor,无论信息存储在哪个地方、以何种格式被存储,都可以由统一的万维网界面显示出来。i-Tor的目标是要实现一种“数据独立”的机构仓储,即内容资源和用户界面成为仓储的两个独立部分。它支持的机构仓储资源类型丰富、来源多样而且数量庞大,有助于传播来自不同数据库、文件系统和万维网站点的资料,它甚至支持从研究者的个人主页上收割数据。它提供OAI服务和数据,能够收割使用OAI数据收割标准的机构仓储和其他类型的数据库。i-Tor未统一规定机构仓储的工作流程,允许机构按照适合自己的方式自由地组织机构仓储。这样,对于打算在现有数字资料库基础上建立机构仓储的单位来说,i-Tor是一个很好的选择。

(7)MyCoRe[62]

MyCoRe来源于德国埃森大学的多媒体技术与学习主机项目(MILESS,Multimedia Teaching and Learning Server)。随后许多大学组成联盟共同开发MyCoRe系统。该系统的目的是提供一种支持数字图书馆和机构仓储的软件包。该软件包结构设计灵活,无需局部单位的具体规划就能适应要求,因此称为“我的”(My)。MyCoRe数据模型是可以配置的。在内容管理功能的基础上,它提供了一种样本应用软件,向用户说明如何运用元数据配置文件建立自己的机构仓储。该技术包含了建立机构仓储所需的基本功能,如跨库的分布式检索、OAI功能,支持视频、音频等流媒体文件管理和在线元数据编辑等。MyCoRe未针对特定的数据库进行严格编码,仅提供一种可持续发展的接口,可同时用于不同的数据库。除了应用于开放资源数据库系统,它还支持IBM等的商业性内容管理系统。这个系统能够用于更大规模和范围的机构仓储之中。

4.3.4 开放存取仓储举要

经过近20年的发展,全世界涌现了一些颇具影响力的仓储系统,它们在全球的科学交流活动中发挥着愈益重要的作用。

4.3.4.1 arXiv电子印本仓储(http://arxiv.org/)

arXiv是美国国家科学基金会(National Science Foundation)和美国能源部资助,由Paul Ginsparg于1991年8月在美国洛斯阿拉莫斯(Los Alamos)国家实验室发起建立的物理学电子预印本仓储。2001年康奈尔大学取代美国国家科学基金会和能源部成为主要的资助、维护和管理者[63]。arXiv系统目前已经由理论高能物理领域的预印本共享仓储转变为涉及物理学、数学、非线性科学、计算机科学、数量生物学(Quantitative Biology)和统计学等学科的综合性电子印本仓储。截至2007年10月1日,arXiv提供441 089篇预印本文献。[64]研究人员按照一定的格式将论文进行排版后,通过FTP、Web和电子邮件等方式按学科类别上传至相应的仓储中。arXiv电子印本仓储没有预设任何决定某一论文能否进入仓储的先决条件,也没有任何评审程序,所有人都可以把自己的论文放上去,也可以免费下载其中的论文。同行们可以对仓储的论文发表评论,与作者进行双向交流。论文作者在将论文提交到arXiv电子印本仓储的同时,也可以将论文提交给学术期刊。如果论文在期刊上正式发表,在仓储中相应的论文记录中就会加入正式发表论文的期刊的卷期信息。面向用户,仓储提供完全免费的基于学科的分类检索服务。2007年6月原南非镜像站点被终止以后,arXiv在全球拥有17个镜像站点。[65]arXiv电子印本仓储的建立和发展,在加快科学研究成果的交流与共享,帮助研究人员追踪学科的最新研究进展和避免重复研究等方面都发挥了重要作用。

4.3.4.2 MIT的DSpace系统

(1)DSpace概况

麻省理工学院的机构仓储DSpace由学院图书馆进行管理维护,用于长期稳定地保存MIT的教师及研究人员的数字作品。DSpace接受的数字资源类型包括:文献(论文、预印本、工作底稿、技术报告、会议文件、学位论文、书籍等)、数据集、计算机程序、仿真模型、多媒体出版物、书目数据、图像、音频资料、视频资料、网页等。它不收录学生的研究资料、机构记录以及非本校教职员工的研究成果。MIT的教职员工向DSpace存储资料文档有几种选择方案:①存储在所在院系或部门团体的资料库中;②存储在MIT实验室或者各中心的资料库中;③通过和其他员工及研究者联合创建自己的资料库。

目前DSpace只支持DC元数据数据集,大部分元数据元素修饰词来自DC图书馆应用纲要(DC-LAP,Dublin Core Library Application Profile),并根据需要对修饰词进行了增减。DSpace系统已注册为开放存取先导计划的数据提供者,支持OAI-PMH v2.0协议和OpenURL,仓储中的每一条文档记录都可以被收割。它还提供一系列遵循开放档案信息系统参考模式(Reference Model for an Open Archival Information System)的上传、管理、传播数字信息的工具。

DSpace系统对在线资源提供广泛的版权保护,允许资料提供者在数据集及单个文档层面上对资料的使用权限进行控制。DSpace采用两种许可:存储许可和使用许可。存储许可是员工向DSpace提交文档资料时和MIT之间签署的,表示同意MIT对资料进行传播和保存,但并不要求将资料版权转移到MIT手中;使用许可是由资料提交者确定对所提交资料的使用许可,以明确用户可以对这些资料做何种程度的使用。使用授权的主要依据是知识共享许可协议(Creative Commons License)。

得到梅隆(AndrewW.Mellon)基金会的许可,美国麻省理工学院和英国剑桥大学共同投资DSpace联盟工程。该实验项目是使用DSpace软件系统创建机构仓储的8个研究机构和大学图书馆组成的共同体。联盟以技术为纽带,不受地理空间的限制,成员遍布世界各地,以便实现更大范围内的资源共享。加拿大多伦多大学、美国华盛顿大学、哥伦比亚大学、俄亥俄州立大学等都加入其中。

(2)DSpace的系统结构

DSpace大致由以下3部分组成,登录数字群(Community)、馆藏(Collection)、条目(item)的数据管理系统;判断投稿人、读者能否登录的管理系统;DSpace电子用户(E-Person)的登录管理系统。为连接这些管理系统的功能,对数字群、馆藏和条目赋予多个E-Person(小组)的各种操作权限(资源政策),具有登录数字资源流程的权限处理系统。表示、检索所要公开的数字资源和在国内外元数据共享的模式以及与外部的接口功能。

DSpace系统包括3个层,每个层由多个组件构成,如图4-6所示。存储层(Storage Layer)包括关系数据库管理系统打包程序(RDBMSWrapper)和比特流存储管理程序等,负责存储数字条目和有关元数据。业务逻辑层(Business Logic Layer)由处理DSpace系统各个独立功能的一系列程序构成,如浏览、检索、内容管理、用户管理、工作流管理、授权等。应用层(Application Layer)包括DSpace系统与外界交流的各种接口程序,如万维网用户接口,批量数据导入和数据导出工具,OAI元数据供应,提供对CNRI句柄的支持,保证给每个条目一个全球唯一的标识符等。

img49

图4-6 DSpace系统体系结构[66]

(3)数字对象管理(见表4-5)

表4-5 数字对象的操作权限

img50

①数据模型

DSpace数据组织与管理模型由群(community)、集(collection)、条目(item)、包(bundle)和比特流(bitstream)等要素组成。群代表相应的次级机构,如大学的实验室、研究中心、系或图书馆等;群中包含了集,它们是相关内容的组合……每个集又由条目组成,它们是机构库中最小的记录单元;条目可以进一步细分为比特流包,由具有密切联系的数字流组成,如组成一个HTML文档的HTML文件和图片;比特流通常是一般的计算机文件,与一种比特流格式(BitstreamFormat)相关联。DSpace数据管理系统中一个条目可以属于一个或多个集。都柏林核心集可以由最终用户在提交内容时输入,或者由其他元数据提供作为摄取(ingest)流程的一部分。

②数据描述

DSpace系统采用都柏林核心(DC,Dublin Core)元数据,主要分为3类,即结构型元数据(Structural Metadata)、管理型元数据(Administrative Metadata)和描述型元数据(Descriptive Metadata)。结构型元数据包括如何向最终用户显示条目,或条目中比特流的信息,以及条目各组成部分之间的关系。例如包含多个TIFF图片的论文,其中一张图片描述论文的一页,那么该条目的结构型元数据就包含了一张图片是一页,并按一定顺序显示各页的结构信息。管理型元数据包含了保存元数据、来源元数据和授权策略数据,如上传日期、使用权限,如比特流大小和MIME类型。描述型元数据主要用来描述群、集及条目记录信息。DSpace系统的元数据默认配置是麻省理工学院图书馆的配置,即一组基于DCLAP的元素和修饰词(qualifier)。不同的机构可以根据实际需要适当地修改相应的元素或修饰词。

③句柄

DSpace采用CNRI(Corporation for National Research Initiatives)的句柄系统为储存的所有条目、集和群分配全球唯一的永久标识符(identifier)。每一个运行DSpace的站点都从CNRI获得一个句柄“前缀”,使用该前缀创建出来的标识符不会与其他地方创建的标识符发生冲突。同时DSpace站点还必须运行一台能够接受并解析所收到请求的“句柄服务器”。这样无论条目、集、群的内容或物理位置怎么改变,用户只要使用该句柄,同时句柄服务器运行正常,即可找到该句柄所确定的对象,即相应的条目、集或群。

句柄可以通过两种格式来编写。如:

hdl:2288/41

http://hdl.handle.net/2288/41

其中,2288是厦门大学向CNRI申请的Handle前缀,41是系统为其中一条条目分配的顺序号。这两种形式表示相同的句柄。第一种形式仅仅用作标识符可能更加方便,但是需要安装CNRI提供的插件才可以访问相应的条目;使用第二种形式,用户只要在任何万维网浏览器中输入第二格式便可以通过CNRI运行的代理服务器来解析句柄了。所以DSpace以第二种形式来显示句柄,这样对最终用户更有帮助。

④数据摄入与导出

条目是DSpace系统存储库中的基本存档单元,也是DSpace系统数据摄入的基本单元。DSpace系统的数据摄入有两种方式:一种是从万维网界面提交条目,每次只能提交一条条目;另一种方式是在文本界面下,用批量条目导入程序将一批条目导入到相应的集中。对于“正在提交”的对象,系统会在都柏林核心集中添加一个来源信息,包括提交内容的文件名和校验和。同样,每次工作流的状态发生改变(如审核人员接受了提交)时,都会添加一个类似的来源说明,这使我们能够追踪条目被用户提交以后所发生的一切变化。提交对象以后,就进入摄取流程的下一个步骤条目安装。条目安装程序吸收提交的对象,并完成诸如分配添加日期、向都柏林核心集中添加可用日期值、添加发表日期、添加来源信息、分配永久句柄标识符、将条目添加到目标集中并添加合适的授权策略、将新条目添加到搜索和浏览索引中等工作,从而将它转换成DSpace中完整的存档条目。

考虑到数据备份和系统间数据移值,以及数据交换的需要,DSpace系统还提供了相应的导入与导出脚本工具。运用导出脚本工具可以导出某合集下的一条条目或者所有条目。运用导出脚本工具可以导出某集中的一条条目或者所有条目。导出的条目放在一个文件夹中,其中包括内容、dublin_core.xml、句柄、license.txt、数字文件等6个文件。其中内容文件指向主要的数字包(即license.txt和数字文件),dublin_core.xml文件包含该数字文件的所有DC元数据。相反,运用导入脚本工具,可以把上述导出的条目导入到本系统或其他DSpace系统相应的集中。上述导出与导入功能可以实现条目数据的备份、移植、交换、恢复。为了DSpace系统中的数据能够与其他系统的数据进行更完备的交换,DSpace系统还提供了基于METS的导出工具,能够把条目中的比特流导出成基于METS元数据格式的METS文件。

(4)用户与权限管理

DSpace系统的用户与权限管理大体上包括两部分,一部分是对用户的授权管理,一部分是对DSpace数字对象的权限管理。

①用户

DSpace的用户称为电子人(e-people),指某项功能或动作的执行者,执行者可以是计算机或真实的人。DSpace能够保存并管理用户的E-mail、姓名、认证信息(如加密口令)等注册信息,确定用户的登录方式,删除或添加新用户等。

为了便于授权管理,DSpace对用户进行了分组。所谓用户组(e-person group),是指具有相同功能权限的用户集合。用户组授权管理主要是为该组授予特定角色,如管理员(Administrator)、集管理员(Collection Administrator)、条目终审者(coordinator)、条目审核者(reviewers)、条目提交者(Submitter)、匿名用户(Anonymous)等。其中有两个组是特殊的组,即管理员组和匿名组。管理员组中的成员具有最高权限;而匿名组成员拥有最低权限。任何注册用户和未注册用户都默认拥有匿名组权限。DSpace的许多功能,如文档查找和检索都可以匿名使用,但是用户必须经过授权才能执行如提交、获取电子邮件通知或其他管理功能。一般来说,每个DSpace群都包含上述角色。

②权限

DSpace采用“默认拒绝(default deny)”的政策,用户要对某种数据对象执行某种操作,必须拥有相应的权限。权限不能“对易”(commute),比如拥有“读”某一条目权限的用户未必拥有“读”该条目中的包和比特流的权限。

需要注意的是DSpace没有“删除”操作,因为要从库中“删除”一个对象(如一个条目),用户必须拥有对所有包含它的对象(一般情况下是集)的“移除”权限,被“孤立”的条目才会被自动删除。与删除不同,移除对象并不意味着从物理上把某项数据去除,而是把数据隐藏了起来。

(5)工作流

DSpace系统的工作流是以事件触发机制来实现的。任何一个对系统的请求,从检索、浏览到材料提交,都会触发不同的工作流。一般来说,一个完整的DSpace工作流程包括提交、文件审核、元数据审核、元数据终审、存档5个步骤。每一步骤都与一定的用户角色关联,如提交者(submitter)、审核者(reviewer)、元数据编辑者(metadata editor)和协调者(coordinator)等。与工作流每个步骤相关联的电子用户组会获得通知,并进入个人数字空间(Individual DSpace)来执行该步骤。如果某个步骤未与任何组关联,这一步骤将被跳过,如果一个工作流的所有步骤都未与任何电子用户组相关联,该工作流的提交信息将会被直接储存到主档案库中。在一个步骤被调用后,执行该工作流步骤的任务被放置到关联组的“任务池”中。该组的一个成员从“任务池”中接受任务,随后将其从“任务池”中清除,避免组中的多个成员重复执行相同的任务。如果一个提交的请求被拒绝,拒绝的原因会通过电子邮件发给提交者。提交者随后可以进行适当的修改并再次提交,从而重新开始一个新的工作流。如果一个提交的请求被接受,它将被传递到工作流中的下一个步骤。如果已没有与组相关联的工作流步骤,提交的内容将会正式归入DSpace中。此外,拥有管理员权限的用户可以直接终止新条目的提交,工作流也将因此而取消。

(6)浏览与检索

浏览和检索是发现和使用DSpace系统数字资源的重要方式和手段。在DSpace系统中,通过应用程序接口(API)与Java语言的免费搜索引擎Lucene提供高效的索引和检索服务,支持索引新内容、重新生成索引以及在整个库、群或集中进行搜索。DSpace系统提供检索和浏览两种资料查找方式。按浏览的方式查找,可以有4种选择:按照部门浏览其资料库、资料题名浏览、作者姓名浏览和存档日期浏览。检索有简单检索和高级检索两种途径。简单检索方式即在检索栏中输入检索词,系统自动在DSpace中检索相关内容。系统提供了按题名、作者和出版日期浏览系统全部条目的功能,也提供了选择相应的群或集以后,浏览其下所有条目的功能。在具体浏览某个条目内容时,有些只能下载到本机硬盘上以后才能浏览或观看,例如音视频数字资源(要求安装相关应用软件,如播放器等),有些则可以直接在Web浏览器中打开,例如网页、图片等。另一种是高级检索方式,即可以指定相应的集和DC元数据字段进行精确检索。即把检索范围限定在某个学院、部门的仓储中,并提供检索词的与、或、非检索组合。

DSpace还具有统计功能,通过系统强大的日志记录功能,对系统的安装、运行和使用情况进行详细的日志记录,使用自带的日志分析工具自动对系统使用情况进行统计分析,从而得到对管理员或用户有帮助意义的统计报表。此外,DSpace还具有订阅功能,用户若对某一专题集或多个集下的条目持续关注或感兴趣,可以通过订阅的方式了解这些专题的最新条目。DSpace还通过电子邮件通知(e-mail alert)服务来强化这种功能。这样,每当有新的条目提交到用户感兴趣的专题集时,系统就将这些条目的简要信息自动通过邮件方式通知订阅用户,以便用户随时了解最新信息。当然,用户也可以随时取消订阅不再需要的内容。

4.3.4.3 中国的三大开放存取仓储

(1)中国预印本服务系统(http://prep.nstl.gov.cn/eprint/index.jsp)

中国预印本服务系统是由中国科学技术信息研究所与国家科技图书文献中心联合建设的以提供预印本文献资源服务为主要目的的实时学术交流系统,于2004年3月18日正式开通服务。该系统由国内预印本服务子系统和国外预印本门户(SINDAP,http://egroups.istic.ac.cn/cgi-bin/egw_metasweep/2360/screen.tcl/name=welcome&service=sindap&lang=chi)子系统构成。国内预印本服务子系统主要收藏国内科技工作者自由提交的预印本文章,一般只限于学术性文章。系统的收录范围按学科分为5大类:自然科学、农业科学、医药科学、工程与技术科学、人文与社会科学。每一个大类再细分为二级子类,如自然科学又分为数学、物理学、化学等。系统可以实现二次文献检索、浏览全文、发表评论等功能。SINDAP子系统是由中国科学技术信息研究所与丹麦技术知识中心合作开发完成的,它实现了全球预印本文献资源的一站式检索。通过SINDAP子系统,用户只需输入检索式一次即可对全球知名的17个预印本系统进行检索,并可获得相应系统提供的预印本全文。目前,SINDAP子系统包含预印本二次文献记录约80万条。

中国预印本服务系统提供用户自由提交、检索、浏览预印本文章全文、发表评论等功能。经过简单的注册以后,用户可以直接提交文章电子稿,随后可根据需要追加、修改所提交的文章。系统将严格记录作者提交文章和修改文章的时间,可以向作者提供发表文章的时间证明,便于作者在第一时间公布自己的创新成果。由于系统只对作者提交的文章进行简单审核,因而具有交流速度快、利于学术争鸣等优点,避免了由于学术意见不同等原因而导致的某些学术观点不能公诸于众的遗憾。此外,SINDAP系统强大的检索功能和丰富的文献资源也给用户的科研工作带来便利。

(2)中国科技论文在线(http://www.paper.edu.cn/index.php)

中国科技论文在线是由教育部科技发展中心创建的综合性电子预印本系统,于2003年12月投入试运行。收录自然科学国家标准学科分类代码体系规定的39个类目的论文预印本、会议论文、项目报告等,提供较强的关键词检索功能,读者可在论文提交一周内读到该文。中国科技论文在线利用现代信息技术手段,免去传统的评审、修改、编辑、印刷等程序,给科研人员提供一个方便、快捷的交流平台,以及及时发表成果和新观点的有效渠道,从而使新成果得到快速推广,科研创新思想得到及时交流。根据文责自负的原则,只要作者所投论文遵守国家相关法律,为学术范围内的讨论,有一定学术水平,且符合中国科技论文在线的基本投稿要求,便可在一周内发表。中国科技论文在线可为在本网站发表论文的作者提供该论文发表时间的证明,并允许作者同时向其他专业学术刊物投稿,以使科研人员新颖的学术观点、创新思想和技术成果能够尽快对外发布,并保护原创作者的知识产权。

(3)奇迹文库论文预印本项目(http://www.qiji.cn/eprint/)

奇迹文库论文预印本项目是由中国一群年轻的科学、教育与技术工作者效仿arXiv.org等模式于2003年8月创建的非营利性网站。它提倡免费公开共享,其目的是促进在线交流,为中国研究者提供方便、稳定的Eprint平台,使科研人员、学生及公众及时接触最前沿、最权威的科学研究。目前收录范围主要包括自然科学、工程科学与技术、人文与社会科学3大部类,基本覆盖了主要的基础学科。奇迹电子文库没有审稿流程,资料全部为奇迹注册用户自行上传。这些资料的版权归原作者所有。作者在奇迹电子文库张贴的论文仍然可以向期刊投稿。作者与奇迹电子文库之间不存在任何版权转移关系,并可随时撤销已经张贴的论文。到2007年10月1日,已有注册用户18 871人,发布各种学术资料3 332项。[67]在教育网设立了奇迹文库的镜像站点,方便国内高校科研单位更好地使用奇迹文库。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈