首页 理论教育 学术数字信息资源存取的技术环境

学术数字信息资源存取的技术环境

时间:2022-03-10 理论教育 版权反馈
【摘要】:数字信息资源的创作、保存、存取等一系列活动都涉及数字信息资源的标准建设问题,标准的采用有利于提高信息格式转换的捕捉率和精确率,有利于保证数字信息资源生命周期各环节互操作。数字信息的存取首先要了解数字对象的文件格式,数字信息区别于传统信息的一个显著特点是文件类型的多种多样。数字信息的文件存储格式标准规范主要对应于数字信息资源的生命周期中的创建阶段。

5.3.3 学术数字信息资源存取的技术环境

1.数字信息资源存取的标准体系

数字信息资源的创作、保存、存取等一系列活动都涉及数字信息资源的标准建设问题,标准的采用有利于提高信息格式转换的捕捉率和精确率,有利于保证数字信息资源生命周期各环节互操作。然而,数字信息资源的标准众多,如国际标准化组织(ISO)为了加强数字文献管理制定了数字文献归档体系结构与操作的最低要求标准;在存储与存取数字信息方面,也存在互用性标准、数据格式标准、资源标记标准、资源著录标准等。这给我们管理和利用数字信息资源带来了困难,全面、清晰地梳理数字信息资源的标准体系既是一项有意义的工作,也是一项具有挑战性的工作。

国外已经在这方面做了大量的探索工作,英国公共图书馆领域的NOF/Pepole’s Network项目中基于数字信息资源的生命周期,将生命周期分为创建(Creation)、管理(Management)、收藏开发(Collection Development)、存取(Access)和重用(Re-Use),并研究了每一个过程中的标准[42];OAIS模型将数字信息资源长期保存系统划分为采集、保存、存取和管理4个部分,每一部分需要相应的标准和转换标准。加拿大文化在线项目(CCOP)标准与指南分为内容生产(Content Creation)、编目与元数据(Cataloguing and Metadata)、词汇与词表(Terminology and Controlled Vocabularies)、数据库结构(Database Structure)、项目网站(Project Web Site)、长期保存与纪录管理(Preservation and Records Management)等6个方面[43];美国IMLS(Institute of Museum and Library Service)数字资源建设指南框架从数字资源建设角度分为资源集合(Collections)、资源对象(Objects)、元数据(Metadata)和资源建设项目(Projects)4个层次,将数字资源生命周期所涉及的标准规范分为多个层次[44]

我国的学者也积极开展研究。张晓林根据数字图书馆建设实际,按照数字内容创建、数字对象描述、资源集合组织、数字资源服务和数字资源长期保存等几个阶段分别描述相应的标准规范[45]。郭家义从系统实现角度分析,数字信息资源标准可分为系统层次的标准、业务逻辑层次的标准和数据层次的标准[46]。其中,系统层次的标准包括数字信息资源长期保存系统标准、系统互操作标准;业务层次的标准包括摄入过程的标准、存储过程的标准、访问过程的标准和管理过程的标准;数据层次的标准包括信息模型、文件格式标准、数据转换标准、数据编码标准、数据标识标准和元数据标准等。

这些国内外有关标准体系研究的共同规律是都考虑到数字资源的生命周期性,便于更为系统地认识和组织从数字资源创建到长期保存的整个进程中的各种标准规范,促进这些标准规范的相互支撑和互操作,从而保障数字资源以及建立在数字资源上的服务在网络环境和整个生命周期中的可使用性。数字信息资源的存取是数字资源生命周期中的一个重要阶段,对于实现数字信息的公共存取来讲,主要和以下四类标准规范有关。

(1)数字信息资源创建格式标准规范

数字信息的存取首先要了解数字对象的文件格式,数字信息区别于传统信息的一个显著特点是文件类型的多种多样。美国佛罗里达图书馆自动化中心(Florida Center For Library Automation Digital Archive)主持了一项数字存档项目FDA(FCLA DIGITAL ARCHIVE),帮助佛罗里达大学的管理者为FCLA(Florida Center for Library Automation)数字存储项目的文件格式提供指导。2004年6月,FDA提出了一份详细的推荐文件存储格式,如表5.2[47]

表5.2 FDA推荐数字信息资源存储格式

img37

续表5.2

img38

这份清单很详尽地列出了各种类型的数字信息的文件存储格式,在学术信息创作阶段,作者可以根据创作的内容选择适宜的数字文件存储格式。因为,数字信息存储格式的标准化有利于各种格式相互转化,使得数字资源或服务能够在更大系统范围上,能与其他资源或服务方便、有效地交换、转化、整合,从而为用户提供逻辑上集成的服务,为实现更大范围的学术数字资源的公共存取奠定了基础。数字信息的文件存储格式标准规范主要对应于数字信息资源的生命周期中的创建阶段。

(2)数字信息资源采集的标准规范

数字信息创造后,需要被采集到相应的数字资源库中,实现信息资源的集成化管理,这个过程称为数字信息的采集过程。可以采取人工筛选的方式,也可以采用自动过滤的方式。采集过程中的标准用于规范信息提供者提供的信息内容,从而可以方便信息提供者与存档库之间的交互和关联。采集的标准涉及数据准备和资料准备、数据和支持资料的采集、提供者和存档库的交互等方面,目前采集领域的标准化实践主要是生产者-档案文件界面方法摘要标准(Producer-Archive Interface Methodology Abstract Standard,PAIMAS)项目[48]

PAIMAS标准包括资源生产者和档案系统两个角色。生产者指为存储机构提供数字资源的个人或系统,如研究团体、实验室、公司部门、个人等。档案系统指的是开放式档案信息系统(OAIS),其职责是保存数字信息并以智能化的、可用的形式提供给指定的用户。生产者-档案文件项目的主要目的是将给定的数字信息采集到档案库中。这个过程包括4个阶段:①初始阶段,也称为采集预处理阶段,包括生产者和档案文件最初的协议过程,得出项目的范围界定、提交信息包(Submission Information Package,SIP)定义草案,以及最终递交同意草案。②正式定义阶段,包括完成提交信息包设计,准确定义要传递的数字对象、完成递交同意书,准确规定传递的条件,例如存取权限、建立传递的日程。③传递阶段,执行SIP从生产者传递到档案文件的操作过程,档案文件对SIP按照递交同意书的要求初步处理SIP。④确认阶段,包括档案文件对SIP的确认处理,反馈给生产者后续操作要求。不同程度的确认反馈给生产者,确认可以在每次递交完成后立即进行,也可以延迟进行,依赖于环境条件限制。

这4个阶段按照时间序列进行,但传递阶段和确认阶段可以重叠。图5.2表明了这4个阶段的关系,在上边的文本框中对每个阶段的目标进行简要描述,下边给出了每个阶段的形成文件。

img39

图5.2 PAIMAS的四阶段

初始阶段形成了关于生产者-档案文件项目可行性的文件,引导进入正式阶段或终止项目实施。正式阶段形成递交同意书,总结了正式阶段的各方面问题,这份同意书还包括数据字典和一个正式的模型。所有这些都是进入传递阶段必需的。传递阶段产生了信息对象输入到确认阶段。传递阶段和确认阶段常常部分平行进行,且当要提交的信息没有一次递交完时要多次反复进行。档案库向生产者发送接受到的对象的确认报告或者出现异常的数据清单(档案库可以在采集后承认接收到SIP,只有当出现不正常数据时才通知生产者)。

数字信息资源采集标准规范主要对应于数字信息资源生命周期中的采集阶段。

(3)数字信息资源互操作标准规范

实现数字信息资源存取的第三个要重视的标准是数字信息的互操作标准。数字信息资源分布在不同类型的机构中,包括图书馆、学会、协会、大学出版社和其他教学研究机构等。无论为数字图书馆、网络期刊、电子文档等提供网络平台,还是共享设备、开发软件;无论对文献进行质量控制、检索利用、长期保存,还是保护用户的隐私,都需要各类机构的协同与合作。因此,解决不同标准间的转换与映射问题,才可以实现异构数字信息资源间的互操作,使各种数字信息资源具有普适性的交流平台。1999年在美国新墨西哥州的圣达菲召开的一次电子出版界研讨会上,提出了一个标准接口,使得网络服务器可以通过这个接口来发布其上电子文档的元数据,多个采用这种接口的仓储结合在一起可以形成一个联邦式的仓储,其他组织可以像对单独一个仓储操作一样检索和利用这些仓储中的元数据,这个接口就是OAI协议的雏形。随后,许多对网络信息有兴趣的组织也加入了研究队伍,并且在网络信息联盟(CNI,The Coalition for Networked Information)、数字图书馆联盟(DLF,Digital Library Federation)和国家科学基金(NSF,The National Science Foundation)的支持和资助下,在康奈尔大学设立标准制定工作秘书处,同时设立了指导委员会和技术委员会,分别开展复杂协议框架的指导和具体的技术开发工作。经过开发人员一年多的努力,2001年1月推出了OAI协议的可操作版本OAI-PMH(Open Archives Initiative Protocal for Metadata Harvesting)的第一版。OAI-PMH1.0版的协议可以为各类从事网络内容出版的组织所用,任何网络服务器都可以配置这个协议。经过一年多的试用,反馈OAI组织的开发人员又于2002年6月推出了协议的第二版OAI-PMH2.0。事实上,在开放存取项目中,采用最多的互操作标准就是OAI-PMH。

OAI协议推出以后,受到了许多涉及数字资源的组织的支持和响应,在一些著名机构的研究项目中采用了OAI协议[49]。例如NDLTD(Networked Digital Library of Thesis and Dissertations,http://www.ndltd.org/)通过OAI协议对全球170多家图书馆、7个图书馆联盟、20多个专业研究所站点进行访问。OAIster(http://oaister.umdl.umich.edu)创建了一个方便使用面向学术数字资源的仓储,采用OAI协议收割不同机构的元数据记录构建自己的服务,比如,它可以收割国会图书馆“美国记忆”项目的元数据,用户可以通过检索OAIster获得这些元数据记录,并通过这些记录直接链接到相应的数字资源。截止到2006年12月,OAIster已经收录了730个机构的一千多万条记录。

在OAI协议出现以前,在信息检索互操作方面使用较多的协议是Z39.50——信息检索应用服务定义和协议规范(Information Retrieval Application Service Definition and Protocol Specification)。Z39.50协议比OAI协议复杂得多,功能也强大得多,在实施配置时也困难得多。OAI-PMH的实现过程则很简单,数据提供者只需要经过简单的编程和配置Web服务器便可对OAI-PMH的请求进行解析,并且返回XML编码的元数据。据OAI组织的说法,如果本来数据已经过很好的组织并且有相应的元数据记录,配置工作甚至可以在一两天内完成。OAI协议的另一个突出特点是采用了HTTP及XML开放标准,这使得OAI可以和Internet相结合,从而利用Internet这个世界上最大的信息平台。

数字信息资源的互操作标准也是实现数字信息长期存取不可缺少的关键技术,主要对应于数字信息资源生命周期中的组织与检索阶段。

(4)数字信息资源的用户接口标准规范

在网络环境下,Web浏览器成为公众获取数字信息资源的主要接口技术,但是随着数字技术的发展和用户个性化的需要,越来越多的终端设备被用来获取数字信息,除了个人计算机外,数字电视、移动电话等都成为信息传输的渠道。

计算机在数字信息资源的发展历程中一直扮演着重要角色。摩尔定律表明计算机的更新速度越来越快,性能越来越优,价格却越来越低,因此,计算机逐渐成为当前公众获取数字信息的最主要终端设备。通过计算机来获取数字信息需要支持以下定义的标准(表5.3)。

表5.3 通过计算机获取数字信息支持的标准

img40

数字电视DTV(Digital Television)是指电视信号的处理、传输、发射和接收过程中使用数字信号的电视系统和电视设备。在信息时代,数字电视的应用更在于数字信息的内容服务,为用户在瞬息万变的生活中随时了解周围发生的一切提供了一个新的渠道。在英国的电子政务互操作框架e-GIF中规定了通过DTV接入互联网数字信息时的标准(见表5.4)[50]。这些标准对于通过数字电视终端获取数字资源是必要的技术支持。

表5.4 通过数字电视获取数字信息支持的标准

img41

随着移动通信技术的发展,通过手机、个人信息助理(PDA)等方式获取信息越来越普及。在e-GIF中也规定了移动通讯方式信息获取规范(见表5.5)。

表5.5 通过手机、PDA等获得数字信息支持的标准

img42

数字信息资源的用户接口标准是连接用户与数字信息资源的桥梁,完成了将信息从生产者向使用者的传递。

总之,对于实现学术数字信息资源的存取来讲,数字信息资源的标准体系是解决存取过程中的开放性、互操作性及可扩展性的有效方法。由于数字信息资源的存取过程涉及的标准相当复杂,穷举所有的标准是不现实的。本书将这些标准分为创建格式标准、采集标准、互操作标准及用户接口标准,并且选择了有代表性的标准,这样做有助于理清数字信息资源存取中的标准问题,为实现公共存取战略中的标准建设环节提供指导。

2.学术数字信息资源开放存取的实现途径

关于开放存取的实现途径,许多支持者有不同的研究结果,John Willinsky提出了9种实现模式:预印本模式(Eprint Archive)、双重模式存取(Dual Mode Access)、延迟开放存取模式(Delayed Open Access)、作者付费开放存取模式(Author-Fee Open Access)、半开放存取模式(Partial Open Access)、简易开放存取模式(Open Access Lite)、人均开放存取模式(Per Capita Open Access)以及合作式开放存取(Cooperative Open Access)。并且研究了这9种模式对当前学术出版系统的影响,他认为还没有证据证明哪种实现模式会更好[51]。研究发现,在《布达佩斯开放存取宣言》中提出的实现开放存取的两种途径即自我存档(Self-Archiving)和开放存取期刊(Open Access Journal)已经得到越来越多开放存取研究者的认同。

(1)自我存档

英国学者Stevan Harnad称“自我存档”是通向开放存取的绿色通道[52],由此可见,自我存档对实现开放存取的重要性。它是作者将自己的研究成果以电子全文形式存放在一个中心服务器或互联网网页上供用户免费利用的一种方式。允许用户阅读、下载、拷贝、传播、印刷、检索或对这些文章的全文进行链接、索引爬行,将数据传递给软件,即在尊重作者著作权基础上的任何其他法律许可的用途。使用者基本上没有财政、法律或技术上的许可障碍,唯一的约束是禁止复制销售,以及在这些领域的版权应该由作者进行完整性控制和使用者对版权适当的承认、引用。作者自我存档的形式有两种:预印本和后印本,预印本和后印本有时候统称为“e印本”。

预印本是一种主要的信息资源和交流媒体,它是在作品还没有被同行评审或者编辑评议、修改前的一种论文手稿的影印本。大多数预印本都会向期刊投稿,但也有一些例外。作者之间交流预印本的方式有很长一段历史了,在网络出现以前,主要采用的是邮寄、传真方式。网络技术的发展,使得科学家之间可以采用电子邮件、FTP、Gopher等多种方式来交流预印本。后印本是在作品正式出版后的一种文献形式,它可以与作品的最终版相同也可以是在正式出版后作者有关研究的最新进展。一般情况下,出版社拥有作品的版权,后印本是不允许作者随意传播的,但是在符合下述情况之一的后印本可以被公众获得:①作者没有将版权转让给出版商;②作者将版权转让给出版商,但是出版商允许作者在某些条件下传播作品;③作者对其作品作了某些修改。

出版商采取的自我存档的策略是多种多样的,Stevan Harnad将其分为4个级别:“金色(提供对研究论文的开放存取)、绿色(允许作者对后印本的存档)、浅绿色(不反对作者对预印本存档)、灰色(以上都不允许)。”[53]

目前,在互联网上能够获取的自我存档的资源库主要有4种:

①作者的个人网页。这种形式通常是在一个简单的网页上链接一些HTML、PDF、Word等格式的论文。优点是有非常详细的内容,而且网页能够被搜索引擎标引,如果用户对检索的标题很清楚的话,就能很快找到所需内容。缺点是如果作者的生活环境发生变化(例如职业变换)或作者逝世了,会导致网站的消失。另一个问题是信息的质量难以控制。例如,Stevan Harnad有关开放存取研究的网页:“OnlineResearchCommunication and Open Access”(http://www.ecs.soton.ac.uk/%7Eharnad/intpub.html)即为作者专门发布开放存取论文的个人网站。

②学科存档库。这种形式存放的是某一学科(或几个相近学科)相关的各种数字形式的研究成果。学科存档库是一个功能完善的系统,能够支持作者自我存档和元数据创造,按学科领域和关键词检索、浏览,并且能使用OAI-PMH协议实现搜索引擎对元数据的捕获。学科存档库的创办者通常是一些正规科研机构或者学术组织,因此在保证内容的稳定性和有效性方面值得肯定。但是也有一些是个人或者非正式组织创立的,在稳定性和有效性方面与作者个人网页面临类似的问题。学科存档库通常使用一些开放资源软件,如ePrints。典型例子是:arXiv.org(http://arxiv.org)是一个计算机、数学非线性科学、物理和计量生物学学科存档库。

③机构单元存档库。这种形式存放的是一个学术研究单元(如,一个系或者学院)的数字形式的科研成果。院系存档库可以是一些简单和类似的个人网页,也可以是开放资源软件,具备和学科存档库类似的形式。由于依靠的是一些科研机构,所以在内容稳定和有效性方面总体较高。典型例子有:Duke法律系存档库(http://eprints.law.duke.edu)。

④机构仓储。机构仓储是比机构单元存档库覆盖更广、容量更大的资源库,存档的范围包括各种形式的数字信息(电子论文和学位论文、e印本、会议报告、技术报告等)。通常是图书馆或几个图书馆合作建立机构仓储,因此在信息内容稳定和有效性方面有保障。机构仓储还需要数字保存技术来保证这些数字信息能被持续地存取和利用。所以,机构仓储除了具有学科存档库和机构单元存档库的功能外,还存储更多形式的数字信息资源,并且具有保存数字信息资源的功能。例如,它还包括电子文献出版功能,如电子杂志的管理和会议论文管理。机构仓储也利用一些免费的开放资源软件,如Dspace,Eprints、Fedora等。管理机构仓储的人员提供更广泛的服务,如文献存储、元数据描述、培训甚至用户支持。典型例子是麻省理工的DSpace(http://dspace.mit.edu/index.jsp)。

上述4种自我存档策略并没有严格的界限,例如机构单元存档库有可能也是学科存档库。在实施中也并非只能选择其中一种,作者可能将其作品在个人网页、学科存档库、机构单元存档库、机构仓储上都存放。这样做可以增加被用户发现的机会。

(2)开放存取期刊

这是另一种开放存取实现途径,Stevan Harnad称其为通往开放存取的“金色大道”。开放存取期刊一般具有下述特点:①大多是学术性质的期刊;②具备和传统期刊类似的质量控制机制;③是数字形式的;④能够免费获取;⑤遵照类似创作共用的协议,允许作者拥有版权。

开放存取期刊有两个问题一直引发争议。第一,是否开放存取期刊必须采取同行评议作为质量控制机制。另一个有争议的问题是是否开放期刊必须遵守创作共用许可证,这个争议反映了一个深层次的根本问题,那就是开放存取期刊是仅仅就是开放存取还是在现有的常规版权制度下的某些特别使用权利呢。

归根结底,哪些期刊属于开放存取期刊没有统一的标准。Lund大学图书馆出版的开放期刊目录中列出了免费的、可获取全文的、高质量的科学和学术期刊。到2006年11月28日,共有2 477种开放期刊被收录,其中737种期刊能提供全文检索,121 972篇全文能被获取。在其网站上列出了开放期刊的收录标准如下:(http://www.doaj.org/)

①覆盖范围

·学科:覆盖了所有的科学领域。

·资源类型:发表全文格式的研究论文或评论性论文的学术期刊。

·可接受的资源内容:学术、政府、商业、非盈利的私营机构的资源都可被接受。

·级别:所有期刊的目标群应该主要是研究者。

·内容:期刊主要由研究论文构成,所有的内容都能以全文方式提供。

·所有语言都可以。

②存取权限

·所有的论文都能免费。

·注册:允许用户免费在线注册。

·开放存取。

③质量标准

质量控制:所有收录的期刊必须有质量控制体系,例如主编审稿系统或同行评议制度。

④期刊要求

所有的期刊都必须有一个国际上正式的ISSN编号。

开放存取期刊的出版机构主要有3种类型:原生开放存取期刊出版机构(Born-OA Publishers)、传统的出版机构(Conventional Publishers)以及非传统的出版机构(Nontraditional Publishers)

①原生开放存取期刊出版机构:2000年BioMed中心创办了开放存取期刊,标志着一种新的期刊形式诞生了,这便是称为“原生开放出版”。这种数字经济形式的非赢利出版机构建立的唯一目的是发行开放存取期刊,遵照创作共用权限许可证的规定,作者拥有版权。这些出版机构的资金来源有多种途径,包括广告收入、作者付费(由作者的科研项目基金资助)、图书馆会员资格注册费(会员能够以免费的形式在图书馆发表论文)以及附属服务费用(打印费)等等。典型例子为科学公共图书馆(http://www.plos.org)。

②传统的出版机构:随着开放存取运动的发展,一些传统的商业出版机构和非赢利出版商开展了开放存取出版项目。例如,Springer数据库公司的开放存取选择项目(Springer Open Choice Program)允许作者支付3 000美元就可以将其作品纳入开放存取范围,作者的作品既以印刷形式又以数字形式出版,采取的也是类似于创作共用的非商业许可协议。作者可以自由地将其作品存档,同时也能通过Springer公司提供的链接被公众获取。每年,Springer公司调整图书馆订购期刊的价格,和开放出版的论文数目对应(例如,如果在过去12个月内有更多的论文被开放存取,那么收费就要降低)。由于Springer公司是采取作者自愿的做法,除非所有的作者都选择开放存取方式,否则Springer公司将是包括开放存取期刊和受限访问期刊的混合体。

③非传统的出版机构:20世纪80年代后期和90年代初,互联网的发展出现由专业研究机构或自愿组织创办的数字形式的学术期刊,如Ejournal、PostModern Culture等等。这些期刊不是为了获取商业利润,因此是一些公益性质的期刊。尽管这些期刊允许作者拥有版权,但是对于非商业使用时作出自由版权的陈述。这种公益期刊盛行了十几年,现在许多已经停办了或者转向商业运营。在互联网迅速发展的20世纪90年代中期以后,这种模式演变成为开放资源管理和出版系统,进一步简化和加快了数字期刊的流水出版。现在,各种学院、研究机构和其他组织都出版数字期刊,其中许多都符合严格的开放存取定义,这些新兴出版机构的共同特点是借助于数字技术和工具,我们将其称为“非传统的出版机构”,其中大多是非赢利出版机构。典型例子是:SCRIPT出版的法律技术期刊(http://www.law.ed.ac.uk/ahrb/script% 2Ded/index.asp)。

开放存取期刊和自我存档库最为主要的区别是:自我存档库的运行成本要比OA期刊低廉,用户使用方便,是更为严格意义上的“开放存取”。在存储对象方面,相对于OA期刊,自我存档库不仅存放学术论文,还存放其他各种学术研究资料,包括实验数据和技术报告等。在资源检索方面,OA期刊更多地诉诸传统的文摘索引服务,争取被学科领域的权威文摘索引数据库收取,而自我存档库的资源检索主要是通过搜索引擎来实现的。自我存档的一个主要问题是没有类似OA期刊同行评议的质量控制机制,因此对于学术数字信息资源来说,只要能解决信息质量控制问题,自我存档库为较好的实现形式。

随着网络技术的发展,对数字信息资源还存在其他实现途径,如博客、讨论群、论坛、聚合新闻、对等式档案共享网络等,读者可以通过网络,利用各种检索工具,非常方便快捷地检索到所需要的全文信息。OA期刊和自我存档库则由于经济而又实用的优势日益被学术界认同并得到相当广泛的应用,成为了目前实现开放存取出版的两种主要途径。

3.基于OAI-PMH的数字信息开放存取体系框架

对分布在网络上不同资源存档库中的数字信息资源,为了能实现开放存取,首先要解决的技术问题是用户的访问不受到系统平台、应用程序、学科领域、国界及语言的限制。这方面的解决方案也称为元数据的互操作。在解决这个问题上,开放存取相关组织和机构在1999年圣达菲召开的一次电子出版界研讨会上,决定执行OAI(Open Archive Initiative)计划。2001年1月,工作小组发布了OAI-PMH协议(Open Archives Initiative Metadata Harvesting Project),提供了一个基于元数据收集的独立于具体应用的互操作框架,为网络上元数据的互操作问题提供了一种可行的解决方案。该方案在开放存取中的应用框架见图5.3。

img43

图5.3 基于OAI-PMH的数字信息开放存取体系框架

这是一个3层的互操作结构,最底层是资源层,实现的是数据提供者的角色;最上层是服务层,实现的是服务提供者的角色;中间层是利用OAI-PMH协议的元数据收割层。数据提供者和服务提供者是基于OAI-PMH开放存取系统中最关键的部分。

(1)数据提供者依据拥有的数字资源库,创建相应的元数据,为终端用户提供服务,同时为元数据的收割提供接口。数字资源库是分布在网络中的各种数据单元,在开放存取中指的是前文提到的网页、学科存档库、机构仓储甚至同行评议库。因此,一个数据层包括的主要组件为:一个数据提交机制、一个长期保存系统、一套实现数据提交和长期保存功能的管理策略以及一个开放的接口。特别是开放接口对于第三方发现、表示和分析数据尤为重要,因为许多资源库都有各自独立的界面,但要实现开放存取,必须解决不同界面的互操作性,因此需要一个开放的接口模块。

数字资源要实现被用户开放存取,按照以下步骤进行:

①选择一个唯一的存档库标识符。标识符表明了数字资源预存放的资源库名称,对于保证数字资源的唯一性至关重要,检验是否是合法的标识符可以查看网站http://www.openarchives.org/sfc/sfcarchives.htm上现有的标识符。

②在存档库中为数字对象使用一个唯一的记录标识。确定数字资源的唯一性除了要有一个唯一的存档标识符外,还需要一个唯一的记录标识,两者构成了一个完整的标识系统。例如,Spa大学的一个开放存取资源库中的一条记录的完整标识为:BESPAMEDICINE/19991104/012,表明存放在BESPA存档库中一条标识为MEDICINE/19991104/012的记录。存档库标识和记录标识对实现元数据的收割是很重要的角色,在某些场合,也是获取原文的一个关键线索。

③实施开放存档元数据集(Open Archives Metadata Set,OAMS)。OAMS是分布式存档库之间通信必须采用的元数据格式的集合。目前,OAMS把Dublin Core作为互操作的标准元数据,提供9种元数据可供各存档库选择描述语义,分别为:标题(title)、提交时间(Date of Accession)、显示ID(Display ID)、完整ID(Full ID)、作者(Author)、摘要(Abstract)、主题(Suject)、注释(Comment)、资源发现日期(Date for Discovery)[54]

④采用能被存档库支持的其他元数据标准。如果能从数据提供者那里收割到更为丰富的元数据,将有利于服务提供者更好地为用户服务。但是,DC的元素集数量有限,不能满足不同类型部门的需求,因此,除了OAMS提供的9种基本的元数据外,鼓励数据提供者采用更为丰富的元数据支持资源的发现和检索,任何可以编码成XML格式的元数据标准都可以被应用。为帮助判断现有的标准能否满足需要,可以参看网站http://www.openarchives.org/sfc/sfc_metadata.htm上提供的其他元数据标准,包括MARC、REDIF(Version 1)、RFC807、DC、REFER等格式。

⑤执行收割接口程序(Open Archives Dienst Subset)。当数字资源确立标识和创建能被支持的元数据格式后,下一步是如何实现元数据的收割。OAI-PMH推荐所有的存档库采用相同的收割接口模块。这该模块应用的是OASDP(Open Archives Subset of the Dienst Protocol)这个基于http的协议。开放文档子集OAS定义了一个通信过程,以及通信应答时的语法结构,允许服务提供者从开放文档中选择收割元数据。通信过程分为三步:a.可从存档库那里获得的信息,包括记录在存档库中的逻辑分类、支持收割请求的元数据格式。OASDP定义请求如何传递以及存档库响应请求的语法结构,但不规定合法的元数据请求响应格式。包括MARC、REDIF(Version 1)、RFC807、DC、REFER、OAMS在内的元数据格式都可以使用。数字资源在存档库中的逻辑分类没有统一的标准,但是要求能被OASDP识别,因此推荐采用按照主题和作者所在单位分类。b.能被请求收割的记录的标识符列表。在OADS中定义了请求的语法包括:存档库中所有记录的标识符列表,在某一分类下记录标识符列表,在一定时间之后能被获取的记录标识符列表,以及一定时间之后能被获取的某分类下能获取的记录标识符列表。OADS也定义了标识符列表返回的方式。c.根据前两步给定的标识符列表和支持的元数据格式,发送元数据收割请求。OADS定义了一个收割请求的语法,在协议中,元数据的交换是采用XML格式,对元数据的收割请求存档库必须按照相应的交换格式返回应答。

⑥让开放文档向导OAI知道哪些资源是公开的。这是数据提供者的最后一步,按照圣达菲协定,数据提供者下载模块,填写相应的信息,并发送邮件给OAI组织告知模块URL地址,OAI组织就能将存档库加入OAI计划,数据提供者的资源就能被服务提供者发现。

(2)服务提供者通过元搜索引擎从元数据库中查找元数据,在元数据搜寻基础上建立中心数据仓库,为用户提供增值服务。同时,它本身也可作为数据提供者被其他服务提供者搜寻。这些增值服务包括搜索引擎功能、索引服务、长期保存及同行评议等。服务提供者在开放存取系统中要求满足以下条件:

①保持记录标识的一致性。当服务提供者根据开放存档资源提供增值服务时必须保证原始的完整标识的一致性,从而能指出记录的原始来源。

②符合数据提供者规定的使用权限。数据提供者在其存档资源库中给出的存取权限,服务提供者必须遵守。

③通知OAI,确认自己在开放存档数据基础上开发了新的服务。OAI和数据提供者要获悉服务提供者收割的元数据以及对元数据的利用情况。为了简化操作,OAI组织提供了一个模块,服务提供者只需填写后把URL地址发送过来。如此一来,OAI便知道加入开放存档的服务提供者信息。

(3)元数据收割层,是联系数据提供者和服务提供者的中间纽带。通过收割器和索引器将数据提供者的元数据下载到元数据库中,形成记录。这些记录可以是描述全文内容的元数据,提供查找全文的线索,也可以是存储全文的全文库。在后一种情形中,也必须有描述全文的元数据记录。Van de Sompel等人设计了一个使用OAI-PMH技术的全文获取系统,其中收割的对象不仅包括元数据,而且还包括原始内容等复杂的对象[55]

在开放存取系统中采用OAI-PMH协议具有以下优点:其一,OAI-PMH提供了一种新的学术沟通与交流模式,既可以保护版权,又可以促进信息的交流与共享。其二,从实现上来看,采用的是Internet中最常用的http协议作为基础平台,抛弃了以前实现互操作时所使用的那些复杂的分布式计算技术、组件技术等,大大降低了开发的难度,易于实现。其三,OAI-PMH将参与互操作的各方分为存档库(充当DP角色)与信息服务商(充当SP角色),DP可以向网络中所有或部分SP开放其服务,SP也可以从网络中所有或部分的DP中获取元数据,具有开放、灵活的特点。其四,采用HTTP及XML开放型标准,使得OAI服务很容易与Internet相结合,从而利用Internet这个世界上最大的信息平台进行信息的交互与共享;另一方面,由于OAI-PMH采用XML来描述信息,它具有规范、严格、自解释的特点,有利于信息的处理利用,并可以方便地进行二次开发[56]

数据提供者、服务提供者以及元数据收割层之间采用了基于HTTP协议的请求和响应方式及XML格式的发送内容,这使得该技术可以和目前的Web方式很好结合,具有很好的开放性和适用性,用户可以在使用OAI协议的开放存取资源中查到文献,而不需要知道开放存取资源的种类、存储位置及内容范围。OAI-PMH已经在许多开放存取系统中得到广泛应用,像英国南开普敦大学开发的Eprints、美国麻省理工大学图书馆与惠普公司联合开发的Dspace、欧洲核研究理事会开发的CDSware、康奈尔大学等开发的Fedora等,都是基于OAI-PMH的开放存取系统。

4.数字唯一标识符技术

基于OAI-PMH的数字信息开放存取体系为建设开放存取的资源库提供了实施的技术框架。在这个系统中,我们看到,要实现数字信息资源的开放存取,需要一个唯一而完整的标识系统(包括存档资源库标识和记录标识),才能保证信息存取的准确有效性。我们将实现这一功能的技术称为数字资源唯一标识技术。下面,将对当前的主要数字资源唯一标识技术进行简要介绍,并重点探讨开放存取中使用的DOI技术(Digital Object Identifier数字对象标识符)。

当前的互联网缺乏一种管理层次,用户在上网浏览信息时经常发现几天之前存在的一个网页的URL地址已经改变了,这对数字信息资源的存取是个不利因素。名称和标识符是数字信息资源的基础建构块,其命名架构或标识符分配原则要事先拟定。名称用于标识数字对象,注册数字对象中的知识产权、记录所有权的变化,在引用、检索和对象链接中不可缺少。数字信息的命名必须是唯一的且能够永久保持,才能够实现数字信息资源的长期存取。这便是数字对象唯一标识符成为当前研究热点的原因。

1993年互联网工程任务组(Internet Engineering Task Force,IETF)在RFC (Request for Comments)1630文档中首先提出了统一资源标识符(Universal Resource Identifier,URI)的概念,作为目前因特网中统一的标识符体系,同时也是因特网中数字对象标识符的基准框架。

随后,在这种背景下,相关联盟或协会、组织制定的,应用于某个领域的标识符不断得到发展。目前已经提出了PURL(Persistent URL永久性统一资源地址),SICI (Serial Item and Contribution Identifier,期刊物件和文章标识符),PII(Publisher Item Identifier,出版物对象标识符)等方法,但在开放存取中采用最多的是数字对象标识符(Digital Object Identifier,DOI)标记技术[57]

DOI是互联网上重要的基础设施和名称管理机制,最初是针对互联网环境下如何对知识产权进行有效管理而产生的,AAP(美国出版协会)针对互联网上数字出版物的权益保护而于1998年创立非盈利性组织IDF(International Doi Foundation),IDF在CNRI(Corporation for National Research Initiatives)的配合下,于2000年12月颁布了“开放式电子图书标准方案(Open E-book Standard Project)”。这个新标准制定了一套基于国际数字对象标识基金会数字对象标识(DOI)的编号方式系统,它是建立在现有的许多被广泛应用的标准之上的一套被国际上广泛认可的、理想的系统,适用于通过网络服务发现和识别数字内容,目前已经被ISO吸纳(ISO TC46/SC9)[58]

DOI系统主要提供持久、互操作、可扩展、有效并动态更新的名称服务,类似于DNS的管理系统,对数字资产的传播和利用提供基础框架。它主要分4个部分:一套详细的命名语法(Name Syntax)、一套解析机制(Name Resolution)、一个包括数据字典的数据模型(Data Model)和一套实施DOI的政策管理机制[59]

①DOI命名语法。

DOI的语法结构是:<DOI>=<DIR>.<REG>/<DSS>

DOI包括前缀和后缀,中间通过ASCII字符“/”来分开,对长度没有限制。前缀是组织注册DOI名称的唯一标识,也称命名授权(Naming Authority)。前缀中又以小圆点分为两部分,<DIR>为DOI的特定代码,其值为10,用以将DOI与其他应用Handle System技术的系统区分开。<REG>(Registrant’s Code)是DOI注册代理机构的代码,由DOI的管理机构IDF负责分配,由4位阿拉伯数字组成。后缀<DSS>(DOI Suffix String)由出版机构提供,规则不限,只要在相同的前缀中具有唯一性即可,是一个唯一的本地名称(Local Name),一般是吸收组织中现有的标识格式。例如10.1045/january2003-paskin,前缀表示的是“10”下的命名授权,1014表示出版机构D-Lib Magazine的代码,后缀表示D-Lib Magazine下的一个数字对象。

②DOI命名解析。解析指的是计算机按照某种协议向某个网络服务递交数字对象的唯一标识符,发出解析请求,该网络服务接收该请求后按照某种约定来调出与该唯一标识符所标识对象相关的一个和多个相关信息,之后将这些相关信息返回给请求者的整个过程。解析机制是实现标识符的可操作性和互操作性的基础。不能够实现解析的标识符仅仅能起到标识对象的作用,在具有极大资源量的互联网环境中,若不能由计算机及网络自动化完成实体间关系的关联就意味着该标识符几乎没有价值。因此,建立一个强大而适用的解析机制并在其上形成解析系统对于一个运用在互联网环境下的数字对象唯一标识符系统来说是非常重要的。

DOI的解析机制是Handle System,为用户提供了对数字资源的永久性访问。出版商在为每项资源注册DOI时,要同时向Handle System主机提交资源的DOI名称和网址(URL)。出版商负责对DOI数据的维护,当资源地址发生改变,如网络期刊文章从现刊目录转到存档目录时,出版商应通知Handle System主机作相应的改变,以确保链接的有效性。当用户点击资源的DOI索取信息时,用户的请求被传送到Handle System服务器上,Handle System服务器将DOI解析为URL返回给用户终端,使用户实现对资源的访问。这一切都在后台进行,对用户来讲,无需理会资源地址的任何更动,面对的始终是同一个DOI。因此,理论上DOI提供的资源链接具有永久有效性[60]

③DOI数据模型。DOI系统数据模型包括一个数据字典和一个实施框架,共同提供了一种工具来定义DOI命名规范(通过数据字典)以及DOI命名之间的相互关系(通过群机制和应用文档来将DOI命名和共同属性联系起来),从而能够提供语义互操作,使得在一个环境中使用的信息能够被移植到另一个环境中。

DOI系统使用的是一个建立在本体论基础之上的互操作数据字典。这个数据字典建立的目的是最大限度地实现元数据集之间的互操作。实施框架允许术语按照DOI系统应用文档中规定的某种方式分类,以便某些DOI命名类别能被应用软件识别。这样一来,提供了handle解析机制和结构化数据集成的方法。DOI命名不需要使用数据模型,但是必须意识到:任何DOI命名都要求互操作性(例如,能使用注册代理以外的服务),要服从DOI系统的元数据策略。

数据字典是计算机系统中使用的术语定义的集合。一些数据字典是结构化的,术语之间是等级或其他关系。这种结构化的数据字典是来源于本体论的思想,本体论模型包括一个带有逻辑数据模型的数据字典,提供一个一致的逻辑视图。它和传统的分类知识表示方法不同,不需要遵循一个严格的父/子等级关系(一个子术语有可能继承来自多个父辈术语的涵义)而有可能有更复杂的关系。

一个可互操作的数据字典包含来自不同计算机系统或元数据模式的术语,显示了术语之间的正式关系。互操作数据字典建立的目的是支持不同系统的术语通用。

④DOI系统实施。DOI系统的实施主要是依靠IDF制定政策、标准、技术规范。IDF是DOI系统的主管单位,目的是把所有的数字出版物都用一个数字对象标识符加以标识,在这个基础上对其进行Metadata检索,然后进行数字版权的管理,使出版者可以更加放心地把有版权的东西放在互联网上,另一方面能够把这些版权绑定在DOI命名中,使其更为安全。

DOI系统能满足许多应用领域标识和解析服务的需求。但是,在不同的应用领域,要根据环境的特别需要搭建不同的社会和技术平台。例如要标识什么对象,两个事物被认为是同一事物的依据是什么,这些问题都是在不同的应用场合必须要考虑的底层问题。注册代理机构RA即为解决这些问题的角色,它类似于互联网域名分配机构,有权利接收DOI前缀及标示符的注册请求,负责注册和维护DOI以及与DOI所标识对象相关的元数据等信息。通过向IDF缴纳特许费等相关费用而成为RA,同时将从IDF那里批量获得的DOI“零售”给最终用户和组织。除了提供DOI前缀外,它还可以提供诸如DOI号码的分配、DOI号码的解析、批量折扣、使用折扣、分步骤折扣以及任何形式的增值服务,目前RA已经发展成为一种有效的商业盈利模式。

对于实现学术数字信息资源的公共存取来讲,建立数字信息资源的唯一标识符系统是一项重要的基础性设施。从当前国外应用DOI的现状来看:首先,以IDF推行的DOI系统在国际上已经获得一定的用户群,特别是电子数据库提供商,包括Elsevier,Springer Link,Blackwell,John wiley等多家出版商正在逐渐采用DOI来标识自己的内容实体,显示了DOI良好的发展态势,曾经有人预言5年内DOI将在互联网上普及。其次,DOI的应用范围正在逐步从现有的出版领域,扩展到电子政务、电子商务中,但是目前尚缺乏重量级的应用,特别是DOI要证明它不但可以胜任复杂的数字权益管理,还可以承担其他互联网的名称服务的能力,目前成功的案例尚不多。因此,建立数字信息资源的DOI发展战略对于学术数字信息资源公共存取战略规划甚为重要。

5.搜索引擎与开放存取系统的结合

研究表明,用户通过网络来获取资源,首先选择通过Google等搜索引擎进行大范围搜索,其次考虑利用专业的学术数据库,最后才会去翻阅学术期刊。这种顺序已经形成了一种社会习惯,因而在搜索引擎和学术数据库出现的几率越高,被关注和阅读的可能性也就越大。但是,通过搜索引擎获取的信息资源大部分质量得不到保障,很难令用户满意。开放存取期刊和自我存档库为专业化的学术信息资源的保存和传递提供了载体,如何从分布的、异构的开放存取仓储中收割高质量、高浓度的学术信息,为终端用户服务,成为当前搜索引擎努力的方向。一方面,著名搜索引擎开通了学术搜索功能,例如Google学术搜索(Google Scholar)。另一方面,针对开放存取期刊和仓储,开发专门的搜索引擎,最著名的是OAIster。

(1)Google Scholar[61][62]

Google Scholar是Google公司于2004年12月推出的一项新的搜索服务,利用Google Scholar不仅仅从Google收集的上百亿个网页面中筛选出具有学术价值的内容,而且最主要的方式是通过与传统资源出版商的合作来获取足够的有学术价值的文献资源。目前,Google公司与许多科学和学术出版商进行了合作,如ACM、Nature、IEEE、OCLC。这种合作使用户能够从学术出版者、专业团体、预印本库、大学范围内以及从网络上获得学术文献,包括来自所有研究领域的同行评审论文、学位论文、图书、预印本、摘要和技术报告。

Google Scholar在全球范围内收集学术资源,首先选择的是各国的学术资源出版商的数据库。通过与数据库商合作,由数据库商设立专门的服务器或在普通服务器上开设专用通道,Google通过网页采集机器人自动收集元数据,并自动即时地加入Google Scholar实现服务。如果合作伙伴的资源发生变化或删除,Google能在1个月左右的时间内进行修改。对检索结果的排序,Google按相关度排序,考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文的方法,因此也包括那些本身不在网上的图书或其他出版物中的论文。内容从医学、物理学到经济学、计算机科学等横跨多个学术领域。Google Scholar拥有比较严格的选题标准,进入Scholar的网页必须是学术相关内容,否则就只能进入普通Google。对期刊而言,Google Scholar也有一套自成体系的判断标准,娱乐性期刊和大众读物也很难进入到Scholar体系[63]

用户可以在世界上任何一台上网的机器上方便地使用到Google Scholar的全部功能。Scholar提供了丰富多样的检索方式,包括简单检索、限定检索、高级检索、逻辑表达式检索等等。并且,Scholar自有的被引链接,能让人们在引文溯源的天地里自由翱翔,而它用于引文计算的基础数据跨越了世界上最主要的数据库,随着时间的延伸,它的引文系统将变得无比强大。Google Scholar的结果输出基本上都包括标题、作者、出版物名、出版年/期、摘要等内容,较之普通Google的数据随意性有很大的进步。而且提供作者和出处的规则也表达了对作者和出版者的尊重。从任何角度观察它,Scholar都是只专注于学术搜索的工具。

世界各国的数据库商和出版商都开始重视Google这一新生势力对未来学术界带来的巨大影响。2004年12月13日,Google公司宣布,将与美国纽约公共图书馆以及哈佛大学、斯坦福大学、密歇根大学和英国牛津大学的图书馆合作,将这些著名图书馆的馆藏图书扫描制作成电子版放到网上供读者阅读。伴随着Google Scholar的发展和逐渐成熟,Google在世界学术领域的地位与日俱增,但我们还是要客观分析一下它存在的问题[64]

一是Google Scholar链接的都是数据库提供者和出版者提供服务的网页,本身并不提供原文服务,读者需要向资源出版者索要原文。不同出版者对Google Scholar的开放程度不同,导致许多有重要价值的学术文献仍不能被广大用户获得。

二是Google Scholar覆盖的资源数量毕竟有限。Google现在索引页面总量已超过80亿张,但估计还不到已知页面总量的5%,对Internet信息的深度挖掘才刚开始。例如OCLC Open WorldCat中已有5 700万条记录,但Google只索引了其中的200万条。所以相对于各数据库提供商的自带搜索引擎来讲,Google Scholar的效果不甚理想。

三是Google Sholar是否要走向以营利为目的的商业化道路尚不清楚。虽然Google Scholar总设计师Amurag Acharya称,“开展Google Scholar”的目标是“使用户更方便地查找信息内容,实现开放存取”。当前处在试用推广阶段是免费服务的,但是Google公司毕竟不是公益机构,每一项服务的推出都必须能使公司赢利。Google Scholar能否一直免费下去尚不可知,但可以肯定的是,Google公司决不会错过任何可以获利的机会。

(2)OAIster

Google Scholar的推出为搜索引擎与开放存取的结合展示了一个良好的开端,另一方面,专门针对开放存取资源的开放搜索引擎的研制也在进行,OAIster(http://www.oaister.org)和Citebase(http://citebase.eprints.org/cgi-bin/search)是杰出代表。本书主要介绍OAIster。

OAIster是Michgan大学图书馆开展的数字图书馆产品服务(digital library production service,DLPS)的一部分,得到了Andrew W.Mellon Foundation基金的资助。主要研究利用OAI-PMH协议从各种数字对象资源库中收割数字对象元数据,为终端用户提供一个集成的检索界面,从而实现对互联网上各种机构资源库内容的检索。截至2006年11月29日,OAIster已经从全球712个机构资源库中收割了900多万条记录。图5.4是OAIster的检索界面。

具体来讲,OAIster能为终端用户提供以下服务[65]

①揭示“隐藏网站”中的数字资源。许多数字资源常处于隐蔽状态,因为普通的搜索引擎如Google、Altavista难以穿过机构资源库的CGI(通用网关接口)而发现这部分资源[66]

②能直接提供实际的信息。终端用户需要的不仅仅是描述信息的元数据,更需要包含实际内容的信息,例如在网上提供一副凡高的作品比用一些词汇描述凡高作品的特征更受用户欢迎。

img44

图5.4 OAIster检索界面

③能为终端用户提供“一站式”检索。OAIster是提供电子图书、电子期刊、录音、图片及电影等数字化资料“一站式”检索的门户网站,被美国图书馆协会评为2003年度最佳免费参考网站。提供关键词、题名、创作者、主题或资源类型检索。检索结果含资源描述和该资源链接。标引对象包括国会图书馆美国记忆计划、各类预印本及电子本书献服务器、电子学位论文,能满足用户宽主题、多学科的信息检索需求。

④易于发现和查看信息。OAIster包括一个能对数字对象分类的中间件以及一个基于SGML/XML的搜索引擎XPAT。前者能将收割来的元数据转化为标准格式,后者能提供布尔检索和字段限制检索功能。

OAIster是用JAVA语言编写的,其工作原理见图5.5,可分为如下过程:

第一步,自动收割各个机构资源库中的元数据。对于符合OAI标准规范的DC记录可利用UIUC(University of Illinois at Urbana-Champaign,是另一个由Andrew W.Mellon Foundation赞助的项目,主要研究文化遗产中元数据的收割)项目开发的收割器来完成收割任务。对非OAI的DC记录直接存入记录库。

第二步,分析记录库中的元数据的元素,选择包含合法URL地址的DC标识符作为转换对象。所有指示实际数字对象的DC元数据记录才是系统解析的对象。

第三步,利用XSLT转换工具将过滤后的DC记录映射成系统的标准著录格式(Bibliographic Class)。因为不同记录采用的DC可能不一致,无法被搜索引擎识别,所以这一步对于为终端用户提供一个统一的界面尤为重要。

第四步,利用XPAT搜索引擎服务。

OAIster为开放存取搜索引擎的研究提供了借鉴,公众对其表示了极大的热情。但是从用户的反馈来看,这个搜索引擎不是一个性能很好的搜索引擎,存在诸如以下的问题:结果排序与用户的相关性有待优化、要求用户限制输出记录数目、不能提供对某机构的单独检索、检索结果中重复记录没有删除等等。OAIster已经意识到这些问题,并在着手改进。

img45

图5.5 OAIster工作原理

总之,信息技术进步和网络基础设施的发展为数字信息资源的开放存取创造了条件,而且在技术和网络的推动下,开放存取将走得更深远。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈