首页 理论教育 数字信息资源的采集

数字信息资源的采集

时间:2022-03-10 理论教育 版权反馈
【摘要】:数字信息资源采集就是通过一定的方式和途径,将数字信息资源纳入数字馆藏体系的过程。因此数字信息资源采集的目标是数字信息资源存取。数字信息资源国家引进的采购模式共有三种出资方式。“平台”型的国家采购也有其缺点,全国建立一个采购电子资源的平台,会导致电子资源交易的垄断,造成电子资源价格上升,损害基层图书馆的利益。

3.4 数字信息资源的采集

数字信息资源采集就是通过一定的方式和途径,将数字信息资源纳入数字馆藏体系的过程。数字信息资源采集不同于传统文献信息资源的采集,主要表现在两个方面:

第一,采集的目标不同。传统文献信息资源的采集方式是通过购买文献信息资源实体,确定合理的复本量,以保证用户借阅需求,其采集目标是文献信息资源的拥有;基于网络的数字信息资源服务平台为多个图书馆的读者同时利用共同选购的电子资源提供了便利,使具有使用许可权的局域网用户在任何时间都能够访问和利用本地镜像站点、远程镜像站点或服务器上的数字信息资源。因此数字信息资源采集的目标是数字信息资源存取。

第二,采集的难点不同。传统文献信息资源的采集难点在于对相同内容的文献信息资源版本和出版社的选择,以及确定合适的复本,复本过多和过少都会影响采集经费的合理使用及用户文献信息需求的满足;数字信息资源采集的难点在于确定最佳的采集方式及价格模式。网络上存在大量的有用的免费电子资源,数字信息资源采集首先就要在保障资源可获得性和开发利用开放式数字信息资源之间取得平衡,最大限度地有效利用网络免费资源。对于有偿数字信息资源,例如数据库资源的引进,如果大量重复引进,并建立多个镜像站点,或不同系统的图书情报机构分别与相同的出版商、数据库供应商进行谈判、签订相应协议,将会造成图书经费和人力资源等的浪费。选择何种采集方式,是国家引进、集团采购还是自主引进则是数字信息资源采集的难点。

根据数字信息资源的存取方式和费用,可分为有偿访问的数字信息资源和开放存取数字信息资源即免费数字信息资源两种。有偿访问资源多为期刊、会议论文等印本文献的电子版,也包括商业公司制作的学科、专题数据库,属于需要投资采购的电子资源。开放存取的数字信息资源包括两层含义,一是指资源使用不收费,公众可以直接使用;二是指资源在使用上的开放性,系统为公共用户提供开放、方便的访问途径,用户甚至可以通过Google等通用搜索引擎获得这类资源。(31)

3.4.1 有偿数字信息资源的引进模式及出资方式

对有偿数字信息资源的采购模式,按照采购的主体类型可以大体分为国家引进、集团引进和单个机构自主引进三种模式,这三种模式分别有不同的出资方式。

(1)国家引进

国家引进的采购模式主要是指对与国家经济及社会发展战略目标相关的、教学科研人员及社会公众普遍需要的基础性、综合性数字资源,利用公共财政即政府出资购买,以保障整个国家或大多数地区的科研人员和社会公众对信息资源存取利用的数字资源采购模式。国家采购能否科学有效地进行,不仅影响采购成本,还直接影响政府各项方针、政策的具体落实(32)。“国家采购”的“国家”一词有两层含义:一是各级政府参与电子资源建设,这种参与是多种多样的,经费的资助是部分的或是全部的;二是所购买的电子资源的访问面积覆盖了这个国家的大多数科研与高等教育机构,而不一定是全国的每一台计算机。国家采购是电子资源的一种整体化建设方式,是从集团采购发展起来的一种新型的电子资源交易方式。数字信息资源国家引进的采购模式共有三种出资方式。(33)

①统购型。国家利用中央经费统一购买电子资源,全国的每一台联网计算机均可免费访问这一电子资源,这种方式称为统购型。冰岛是统购型国家采购的典型。

②补贴型。政府支付一部分电子资源费用,另外一部分则由各个图书馆来支付,电子资源的使用面积覆盖全国大多数科研与高等教育单位。加拿大的CNSLP(Canadian National Site LicensingProject)项目是补贴型国家采购的典型。

③“平台”型。“平台”型就是国家投资建立一个统一的电子资源采购与访问平台,对全国的电子资源(主要指电子期刊)采购进行集中管理,包括采选、许可权合约、价格、访问、整合和保存,平台的运转费用由国家支付,但电子期刊的购买费由基层图书馆来负担。换言之,国家建立一个电子期刊“超市”,批量购买电子期刊后再分销给全国的图书馆。这种模式以英国的NESLI(National Electronic Site License Initiative)项目最为有名。

数字信息资源采集的国家引进模式这三种出资方式中,统购型和补贴型之间的差别是政府的资助程度不同,但都具有以下优点:政府的参与程度强,基层图书馆得到的实惠多,所获得的公平访问权比较彻底;同时,电子资源的成本效益较大。统购型和补贴型适合地域狭小、人口不多,并且公民文化水平较高、基础设施完善的国家;在采购的数字信息资源内容上只适合于综合性的电子资源,比较专深的电子资源使用人数不多,统一购买的成本效益比并不理想。“平台”型的最大优点是解决了电子资源的永久保存问题。“平台”型的国家采购也有其缺点,全国建立一个采购电子资源的平台,会导致电子资源交易的垄断,造成电子资源价格上升,损害基层图书馆的利益。(34)

我国数字信息资源的国家引进开始于1997年,国家科技图书文献中心购买的美国Science杂志、英国皇家学会4种“会刊”和“会志”,以及英国Maney出版公司出版的15种材料科学方面的电子版全文期刊,自2002年4月2日起,我国大陆(不含港澳台地区)任一互联网IP地址用户均可通过其设在北京的镜像站点,访问和利用这些数字信息资源。(35)另外,CALIS中心购买的Nature、OCLC的First-Search,也对所有“211工程”的高校开放,已经具有国家购买的性质。

(2)集团引进

数字信息资源采集的集团引进模式是将多个图书馆组织起来,联合采购某种资源,以最少的经费,获取最优价格、最佳服务和最符合需求的资源。所谓集团引进(Consortia Acquisition),就是某一地域或系统的多个图书馆通过建立采购联盟,共同推举谈判代表与电子资源提供商进行价格与使用条款谈判,最终购买合同则由提供商与各成员馆签订,购买费用由各成员馆自行支付给提供商(36)

集团组织方式主要有按地区集中组团的地区方式,如上海高校图书馆与专业图书馆组成的上海地区集团;按行业集中组团的行业方式,如CALIS;以及二者相结合的复合方式。

集团组织者通常是一个机构,也可由几个机构联合组成,也可以是专门的组织。其角色是负责集团的组织工作,包括对资源进行评估、与数据库商/代理商谈判、组织数据库试用和宣传、审核并代表集团签订集团合同等。目前我国国家级的集团采购组织者主要有:教育部中国高等教育文献保障系统、中国科学院国家科学数字图书馆、科技部国家科技图书文献中心。各地的高校图工委和省级公共图书馆也是数字信息资源集团引进的组织者。大部分图书馆是参加单位,可向集团组织者提出合理建议和要求,根据组团方案确定本馆是否参加集团,并签订合同。一旦参加集团,即可享受集团的各种优惠,同时承担相应的义务和责任,遵守合同和集团内的各种约定。目前,数字信息资源采集的集团引进模式主要有两种出资方式(37)

①俱乐部方式(Buying Club)。也可称为会员制模式,即每个参加机构独立支付费用,通过集团购买资源,享受集团的优惠价格和服务。这是目前比较主要的采购模式。

②合作购买方式(Coordinated Purchasing)。集团组织者和参加机构合作出资购买资源,集团组织补贴部分经费,参加成员自行支付其余经费。例如CALLS组织集团采购的ProQuest国外博硕士论文数据库,就是由CALIS给所有首批加入的高校成员补贴了数据库价格的20%的经费,再由成员馆支付其余费用。这种模式比较适合于价格偏高、质量较好的资源,具有国家引进的性质,集团组织者经费来源于政府补贴,因此主要发挥了引导订购的作用。

对于各个成员馆而言有两种出资方式,一是数据库商根据集团类型,给出整个集团的总价,由集团买断后,内部再进行价格二次乃至三次分配,确定参加集团的每个成员购买数据库所需支付的价格,如BIOSIS Preview数据库和EBSCO公司的Academic Search Premier、Business Source Premier数据库的集团引进;二是数据库商给出单个图书馆的价格,按参加集团的用户数量给出集团折扣,参加的单位越多,折扣和优惠越多,数据库的单价就越便宜。在此情况下,如果数据库的单价在中低价位上,参加单位不论大小,采用平均价格购买数据库。这两种模式的投入成本相当,但第一种模式是通过用户方对总成本的投入来降低价格的。在这种情况下,集团必须选定确实具有普遍需求并已经有了一段时间的成熟应用的数据库,才能采用这种模式。因此,目前比较常用的是后一种模式。(38)

(3)单个机构自主引进

单个机构自主引进的数字信息资源采集模式是图书馆根据本馆信息资源馆藏规划和用户需求,以本馆为单位直接与电子资源提供商进行价格与使用条款谈判,最终签订购买合同,由本馆自行支付数字信息资源的购买费用。

单个机构自主引进的模式适用于本馆重点建设的特色数字信息资源,这类资源相对于那些适用人群广、综合性强、包含多学科的数字信息资源,面向那些学科面窄、科研人员少、需求量不大的数据库或电子期刊。从本馆特色资源体系建设和国家数字信息资源保障体系建设的角度出发,采用图书馆自主引进,国家补贴、扶持相结合的方式进行,通过馆际互借、文献传递的方式来满足其他机构用户的需求。

(4)三种引进模式的比较

数字信息资源采集模式从国家引进到集团引进再到单个机构自主引进,其参与的主体涉及的范围逐渐缩小,但是采集的数字信息资源范围和类型却逐渐扩大,图书馆等信息机构的自主权逐渐扩大,政府指导性逐渐减弱。这三种引进模式的优劣势和数字信息资源适用类型也各有不同,见表3-3。

Gccz Czeslaw Jan.Economic models for networked information[J].ScriMs Review,1992,18(1/2):11-19

表3-3 三种数字信息资源采集引进模式比较

img7

续表

img8

吕慧平.我国电子资源引进的发展策略研究[J].情报学报,2004(8):490-494

从表3-3可以看出,国家引进、集团引进以及单个机构自主引进的数字信息资源采集模式各有优势和不足,在实际的数字信息资源采集中,各个图书馆需要从本馆实际出发,选择最佳的模式,最大限度地增强数字信息资源保障能力。

3.4.2 有偿数字信息资源的访问方式和资源共享模式

(1)有偿数字信息资源的访问方式

图书馆需要根据本馆经费预算和用户需求的实际,选择最适宜的最终用户的访问方式,同时考虑数字信息资源访问的经济性和方便性等因素。

①租用专线。由数据库商采用按月付费,或者按流量付费的方式租用一条网络专线,最终用户通过专线访问国外的数据库,不必再支付国际流量费。

②镜像服务。由数据库商投资在本馆建立镜像服务器,并对用户提供服务,用户直接访问镜像数据库就可获得相关资源服务。其优势在于:第一,节省用户使用数字信息资源的网络通讯费用;第二,提高用户访问数字信息资源的检索速度;第三,使用数据库和维护服务器没有时间差,所以如果服务器出现故障,技术人员能够及时排除故障,减少对读者使用数据库的影响;第四,不存在语言上的障碍,便于对用户提供服务。(39)

③本地服务。数据库商提供裸数据给本馆,本馆需投资开发本馆平台,装载数据,开展本馆服务。

(2)有偿数字信息资源的共享模式

数字信息资源的采集需要考虑数字信息资源共建共享的需要,集团引进和单个机构自主引进都需要采用不同的资源共享方式。主要有以下几种数字信息资源共享方式:(40)

①共享并发用户个数。在集团引进模式下,集团成员共同购买一定的数据库并发用户数,共享并发用户个数。参加单位根据其规模大小、使用统计等规则,支付数据库使用费。其特点是各馆支付的费用不多,可使用的资源很多。不足之处是随着集团扩大,并发用户数量需要不断增加;而且网络条件不好的参加成员由于登录速度慢,在并发用户的使用上总是不如网络条件好的成员占有量大,因此目前此种共享模式使用较少。

②获得资源复本许可。在集团引进模式下,数据库的使用许可是以图书馆为单位的。成员馆各自拥有一个电子版的复本,买的复本越多,价格越低,集团内对资源的总体拥有量也就越高。这是目前比较普遍的数据库使用模式,我国图书馆在前期购买数据库大多采用这种方式。

③合作购买,整合使用。参加集团采购的成员馆共同拥有一份电子版,每馆购买数据库的一部分内容,合并成一个数据库后由参加集团采购的单位共同使用。这种模式的特点就是把图书馆分散的资金集中起来使用,每个参加单位只需要贡献很少的一部分资金就可以使用很丰富的一批资源。这种模式由于其资源的不重复购买、又可以共享使用的特点,被称为“真正意义上的共享”。

④文献传递。广义的文献传递是指以任何形式从任何信息源为用户提供信息副本的活动。数字环境下,通过文献传递从其他图书馆获得本馆没有的数字资源以满足本馆用户的信息需求也是有偿数字资源的一种共享模式。文献传递的数字信息资源共享方式分为两种,即分布式和集中式。分布式指按照区域,图书馆从区域内的其他成员馆索取所需的数字信息资源,如OCLC等;集中式则是由数字信息资源保障中心提供数字信息资源传递服务,如NSTL、CASHL等。这种方式适合满足本馆用户需求分散、需求量较少的数字信息资源的获取。

3.4.3 免费数字信息资源的采集方式

基于网络的数字环境提供了大量的免费使用的数字信息资源,特别是公共获取运动的推进,许多有价值的数字信息资源可以通过互联网获得而无需支付费用,这为图书馆节约了经费的同时也增大了数字信息资源采集的范围,为用户提供更为丰富的数字信息资源。免费数字信息资源采集主要有选择性采集、全采集、组合方法、自动定制和基于呈缴本制度的协商方法。

(1)选择性采集

所谓选择性采集,即根据Web资源的历史价值、文化价值、研究价值和经济价值,有选择地对Web内容进行甄别、采集,它需要较大的人工介入。

选择性采集对所保存的每一项主题都经过认真的价值评估,并确定了哪些资源应该优先采集,因而提高了保存质量。但是选择性采集也存在一些问题:首先是在选择归档主题时具有较强的主观性;其次,选择性归档的内容是有限的,且不可避免地要遗漏许多对未来有重要价值的资源;再次,选择性采集割裂了原网络资源之间的相互联系,且不采集外部链接资源,因此会丢失一些前后的背景信息,这些信息对某些资源和研究也许是极为关键的;最后,这种方式需要大量的人力和资金投入,随着Web资源的急剧增多,选择性采集就会遭遇人员、资金两大“瓶颈”。(41)

(2)全采集

所谓全采集,就是利用自动采集技术把对象网站上的所有信息全部保存下来,因而也称自动获取方式。

全采集方法的优点是使用自动采集机对整个域名内的网站资源进行定期自动获取,人工干预少,采集效率也比较高。未来的研究人员可以获取网站的所有信息,而且这些资源处于一个更为广泛联系的背景之中,还包括链接文件。但也存在一些问题:其一,对于捕获时机要求较高,一般每6个月自动获取一次,但任何在这段时间内产生和消失的Web信息就会被漏掉。其二,因为涉及的Web资源数量巨大,所以质量监控只限于小规模的样本抽查。其三,尽管与选择性采集相比,全采集需要的人力投入小一些,但全采集在数据下载和存储上是极为昂贵的。其四,自动采集机无法访问那些需要密码或受其他因素控制以限制访问的网站,也无法获取深层网络(Deep Web)信息以及孤立网站(即与其他网站没有任何链接的单独网站)的资源。

(3)组合方法

鉴于选择性采集和自动获取方式有各自的特点,在存储载体容量日益增大、存储成本下降的情况下,把这两种方法结合起来是一个比较好的选择。首先采用自动爬行(Web Crawler)的方式,尽可能迅速地收集到网上数量巨大的资源,对于那些不能自动获取的深层网络的重要文献,则积极采取人工介入,即自动获取与人工选择相结合。然后专家对这些网址的文献进行内容鉴定,对值得保存的信息,则使用人工选择采集。

(4)自动定制

公共获取(Open Access)运动提供了大量有价值的供免费获取和使用的学术信息资源,通过网络以电子期刊、个人博客和Wiki等形式发布,其相应的平台也提供了相关的检索和定制服务。图书馆可以通过RSS定制等服务,定制经过选择的信息资源,随时接受推送的相关信息资源。这种方式的优势是能保证采集的信息资源的时效性,及时更新定制的数字信息资源,图书馆投入的人力物力较少。其不足是对站点服务的稳定性要求较高,定制服务将图书馆采集的信息资源限定在某些特定的主题和类型中,必然会造成部分有用的数字信息资源遗漏。

(5)基于呈缴本制度的协商方法

一些文献信息资源的出版商同样是数字信息资源的出版商,如Elsevier等,将纸本期刊和电子期刊捆绑销售,图书馆订阅了一定数额的纸本期刊,就能免费或者低价获得这些期刊对应的电子版。这实质是由图书馆与网络出版机构进行协商,将呈缴本制度扩展到网络文献领域,出版社根据协议定期将被选择的网络文献通过物理媒体移交或通过网络传递给图书馆,或者是图书馆根据协议从出版社网站上进行镜像复制或直接使用软件获取。

从免费数字信息资源的获取方式上不难发现,不管采取哪种方式采集数字信息资源,都需要得到网站所有者(包括网络出版机构)的积极配合,例如一些控制访问的网站资源的获取、数据库网站的采集以及深层网络资源的访问,等等。上述五种采集方式并不是相互排斥的,各馆可以根据不同情况,选择其中的几种方式结合使用。

【注释】

(1)G.E.Gorman,B.R.Howes.Collection development for libraries[M]. London:Bowker-Saur,1989

(2)G.EdwardEvans,MargaretR.Zarnosky.Developinglibraryand information center collection(4th)[M].1999:431-432

(3)G.E.Gorman,B.R.Howes.Collection development for libraries[M]. London:Bowker-Saur,1989

(4)B.Lockett,ed..Guide to evaluation of library collection[M].Chicago: American Library Association,1989

(5)左艺,魏良,赵玉虹.国际互联网上信息资源优选与评价研究方法初探[J].情报学报,1999(4):342-345

(6)侯立宏,朱庆华.网络信息资源评价方法研究综述[J].情报学报,2006(5):523-530

(7)粟慧.网络信息资源评价:评价标准及元数据和CORC系统的应用[J].情报学报,2002(3):295-300

(8)陈文静,陈耀盛.网络信息资源评价研究述评[J].四川图书馆学报,2004(1):25-31

(9)Peter Clayton,G.E.Gorman.Managing information resources in library: collection management in theory and practice[M].London:Library Association Publishing,2001:173-176

(10)Louis A.Pitschmann.Building sustainable collections of free third-party web resources,2001[2007-06-07].http://www.clir.org/PUBS/reports/pub98/pub98.pdf

(11)Diane K.Kovacs,Angela Elkordy.Collection development in cyberspace: building an electronic library collection[J].Library Hi Tech,2000(4)

(12)吴云标.影响虚拟馆藏利用的因素分析——虚拟馆藏选择评价刍议之一[J].图书情报工作,2001(5)

(13)肖珑,张宇红.电子资源评价指标体系的建立初探[J].大学图书馆学报,2002(3)

(14)宋迎迎.论数字馆藏的评价[J].图书情报知识,2006(9)

(15)肖琼.图书馆网络信息资源评价标准体系探讨[J].情报杂志,2007(6)

(16)孙瑾.网络信息资源评价研究综述[J].大学图书馆学报,2005(1)

(17)Diane K.Kovacs,Angela Elkordy.Collection development in cyberspace: building an electronic library collection[J].Library Hi Tech,2000(4)

(18)徐革.电子资源评价之重要影响因子的调查研究[J].大学图书馆学报,2006(3)

(19)G.Edward Evans and Margaret Zarnosky Saponaro.Developing library and information center collection.5th ed.Englewood[M],Colo.:Libraries Unlimited,2005

(20)袁静.网络信息资源评价指标研究的回顾及相关问题的思考[J].图书馆论坛,2006(5)

(21)温东琰,于光.AHP及模糊综合评价法在电子资源评价中的应用[J].现代情报,2006(8):166-170

(22)徐革.确定电子资源评价指标模糊权重的可行方法[J].情报理论与实践,2006(6):690-693

(23)向英明等.电子资源综合评价指标体系及其数学模型的研究[J].图书馆杂志,2004(1):26-29

(24)R.N.Broadus.Selecting materials for libraries,2nd.H.W.Wilson Company. 1981:30-51

(25)Paul Metz.Principles of selection for electronic resources[J].Library Trends,vol.48,No4:711-728

(26)王乐.网络资源购前试用与评价体系初探[J].图书情报工作,2003(12):49-51

(27)Stuart D.Lee,Frances Boyle.Building an electronic resource collection: a practical guide(2nd),2004

(28)Statements and documents of the International Coalition of Library Consortia ICOLC.[2007-12-20].http://www.library.yale.edu/consortia/statementsanddocuments.html

(29)Statements and documents of the International Coalition of Library Consortia COLC.[2007-12-20].http://www.library.yale.edu/consortia/statementsanddocuments.html

(30)Paul Metz.Principles of selection for electronic resources[J].Library Trends,2000.vol.48(4):711-728

(31)刘向红,李春旺.试论电子文献的类型及采集策略[J].图书与情报,2005(1):50-52,57

(32)吕慧平.我国电子资源引进的发展策略研究[J].情报学报,2004(8):490-494

(33)强自力.电子资源的“国家采购”[J].图书情报工作,2003(4):91-94

(34)强自力.电子资源的“国家采购”[J].图书情报工作,2003(4):91-94

(35)国家科技图书文献中心.[2007-12-18].http://www.nstl.gov.cn/

(36)强自力.电子资源的“国家采购”[J].图书情报工作,2003(4):91-94

(37)肖珑,姚晓霞.我国图书馆电子资源集团采购模式研究[J].中国图书馆学报,2004(5):31-34

(38)肖珑,姚晓霞.我国图书馆电子资源集团采购模式研究[J].中国图书馆学报,2004(5):31-34

(39)杨毅等.集团采购——购买电子资源的有效方式[J].大学图书馆学报,2004(3):6-9

(40)肖珑,姚晓霞.我国图书馆电子资源集团采购模式研究[J].中国图书馆学报,2004(5):31-34

(41)杨道玲.Web资源采集策略评析与思考[J].图书情报知识,2004(5)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈