首页 百科知识 加州大学图书馆多平台云迁移策略研究

加州大学图书馆多平台云迁移策略研究

时间:2022-05-19 百科知识 版权反馈
【摘要】:严潮斌 于国辉 段漉希 魏艾 高校图书馆应用云计算存在四个核心问题,这些问题阻碍了图书馆云迁移的理论研究和实践进展,加州大学图书馆的经验有助于对此做出解答。2 加州大学图书馆云迁移的背景在进行云迁移之前,加州大学图书馆的软件系统、人员配置和服务器管理模式与我国绝大多数高校图书馆基本类同。

严潮斌 于国辉 段漉希 魏艾

(北京邮电大学图书馆 北京 100876)

【摘 要】 高校图书馆应用云计算存在四个核心问题,这些问题阻碍了图书馆云迁移的理论研究和实践进展,加州大学图书馆的经验有助于对此做出解答。该馆传统的数字图书馆运维体系遇到经费短缺、技术压力和安全隐患三方面问题,向校园私有云和专业开放云迁移的组合策略成为解决问题的首要对策。通过渐进式的分批次过程,图书馆集成系统、馆际互借系统、内容管理系统和校外访问代理系统先后迁移到软件商托管云、OCLC公共云和校园私有云平台,最终实现图书馆基于Iaas层的全面云端化。其经验对我国图书馆的云实践具有重要借鉴意义。

【关键词】 图书馆;云计算;加州大学;云迁移

云计算作为信息技术最新发展的产物,因其潜在的技术和经济效益为政府、企业等多类主体提供了新的选择。在经费、服务和安全等方面问题重重的背景下,由本地服务器向云平台的数据迁移成为图书馆应对问题,达到企业级服务水平的重要手段。尽管学术界已经对云计算在图书馆领域的应用进行了多方面的理论探讨,但迄今为止,国内未能有一所全面实现云迁移的“云端图书馆”。相比之下,2009年以来美国已经有多所图书馆成功实施云迁移,其中在2011年年末实现云端化的加州大学图书馆极具有代表性,其多平台、分批次的云迁移策略值得我国图书馆借鉴。

1 图书馆云迁移的核心问题

云计算(Cloud Computing)的概念由Google首席执行官埃里克·施密特在2006年搜索引擎大会上提出,Vaquero L和Rodero Mario L将其定义为“一种可调用的虚拟化资源池(Resource Pool),这些资源池可以根据负载动态重新配置,以达到最优化使用的目的[1]。”美国国家标准和技术研究院(NIST)进一步明确了云计算的内涵,“云计算是一种通过普遍、便捷、按需(on-demand)的网络接入方式提供可配置的计算资源共享池(Shared Pool of Configurable Computing Resources)的服务模式,被提供的资源包括网络、服务器、存储、应用和服务,其过程较少需要服务商的管理和交互[2]。”作为一种并行的分布式系统,云计算的核心特征包括五个:“按需自助服务、广泛的宽带网络接入、构建资源池、快速弹性、可测量的按使用量计费的服务[3]。”考虑到现实运作,云计算实际上是由技术、资源、人力和机房组成的高复杂、高成本的云系统(Cloud System)。

从部署地域和开放程度上,云计算分为私有云(Private Cloud)、公共云(Public Cloud)和混合云三类。私有云由特定组织管理和运营,仅提供对内服务,比如加州大学在2010年建立的校园级虚拟云平台(Virtual Server Environment)[4]。公共云通常由公司或其他组织建设和维护,以付费或免费方式提供对外的云接入服务,包括Amazon EC2、Hadoop、Google AppEngine、Microsoft Azure以及中国的阿里云等。混合云是以上两种云服务模式的组合。从所提供的资源层级上,云计算分为:基础设施即服务(Iaas),用户利用云服务提供的处理、存储、网络以及其他资源部署操作系统和运行软件;平台即服务(Paas),用户通过云服务提供的软件工具和开发语言,部署自己需要的软件;软件即服务(Saas),是在前两层基础上的软件在线化应用,不同用户以简单客户端的方式(如浏览器)调用该层服务[5]

云计算为包括政府、企业和高校在内的云用户(Cloud User)提供了降低运营成本、提升服务质量的技术手段,通过将数据迁移到由专业化组织运营的云平台上,既可以减少硬软件的购买和维护成本,又可以通过服务等级协议SLA(Service Level Agreements)保障数据的安全性和可靠性。在图书馆经费有限和服务要求提高的背景下,云计算成为图书馆在数字时代追赶企业级服务水平的重要工具,国内外大量学者探讨了图书馆云迁移的必要性和可行性。Miteshkumar Pandya对图书馆应用云计算的优势、劣势、机会和挑战做了SWOT分析(如图1所示)[6];Han,Y.详细考察了图书馆应用云所节约的综合成本[7];李东旭论述云对信息整合的意义:“由云来统一调度这些海量数据,并做好有效的组织,巨量资源的通用性可以共同实现一种标准模式下的互补链接,使得整合后的信息更加有序[8]。”宋戈和魏志鹏则对图书馆的角色进行分析:“短时间内,图书馆应是作为云服务的接受者,但图书馆作为云服务提供者仍非常值得期待[9]”。

图1 图书馆应用云计算的SWOT分析

但是,图书馆云迁移的实践进展远远滞后于理论研究,难以为后者提供有效的经验验证和需求推动。据考察,国内暂时没有一座高校完成了数字图书馆的全面云迁移,有限的云实践也陷入误区,比如北京邮电大学图书馆的自建云战略被技术难度、人力成本和用户数量所限制,难以将云服务做成图书馆领域的市场化产品。本文认为,高校图书馆云应用的核心问题包括四个:(1)云平台是自建还是租用?其选择标准是什么?(2)云迁移的外部云平台包括哪些?类似Hadoop、Google AppEngine的商业开放云可否选用?(3)系统和数据是否必须一步到位迁移到单一云平台,还是可以分批次迁移到不同云平台?(4)图书馆的云应用属于Iaas、Paas和Saas中的何种层次?这四个问题在国内图书馆界基本无人问津或语焉不详,鉴于国内在这方面研究的空白,本文将以加州大学图书馆为案例来考察美国高校图书馆云迁移的经验。

2 加州大学图书馆云迁移的背景

在进行云迁移之前,加州大学图书馆的软件系统、人员配置和服务器管理模式与我国绝大多数高校图书馆基本类同。首先,整个数字图书馆的软件系统由ILL、ILS两个专业软件和Web、ECProxy两个非专业软件组成:(1)图书馆集成系统(ILS),包括前端的用户检索界面和后端的编目子系统,是最基本的信息检索服务后台;(2)馆际互借系统(ILL),用于图书馆间的文献资源共建共享服务,由设在俄亥俄州的联机计算机图书馆中心(Online Computer Library Center,Inc,OCLC)发起和领导[10];(3)图书馆内容管理系统(Web),由图书馆页面(Page)、浏览器(Browser)和超链接组成,采用HTTP协议;(4)校外访问代理系统(ECProxy),基于URL重写技术,用户无须修改浏览器的设置就能实现代理访问资源的功能,其中ILS和ILL属于图书馆专业软件,Web和ECProxy属非专业软件。其次,运维人员包括两类,馆里存在一个技术部门(类似于国内的技术部或信息系统部)专门负责对本地服务器的监控和维护,另有一些馆员通过一个叫WordPress的内容管理系统来更新服务器上的数据内容。最后,所有提供数字图书馆服务的硬件服务器全部存放于同一机房内,包括ILS服务器、ILL服务器、Web服务器和Proxy代理服务器,由技术部门负责其安全维护。

这种近似于标准模式的数字图书馆运维体系,在世界范围内的图书馆界普遍存在,其好处是图书馆对所有设备和数据享有完全的控制权(Maximum Control)。但是,这种标准模式在特殊的时代背景下遇到了一系列新的问题,最终迫使加州大学图书馆在2011年春季最终做出全面云迁移的决定(Final Migration Decisions)。其背景是企业向云的迁移热情扩散到图书馆界,2009年美国亚利桑那大学(University of Arizona)图书馆将其集成系统、内容管理系统和数据库迁移到云平台,开启了美国高校图书馆云端化的序幕[11],其后又有维克森林大学(Wake Forest University)等数所高校图书馆完成云迁移,这对加州大学图书馆构成强烈的示范效应。其问题则是多方面的,加州大学图书馆在经费、服务和安全三方面面临日趋沉重的压力和危机:

第一,加州大学图书馆经费的缩减促使其重新考虑设备购置和维护方面的成本/收益问题,而云迁移成为节约成本的重要方式。这种经费缩减一方面与加州大学全校经费总额和来源在近几年的持续锐减有关,另一方面也与学校向图书馆拨出的馆用经费份额变少有关。其结果是图书馆对新设备的购买受到限制,服务器和网络设备的更新跟不上技术的发展和用户的需求;同时,图书馆的技术部门被迫进行重组,某些技术专家(Technology Experts)因为薪水太低离开图书馆,剩下的员工则被要求承担更多的任务,在服务器的维护、更新和备份方面力不从心。为了在服务器的购置和维护方面节约成本,管理层开始考虑云计算所带来的成本优势。

第二,用户对图书馆服务的全时性、可靠性要求给图书馆技术部门带来巨大压力,而云迁移是转移压力的理性抉择。在图书馆的技术部门因为经费缩减而弱化的同时,各学院和读者用户对图书馆服务的需求却与日俱增,以至于在图书馆技术部门所能提供的服务和图书馆对技术的需求之间形成一个巨大的鸿沟(Big Gap)。即使技术部门得到作为技术志愿者的学生的协作,或者使用服务桌面票单(Service Desk Tickets)来寻求IT服务商的帮助,仍然不足以应对突发性的技术故障。这种矛盾在高校假期期间更为突出,以至于“图书馆员工不得不放弃度假来为图书馆装一个简单的磁盘[12]”。

第三,图书馆在硬件机房和软件系统方面存在巨大的安全隐患,而云迁移是保证安全性的重要手段。加州大学图书馆机房位于20世纪60年代建成的旧馆内,通风和灭火设备的缺乏导致严重的安全隐患。理论上说,作为机房的空间环境必须满足一定的标准,配备强大的空调和风扇以冷却机房的温度,并有相应的应急预案以保证服务器正常运行。但是在加州大学图书馆的机房,这些条件都未达到,以至于在过去几年中多次发生高温导致的设备故障。此外,在过去的两年内,图书馆系统还多次被计算机病毒感染,甚至危及加州大学的校园网络。在此情况下,图书馆通过云计算外包的合同和责任条款,可以将服务器安全的保护责任转移给云服务商。

3 图书馆云迁移的多平台策略

在最终做出云迁移决定之后,加州大学图书馆碰到了新的问题:采用何种云平台?采用的标准是什么?国内的研究现状一般只是将云计算分为私有云、公共云和混合云三类,很少涉及云平台的进一步分类。事实上,对于依赖专业软件和敏感数据的数字图书馆来说,可供迁移的云平台可以进一步细化如下:馆用私有云,图书馆自建自用,需要极其高昂的技术、人力、资源和运维成本;校园私有云,由校园网络中心建立和维护,向校内各院系、行政机构以及科研教辅单位(包括图书馆)提供云服务;商业开放云,由Google、IBM等服务商运营,向包括政府、企业和个人在内的所有用户提供普遍的付费或免费服务;专业开放云,是专业图书管理软件开发商所运维的图书馆行业云,致力于提供“专业的、可信任的图书馆技术与服务”[13]。在此着重指出两类专业开放云:Innovative Interfaces托管云和OCLC公共云,前者是知名图书管理软件Millennium系统的开发商托管云,后者是图书馆馆际互借委员会建立和维护的公共云,二者的用户以各类图书馆为主,并且在各自云平台上对其专业软件提供专业化的运维服务。专业开放云因此体现出运维专业、成本较低、安全性高三大优点。

表1 图书馆备选云平台的比较

外部云的迁移策略是与自建私有云策略相冲突的。加州大学图书馆首先排除了馆用自建云的选项,其变革本身就是经费缩减、服务压力和安全隐患的产物,自建私有云将加重而非解决此类问题。单个图书馆根本无法承受自建云平台在人力、技术、资源和维护四个方面的成本和责任,在效用上也有“杀鸡焉用牛刀”之嫌,难以无法取得云的规模效益。向后三类外部云的迁移成为图书馆最切实的选择。根据刘芹等人的分类,图书馆云迁移分为部分迁移和整体迁移两类方案,部分迁移是指用户将全部数据分为两部分,分别迁移到云平台和留置本地,通过本地服务器和云平台协作共用实现效用;整体迁移是指用户将其所有数据和内容在同一时间内一步到位迁移到单一云平台[14]。事实上,外部云的迁移并非必须采取“非此即彼”的方式,它还存在更多的排列组合,图书馆云迁移完全可以根据其现实需要和资源情况选择不同的路径和策略,正如Marshall Breeding所说,“美国图书馆的云实践具有高度的差异性,应用多种选择提供不同服务的情况司空见惯”[15]。加州大学采用的便是整体性迁移的多平台策略,这是一种根据软件系统、数据内容、服务性质的差异性,在不同时间内选择不同的云平台进行全部或部分数据迁移的策略。

表2 部分迁移方案和整体迁移方案对比

续表

加州大学图书馆在做出多平台云迁移的策略选择中,着重考虑了三个原则:成本最小化原则、安全性原则和服务专业化原则。成本最小化原则要求尽量考虑校园私有云的免费使用,安全性原则要求排斥商业性云平台的应用,服务专业化原则确保相关子系统的最佳运维状态。基于此,加州大学图书馆最终确立了两类云、三个平台的多平台迁移策略:(1)校园私有云用于Web和ECProxy系统,可以降低云迁移的成本,便于数据内容的及时更新,同时ECProxy系统由网络中心统一接管也可实现校内除图书馆外更多资源的代理访问,校园网络中心的专业维护及其防火墙则保证了两个系统的安全;(2)Innovative Interfaces托管云用于ILS,既可保证对图书馆专业软件ILL的最佳运维状态,又因为用户群的限制性范围(图书馆)确保了系统不会受到来自内部的恶意攻击和数据侵权;(3)OCLC开放云用于ILL,通过OCLC在业界的行业影响力及其专业化维护,确保ILL系统的良性运转,同时因为OCLC对馆际数据共享协议的主导权和支配性地位,避免了数据跨域云迁移所涉及的法律问题。

4 图书馆云迁移的分批次过程

加州大学图书馆在确定基于多平台的整体性云迁移策略之后,对云迁移的实施过程重点做了三项安排:首先,向相关利益主体告知图书馆云迁移的信息及其可能的隐私风险。为了维护相关者的知情权和隐私权,有关图书馆云迁移的信息被及时有效地向学校各院系、各部门、软件服务商以及教师和学生公开,并保证他们在迁移前知有足够的时间和机会重置自己的个人信息。其次,高度重视测试过程,整个系统的迁移是一个渐进式的分批次过程。云迁移是一个准备、试验和全面实行的阶段性工作,系统馆员在四次迁移前都根据云服务器的IP地址测试云连接的可靠性给出了测试报告,分批次迁移则“缓解了单次迁移数据量大和宕机时间长的矛盾”[16]。最后,依赖系统馆员、软件商和云服务方三方主体的良好协作。这既体现在系统数据迁移的数小时内,还体现在迁移之后的问题校验和修正过程中,三方主体的协作是云迁移顺利进行的保障。

图2 加州大学图书馆的多平台云迁移

4.1 ILS服务迁移到服务商托管云

图书馆集成系统(ILS)在2011年春季最先迁移到服务商Innovative Interfaces公司的托管云平台上。加州大学图书馆一直使用该公司的Millennium系统,该系统备份复杂,当系统人员没有及时初始化或更换存储时,备份常常出现故障,机房安全运维也占用了过多人力。加州大学图书馆与Innovative Interfaces公司签订了严格的服务等级协议(SLA),对云服务的可靠性、响应度(QoS)、数据权利归属和终止合同时的数据处置都有明确的规定。2011年春季,系统人员在向所有馆员发送通知邮件后,启动了ILS向服务商托管云的迁移,整个过程用了四个小时,期间获得Innovative Interfaces公司技术人员的远程协助。ILS迁移后出现多个问题,包括网络打印机(Network Printing)服务中断,打印流及格式改变,与Marcive编目网站和加州政府出版物的FTP连接中断,书刊检索系统失效,安全认证和网络管理报告错误等,这些问题通过IP地址更新,防火墙设置更改,机器重启和服务票(Service Tickets)开通予以解决。远程云系统对各种命令的响应都比本地服务器要快得多。

4.2 ILL服务迁移到OCLC公共云

馆际互借系统(ILL)涉及多个图书馆的数据内容和所有权,在2011年8月迁移到联机计算机图书馆中心(OCLC)的公共云平台上。ILL系统最初由加州大学图书馆自行研发和维护,2011年春天,由于硬件故障被临时转移到校园的虚拟服务器环境下,这节省了新购主机的成本。但由于校园网络工作人员并不承担维护图书馆系统的专职责任,影响了系统升级、数据备份、新实例安装和其他维护工作。系统馆员经过与馆际互借协调专员协商后,向OCLC提交了ILL云迁移的请求报告并获得同意,这成为ILL云迁移的关键一步。2011年8月ILL系统迁移到OCLC云服务器后出现PDF文件丢失,数据库连接中断等问题,系统馆员对SQL别名连接的服务器IP地址和数据库名称进行更新后,ILL工作正常。

4.3 Web服务迁移到校园私有云

图书馆内容管理系统(Web)在经过多次病毒和木马危机后,于2011年9月迁移到更为安全和专业的校园私有云平台上。加州大学图书馆的网络内容管理系统采用的是WordPress软件,底层是Apache网络服务器和MySQL数据库管理系统。Web云迁移的重要原因是本地服务器的安全问题,2011年夏季,图书馆服务器再次感染病毒并迅速蔓延到整个校园网络,技术专家在对系统和文件进行全面杀毒的过程中,在网站代码中还发现多个木马。校方和图书馆经过会议讨论后,决定将Web系统迁移到校园虚拟云环境下,由网络中心的专业技术团队维护,从而达到更高的安全等级,同时降低图书馆维护Web安全的责任和压力。当然,这种安全是以图书馆部分失去对网站的直接管理能力为代价的,“服务器的远程化导致图书馆甚至无法决定何时更新或安装一个WordPress插件”[12]。经过一周的测试期,Web系统运转正常。

4.4 ECProxy服务迁移到校园私有云

校外访问代理系统(ECProxy)最终在2011年年末迁移到校园私有云平台上。从而实现图书馆系统的完全“云端化”。ECProxy从图书馆机房到校园云迁移的过程相比前面三个子系统要便捷得多:一者,云服务环境已经建成,其他子系统已在云环境下良性运转达一个季度,基本上不再需要更多的配置和改变;二者,ECProxy技术本身相比其他子系统更为简单。系统馆员与校园网络中心协作完成了该系统的迁移,并对电子资源管理系统(e-Resource Management System)SFX进行修改,包括新的IP、服务主机名等信息。为了保证代理服务的可靠性,本地服务器和远程云服务器共同运行两周后才彻底推出,在这两周的试运行期间,出现了由于代理文件未能与云服务器同步更新导致的“代理失败(unproxied)”问题,经同步操作后解决。至此,整个数字图书馆系统的“云端化”完成。

5 小结

加州大学的经验为图书馆云应用的四个核心问题提供了自己的,而非标准的答案:(1)图书馆自建云受制于经费、技术、人力和运维多方面的成本压力,目前来看并不可行。

(2)图书馆云迁移可以在图书馆软件商托管云、OCLC公共云、校园私有云三类主体间选择,前两者作为专业开放云具有成本低、安全性高、运维专业化的优势。

(3)在以上三类可选云平台中,图书馆既可以选择单一的云平台,进行一步到位的统一式迁移,也可以根据子系统的差异性选择不同的云平台,并采取分散式策略在不同的时间内迁移到相应的云平台上。

(4)图书馆云应用的层次目前以“基础设施即服务(Issa)”级别为主,这一方面是因为系统向OCLC公共云和校园私有云的迁移完全不涉及软件的开发和在线化;另一方面是因为集成管理系统的开发商Innovative Interfaces不具有提供Paas和Saas的能力、意愿和服务模式。理论上,如果图书馆软件开发商通过其云平台向其用户图书馆提供集成系统的在线化应用,那么图书馆的云应用也相应地达到Saas级别。

加州大学图书馆的经验对于中国的启示可以从两个方面来说明:从云服务的供给来看,由专业图书馆软件开发商提供云服务,进而实现对其专业化软件的云端维护和更新,比如OCLC的WorldCat云服务扩展到OPAC、馆际互借、评论、社区好友等一系列功能,将是中国图书馆软件开发商赢得市场的重要战略;相比之下,Google、百度、阿里巴巴公司所提供的云平台由于其用户的宽泛性和服务的非专业性,在安全和服务等方面很难赢得图书馆界的信任。从云服务的需求或应用来看,高校图书馆的云迁移,应以成本最小化、安全可保证和服务专业化三大原则为指导,最佳的策略组合是专业软件(ILL、ILS等)迁向专业云平台,非专业软件(Web、ECProxy等)迁向校园云平台,如此才能实现云迁移的综合效益;Google等纯商业开放云平台由于“隐私、安全、可靠性、责任、技术跑到法律前面等一系列问题”[17],暂时不被建议。

参考文献

[1]Vaquero L,Rodero-Marino L,Caceres J,et al.A break in the clouds:towards a cloud definition[J],SIGCOMM Computer Communication Review,2009(1):50-55.

[2]Mell P,Grance T.The NIST definition of cloud computing[C].NIST Special Publication,2011:800-145.

[3]蒋林涛.对云计算中若干问题的思考[J].电信科学,2011(3):1-6.

[4]IT专家网.美国加州大学实现存储虚拟化[EB/OL].[2013-01-18].http://virtualization.ctocio.com.cn/283/12319283.shtml.

[5]李乔,郑啸.云计算研究现状综述[J].计算机科学,2011(4):32-36.

[6]Miteshkumar Pandya.Cloud Computing for Libraries:A SWOT Analysis[J].8th Convention PLANNER-2012.Sikkim University,Gangtok,March 01-03,2012:387-394.

[7]Han Y.Cloud Computing:Case Studies and Total Costs of Ownership[J].Information Technology &Libraries,2011(4):198-206.

[8]李东旭,张惠君.数字图书馆跃上云端:云计算在数字图书馆中的应用[J].数字图书馆论,2009(11):44-48.

[9]宋戈,魏志鹏.基于云计算的图书馆建设与服务发展[J].图书与情报,2011(1):79-81,134.

[10]珞信.OCLC馆际互借子系统运行10周年[J].现代图书情报技术,1990(1):52-53.

[11]Han Y.On the clouds:A new way of computing[J].Information Technology &Libraries,2010,29(2):87-92.

[12]Jiannan Wang.From the Ground to the Cloud:A Practice at California State University,East Bay[C].CALA Occasional Paper Series,Chinese American Librarians Association,May 2012(10):1-8.

[13]Innovative Interfaces公司网站[EB/OL].[2013-01-18].http://iii.com/.

[14]刘芹,刘玲,毕晓飞.业务平台云迁移方案的探讨[J].电信工程技术与标准化,2012(4):35-38.

[15]Marshall Breeding.The advance of computing from the ground to the cloud.Computers in Libraries[J].2009,29(10):22-25.

[16]陈臣,李映宗,高军.面向云计算的数字图书馆动态迁移对策与优化[J].现代情报,2012(6):51-54.

[17]Paul T Jaeger,Jimmy Lin,Justin M.Grimes,Cloud Computing and Information Policy:Computing in a Policy Cloud?[J].Journal of Information Technology and Politics,2008(3):269-283.

【注释】

[1]本文系2013年学术年会论文,后发表于《图书情报工作》2013年第11期。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈