首页 理论教育 新技术在图书馆服务工作中的应用_图书馆读者工作理

新技术在图书馆服务工作中的应用_图书馆读者工作理

时间:2022-07-02 理论教育 版权反馈
【摘要】:新技术在图书馆服务工作中的应用_图书馆读者工作理第十三节 新技术在图书馆服务工作中的应用一、数字图书馆门户1.数字图书馆门户的含义数字图书馆和门户网站的发展为图书馆与使用者构架了新的桥梁,它们的结合产生了“数字图书馆门户”。因此,数字图书馆门户是数字图书馆信息传播的门径,是数字图书馆的重要组成部分。数字图书馆门户位于数字图书馆的最前台,是数字图书馆全部功能和服务的直接展现。

新技术在图书馆服务工作中的应用_图书馆读者工作理

第十三节 新技术在图书馆服务工作中的应用

一、数字图书馆门户

1.数字图书馆门户的含义

数字图书馆和门户网站的发展为图书馆与使用者构架了新的桥梁,它们的结合产生了“数字图书馆门户”(digital library portal)。如果说数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心,那么数字图书馆门户就是进入这座中心唯一的大门和通道,外界通过数字图书馆门户才能享用数字图书馆的丰富资源与服务。因此,数字图书馆门户是数字图书馆信息传播的门径,是数字图书馆的重要组成部分。

目前对门户还没有一个确切的定义,普林斯顿大学的Web应用和高等教育专家H.Strauss提出了一个对理解门户很有帮助的描述。Strauss定义门户(portal)是一种通向Web资源的特殊通道(gateway),一个网络中心(hub),从这里用户可以定位平常所需要的所有Web内容。在谈到门户同一组以主页为中心的Web页面的区别时,他指出门户是以用户为中心的,而主页是以所有者为中心的。也就是说门户网站是围绕用户团体建立的,而不是围绕网站的所有者。门户中的元素常常被组织成各种数据的入口,就是频道(channels),还有检索框、链接、日历或时间表、E-mail和地址簿、讨论组或聊天室、各种协作活动(如共享的工作区)。(www.guayunfan.com)

把Strauss的门户定义应用于数字图书馆门户,可以看出数字图书馆门户作为一种特殊的门户形式,同样应该满足可定制和个性化服务的特征。Strauss认为数字图书馆门户更接近一种垂直门户,焦点指定于一个特定的用户团体,并把这个用户团体分为不同的用户群。

美国研究图书馆协会(ARL)和其他合作者继承了Strauss的定义,把图书馆门户定义为学者门户(scholars portal),是一个通过Web为学者深入研究提供便利的垂直门户,包括提供质量、可靠的内容,允许跨数据库查找。门户还可能包括一些其他的服务:数字化参考咨询、共享的工作空间、帮助学术发行的工具、跨平台的商业数据库入口、适合各种学术术语的电子辞典等。

ARL门户工作组主席J.Campbell称:“学者门户的中心服务是提供一个发现工具,通过它,用户可以查找分布式的不同Web站点、图书馆目录,提供多个资源数据库的跨库检索,将结果集成到同一个界面中。”

英国Bristol大学著名学者M.Ellingsen把门户定义为“用一个无缝的界面表达从多个数据源提取出的动态数据”。在M.Ellingsen的定义中有3个要素:动态、多个和无缝。动态是指大多数数据是从数据源中被拉取出来或推送出去的;多个是指数据源的数量不止一个;无缝是指对用户只需进行一次身份验证。M.Ellingsen认为Web界面和以个性化的方式表达数据是门户的关键。

M.Ellingsen认为数字图书馆门户符合门户的定义:同时查找多个图书馆目录和网络资源,并提供一个结果集合列表,只需要一次身份认证,服务要体现个性化。

美国图书馆协会(American Library Association,ALA)的R.W.Boss定义数字图书馆门户是一种专门为用户访问图书馆内外电子资源而设置的接口

上述门户定义都是围绕资源和门户用户展开的,实际上简单地说,数字图书馆门户是一种提供图书馆内外网络资源接口和界面。数字图书馆门户位于数字图书馆的最前台,是数字图书馆全部功能和服务的直接展现。它紧密联系着数字图书馆的方方面面,诸如分布式超大规模内容和数据的组织、存储、调度、查询与检索,智能化数据采集、加工、标引、检索,信息内容的数据挖掘,多媒体内容的查询,个性化主动信息服务,面向对象的软件技术,多平台的互操作性,版权问题,系统安全等。

2.数字图书馆门户的特征

数字图书馆门户的核心特征是信息与应用的整合、跨系统检索、简单的统一界面、一次性认证、可定制和个性化等。

(1)信息与应用的整合。

信息内容经过深层次组织加工,形成高质量的信息内容。这些信息与图书馆各种服务有机地集成在统一的界面中。数字图书馆门户与普通用户网站的不同之处,就在于它所集成的信息资源内容是经过深层次加工和组织的。

(2)跨系统的搜索能力。

用户在一个搜索界面,将搜索请求一次性输入,就可实现对多种资源和数据库进行信息查询,并将各个系统的检索结果汇集起来,以统一的界面展示给用户,为用户提供方便而高效的搜索服务,这实际上就是要求门户网站具有跨系统、跨数据库检索的能力。而普通的图书馆网站通常并未提供这种强大方便的检索功能,用户不得不进入各个本地的或远程的检索系统,分别进行检索。

(3)简单的统一界面。

简单的统一界面,是指通过共同的和一致的用户界面,使用户更易于使用。由于界面统一并遵循用户习惯,用户无需进行培训就可方便地发现和搜索到有用的信息。

(4)单点登录,一次性认证。

用户只需要一次登录,就能使用他已得到授权的各种资源和服务,而无需记住和输入众多不同资源与服务的账号和口令。

(5)可定制。

门户根据不同的角色预设了不同的界面内容。可基于用户所属的角色为用户提供相应的定制内容和服务。

(6)个性化。

为满足用户的需求和偏爱,提供不同的内容和界面,可采用推荐技术,通过使用先进的统计模型和其他匹配技术,从Web站点访问者的行为中掌握用户的使用趋势。这种方法能适应访问者兴趣改变的趋势而不需要创建新的业务规则。

(7)协作性。

门户网站提供一系列的协作服务,如即时消息传递等,帮助团队共享门户网站页面、应用程序、文档、消息传递和其他协作工具。

(8)安全性。

数字图书馆门户必须采用安全性策略管理,以确保用户在此安全地进行各种活动。

3.数字图书馆门户的主要技术要求

现在,数字图书馆门户的建设正在如火如荼的进行中,已经有许多数字图书馆利用成熟的产品或平台框架来快速整合它们提供的信息内容和服务。如英国国家图书馆门户采用Ex libris公司的MetaLib和SFX产品,德国PhysNet门户采用了uPortal系统,美国加州大学数字图书馆门户使用Fretwell-Downing公司的ZPortal门户产品等。数字图书馆门户涉及的主要技术有:门户构件技术(portlet)、跨系统检索技术、元数据获取(harvesting)、信息通报(alerting)和其他数字图书馆技术。

(1)门户构件技术。

门户构件使用户界面的组件化成为可能。随着门户构件日趋标准化,数字图书馆门户将到很大的发展。portlet是一个Web组件,可以被portlet容器管理,可以产生动态内容。portlet可以很容易地被插入并且运行于Web应用中,portlet是被设计成聚合大量内容的组合页面。同样一个portlet,根据不同的用户,可以产生不同的实例,在这些实例中可根据用户设置不同的内容,也就是满足用户的可定制性。

(2)跨系统检索技术。

跨系统检索技术指在用户与各个数据库之间建立一个集成接口,通过一个虚拟的集成视图及查询处理机制,透过各种分布式检索协议及相关技术,如HTTP、Z39.50、STARTS、SDLIP、SDARTS等协议,自动将用户的查询请求转换成各个分布式信息源的查询式,实现不同数据库之间数据的透明访问。其中的关键技术包括资源选择技术、检索式转换技术结果、分析技术、整合与封装技术等。

(3)元数据获取与搜索。

面向元数据的搜寻服务,可选择OAI-PMH(Open Archives Initiative Protocol for Metadata Harvesting)协议来提供元数据开放搜索服务。基于HTTP和XML协议的OAP(open archives protocal)协议提供了用于共享不同服务之间元数据的机制。

(4)内部管理。

以一种有效的机制,实现结构化和非结构化数据的管理。结构化数据的管理,包括关系数据库数据、基于关系数据库的元数据;非结构化数据的管理,包括文件、工作文档、Web页面、目录创建和管理。

(5)用户认证和权限管理。

用户认证和权限管理是根据用户身份决定用户对具体资源、服务和应用系统的操作权限。目前常见的用户认证机制主要有:基于数据库、基于LDAP和基于文件系统。

(6)其他图书馆技术。

数字资源的采集、加工、存储等数字资源管理技术,安全技术等。

4.国外数字图书馆门户研究现状

1994年9月,美国自然科学基金会等组织联合资助了数字图书馆预研工程DLI,6所大学利用先进计算技术和网络技术实现大规模分布式电子内容的访问、互操作和应用,开展了研究开发工作。从1998年开始,DLI二期工程在更大范围内展开研究,数字图书馆门户也是其中的研究内容。在美国之后,其他许多国家如英国、法国、日本、德国、意大利等也相继开始投入巨资开发本国的数字图书馆。1994年欧盟宣布在欧洲建立信息社会的计划,澳洲、亚洲各国的数字图书馆事业也紧跟世界数字图书馆发展的脚步。

伴随着数字图书馆与信息技术的发展,数字图书馆门户有了长足的发展,很多公司开发了数字图书馆门户产品,也有很多机构和大学开发了自己的数字图书馆门户。下面介绍国外一些数字图书馆门户:

(1)美国加利福尼亚州立大学(University of California)数字图书馆1999年1月开始使用。目标是建立加利福尼亚州立大学数字图书馆群(digital co-library),为当地居民提供信息服务,提高加利福尼亚州立大学在学术交流方面的领导地位。

加利福尼亚州立大学数字图书馆门户使用了Fretwell-Downing公司的ZPortal门户产品。Fretwell-Downing公司的ZPortal为用户提供了进入所有资源的单一界面,提供了跨数据库检索的使用环境和Z39.50索引擎,提供了本地和远程数据库的所有电子资源的联合目录。当检索多个资源时,ZPortal提供了个性化的服务工具,还支持MARC、EAD、Dublin Core、GILs、CIMI等元数据。

Zportal基于CORBA的体系框架,它包含了Z2WEB、VDX、Z'MBOL等软件。Z2WEB是网络搜索引擎。VDX屏蔽了不同类型资源库的差异,实现各种图书馆系统的无缝集成。整个数据库的查询、定位、请求和传递过程对用户都是透明的,如Z39.50对多个数据库的广泛查询、馆际互借等。Z'MBOL为统一查询和检索任何形式的元数据和内容提供了工具,它是基于Z39.50标准的快速有效的搜索引擎,支持大型的数据库和多种元数据。

(2)美国康奈尔大学(Cornell University)数字图书馆门户始建于1998年,它统一了康奈尔大学19所图书馆的服务提供方式,用户可使用同一个入口享受资源服务。

康奈尔大学数字图书馆门户主要由两部分组成:图书馆主页和门户数据库(被称作E-Reference Collection),数据库中存储的是网络资源元数据,元数据帮助发现并连接合适的网络资源。用户与馆员的交互通过“ask a librarian”的E-mail链接实现。

发展之初,门户数据库使用运行在Unix平台的MySQL。使用Glimpse搜索引擎来编制索引和查找信息,采用Endeavor信息系统公司的Voyager目录为门户数据库目录。记录以MARC格式传送给门户,与验证和授权信息结合。门户数据库以主题标题的形式被浏览,以关键字的形式被查找。随后,康奈尔数字图书馆门户不断发展,使用与Endeavor信息系统分司合作的ENCompass系统,它是一个数字资源管理系统,可以利用元数据进行跨数据库检索。

(3)美国卡内基梅隆大学(Carnegie Mellon University)数字图书馆门户使用了Sirsi公司的e-Library方案iLink。iLink门户使卡内基梅隆大学的知识资源展现于学术、研究人员面前。iLink对用户提供有效的服务,用户可以管理和享用相关的网络信息,这使用户的查找更加方便、快捷、有针对性。

iLink门户提供简单的用户界面,使用Z39.50协议,用户可以跨数据库查询、重复历史查询、简单和复杂查询。用户可以浏览目录、检索资源、定制资源,门户还提供OCLC的ILL馆际互借系统界面。

(4)美国密歇根大学(Michigan University)数字图书馆门户使用了Agents代理,Agents具有自治性和协商性的特定。每一个Agent都有计算能力,并相互协商享受其他Agent的资源和能力。协商形成了“会话序列”,消息通过指定的协议交换。

为了详细描述概念之间的关系,帮助Agent发现资源,密歇根大学数字图书馆门户使用了基于本体论(ontology)的元数据。密歇根大学数字图书馆门户形成了一套概念化的书目关系的ontology。例如与“作品”(work)一词相关的是作品的想法(conceptions)、作品的内容(expressions)、作品的发表格式(manifestations)、编码形式(digitizations)和复制品(instances)、译文和原始作品拥有相同的想法,新的版本与初始版本有相同的内容,再版使用相同的发布格式,这样把相关的资源联系起来。

(5)欧洲的Torri门户体系是TIPS(Tools for Innovative Publishing in Science)项目的第一个门户。TIPS是欧盟的社会科技项目(Information Society Technologies,IST)中的第5个计划框架中的项目,它由6个成员参于执行,这些成员分布在意大利、英国、法国和瑞士。TIPS是在电子文档代替了纸质的背景下产生的。TIPS认为信息发行出版的进一步发展需要一些关键因素:语义结构被广泛地应用于交换的文档;不同的档案、期刊和管理信息的服务都有统一的桌面式的网络存取接口;更有效的信息检索和过滤技术。

Torri门户对文档的获取是基于TIPS的多层文档结构和动态入口机制的。多层文档结构的文档是指文件本身和它的一整套注释、评注以及变化和附加信息。如学术论文,最初作者在完成它后把它提交给网络和期刊,过一段时间后论文被修改,注释被加进去,期刊对它的评价也会附上去。作者在任何会议上发表的论文演说将成为初始文档的又一种可检索的形式(可能是多媒体形式)。这每一次变化都成为一层,从技术上讲,每一层都是数据库的一种入口;或者说,每增加一层,数据库的入口字段就被修改一次。同时,网络服务器还要跟踪修改文档各层的关系。此外,多层文档的入口必须是动态的,不论是读者、作者、编辑、评论人在同一时刻都可以进入不同的文档层。

Torii门户本身提供了4种工具:

①质量控制工具(quality control tools)是为了在浏览多层文档系统中建立一套可信的各层平等的机制。使用者可进入所有的文档层并发表评论,因此需要建立一个不断更新的文档注释评论库。

②在大量的信息面前,有必要根据用户的需求或者兴趣相似的用户需求,过滤掉部分信息,过滤工具(fitering tools)就是这样的工具。

③个人文件夹(personal folder)是帮助用户根据自己的需要建立文件夹的工具。

④搜索引擎是提供存储文档的核心工具。多数网络搜索引擎是根据词汇的文本检索的,而语义结构的网络应用将改变这一切。但是现在的网络还远远不能提供这样的语义环境,因为它缺乏必要的语义结构,TIPS试图实现语义网络。TIPS的检索系统Okapi是一个基于概率论的全文检索系统,它通过术语辞典的术语的相关检索提高了检索效率,增加了检索速度,使用户脱离数以千计的无用检索的结果。辅助检索(assited search)正是这样一个工具。

Torii门户集成外部资源和服务、使用多层文档结构,这两种思想为数字图书馆门户如何管理浩如烟海的数字资源、如何集成和提供多种多样的服务提供了行之有效的经验与方法。

(6)英国国家图书馆门户采用了Ex libris公司的MetaLib和SFX产品。MetaLib信息门户为后台多样的信息系统提供了一致的管理和用户界面。门户使用MetaLib组织发布和检索来自不同图书馆目录和电子数据库的信息。SFX结合了MeteLib的链接技术,它在各种的电子资源之间链接相关信息,包括全文数据库、文摘数据库、索引数据库、引文数据库、在线图书馆目录等。

门户采用CORBA体系框架。与IBM公司合作开发CORBA组件的解决方案,以达到最大限度地实行门户的互操作、灵活性、可重用性和可维护性。门户的数字对象存储遵循开放文档信息系统参考模型(Open Archival Information System,OAIS)。OAIS参考模型描述了对象的存储,也说明了数字对象的状态,包括提交信息包、文档信息包(放置、存储和使用)、传递信息包(数据对象传递给用户)、文档摄取(从提交状态到文档状态的过程)、文档存储(存储管理、变迁、恢复)、数据管理(数据库的管理和更新)、入口(不同资源的单一界面入口)和管理(跨越整个模型)。

(7)澳大利亚主题门户是由澳大利亚国家图书馆组织建设的,它是由众多主题门户组成的体系,每一个主题门户都是为了支持某一特定主题领域的研究而建立的。这些电子资源由特定主题领域的专家评估和描述,已经建立起包括农业、工程、教育、化学、科学、人文、法律、文学、图片等主题门户。澳大利亚主题门户的建设重点发展和研究了以下6个方面的问题:

①电子资源质量。可获得的电子资料研究价值不高的问题一直以来困扰着澳大利亚的学术机构,而且高昂的预算也使许多大学没有能力建立这样的门户。澳大利亚主题门户就试图克服这样的问题,它们有选择地识别高质量的电子资料。图书馆和学术机构是以主题分类的形式来引导网上信息的,但是多数只局限于提供简单的链接列表,并且只在内部网中使用。主体门户则是一个互连相关的体系。

②整合印刷资源和电子资源的入口。主题门户提供了电子资源的入口,并且具有高质量的服务和数据库。但是目前对印刷资料的需求还很多。两种不同形式资源的描述机制不同,印刷品采用USMARC,电子资料采用Dublin Core。如何整合两种资源,就成为主题门户关注的课题,如采用Z39.50技术。

③各门户之间的合作。主题门户为促进各个门户的有效合作共享做了很多努力,具体包括制定了资源选择的依据和标准;应用了统一的元数据机制;设计了存取限制和入口原则;考虑到了知识产权问题和信息的过滤问题;承担了政府代理的责任;评估了各门户的技术体系框架。

为了与国家政府部门的内部网保持一致,主题门户体系使用了澳大利亚政府服务标准(Australian Government Locator Service Standard),这提高了各个门户的互操作性能。各个主题门户成了内容供应者和元数据索引者。门户体系作为一个分布式系统,由一个分布系统技术中心负责提供技术支持。澳大利亚主题门户体系发展了众多门户的合作机制,确保各个主题门户没有资源的重复建设。

④跨门户的信息搜索和工具利用。跨门户搜索是指可以同时搜索多个不同的门户,主题门户使用了Z39.50标准和代理搜索机制。如何使用可升级的统一工具来支持新门户的建立、多门户搜索、确定各门户的目标和支持分散的用户群,这些是主题门户正在解决的课题,也是一个全国性门户体系框架的关键因素。

⑤门户体系的长期维护。门户建立之后,它的维护需要长久的经费来源。现在农业门户是由澳大利亚研究委员会(Australia Research Council)投资的。那么当免费的门户无法维护其正常的运转和升级时,其服务是否可以收费。如何收费是个问题。

⑥存档和永久命名问题。数字服务的基础是发行人在网上注册并发行内容。注册时每个资源都要获得元数据的描述和一个统一资源名(Universal Resource Name,URN),这个过程将使用澳大利亚国家图书馆电子出版物的元数据仓库,资源的统一命名服务将把这个永久名称与元数据库关联。这样主题门户体系将不断丰富国家图书馆,同时与国家图书馆合作,统一管理所有门户资源、服务和链接。

5.图书馆门户的服务体系

目前,数字图书馆门户正逐渐从单纯的提供内容的“内视型”服务向主动与用户交互提供用户满意的内容的“外视型”服务发展,数字图书馆门户的使用者也从只能被动接受已有的服务向主动服务需求进行转变,如何满足用户的个性化需求,如何认证用户的身份,如何展开个性化服务,如何识别用户的兴趣特征,这些都是数字图书馆门户必须考虑的问题。因此,有效地管理用户资源,根据用户的个性和属性,以用户喜好的方式提供资源,对数字图书馆门户是尤为重要的。数字图书馆主要提供的服务有:集成导航服务、开放链接服务、个性化服务、信息可视化服务等。

(1)集成导航服务。

由于Internet上的信息具有地理上分散、组织上松散、数据类型多、随机性强等特点,给人们查询和利用信息带来了困难。因此,对Internet的资源进行组织分类、绘制出Internet的资源地图变得越来越重要。网络资源的集成导航是建立在对网络资源元数据加工整理的基础上,主要提供资源的地址链接。通过对有价值的网络资源进行元数据抽取或加工,并按一定的分类体系存储,把Internet上某些相关的节点进行集中,按照方便用户浏览检索的原则,以用户熟悉的方式组织起来,指导用户查找。

集成导航服务的资源对象主要是网站、数据库等资源集合,以此构建虚拟图书馆资源体系。例如,IPL(internet public library)主要集成和整合网站资源,其资源的选择过滤、分析评价、导航体系构建等工作都由人工完成,信息集成的质量高,但资源覆盖范围有限,存在资源链接更新不及时等问题。随着数字图书馆的发展,信息资源的集成范围不再仅仅局限于网络资源,也开始包括本地馆藏资源。例如,阿拉莫斯实验室将本地馆藏资源、授权商业资源、网络开放获取资源等统一按学科进行集成和整合,同一学科内再按数据库、电子期刊、网站、书目信息等分类,支持基于学科的浏览服务。当前,阿拉莫斯这种信息集成揭示模式已被众多图书馆采纳。

(2)开放链接服务。

近年来随着电子资源的高速增长,图书馆拥有的数据库也日益丰富,这些数据库由于建设者不同,导致平台异构,使用方法、覆盖范围也不尽相同,但文献之间却存在大量相互交织的关联关系,以期刊为例,一种期刊可能同时被不同数据库收录,按照数据库收录内容详尽程度的不同,可能仅提供记录的文摘信息,也可能提供记录的全文信息等。因此,同一文献资源就可能存在不同的描述形式,且文献之间还可能存在着引用和被引用的关系。在这样的资源环境下,用户在检索到某一个数据库的结果记录后,如想进一步获得相关或更为详尽的文献资源,就必须再到相关的数据库去执行检索操作。在上述过程中,为了实现检索目标,用户至少要经历两次以上的检索操作,其间,面对的是不同检索参数和查询方法。并且,为了获取一致性结果信息,用户还必须对不同数据库检索参数之间的关联加以记录。显然,执行这样一次查询操作,对用户的能力要求很高,负担也很重。为了解决上述问题,资源提供商和集成服务商开始从资源之间的关联关系上入手来寻求问题的解决方案,这种资源内容上的关联,反映在基于Web的应用上,就是各种形式的开放参考链接关系。

在开放式数字资源环境中,各种数字化资源之间呈现出错综复杂的关联关系。基于传统方式提供的参考链接URL地址,由于资源集合的不断壮大和用户需求层次的提高,体现出服务单一,难于维护和不具有用户上下文相关性等方面的缺陷。开放链接服务可以为各种不同的电子资源提供无缝链接,把分布和异构的电子资源整合为一。为读者在使用电子资源时提供一站式的链接服务,提升电子资源的获取和检索的便利性。开放链接服务的使用,将支持OpenURL的所有数据库内容与相关服务集成在一起,将原本按数据库进行查询和获取文献的纵向脉络穿插入数据库间数据联系的横向脉络,从而形成了图书馆电子资源与服务间的关系网,更深入、全面地对资源进行揭示,并有针对性地提供给用户。目前提供开放链接服务的系统主要有:Ex Libri公司的SFX、Endeavor Information Systems的LinkFinderPlus、Openly Informaties公司的1 Cate、Sirsi公司的SirsiResolver、Innovative Interfaces公司的WebBridge、Serials Solutions公司的Article Linker、EBSCO公司的LinkSource等。

(3)个性化服务。

信息时代是一个张扬个性的时代,用户希望图书馆能够根据其个人需求或特点,以个性化的方式提供个性化的服务内容。目前,图书馆提供的个性化服务主要包括分类定制、界面定制、信息推送、检索帮助、个性空间等。早在1998年,美国康奈尔大学图书馆开发了网络个性化服务平台Mylibrary@cornell系统。该系统由个性化链接MyLinks和个性化更新MyUpdate两个部分组成。此后,美国华盛顿大学图书馆开发了MyGateway个性化服务系统,北卡罗莱那州立大学图书馆开发了Mylibrary@Ncstate系统,洛杉矶国际研究实验室研究图书馆开发了Mylibrary@LANL系统,深受用户的欢迎。国内图书馆也开发了一些个性化服务系统,如中国科学院国家科学数字图书馆Mylibrary系统和浙江大学自行开发的Mylibrary系统。

Web2.0技术拓展了图书馆个性化服务的空间,近年来,已经有越来越多的Web2.0元素融入到了图书馆个性化服务系统中。例如,雪城大学图书馆(Syracuse UniversityLibrary)的Mylibrary系统已经有了Web2.0元素。该系统包括了My Articles、My Books、My Classes、My Feeds、My Stuff、My Friends等,在My Articles界面有Tag Clouds(标签云图)、书目记录、书页显示及评价功能。

目前,国内外许多图书馆主页都提供RSS(ReallySimple Syndication)服务,由读者自行选择定制图书馆最新通告、图书馆电子资源动态、新书通告、培训讲座等信息推送服务。

近年来,图书馆个性化服务另一个明显的发展趋势是“一对一”服务。例如,加州大学尔湾分校(University of California at Irvine)图书馆提供的“个别指导”服务(Tutorials),帮助指导学生在做课题、搞研究、写论文的过程中,挑选研究课题,制定研究策略,寻找相关资料,评估资源和研究结果。浙江大学图书馆为学生提供“一对一”服务,需要个性化服务的读者,只要在图书馆网页上下载并填写“个性化服务需求表”后发邮件给图书馆,图书馆会在3个工作日内指定1~2位负责老师与服务对象取得联系,与服务对象进行沟通和交流,从文献查找、信息收集、资料推荐等角度提出参考意见,提供在学习、工作、科研、教学等方面的信息服务。

通过个性化服务,数字图书馆门户可以真正实现以“用户为中心”。个性化服务通过动态了解用户的使用兴趣,为用户提供个性化服务。让用户通过信息定制,创建和管理自己的信息或兴趣群组,建立用户特征信息库;然后通过智能代理和信息推送技术,根据用户的需求,主动从网络信息资源或数据库中搜索信息。一旦出现符合用户搜寻条件的最新信息,系统就会将这些信息进行筛选、分类、排序,然后及时主动地推送给用户,从而实现从传统“人找信息”到“信息找人”的突破性变革,使该系统成为用户获取各种网络资源与服务的个性化门户。

(4)信息可视化服务。

信息可视化这一概念最早是由计算机协会成员McCormick在1987年正式提出的。20世纪90年代以来,国际上对信息可视化专题进行了广泛而深入的研究,取得了一些重要进展。

在数字图书馆中,信息可视化包含以下几个方面的内容:

①信息浏览的可视化:

传统上是采用文字信息来描述信息资源,为了加大用户对信息资源的认知力度,可以使用可视化方式来实现。例如使用图标、聚类、映射等,可以形象表达信息的内容,使用户不用看太多的文字,就可以基本了解文章的大概内容,具体表现在:

集合概览。通过一次显示整个集合或者多层分类,可视化能够帮助用户快速得到整个集合的总体印象及结构。

快速导航。可视化能将导航和交互与模式或不规则观察紧密结合起来。用户可以鉴别和轻松访问关于当前表现突出或象征一个突出群体的文献信息,可以快速在多级分类体系中上下移动,了解分类体系的组织方式。

解释上下文中的条目。在图形可视化中聚焦检索结果——采用显著的可视化特征来标记匹配条目,例如,用红点或红旗标记匹配项是一种帮助用户解释检索结果的强有力的工具。聚光灯允许用户快速发现匹配项的簇,从而关注整个集合中最相关的区域。那些未匹配,但与匹配项相近的文档可能实际上非常相关。相反,用户能够根据上下文快速排除孤立的匹配项,将其作为最感兴趣的项目。这种类型的结果标记帮助用户解释上下文中的局部特征。

②信息检索的可视化:

检索过程的可视化是指把文献信息、用户提问、各类情报检索模型和利用检索模型进行信息检索的过程中不可见的内部语义关系转成图形,在一个二维或三维的可视化空间中显示出来。换句话说,将数据库中的文献及它们之间的关系看作一个抽象的信息空间,该空间包含成千上万篇文献,文献间相互关联,甚至文献的标引词之间也存在某种联系。但由于数据库的高维性,使这些关系是不可见的,可视化则提供将这些联系用可见的方式表示出来的方法。检索结果可视化是通过对检索结果的可视化表示,揭示出结果的深层次内涵,帮助用户理解和获取知识。

③信息可视化在分析中的应用:

将信息可视化应用到分析领域,国外已经有了比较完善的理论、技术和工具,比较有代表性的人物和机构是以加菲尔德、斯莫尔为代表的科学信息研究所(ISI),以林夏为代表的Drexel大学也对该领域做了相关研究。当前比较成熟的应用实例主要是Web of Science的分析服务(Analyze)。美国科学信息研究所的网络数据库Web of Science为用户提供了Analyze功能,主要有Journal Citation Reports、ISI Essential Science Indicators、Derwent Patent Indicatots以及直接对记录的检索结果(如作者、国别、文献类型、机构名等)进行分析。

④用户界面和交互过程的可视化:

用户界面的可视化有助于用户增强对检索系统的亲和力,检索过程的可视化有助于用户进一步了解、认识和修正自己的信息需求,使自己的需求表达能够在语义层次和上下文层次上接近实际意图。

由太平洋西北国家实验室开发的信息检索和探索的空间范式,提供了经典的信息可视化实例,Spire包含可视化浏览文档集合的套件和Theme-Scape的可视化视图。

二、开放获取

1.开放获取的含义

所谓开放获取,是指通过公共网络可以免费获取所需要的文献,允许任何用户读取、下载、拷贝、分发、打印、检索以及获取在线全文信息,支持爬行器收获并建立本地索引,支持用于法律允许的其他目的(不包括商业、法律、技术贸易壁垒方面的应用),唯一的限制是复制与发行。开放获取包括两层含义:一是指学术信息免费向公众开放,它打破了价格障碍;二是指学术信息的可获得性,用户能够方便地获取学术信息,并支持全文下载与本地使用,它打破了使用权限障碍。开放获取服务包括多种类型,如在线文档发布、科学家与研究组内部的直接交流、通过E-mail的自由辩论、讨论组及相关服务、搜索引擎的索引与检索服务、第三方集成检索服务等。开放获取对科学研究与社会发展都有重大意义,它消除了学术信息的获取障碍,可最大限度地发挥科研成果的作用,加快科研进程,丰富教育信息,共享学习资源。

《关于开放获取出版的百斯达声明》(2003年6月)明确提出开放获取出版物应该具备以下两个条件:①作者和版权所有者授权所有用户对作品的免费、广泛和长期访问的权限,并允许他们以任何数字媒体形式对作品进行公开复制、使用、传播、展示以及在原作品的基础上创作和传播其演绎作品,只要用户的使用是基于合法目的并在使用作品时注明相应的引用信息。另外,作者和版权所有者还允许用户打印少量的印本作品,用于个人使用的目的。②在作品发表后,应该将完整的作品版本和所有附件(包括上述各种使用许可的协议复本)以一种标准的数字格式立即存储在至少一种在线仓储中:这些仓储由研究所、学会协会、政府部门等机构支持,其目的在于确保作品的开放访问、自由传播、统一检索和长期存档。

2.开放获取的形式

BOAI提出了实现开放获取的两种途径:自我存档和开放期刊。芬兰学者Bo-ChristerBjork则将之总结为以下四种:实施同行评审的电子期刊、特定学科领域和预印本服务器、基于大学机构仓储以及作者本人的个人主页。通过分析开放获取领域的主要项目可以将实现开放获取出版的主要途径归纳为以下两种:OA期刊(开放获取期刊)和OA仓储(开放获取仓储)。

(1)开放获取期刊(Open Access Journals,简称OA刊)。

OA期刊与传统期刊的区别不在于期刊的载体是纸本还是电子,而在于期刊的访问方式和访问权限。传统的期刊(包括印本期刊和电子期刊)采用用户付费的商业模式,一般先由图书馆等机构团体购买,然后为其成员提供检索全文服务;或者由用户个人直接订购期刊或某篇特定文章。尽管有些电子期刊允许用户免费访问文摘或部分论文全文,但OA期刊提倡的是用户利用Internet不受限制地访问期刊论文全文。虽然在网络环境下,期刊的出版和传播成本大为降低,但这并不意味着不要成本(尤其是开展同行评审工作)。为提供基本运行费用,OA倡导者提出了多种成本弥补途径,包括争取机构赞助、广告收入和为用户提供增值服务等,但认为最为重要的是作者付费模型,即作者从项目或课题经费中抽取部分经费用于出版研究成果,因为作者付费模型具有合理性并可以保证开放获取出版的可持续发展。

目前OA期刊正处于不断发展壮大阶段。首先,期刊的数量一直在稳定增加,包括新创办的OA期刊和由传统基于订阅出版模式的期刊转变而来的OA期刊。其次,期刊所覆盖的学科范围突破自然科学领域,社会科学和人文科学领域的OA期刊开始出现。同时OA期刊开始得到传统的文摘索引服务商的认可并成为它们的收录对象。需要指出的是,虽然OA期刊创办时间短,除少数OA的影响因子超过同学科领域的传统期刊,大多数OA期刊的影响因子并不理想,但OA期刊的快引指数相对而言比较高,这一方面说明OA期刊由于免费访问的特点,相比传统期刊能及时有效被科研人员利用,另一方面也说明OA期刊逐渐被科研人员认可。

开放获取期刊发展迅猛,如Nucleic Acids Research(ISSN:0305-1048)和Environmental Engineering Science(ISSN:1092-8758),2010年转为OA刊。图书馆网站只要实现对此文献全文的链接,并建立索引,读者就可无限制的访问、下载、复制等。图书馆若停订此纸本刊,可节省5300美金。另外,各供应商或代理商在自己的网站上建立起开放获取一站式检索服务平台,并与高校的网站对接,供读者方便检索获取信息。杨美珍(华东理工大学图书馆)在2009年11月16日通过对各公司网站查询发现:中国教育图书进出口公司有10076种OA期刊12159118篇文章;NSTL(国家科技图书文献中心)为全国有需求的非营利学术科研机构以IP开通提供服务47个学术出版机构513种现刊(OA刊)。因此,在外文期刊征订前查询是否有免费获取资源是一道必不可少的程序。能免费开放获取的,就不必续订或增订纸本刊或电子刊,同样能满足读者的需求。

由中国科学院规划战略局组织牵头、科学出版社和国家科学图书馆共同设计开发的OA期刊集成平台——中国科学院科技期刊开放获取平台(简称CAS-OAJ)于2010年10月25日正式发布上线(网址www.oaj.cas.cn),平台立足国内,面向国际,力争打造成为国内外重要的OA期刊资源集成和发布中心,成为我国科技期刊走向国际的新的重要桥梁,平台有以下三个特点:

基于领先的云计算技术构建的庞大的开放文献数据库资源:目前平台共收录了103种期刊的约43.5万篇文章。对于需要在线下载与阅读全文的广大国内外科研工作者,平台为其提供了文章站内检索、文章跨库检索、按目次查看文章摘要信息、免费下载文章全文等功能。基于平台后台3.5万个期刊的6500多万篇文献的期刊云存储数据库,平台提供了全文引文数据分析、文章下载次数、期刊浏览次数、文章摘要点击次数等详细数据统计功能。平台通过与国家科学图书馆Science China数据库参数对接,可获得Science China数据库提供的期刊与文章的权威引证分析报告。读者也可通过平台引入的RSS订阅功能,按学科、刊物订阅平台文章,及时获取平台最新收录的文章信息。

丰富的学术信息及多元化的期刊宣传互动渠道:作为一个门户网站,平台不仅具有公告、OA动态、学术快讯、出版动态、会议资讯5个内容丰富的新闻发布模块,还引入了期刊在线投稿、期刊展示介绍服务,以提高其被关注度。期刊编辑部可将自己精选出来的文章推荐至平台的“编辑推荐论文”板块,使论文被更多的科技工作者所关注,也可将预发表文章发布至“同行点评”专区供广大科研人员进行评议。这可增加平台用户与期刊编辑部的互动性,促进学术交流。

适应现代出版业需求的信息化、网络化数字出版服务:平台同时引入了科学出版社的文章DOI标识注册以及国家科学图书馆的学科咨询服务功能。加入平台的期刊编辑部可向科学出版社申请文章DOI注册服务,让文章获得唯一且国际通用的DOI号码,并在科学出版社的发布平台发布文章全文,使文章在互联网上受到更广泛的查询与关注。平台用户可通过点击每篇文章中的“问图书馆员”链接,获得国家科学图书馆对该文章及相关学科知识提供的学科咨询服务。

较有代表性的OA机构和项目主要有以下几个:

①学术出版和学术资源联合机构SPARC(the Scholarly Publishing and Academic Resources Coalition)。1998年由300多家大学图书馆和相关教学、研究机构参与创建,致力于推动和创建一种真正为科学研究服务的基于网络环境的学术交流体系;

②科学公共图书馆PloS(the Public Library of Science)。2000年10月建立的为科研人员和医学人员服务的非赢利机构,致力于使全球范围科技和医学领域文献成为免费获取的公共资源;

③生物医学期刊出版中心BMC(BioMed Central)。独立的出版者,主要提供网上免费存取、经同行评议的生物医学领域的研究论文。

(2)开放获取仓储。

20世纪90年代,为了解决传统期刊出版模式滞后于学术研究发展的问题,在物理学、计算机科学、天文学等学科领域、研究人员采用预印本(preprint)进行学科领域的同行交流,一些学术组织把这些用于共享的学术信息存放于服务器中供用户免费访问和使用,这些服务器就是早期的OA仓储,OA仓储有时也被称为OA文档库(open access archives)。需要说明的是,目前有些OA仓储不仅存放预印本,而且也提供印后本(postprint)。印后本是相对于预印本的一种电子文献类型,指已经在期刊或其他公开出版物上发表的研究成果。

从目前的发展情况来看,OA仓储主要有两种类型:学科OA仓储和机构OA仓储。早期的OA仓储多为学科OA仓储,其中最具代表性的要数arXiv电子印本文档库(目前由康奈尔大学维护和管理)。由于各个学科研究人员接触网络的时间和使用网络的熟练程度不同,早期学科OA仓储往往只限于自然科学领域(如天文学、物理学、计算机科学、化学和数学等),最近几年来,社会科学和人文科学领域的OA仓储已经开始出现,如图书情报学领域E-LIS、心理学领域的心理学历史和理论电子印本存档库等。机构OA仓储相对于学科OA仓储而言,起步比较晚,但发展速度快,一般由大学、大学图书馆、研究机构、政府部门等创建和维护,如佛罗里达州立大学工学院的D-Scholarship仓储、美国能源部的“Information Bridge”和麻省理工学院的D-Space系统等。

目前OA仓储建设体现了以下两大趋势:①标准化建设。早期的OA仓储建设缺乏规范,尤其在服务器的系统结构设计和数据类型的设计方面存在不同的差异,因此导致资源的发现尤其是统一检索的困难。2001年1月OAI(开放存档先导计划)项目推出了OAI-PMH,该协议较好地解决了分布式的异构数据库之间的互操作和跨库统一检索问题。随着OAI-PMH在OA仓储建设的应用,OA仓储的发展取得了重大突破。目前已经出现一些遵循OAI-PMH协议的OA仓储,如由英国RDN项目维护的“英国电子印本列表”和加州大学的eScholarship仓储等。②合作建设。OA仓储一般都是由独立单位建设并维护,但目前已开始出现联合建设模式,联合建设一方面有益于避免技术设施重复投入而达到规模经济效益,同时也可以使OA仓储资源得到更广泛的认可。

(3)网络课程与课件的开放存取。

开放存取是一种科研学术信息共享的自由理念和出版机制,在开放存取的实际运作层面,开放存取期刊和仓储(包括机构库和学科库)两种主要的发布模式已相对成熟。对于网络课程和课件的开放存取来说,建立相应的开放存取仓储是较易操作实行的一种模式,主要表现为由学校和教育管理机构建设的开放性课件库和精品课程网站。

美国麻省理工大学(MIT)创造了互联网时代开放共享的教育理念和教育行动,率先实施了开放课件项目。开放课件具有这样一些基本特征:是公开发布的正规课程原始资料,而并非电子学习课程;不需要任何注册登记,任何人都可以合法获取;不授予学位和证书,没有任何学习记录;不提供负责该课程教师信息,不提供指导和答疑。2001年MIT投入全校资源,采用知识共享协议中的“署名—非商业性使用—相同方式共享”许可证,建立MIT OCW(OpenCourseWare)网站,将课程教材及录影开放给全世界。目前这个网站上已经有超过1900门课程对全世界免费开放,计划今年内将1800门课程上线,包括课程大纲、阅读材料、课堂笔记、作业、学习资料等,任何人都可以访问,利用这些资料进行学习,并且在保持同样协议的前提下创作衍生作品,包括将其翻译成其他文字。

只要有一根网线,只要你想学,就可以找到相当的资源以及共同兴趣爱好者。甚至在山村,也能够获得哈佛、剑桥、耶鲁(耶鲁大学的Open Yale Courses)的教育。

一位哈佛商学博士还建立了P2PU(Peer to Peer University),解决网络视频教程互动不足的问题,人们可以通过这个网站向教授留言,也可以与在线观看教程的网友即时互动。

苹果公司还办了一个叫“iTune U”的移动学习网站,从那里可以把卡内基梅隆、牛津、剑桥、斯坦福等大学的公开课程免费下载到iPad上。波士顿公共广播电视台则把哈佛公开课编辑成录像每周播出。

此外,从Youtube等视频分享类网站上,也可以观看到国外名校公开课程。

目前我国实际上已经建立了一定程度的网络课程课件资源的开放存取,以精品课程网站为主要表现形式。目前主要的国家级精品课程网站包括中国开放教育资源协会(China Open Resources for Education,CORE)建设的CORE网站和国家精品课程资源中心负责运营的国家精品课程资源网。其中,CORE网站免费提供国内外优秀的开放课程资源,包括国外开放课程及部分汉化课程、中国精品课程及部分英译课程,是一个覆盖学科专业完整、课程资源丰富的教学资源库。

3.开放获取的技术方法

开放获取的最大特点是开放性,即最大限度地开放学术资源,增加获取途径,减少访问障碍,促进信息的流通与传播,这也是建立开放获取机制的基本原则。

(1)基于OAI(Open Archive Initiative)的开放元数据机制。

OAI对开放获取产生了深远的影响,它最初起源于电子出版的互操作项目,目的是开发并推广开放互操作协议标准,实现高效的信息交流与传播。因为元数据格式过多,系统间互操作时元数据格式转换和匹配是一个很大的障碍,为此,OAI指定DC作为统一的元数据标准,并以此作为系统的统一元数据接口规范(目前OAI在实践中开始支持DC之外的其他元数据标准)。在开放存取方面,OAI将资源与服务分离,提出数据提供者、元数据获取与服务提供者的组织机制。

OAI-PMH(Open Archive Initiative for Protocol Metadata Harvesting),简称协议,是近年来在数字图书馆界引起广泛关注的新技术。它具有简单性、开放性与灵活性等特点,可以很好地解决数字图书馆的互操作问题。它通过定义一个标准的接口,使服务器能将其存储的元数据信息有选择地提供给外部应用程序服务器或其他服务器,也可以认为是解决不同资源的元数据互操作,有效挖掘、发布和利用互联网上数字信息资源协议。该协议支持对各种数据库进行整合检索,很多国外数据库支持该协议。目前,该协议可通过http:// www.openarchives.org/OAI/openarchivesporotocol.html获取最新信息。

(2)基于DOI的永久性保存与利用机制。

开放获取的一个重要目标是学术资源永久性保存与利用,为实现这一目标,需要为每个资源分配一个永久性的、唯一的标识符,又称数字对象标识符(digtal object identifier,DOI)。用户通过DOI可以在任何时候、唯一获得指定的信息对象,从而保证用户创建的书签、个性化链接等信息永久有效。DOI管理系统一般包括5部分:命名域(namespace)、唯一标识符、命名机构(naming authority)、命名登记机构(registry)、地址解析系统(resolution system)。当前,在采用DOI管理框架的开放获取系统中,具有一定的代表性。

(3)基于搜索引擎的开放获取机制。

搜索引擎不但是科研人员发现信息的重要工具,同时也是发布科研成果信息的重要平台。信息资源是否在搜索引擎的覆盖范围内,将决定它的利用率,进而决定信息内容的影响力。S.Lawrence对119924篇计算机科学会议论文的引文分析表明:①文献在线可用率越高,其被引率也越高;②出版时间越靠后的文献被引率越高。S.Lawrence认为,搜索引擎在改善文献的可获取性、提高文献的影响力方面发挥了重要作用,如果没有功能强大的搜索引擎服务,一篇在线文献很难提高它的可获取性与影响力。只有被大型综合搜索引擎或专业搜索引擎索引了的文献才是最可获得。目前,大部分学术文献还不能达到它应有的影响力,因为它们作为动态资源被存储在数据库中。对搜索引擎是不透明的。基于搜索引擎的开放获取就是要打破传统搜索引擎的限制,让普通搜索引擎能够对数据库内学术资源进行爬行、下载、索引,并提供广泛的检索服务

(4)基于Web服务的开放获取机制。

在开放学术信息交流环境下,Web服务是指由研究机构发布其在线信息服务项目,允许其他机构、合作伙伴和终端用户通过Internet开放搜索、识别、获取和动态调配这些在线服务,实现服务层次上的资源共享与互操作。Web服务具有完好的封装性、松散耦合、使用标准的协议规范、高度可集成性特点,为学术信息的开放获取提供了新的平台。Web服务的核心内容是元数据登记机制,登记规范内容包括系统元数据、UDDI(universal description,discovery anb integration)、数据库目录、XML知识库、相关工具、应用部件、ontology等。Web服务登记系统包括3项功能:Web服务规范描述与登记、存储管理和服务发现与调用等。

(5)基于OpenURL机制。

OpenURL作为一种协议,规定了统一的信息服务提供者之间传递对象的元数据格式,形成一种开放的、上下文相关的链接框架结构。该协议允许信息源(如Elsevier或Pro-Quest)传送特定对象的元数据或者是元数据对象的参考项目(如期刊ISSN号、标题、作者、卷期、刊号、页码等)到某机构的网络服务组件上(通常是一个服务器,如SFX服务器等)。OpenURL由BaseURL和相关元数据组成,其中也包含一些传输附加信息的指令。

4.开放获取系统

(1)基于OAI的工具。

①Eprints:

Eprints是英国南安普顿大学设计的特别针对研究机构、学科学术论文资源(而不是任意数字资源)的保存、服务管理系统。Eprints是一个创建研究论文资源,但也可用于其他目的。Eprints系统采用OAI技术使研究人员的成果更容易被自由使用,提高研究工作的影响力。

Eprints具有以下特点:a.简易安装;b.以希望的任意格式存储文档,每篇研究论文或Eprints可以存储为多个文档格式;c.可以采用任意元数据模式,管理员可以决定每篇Eprints采用什么样的元数据字段,一般有4种方式:决定最大元数据集(如作者、题名、期刊、卷期等);决定存储的Eprints类型(如期刊论文、学位论文、技术报告、非正式出版物等);对于每种Eprints类型,决定需要哪些元数据字段,决定这些元数据如何被映射到开放文档中;d.GNU Eprints可以配置一个主题层次体系,用来浏览、搜索文档资源;e.Eprints的提交通过一个Web接口,以压缩文件方式提交或者映射到已经存在的URL上;f.无需管理员干预数据完整检验,甚至允许个人网站增加自己的完整性检验,减少管理的工作量;g.作者可以拥有联合元数据,管理员可以为不同作者的记录指定不同的元数据;h.用户既可以是作者也可以是读者;i.可以被拒绝或返回作者请求修改,比如CogPrints采用审核机制,以保证上传文档都是指定学科领域,并且有正确的图表;j.审核过程可以通过Web接口进行。

②CDSware:

CERN Document Server Software(CDSware)是由欧洲粒子物理研究所(European Iaboratory for particle physics,CERN)开发、维护的一个文档服务器软件。它遵循开放文档先导元数据收获协议(OAI-PMH),并使用MARC21作为它的基本书目标准。

CDSware是一个免费软件,CDSware开发的宗旨是处理大型的、不同数据类型的数据库,包括多媒体内容目录、博物馆对象描述、保密或公开文档等。其他用户可以使用它管理自己的电子预印本服务器、在线图书馆目录或Web文档系统,目前,使用该软件的CERNDocument Server(CDS)服务器管理450多个资源库,包括620000多个书目记录、250000篇全文文档,这些文献主要涉及粒子物理学及相关学科领域,文献类型包括预印本文献、研究论文、图书、期刊、图片和其他类型的文献。

CDSware具有的功能:可以配置成类似门户的界面,管理各种资源库;具有强大的、类似Google语法规则的搜索引擎;支持用户个性化定制,包括邮件提醒通知;可以提交上传各种类型的文档;同时作为OAI数据提供商与服务商,支持异构数据库元数据交换。

③i-Tor:

i-Tor是由荷兰科学信息协会(Netherlands Institute for Scientific Information Services,NIWI)下属的创新应用技术小组(Innovative Technology-Applied)开发的面向开放存储的工具系统。i-Tor的目的是实现一个数据独立的知识仓储,其中,数据内容与用户界面是系统的两个相互独立的部分,它可以为知识仓库创建新的数据库,也可以使用已经存在的相关数据库,同时,支持从科研人员个人主页直接获取数据。i-Tor的两个目标是:a.内容管理系统(CMS)让非科研人员也可以建设自己的网站,实现交流信息的目的;b.建设一种标准的开放资源库(open repositories),实现世界范围内的资源链接与方便检索。

i-Tor目前得到比较广泛的应用,其应用领域包括:数据库管理;开放科研成果数据与文件信息以及从其他资源获取的数据。i-Tor具有以下特点:a.从多种不同的数据源获取信息,包括数据库、文献系统、OAI资源;b.支持多种数据格式,包括TXT、HTML、PDF、XML等;c.直接支持OA;d.内容向通用搜索引擎(如Google)开放;e.系统元数据独立,对元数据没有限制,可以接受任何元数据模式;f.开放源代码,平台独立。

(2)基于搜索引擎的工具。

DP9是Old Dominion大学开发的一个开放源码的网关服务器,它实现了OAI的另一种服务,即Web爬行器的服务提供者。利用该系统,可以实现通用搜索引擎对OAI资源数据库的索引。

DP9通过建立一个专门的爬行器网关,采用重定向机制,实现了通用搜索引擎对OAI数据库资源的爬行、下载、索引与检索服务。DP9包括3个组件:URL包装器(URL wrapper)、OAI处理器(OAI handler)、XSLT处理器(XSLT processor)。其工作原理是:①URL包装器从搜索引擎接收URL请求,调用内部的JSP/Servlet应用模块对URL进行包装,将包装后的请求信息转给OAI处理器;②OAI处理向OAI数据库发出OAI请求,并返回XML格式的结果信息;③利用XSLT处理器,将XML格式的结果信息转换为HTML格式,响应搜索引擎的请求。DP9为每个OAI数据库定义一个爬行器入口网页(entry page),爬行器通过该网页中的链接就可以获取到OAI数据库中的所有数据。

(3)基于数字对象和Web服务的工具。

2001年9月,Vinginia大学与Conell大学联合启动一个项目,研究复杂数字对象仓储系统FEDORA(Flexible Extensible Digital Object and Repository Architecture)。系统采用Java Servlet及关系数据库等主流Web技术;获取管理采用WSDL描述;通信基于HTTP及SOAP;采用METS对数字对象进行编码。它提供了一种方法可以唯一确认每一个数字内容、相关内容组和整个馆藏集合。系统侧重3个特点:可升级性、灵活性和可扩展性。

FEDORA是一个开放源码的数字对象存储管理系统,研究者可以在遵守基本约定的前提下,使用、修改、扩展该系统。目前该系统已被多个数字资源长期保存项目所使用。

(4)基于数字对象的工具。

ADLP(Archival Digital Libraries Repositories)项目的目的是设计和建立一个现代的、可升级的数字图书馆仓储(Digital Library Repository,DLR)。这个仓储用来永久保存数字图书馆的组成元素—数字对象。利用DLR的客户端可以实现知识产权管理、安全管理、账号管理、从其他数据源导入数据等功能。

DLR解决了一些关键问题,如在分布式和变化的环境中识别数字对象、用于存档的数字对象的复制、元数据的管理、分布式索引机制以及系统的鲁棒性和升级性。DLR系统框架在不同层上定义不同的服务,主要包括对象存储层、身份层、复杂对象层、可靠性层、最高层。

(5)基于OAI、DOI和OpenURL的工具——DSpace。

DSpace是MIT与HP的合作项目,宗旨是获取、存储、索引、永久性保存和发布数字形式的大学科研智力成果,使研究资料、个人信息更透明、更容易获得。同时,它可以用于教育资源与学习对象的管理。作为一个开放源代码系统,可以被免费使用、定制与扩展,面向研究机构、大学系部提供基于Web的用户服务。主要功能包括:信息采集(collect)、信息发布(distribute)、信息保存(preserve)。DSpace创立了联盟工程(DSpace Federation Project),一方面是加强DSpace的应用推广,另一方面是研究基于DSpace平台的联盟机构间的互操作等问题,开发高端增值服务。

DSpace是第一个开放源码的数字信息存储与服务系统,它面向多种学科,具有多种不同工作流处理过程。DSpace的一个核心特征是为存储在DSpace中的资源对象创建永久标识符。为创建、保存与维护永久性标识符,DSpace需要建立一种独立存储、独立定位机制,DSpace使用CNRI Handle System创建全球唯一的对象标识符。DSpace采用OCLC OAICat实现对OAI-PMH的支持,将DC元数据开放给外部收获器。DSpace支持来自SFX的OpenURL协议。

Dspace是目前国内外知识库构建中利用率较高的开源软件系统,Manakin是DSpace系统基于XML用户界面新版本,由美国德州农工大学负责研发,目前已经得到了Dspace社区的推荐使用,并且被集成到Dspace1.5版,与Dspace的JSP界面相比,具有相对容易的功能扩展和用户界面风格的自主控制优势,将成为知识库构建者的新宠。

5.开放存取资源方法

(1)搜索与整理开放存取期刊资源。

图书馆可以利用搜索引擎(如百度),只要在搜索框中输入检索式或表达式,如“开放存取期刊”、“Open Access Jurnal”等,搜索引擎就会返回一组指向相关站点的超链接。个人博客、国际组织网站、学术组织、研究机构、大学网站等都是图书馆获取免费资源的主要来源。将搜索到的开放存取资源结合本馆实际,有针对性地进行收集、整理、加工、融合、聚类或重组,形成本馆免费的特色资源。目前国外比较成熟的开放存取期刊资源有:瑞典Lund大学图书馆的DOAJ期刊(http://www.doaj.org)、斯坦福大学的highwire期刊(http:// highwire.stanford.edu),以及生物医学期刊出版中心的(BioMed Central)(http:// www.biomedcentral.com/browsse/journnals);国内比较成熟的有:中国科技论文在线(http:// www.paper.edu.cn)、奇迹文库(http://www.qiji.cn/eprint)、中国预印本系统(http://preprint.nstl.gov.cn/newprint/icdex.jsp)、中国开放式教育资源共享协会(http://www.core.org.cn/core/default.aspx),将这些开放资源编制在图书馆的期刊目录相关数据库中,并在图书馆网页中建立链接,使之成为图书馆信息资源的一部分。

在整合开放存取期刊资源时,可充分利用现有的开放存取期刊目录DOAJ。DOAJ对每种开放存取期刊都提供了刊名、ISSN、EISSN、Subject、Publisher、Language、Keywords、Start Year和刊物的链接地址,这些数据基本上能满足国内现有的电子期刊导航系统对数据采集的需求。

(2)基于图书馆检索系统的整合。

由于开放存取资源数据库的建设采用不同的软件,因此给用户的检索带来了许多麻烦。因此,应该与图书馆资源建立统一检索平台整合。整合检索系统的方法有以下两种:①利用国内外通用的资源共享平台,如清华同方国家科学数字图书馆的“CNKI网格资源共享平台”、“Cross Search跨库集成检索系统”等,将搜集到的开放存取期刊资源与本馆的数字资源进行整合,实现跨库检索,分数据库展示检索结果。目前国际上较先进的集成系统,如Endeavor Information Systems公司的Encompass、ExLibris公司的Metalib/SFX系统、Innovative的MAP系统等不仅可以在集成检索界面上同时检索各种网络数据资源,还可以实现不同类型、不同层次资源之间的动态链接;②利用图书馆公共检索(OPAC)对开放存取资源加以整合。OPAC具有强大的资源基础,是用户获取图书馆各种文献的窗口。OPAC系统通常是各种图书馆集成管理系统的子系统,它与读者数据库、流通管理数据库等相关联,可以方便地调用读者库数据,拥有最权威和最完整的读者信息资源,为开放存取资源的利用奠定了基础。OPAC具有灵活的系统架构,它可以按照MARC著录条例添加各种著录字段,实现与开放存取资源的连接,也可以通过OpenURL技术,实现与图书馆的OPAC的内嵌,从而获取开放存取资源。

(3)建立机构数据仓储系统。

图书馆是支持开放存取发展的主要力量之一,应充分发挥自身的作用,发展和提供开放存取机制:①通过建立机构数据仓储系统,借助先进的信息组织与知识管理技术,收集所在机构内部产生的各种学术信息,以网格方式出版、发布,辅助功能强大的搜索引擎揭示服务、联邦检索服务等,最大限度地推动科研成果信息的传播与交谈。各个院系和研究人员都可以与图书馆签订协议,成为仓储建设的参与者,同时也是仓储服务的使用者。开放存取仓储模式中最著名的系统有佛罗里达州立大学的D—Scholarship仓储、OAI(Open Archive Initiative)、BOAI(Budapest Open Access Initiative)、DSpace等;②机构数据仓储合作建设。机构数据仓储一般都是由大学、大学图书馆、研究机构、政府部门等独立创建和维护。但目前已开始出现联合建设模式,联合建设一方面有益于避免技术设施重复投入而到规模经济效益,同时也可以使开放存取仓储资源能被广泛地认可。对于高校图书馆而言,原有的图书馆联盟或大学联合系统是其开展合作建设的良好基础,eScholarship就是基于加州大学系统共同创建的开放存取仓储,并提供按不同学校浏览和检索资源的方式。

三、机构仓储

1.机构仓储现状

机构仓储(institutional repositories,IR)是近年来出现的一个新概念,目前国内尚没有通用一致的提法,大致可翻译为“机构仓储”、“机构资源库”。

IR是在信息化、网络化环境下,为方便学术资源存取、促进学术交流而提出的,是获取、长久保存以及管理来自一个或多个学术团体的知识产品并将其提供给用户访问的一种数字化信息及其服务的集合。它在一定程度上弥补现有学术出版模式的不足,是对目前学术交流体系的一个重要补充,推动了新型分离式学术出版模式的建立与发展。

IR既是一种理念,也是一种系统。作为一种理念,IR是对传统学术交流体系的挑战,它提出了一种真正为科学研究服务的、基于网络环境的分离式学术出版模式,将学术出版过程中的采集、加工、出版等环节逻辑分离,使得作者、图书馆馆员、出版商在学术交流中的角色重新定位。作为一种系统,IR提供了一个方便的平台,使作者能够快捷的提交和发表论文和其他研究成果,同时,使得用户能够方便、快速、无阻碍地获取所需要的学术资源,缩短学术交流周期,提高了科研效率。

IR提出后,受到学术领域的广泛关注,美国、英国、法国、德国等欧洲国家都投入巨资进行IR研究,目前全世界已有数百所大学、研究机构和学术团体建立了自己的IR。许多商业公司HP、Innovative等也提出了自己的解决方案。目前,IR解决方案主要可以分为四类:①专用系统,这类系统是IR研究项目的成果,如eScholarship、JISC IE、knowledge Bank等;②开放源码和免费的系统,如Dspace、Fedora、Archimede、CDSware等;③商业系统,如Documentum、Bepress、UMI/ProQuest研制的DigitalCommons、DiMeMa公司研制的CONTENTdm、Innovative公司的DRM、BioMed中心的Open Repository等;④混合型的系统,如VTS公司的Vital等。

为了便于IR建设者选择现有的IR解决方案,美国开放社会研究所近年来定期发布IR软件指南,在其2004年8月发布的指南第三版中,列出了Archimede、ARNO、CDSware、DSpace、Eprints、Fedora、i-Tor、MyCoRe和OPUS共9个IR系统,并从基本情况、技术细节、仓储和系统管理、内容管理、用户接口和查询功能、存档、系统维护7个方面对这些系统进行详细的对比研究。据不完全统计,仅这9个系统,全世界就超过了200个用户。

2.IR的体系架构

就现有的IR而言,它们一般由三层结构组成,依次为存储层、业务逻辑层和服务层。

存储层主要是保存数据和对数据进行读、写、删除操作,数据包括数据流和数字对象的元数据包文件。在存储层中,每个数字对象不仅保存有数据流,还封装有元数据包文件。此外,存储层中还使用关系数据库或XML文件来辅助管理数字对象。

业务逻辑层负责执行整个系统的业务逻辑,一般由三个子系统组成,即内容管理子系统、存取子系统和管理子系统。内容管理子系统包括数字对象管理和唯一标识符(PID)生成模块,前者主要负责数据对象的操作和对象完整性校验,后者负责唯一标识符PID的自动生成工作。存取子系统主要包括数字对象映射和数字对象分发等模块。管理子系统主要包括用户和仓储的安全管理、权限管理、历史日志管理、工作流管理等模块。

服务层主要由Web服务接口Web UI、OAI-PMH元数据提供服务、联邦服务等模块组成。Web UI模块提供数字资源的提交以及对机构库的浏览和检索;OAI-PMH元数据提供服务模块允许外界按OAI-PMH协议来获取IR中的元数据;联邦服务模块包括一些只为联邦成员提供的服务项目;Web服务接口模块将业务逻辑层以Web服务的形式提供给外界,允许外部系统集成这些Web服务。

3.机构仓储存储方式

机构仓储是基于Web2.0的一种互动式的存储和开放获取使用模式,存储方式目前分为两大类:

(1)自存储。

自存储由博客论坛、个人主页、学术自存储、机构自存储四部分组成,是机构仓储的主要建设策略之一。自存储模式即作者通过“自存档”形式将自己的学术成果存入由一个机构(特别是大学)或者一个学科组织建立的相关软件平台,用户可以自由地向库里提交自己有价值的学术成果,并可以免费在库中检索和下载其他作者的文章,也可以对文章发表自己的看法。

自存储有3个实现途径:机构仓储,成果“自存储”到机构的相关软件平台上就是机构仓储(也叫机构知识库);学科仓储,“自存档”到学术组织或学科机构的相关软件平台(如arXiv,Cogprints等),可以存储预印本文档(Prepeer Review or Pre-referee);个人主页,作者建立自己的个人主页、博客论坛等,把自己的学术成果上传到主页上或发表自己的学术博客及相关论坛。自存储实现是在作者自觉、自愿、自助提交的基础上完成的。

(2)强制存储。

强制性存储包括强制性自存储、协议性代存储等。即在国家的政策、法规许可的情况下,组织机构制定相关的版权许可协议,由作者必须完成或机构统一收取作者的知识成果,并在作者许可的范围内进行使用。

强制存储的另一种模式是协议性代存储(自存档代理),主要应用在学术机构内部,存储管理机构收集到作者的知识成果并与作者直接联系,获得作者的许可,由机构代为把作者的知识成果传到机构知识库上,或通过存档软件来进行批量的文档存储,在作者的许可范围内存储和使用相关的知识成果。

机构仓储开放存取国内也在尝试、学习和实行。厦门大学图书馆用Dspace构建图书馆的机构存储系统;上海大学图书馆用维基(Wiki)构建知识库,用简易信息聚合(RSS)进行资源的拖动存储和导航。

四、图书馆知识服务

1.知识服务概念

知识服务是深入揭示和推荐知识及知识关联关系的服务,是面向用户问题,提供问题解决方案的服务。它以用户问题的解决为目标,贯穿于用户的知识发现、知识获取、知识组织、知识应用和知识创造的全过程,并根据用户问题的解决进展及其需求的变化动态地、持续地进行资源、服务与策略的调整。

知识服务的提出与知识管理等概念的提出同技术的发展密切相关,其内涵在不断发展变化之中,张晓林(2000)对知识服务进行了总结,认为:知识服务首先是一种观念,一种认识和组织服务的观念。从观念上看,知识服务所以不同于传统信息服务,主要表现在:

(1)知识服务是用户目标驱动的服务,它关注的焦点和最后的评价不是“我是否提供了您需要的信息”,而是“是否通过我的服务解决了您的问题”。传统信息服务的基点、重点和终点则是信息资源的获取。

(2)知识服务是面向知识内容的服务,它非常重视用户需求分析,根据问题和问题环境确定用户需求,通过信息的析取和重组来形成符合需要的知识产品,并能够对知识产品的质量进行评价,因此又称为基于逻辑获取服务。传统信息服务则是基于用户简单提问和基于文献物理获取的服务。

(3)知识服务是面向解决方案的服务,它关心并致力于帮助用户找到或形成解决方案。因为信息和知识的作用最主要体现在对解决方案的贡献,解决方案的形成过程,又是一个对信息和知识不断查询、分析、组织的过程。因为知识服务将围绕解决方案的形成和完善而展开,与此对应的传统信息服务则满足于具体信息、数据或文献的提供。

(4)知识服务是贯穿为用户解决问题过程的服务,贯穿于用户进行知识捕获、分析、重组、应用过程的服务,根据用户的要求来动态地和连续地组织服务,而不是传统信息服务的基于固有过程或固定内容的服务。

(5)知识服务是面向增值服务的服务,它关注和强调利用自己独特的知识和能力,对现成文献进行加工形成新的具有独特价值的信息产品,为用户解决其他的知识和能力所不能解决的问题。它希望使自己的产品或服务成为用户任务的核心部分之一,通过知识和专业能力为用户创造价值,通过显著提高用户知识应用和知识创新效率来实现价值,通过直接介入用户过程的最困难部分和关键部分来提高价值,而不仅仅是基于资源占有、规模生产等来体现价值。

除了观念变化外,知识服务在服务方式上也将发生根本变化,例如:

(1)知识服务将融入用户之中和用户决策过程的服务,而不是基于信息机构的服务,不是游离于用户之外的服务。它将要求用户和服务人员的联系更明确、更紧密,要求像特聘法律顾问、主管医师、项目监理等一样形成有形的具体的“用户的服务人员”关系,要求建立针对具体用户或用户过程的服务责任制。

(2)知识服务将是基于专业化和个性化的服务,而不是批发性服务。“专业化”要求按照具体专业或课题领域来组织和实施服务,保证对用户问题和用户环境的把握,保证知识服务的质量。“个性化”要求针对具体用户的具体需要和过程提供知识服务,保障对用户的了解和联系,保障对用户决策过程的跟踪和全面的信息服务。

(3)知识服务将是基于分布式多样化动态资源系统的服务,而不是基于固有资源或系统的服务。它将是虚拟化的服务,充分调动和集成各种资源、系统与服务来支持知识服务的功能和过程,因此它不属于也不局限于某一个图书馆或系统。

(4)知识服务将是基于集成的服务,而不是依靠大而全的系统或服务。它将通过开放式服务模式,通过系统集成、服务集成、团队工作等多种方式联合、协调,利用多种知识、资源、人员、系统、服务来组织和提供知识服务。

(5)知识服务将是基于自主和创新,不再是标准化和事务性工作。它要求知识服务人员根据每一次的实际情况动态地搜寻、选择、分析、利用各种知识,动态地设计、组织、安排和协调有关服务工作,要求具有自主的管理意识和权利,具有创新精神、研究能力和管理能力,同时要求建立相应的组织管理机制。

2.知识服务策略

按照对知识服务的认识,在实践中图书馆知识服务就是要超越显性知识,开发隐性知识,从各种显性和隐性知识资源中针对读者的需要将知识提炼出来,确确实实由信息服务上升到知识服务,满足用户需求,激活学习者的灵感与创新,这才是图书馆生存发展下去的关键。尽管知识服务不同于传统服务,但是图书馆与用户之间提供者与使用者的关系并没有改变,满足用户需求、使用户满意,仍然是图书馆服务的最终目的。为实现这一最终目的,图书馆知识服务应遵循以用户需求为导向、以解决问题为目标的实践策略:

(1)以用户需求为导向。

要满足用户需求,就必须对用户的需求进行分析,了解用户需求的特点和变化。一般来说,凡是到图书馆寻求信息服务的用户都是带着一定的需求而来,从用户的意识形态来看,这种信息需求可分为三类:①用户提出的需求清楚;②用户的需求是模糊的,用户感觉到需要什么,但却不能肯定;③用户尚未意识到的需求。对于这三种用户需求,满足需求对不同的用户产生的价值是不同的。

目前图书馆的服务大多是根据用户表达出的需求提供其所需信息,从而解决信息需求问题,只不过服务的层次有所不同。如普通借阅、文献传递服务近乎机械的劳动,而馆员根据用户提问帮助他们设计检索式,检出所需文献则在服务中运用了更多的专业知识,也节省了用户的时间,具有更大的价值。以上两种服务都是以明确表达用户需求为导向,这也是图书馆一直遵循的原则。而图书馆知识服务则要求馆员运用自己头脑中的知识为用户提供更有价值的服务,不但要满足明确表达的用户需求,而且要尽力满足用户模糊意识到的或尚未认识到的信息需求,从而全面提升服务层次和质量。因此,在图书馆知识服务的实践中,应该遵循以用户需求为导向的服务策略。

(2)以解决问题为目标。

图书馆用户都是带着信息需求而来,换句话说是带着问题而来,其最终目的是为了解决问题。用户的这些问题大多与科学研究有关,要帮助用户解决这些问题,提供解决方案,就必须了解问题在科学研究过程中的作用和特点,具体而言:科学研究是从问题开始;问题推动科研,指导科研;问题的深入就是研究的深入;问题的解决同时又意味着新问题的产生;从问题的产生到问题的解决再到新问题的产生,就是知识增长的过程。

实践中,图书馆帮助用户解决问题的过程中,首先要帮助用户甄别问题的真伪;其次才是提供问题的解决方案;最后还要帮助用户开始思考新的问题。在帮助用户解决问题时,传统的信息服务只满足具体信息、数据或文献的提供,显然,这些服务对问题的解决所起的作用是很有限的。如果图书馆的服务与用户目标一致,即以解决问题为目标,就必须遵循上述过程,包括进行特定问题的分析、诊断、乃至提供解决方案,完成这一过程,就要求图书馆能够为用户提供深度的服务,从而实现知识的增值、创新,而这正是图书馆知识服务所要求的。因此,在图书馆知识服务的实践中,应该遵循解决问题为目标的服务策略。

3.知识服务驱动模式

以知识服务为中心的资源服务一体化模式是建立新的资源观和服务观,不是传统图书馆管理中将资源与服务分割开来,采编部门不需要介入服务,服务部门也不了解资源来源渠道,与资源加工无关,而在资源建设中注入服务概念,面向服务进行资源采访与加工,在读者服务中注入资源概念,根据资源特征寻求对应关系,发挥资源的最大效用,这一模式是以知识服务为中心的。

长期以来我们强调文献服务,因为图书馆拥有丰富的文献资源以及书刊借阅的传统。随着社会信息化、信息经济、信息文化的推进,图书馆文献服务发展到信息服务。但是,如果我们单纯强调信息服务的时候,就降低了图书馆的职能,因为信息并不是图书馆的专有,咨询公司、政府机关、网站等都可以开展信息服务,图书馆开展信息服务的优势在哪儿?所以图书馆的信息服务就应该发展到一个新层次,即知识服务。

知识服务在知识经济的背景下一提出,就被看做新时期图书馆服务新的生长点。柯平认为,信息服务是运用先进的信息技术或信息手段,提供信息或信息产品满足社会信息需求的一种普通服务,而知识服务则是以集成的服务模式,运用知识与智慧来解决读者特定问题的专门化服务。信息服务是知识服务的基础,知识服务可以从四方面来看:第一,信息服务和知识服务都离不开信息与知识,但信息服务主要是从工作对象(以信息为主)出发的,而知识服务主要是从工作方式(知识型或智慧型)出发的;第二,信息服务和知识服务都是面向用户的服务,但信息服务是面向所有用户的大众化服务,而知识服务是面向目标方案帮助用户解决问题的专门化服务;第三,信息服务和知识服务都是对传统文献服务的升华与拓展,但信息服务强调信息传递的质量与速度、新颖性与广泛性。知识服务则是结构化、专业化和个性化的服务。结构化:过去的信息服务不是结构化,而是按照文献或信息的类型来划分的,这样的服务体现不了知识性,打破这种类型划分方法,从知识出发;读者到图书馆不是考虑是借书还是借期刊,而是带着问题的意识,图书馆就是为读者解决问题的地方;专业化:比如读者到图书馆是为了解决物理学问题,就可以找物理学学科馆员,学科馆员有专业特长或有专业背景;个性化:针对每个人的需求进行。第四,信息服务和知识服务都离不开先进的技术与信息网络,但信息服务体现模式化,无论是文献的数字化,网上搜索引擎或信息导航,还是电子文献传递与信息咨询,特别依赖于技术,并趋向于自动化服务,是一种技术型服务。而知识服务要利用技术与工具,更需要脑力劳动与智慧,体现出人与机器的结合,知识的创造与转化,知识的发现与应用,是一种创新型服务。

有人认为,知识服务是在传统文献服务、信息服务的基础上的更深层次的服务,它们既有联系,也有区别。文献服务和信息服务是知识服务的基础,文献服务与信息服务中其实已经包含了知识服务的成分,只是对于知识服务的要求没有凸显,但是三者的目的是一样的,都是为了更好地满足读者的要求。知识服务与文献服务、信息服务的不同之处在于知识服务对于资源、技术、馆员的综合素质以及相应的机制都有着更高的要求。知识服务与文献服务、信息服务的关系不仅在于外延的扩展,而且更注重内涵的挖掘。也就是说,知识服务产生的时代背景是信息技术、信息资源、信息服务高度发达的知识经济社会,在这样的不同以往的大环境之下,不同的信息来源和外在形态的信息的质量具有程度不同的差异性,而用户的信息需求也同时向着多元化和纵深性两个方面延伸。要想满足读者多元化的信息需求,就需要文献服务、信息服务与知识服务的相互融合与共同发展,而要满足读者用户的纵深性信息要求,只有开展具有知识化过程的知识服务。

4.知识服务的运营模式

尽管对知识服务的理论和实践都尚在摸索之中,但根据其他类型知识性服务的经验和国内外情报机构对知识服务的探索,我们可对知识服务的基本运营模式进行初步描述,它们包括:

(1)基于分析和基于内容的参考咨询服务。这种服务以图书馆参考咨询服务为基础,将咨询服务的阵地置于图书情报服务的前沿和中枢来体现其中心地位(前沿化和中枢化),通过咨询人员按专业分工来保证他们对专业知识和专业资源的把握(专业化),通过按咨询问题类型分工来促进核心服务的分析性和智力内涵(智力化),通过集成化地组织馆内外咨询资源和技术系统来提高咨询服务的效率(集成化),通过提供强有力的分析组织技术来保障咨询服务对内容的有效化分析和对信息的重组(内容化),通过稳定的经常性接触和跟踪服务来建立用户对咨询服务的信任。

(2)专业化信息服务模式。这种模式按照专业领域来组织图书情报服务和信息服务,从而提高信息服务对用户需求和用户任务的支持力度。例如,国外许多大学图书馆实行垂直组织方式,打破按照业务流程安排人员的方式,让具体图书馆馆员全面负责一个专业领域的信息资源建设、信息分析组织、参考咨询、用户教育等工作,将图书馆员分配到各个院系作为它们的信息服务联络员,负责与该院系有关的信息需求跟踪分析、信息资源建设、信息检索与咨询服务、用户教育、用户信息系统建设咨询等工作,按照不同专业建设相应的专业网站,将专业信息资源导航、专业化网络检索工具、图书馆资源检索、专业论坛、专业研究和会议动态、专题文献报道、专业咨询频道集成在这个网站上,使其成为新型的“专业信息服务中心”。许多图书馆还建立了课题信息服务顾问方式,为重要用户和重要任务分配专门的信息顾问,保障个性化联系、一站式服务以及服务的预期性和智能化。

(3)个性化信息服务模式。强调针对具体用户的需要和过程提供连续的服务。这种模式一方面体现在参考咨询等以解决用户的具体问题为基础的灵活服务中,另一方面也将融入系统和组织体制中。例如,建立图书情报系统的个性化界面(与搜索引擎的个性化主页相似),针对具体用户提供专门的“系统”界面(例如在用户接入系统时为具体用户提供动态的量身定做的新书通报、定题服务、新闻服务)。开发信息服务系统的个性化处理功能,根据用户知识和使用情况分析检索要求,优化检索过程,选择检索结果,并将个性化界面和用户利用的其他服务集成起来,形成“用户个人的图书馆”,协助用户开发个性化的信息资源系统,并利用图书情报机构的系统能力支持或连接这类信息资源系统,例如个人或课题Web网站、专业化信息导航系统、专题信息产品及其支持系统等。许多图书馆已经开展的为专家或课题组的专门信息服务,也是个性化信息服务的有效形式。

有许多可用于个性化定制服务的技术,如RSS,它是基于XML技术的因特网内容发布和集成技术。RSS服务能直接将最新的信息即时主动推送到读者桌面,使读者不必直接访问网站就能得到更新的内容。读者定制RSS后,只要通过RSS阅器,就可看到即时更新的内容。

(4)团队化信息服务模式。由于知识服务对知识和能力的要求,知识服务往往是依靠多方面人员形成团队来开展,主要包括两种方式:一是依靠团队力量来组织和提供服务,例如将资源开发、信息组织、参考咨询、用户教育和信息技术等方面的人员组成工作小组,或者将不同专业领域甚至不同图书情报机构的信息服务人员组织到团队中,或者吸收用户或外部专家参加团队,利用多方面知识来提供高质量、高效率的知识服务;二是加入到用户团队中,作为用户团队处理信息、应用知识、解决问题的内在成员来进行服务,例如为课题组、专家个人、课程或专业学术活动配备信息助手。

(5)知识管理服务模式即从用户目标和环境出发,进行知识的收集与捕获管理,包括对外部知识的跟踪、搜索、检索和获取,对内部知识尤其是隐性知识的跟踪和捕获。进行知识的组织和检索管理,利用信息技术和数据库技术,在纷杂的信息流中发现知识点及知识间的联系,将其组织到按照一定知识体系组织的数据库中,并提供方便的检索。进行知识交流和知识匹配传送管理,通过数据库、计算机群件系统、工作流控制系统等方法,促使员工的问题和知识更方便地被其他人知晓和利用,促进员工间及时广泛地交流和共享知识。促进知识寻求者与知识源之间、知识寻求者和知识提供者之间及时准确的匹配和传送。进行知识利用的管理,利用专家系统、专门分析工具、决策支持系统等对知识进行分析和运用。利用管理系统保持知识的应用有机融合在日常生产经营过程中,并将所产生的新知识迅速地组织到整个知识管理体系中。进行知识共享和知识创新环境的管理,建立和发展各种管理手段与机制来鼓励共享知识和进行知识创新。

当然,有效的知识服务将是上述各种模式的动态选择与组合。需要指出,知识服务并不排斥以藏书建设、文献编目、文献检索、文献流通阅览为基础的传统图书情报服务,只不过这些服务将不再体现图书情报工作的核心能力、专业取向和标志性内容,将主要作为辅助性的后台服务来支持知识服务。

5.知识服务的技术

现代信息技术的迅速发展为知识服务的提出和实现提供了技术基础,从技术实现角度分析,知识服务涉及的信息技术主要有:Internet、内部网和外联网、存储结构技术、数据库管理系统、元数据技术、数据获取与收集技术、传播技术、推技术、拉技术、共享技术、群件技术、中间件技术、联机分析处理技术、多维度分析技术、数据处理技术、数据挖掘技术、报道技术、网络通信技术、信息查询与检索引擎技术、关系与面向对象数据库技术、工作流技术、ETL等。

由于篇幅限制,这里仅介绍Web挖掘及ETL技术在知识服务中的应用:

(1)Web挖掘。

利用Web挖掘对有用的信息内容进行深层次的分析与挖掘,向用户提供能够用于科学研究、解决问题的规则和模式,实现图书馆知识服务,是图书馆信息服务的发展趋势。

知识服务是指从各种显性和隐性知识资源中按照人们的需要有针对性地提炼知识,并用来解决用户问题的高级阶段的信息服务过程。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的知识和信息过程。当数据挖掘技术应用于网络环境下的Web中就成为Web挖掘,Web挖掘可以广义地定义为从WWW中发现和分析有用的信息。

Web数据挖掘有以下几种类型:

①Web内容挖掘。Web内容挖掘是从文档的内容或其描述中抽取知识的过程。由于Web文档绝大部分内容是以文本形式存在,所以Web内容挖掘主要针对的是Web文档的文本部分,文本挖掘主要包括直接对Web页面文档内容以及搜索引擎的查询结果进行文本的总结、分类、聚类、关联分析等。除了文本数据挖掘以外,还有针对多媒体数据等的挖掘。

②Web结构挖掘。Web结构的挖掘是从WWW的组织结构和连接关系中推导知识。由于文档之间的互联,WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。

③Web使用记录的挖掘。Web使用记录的主要集中目标则是从Web的访问记录中抽取感兴趣的模式。WWW中的每个服务器都保留了访问日志(Web Access Log),记录了关于用户访问和交互信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。

无论是个性化信息服务,还是基于内容的服务,图书馆知识服务的关键是知道用户需求什么,给用户提供内容上相关、知识含量高的信息。Web挖掘对图书馆知识服务的支持正体现对用户需求信息和网络信息的深层分析,以提供知识服务必需的关键知识。Web挖掘的结果是图书馆知识服务的基础,通过内容挖掘、结构挖掘、用户信息挖掘,从而使图书馆知识服务成为可能。

Web中的异构型和非结构化的数据使得发现、组织和管理信息变得非常困难,利用Web内容挖掘技术对Web上大量文档集合的内容进行分类、聚类、关联等分析,发现有用信息,并将这些信息按满足某种检索方式的形式加以组织,从而方便网上的资源发现,提供信息查准率和查全率。Web挖掘利用计算机的特殊功能已逐步实现了网上信息的自动抽词、自动索引、自动摘录、自动分类、自动检索、自动翻译,进入了深度开发网上信息资源的智能化阶段。Web挖掘包括以下几个方面:①采用智能化手段挖掘蕴藏于大量显性信息中的隐性知识。如通过全文文献的智能化类聚,得到专业细化、专向课题的知识;从期刊和硕博论文的引文数据库中,得到学科相关的知识、成果评价的知识和核心期刊的知识等;②从全文数据库中提炼出能够明确表达一个知识内容的知识元,形成相互印证、相互关联的“网络化知识元数据库”,并与各种数据库的全文进行链接,构成内容广泛的知识网络,为用户提供最方便的知识获取途径;③面向特定类型的机构和群体,针对其具体用途,系统地采集机构中的各种人群所需要的各种层次范围的知识信息,开发个性化知识库,并集成为更大的专业知识库。

用户在使用搜索引擎时,不仅希望检索出所需信息,更希望检索出的信息具有很高的质量,具有权威性。目前的搜索引擎无法确定页面的重要性,而Web页面是利用超链接结构来组织信息的,利用这些链接里面隐含着的信息可以解决这个问题。对网上的超链接结构进行分析是Web结构挖掘研究的主要内容。Web结构可以确定页面的等级,识别关键页或权威页,通过对检索结果进行页面等级分析,并根据页面的重要性进行输出,使用户能够优先查看比较“权威”的页面,这样检索结果的组织得到极大改善,从而提高了搜索引擎的检索质量。

虽然个体信息用户的信息需求具有特定性,但从用户群整体来看,用户的信息需求又是随机的,这为一般的用户需求信息分析带来很大困难。Web使用挖掘是发现用户访问模型,用来进行用户知识挖掘,以实现个性化知识服务的工具。它的数据是自动从每日的访问日志等中收集到的,因此对建立用户基本情况档案非常关键。用户在使用搜索引擎检索信息时,在网站的服务器上留下大量的有用信息,这包括检索时间、检索词、检索路径以及检索中对哪些检索结果进行了浏览等。Web挖掘使用记录挖掘正是分析这些日志记录,通过对这些日志进行挖掘,可以总结出很多用户潜在的共同的检索行为模式;对这些模式的研究,了解用户需求信息,从而针对性地提供相应的知识服务。

(2)ETL技术在读者工作中的应用。

ETL(Extract-Transform-Load)是一个来源于数据仓库的概念,指抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loading)的过程。ETL是按特定的应用要求,将特定数据源中的信息抽取、识别、整理、规范和存储,并在此基础上实现高效的查询和比较,乃至数据挖掘、知识发现等应用。

目前市场上主流的ETL工具可分为两大类:一类是专业ETL厂商的产品,这类产品一般都具备较完善的体系结构,具有复杂和详尽的功能;另一类是整体数据仓库方案供应商,他们在提供数据仓库存储、设计、展现工具的同时也提供相应的ETL工具,这类产品一般对自己厂商的相关产品有很好的支持,但结构相对封闭,对其他厂商支持有限。

专业ETL厂商产品包括Ascential公司的DataStageXE、Data Junction公司的DataJunction、SAS公司的Data Builder、Sagent公司的Solution、Informatica公司的ArdentDataStage等;整体方案提供商的产品则包括Oracle公司的Warehouse Builder、IBM公司的Visual Warehousing、Micmsoft公司的DTS等。这些ETL工具各有特点,功能很强,但在开放性、伸缩性和集成性等方面有待加强。

①ETL在统一认证系统中的应用:

随着计算机技术的发展,数字图书馆中采用了越来越多的信息系统。由于种种原因,各个信息系统往往相互独立,在数据和业务逻辑上都存在大量的冗余,为用户和管理员带来诸多的不便。用户身份和权限认证是数字图书馆中很重要的部分,然而不同的信息系统却各自拥有独立的身份和权限模块,造成了业务逻辑的重复和数据的冗余,同时也为用户身份信息的统一维护带来一些问题,很难在数字图书馆的服务中真正地实现统一认证服务,即一次登录后就可以使用数字图书馆中的所有服务,不需要重复地登录和认证。袁利永等提出通过Web Service的方式来实现身份统一认证,但是需要假设已经存在一个统一的用户身份信息库。

统一认证系统主要是实现不同数据库之间用户数据的同步更新,达到一次注册,多个数据库系统都可以使用的目的,最大限度地满足用户使用方便性。数字图书馆中具有不同的应用系统,包括MyLibrary系统、跨库集成检索系统、参考咨询系统以及购买的镜像数据库(如维普期刊、书生之家、方正电子图书等)、自建数据库等,为了验证用户的权限以及为用户提供个性化的服务,各个系统中都包含了用户注册和个性化设置功能。因此,在数字图书馆中要实现真正意义的统一认证,前提条件之一就是需要建立统一的用户信息库,同时还要保证用户信息与原来系统中的信息同步更新。这些要求可以利用ETL机制来实现,通过ETL来达到用户信息的统一,即生成统一的用户信息库。首先,从不同系统中抽取现有的用户信息,并进行必要的查重处理,一次性地导入认证系统中。然后,进行增量的抽取,同时,保证各个系统的相对独立性,解决数字图书馆中的统一认证问题。

②面向用户行为的ETL:

面向用户行为的ETL是基于用户在研究活动过程中的行为进行相关信息抽取,需要跟踪和记录用户的主要查询和浏览行为,以便提供更适合的服务。例如,用户需要查找关于“P2P”方面的信息,利用Citeseer查询引用和被引的论文,利用DBLP来查找会议信息。用户在Citeseer上查找论文P(作者A)以及引用了论文P的一些论文和同一作者A的论文,根据上述论文中提供的会议线索,在DBLP查找会议信息,从而找到同一会议下的相关论文。系统保存这些查询和浏览行为,并以RDF进行元数据描述。对相关论文和会议所在的页面进行下载,并抽取和保存页面中的元数据。

当用户再次查找关于“P2P”方面的资源时,他不仅可以检索到论文P,还可以看到关于论文P的相关上下文(情景)信息,特别是包括引用过论文P的文献,以及同一作者A的其他论文。系统还可以基于研究活动的上下文(情景)元数据连接不同的资源,系统记录了用户查看了Citeseer和DBLP上的论文,显示从网站上抽取的其他数据,包括论文发表的会议信息、该会议下其他论文,以及同一会议不同时期召开的信息。

③统一检索服务:

通过统一的检索界面,为用户提供无缝的和灵活的访问方式,用户可以同时检索多个自治的、分布的和异构的数据源,实现“实体的资源分散,虚拟的资源整合”。这需要可以动态地根据用户需求从分布式数据源进行信息抽取和集成的方法,支持从分布式异构数据源中进行集成检索、知识获取和辅助决策等服务。

在资源集成和检索过程中,ETL主要是受用户需求驱动的,对从各个数据源返回的检索结果信息进行转换、查重和集成,一般并不需要将检索结果装载在实际的数据(仓)库中。在检索结果返回过程中进行实时的ETL处理,对返回的结果进行抽取、去重、过滤、转换、整合和加载到临时性存储区域,提供给用户整合后的结果。由于直接对用户服务,对服务的时间和效率要求比较高。因此,ETL的处理不应该过于复杂。可以保留用户的检索结果,系统定时地根据用户检索历史启动ETL,做更深层次的抽取和处理,为以后相同的用户检索或者为用户推荐提供更好的服务。另外,将用户的检索词保存到用户历史记录中,可以作为起始检索词,结合“调焦查询探测”、“基于提问取样”等算法,自动生成数据源的内容描述元数据,优化异构数据源的选择和定位,提高集成检索的效率和速度。

④参考咨询中的问题解答服务:

问题解答(question answering,QA)能够让用户以自然语言的方式提出问题,系统通过对大量相关数据的查找、分析和推理,从知识库中整理出针对这一问题的答案。QA可以接受用户用自然语言提出问题,而不是关键字序列,并返回尽可能简洁、准确的答案,而不是包含答案的文档或段落。显然QA可以大大提高用户检索信息的效率,于是近年来也受到越来越多的关注。TREC甚至增加了一个QA Track以推动自动问答技术的发展。

可以将ETL技术应用到参考咨询的问答系统中,在本地的参考咨询系统中嵌入ETL引擎,实现多途径的基于知识库的自动问答。在参考咨询服务中,对于用户以自然语言提交的问题,首先对问题进行分析,抽取出表达问题的关键词。然后在本地知识库进行问题的匹配,如果未找到答案,调用ETL引擎到协作馆的其他咨询系统进行抽取匹配;如果成功,进行答案的整理并上载到本地知识库中;如果还没有发现,则将表达问题的关键词转换为检索表达式,将检索表达式传给搜索引擎并返回相关结果,系统直接利用网络搜索中的全文或者摘要内容进行答案的抽取,将答案提交给用户,并同时上载到本地的知识库,不断扩展和丰富用于自动问答的知识库。

目前,研究关于基于网络的问答系统主要有华盛顿大学的MULDERL系统、新加坡国立大学的LAMP系统等。MULDERL系统,是第一个完全以网络作为其知识库的自动问答系统,它将检索到的网络文档下载到本地,并且对这些文档进行详细的语法分析从中抽取答案;LAMP系统采用改进传统的向量空间模型(VAM)作为抽取答案的方法,不下载网络资源的全文而是对搜索引擎返回摘要信息进行分析。

⑤个性化服务中的ETL:

ETL可以应用到个性化服务中,针对单个用户或用户群的需求提供一些有针对性的服务,如个性化浏览服务、个性化推送服务等。将ETL置于数字图书馆环境下的资源层和服务层之间,在为用户提供服务之前,根据用户的历史信息,有针对性地对资源层进行信息抽取、转换、整理、封装和打包,把满足需要的信息或知识反馈和发送给用户。抽取和封装的内容层次并不仅仅局限于从数据库或网站中相关文献,还需要实现更深层次的抽取和集成,可以基于特定目标或主题,对分散存放、表现形式不同的信息源中真正适合用户的信息片段实施再建构,使单一、零散知识经过融合形成新的知识,再发送给用户。

以往数字图书馆的信息服务,其信息标引以篇章为处理单元,技术实现比较容易。而现在人们对知识的需求已从文献为单位深入到以文献中的图、表、数据、公式、事实、结论等为单位的“知识元”。所以把“知识元”作为文献标引的基本单位,即符合数字图书馆用户的检索要求,又遵从客观知识结构的本来面目。因此,可以针对文献进行“知识元”的抽取,以便为用户提供更贴切的服务。

一篇文献的结构是由物理结构和逻辑结构两部分组成。文献的物理结构={标题、作者、机构、章、节、段、句、词、引文};文献的逻辑结构是基于文献的物理结构分析而得到的,其中主要是基于文本的内容层次分析而形成的,它主要表示文献所包含的知识结构与知识处理能力,文献的知识层次体系即构成了其逻辑结构关系,故文献的逻辑结构={篇章主题、层次主题、段落主题、句子主题、主题词、标志词、分类号}。个性化服务中的ETL可以根据文献的物理结构和逻辑结构中的信息和知识,进行知识片段(如图、表、段落主题等)的抽取,并将其与相应的元数据进行打包和封装发送给用户,节省用户选择文献以及阅读全文的时间。

对于个性化服务中的ETL,主要需要处理两方面的问题:一是用户个人兴趣的获取,主要是通过用户的基本信息(如专业、研究领域等)、检索和浏览行为(如检索词、访问的站点、阅读的文献等)来获得。关于用户的基本信息可以在注册时要求用户提供,而对于检索和浏览行为,则需要系统进行自动监控和记录,或者通过系统的日志进行分析和抽取;二是文献逻辑结构中的知识元的获取,主要是从用户历史记录中抽取相关的信息,关于文献结构中的元数据,在对文献标引时都会产生(手工或者自动方式),如题名、作者、单位等,而对于文献中图、表、公式、引文等信息,则大多都不会进行标引,另外,对于文献中的段落主题、章节主题等也基本上不会提供标引。而这些是ETL处理引擎为用户提供个性化、知识化服务的重要基础,因此,需要对这些内容和信息进行抽取和整合。

⑥面向情报分析服务的ETL:

大量的数据和相关信息是进行情报研究的基础,从大量的相关信息中可以分析出事件的各种态势和趋势,ETL技术提供了进行大规模数据及信息采集的思路和机制。通过ETL技术,能够从自由文本中抽取出数值数据和结构化的信息,建立起可供研究分析的资源基础,进而实现数据挖掘和信息分析。

很多知识发现和决策系统的应用都需要合并多个信息资源,从而得到所需要的更为完整的实体信息。随着计算机的普及和网络的迅猛发展,人们获取信息的方式更是日趋增多,传统的关系数据库资源、网络信息资源等都是经常获取的信息种类之一,但不同的信息资源对同一实体的描述是不同的。产生不同描述的原因有很多种:数据资源之间缺乏统一的标志;不同组织感兴趣的对象属性是不同,它可能采用不同的格式不同的属性表示数据;存在一定的输入错误和缩写不一致的问题;表示数据的不一致性。

Web带来了信息过载,同时也带来了机遇,可以使用更多的信息资源来支持更全面和深入的分析。ETL并不仅仅是从Web上获取数据并保存下来,更主要的是从结构化数据、非结构数据或自由的文本中发掘出更深层次的信息和内容,实现知识层次的发现和整合。ETL可以应用到情报研究中,特别是在竞争情报中的应用。ETL技术可以从文本中有效地抽取和表示信息,将分散在网络中的数据、数值、信息和知识集成,并加载到本地的数据(仓)库中,并不断地积累,作为支持决策服务、竞争情报分析、OLAP等的基础,提高分析的效果和效率。

在经过ETL技术处理后的信息源的基础上,分析者可以查看和分析更加全面的信息,分析者可以看到多种组织形式和多种格式的数据,通过与显示工具的结合使用,还可以为分析人员提供同一数据的多个视图。访问数据的不同视图使得分析人员可以更加全面深入的理解数据,支持未知事实的发现,提高分析趋势和发现潜在信息的能力。

另外,在情报分析领域,分析人员遇到的困难之一是自动地从文本中将信息表示成便于分析的摘要形式,或者是重新组织和组合。因为原始文本本来的形式并不利于分析。从分析人员的角度来看,他所需要的信息可能隐蒇在大量的原始材料中。所面临的问题并不是简单地如何找到合适的文档,而是如何从相关的文档中发现合适的信息片段。

通过ETL技术处理以后,分析人员就不需要阅读和浏览所有的文本,只需要查看抽取的句子,或者附近的两三个句子。如果分析人员想要进行量化分析,了解关系模式,或者从时间和空间上来揭示事件的发展规律,就需要从文本中抽取相关的片段,并将其转换成统一的格式。如果信息已经经过格式确认,还需要进行拷贝。通过ETL技术,可以减少人为的手工错误,节省时间,分析人员的任务重点变为对这些资源和信息的评论和研究,而不是在查找和浏览信息上。事实上,如果分析人员在阅读和浏览整篇文本时,要不断地寻找关键短语,很容易转移他的注意力和专注度。如果采用ETL技术生成需要的信息,并以合适的形式显示和表示,则他就可以专注于分析任务上,而不是局限于查找上。

⑦在实现数字图书馆之间资源共享中的应用:

实现分布式网络环境下数字图书馆之间资源共享是解决数字图书馆之间互操作的解决方法之一,可以从资源的内容层次来有效地解决互操作问题,用户在使用元数据检索和浏览服务时,并不受分布在不同地方的各个数字图书馆的限制。利用ETL可以实现FDL中的资源共享,ETL调度引擎负责分配元数据抽取的任务和抽取的数据结点数字图书馆,不同的抽取引擎将抽取后的元数据发送到统一的地方,进行清洗和集成,再按照一定的标准(如主题)将清洗后的元数据发送到各个数据库中,并建立相应的索引,由FDL统一对外提供检索服务。

五、个人知识管理

Frand和Hixon(1999)曾这样定义个人知识管理“它是一种概念框架,指个人组织和集中自己认为重要的信息,使其成为我们知识基础的一部分。它还提供某种将散乱的信息片段转化为可以系统性应用的东西的(个人)战略,并以此扩展我们的个人知识。”

而Skyrme(1999)则从经验方面对个人知识管理进行了更为细致的描述,包括以下内容:明确自己的信息需求;制定一个(知识)获取战略;设定信息的优先级,确定哪些信息可以放弃,哪些信息可以收取;确定如何和何时处理手上的信息;为需要归档和保存的知识建立规范;创建个人的文件系统,可以兼顾(管理)自己的工作、生活和其他知识活动;为不同用途建立信息目录(书签)和索引;经常评估/评价所存储信息和目录的价值。

个人知识管理实质在于帮助个人提升工作效率,整合自己的信息资源,提升个人的竞争力。

1.个人知识管理的内容

个人知识管理可分为以下内容:人际交往资源(如联系人的通讯录、每个人的特点与特长等);通讯管理(书信、电子信件、传真等);个人时间管理工具(事务提醒、待办事宜、个人备忘录);网络资源管理(网站管理与连接);文件档案管理。

个人知识管理是完成知识性工作所必须具备的,Hyams(2000)认为,个人知识管理还需要有:时间控制;工作空间舒适度;快速阅读、备注和研究;备案和文档管理;信息设计(哪些信息有用,哪些信息无用);有目的写作;知识/信息处理设施(通常指PC等IT设备)。有人根据自身经验,将个人知识管理分为CM、CM、TM、IM四部分:联系管理(Contact Management)包括电子名片、特性备忘、资源分析、海量分组、精确检索;内容管理(Content Management)包括知识分类、文档管理、项目管理、个人博客;时间管理(Time Management)包括日程管理、任务管理、计划管理、生命管理;资讯管理(Information Management)包括资讯渠道、每天必看、定期必访。

在高度信息的今天,离开软件和工具来谈知识管理是不完整的。目前市场上主要有以下知识管理工具和软件:PDA、Dreammail、linkist、wealink、ispace desktop个人知识管理系统、针对个人知识管理系统keeping Found Things Found(KFTF)、Mercury Document system等。

分析自己对信息资源的需求,按照图书分类;信息的内容分类;信息的来源分类,建立个人知识库。个人知识库必须有知识获取、知识存储、知识检索、知识更新和再利用等功能。同时要持续不断地维护个人知识库。信息是在不断变化的,只是建立知识库,而不对其进行维护和更新,那么知识库就会变成垃圾库。

2.Web2.0时代的个人知识管理

(1)网摘。

网摘(social book mark),直译是”社会化书签”。网摘是一种服务,它提供的是一种收藏、分类、排序、分享互联网信息资源的方式。使用它存储网址和相关信息列表,使用标签(Tag)对网址进行索引使网址资源有序分类和索引,使网址及相关信息的社会性分享成为可能,在分享的人为参与的过程中网址的价值被给予评估,通过群体的参与使人们挖掘有效信息成本得到控制,通过知识分类机制使具有相同兴趣的用户更容易彼此分享信息和进行交流。

网摘有效弥补了传统浏览器收藏夹不易移动的缺陷,可以将个人的收藏夹安置于网络上随时随地浏览。通过网摘,用户可以很方便地查看、管理对自己有用的网页,并通过摘录网页的形式与别人分享自己的收藏,体验共享的乐趣。网摘的价值在于网站管理员或者其他用户将其觉得最有价值的内容推荐给广大网民,从而节省网民在海量信息中挑选取自己感兴趣内容所消耗的时间。

目前提供网摘站点的有:365key、Favorites、央库、plum、folkd、Fungow、ButterFly等等。

(2)个人图书馆。

关于什么是个人图书馆,目前并没有定论,根据360DOC的实践,可以看出:个人图书馆是一个供大家在网上保存、管理、发布自己资料的场所,它能够直接保存文章的全文,并给每篇文章都自动配上简明准确的摘要;能够对保存的文章进行目录式存储管理,并提供在目录间对文章进行移动、复制的功能,另外还可以对文章进行人工编辑、删除;能够对每篇文章设置阅读权限,对自己的秘密可以设置为“仅自己看”,对大众化的资料可以设置为“公众公开”,对于只想让家人、朋友看的资料可以设置为“好友公开”。同时,个人图书馆还可以订阅、搜索、收藏、下载、评论、推荐他人的资源。

(3)个人门户(个人信息门户)。

什么是个人门户,目前既没有定论,也没有成功的个人信息门户案例。但就个人门户实践。一个完整的个人门户,目前应当具备以下功能模块:

①网摘+文章收藏:通过这种集成的方式形成真正的知识库,不断集成个人知识,并形成有序的系统;

②BLOG:展示个人知识和观点,与他人进行交流和互动;

③RSS:不断更新网络信息,实时获取信息资源;

④网络存储:集成图片存储(Flickr)、文件存储、音乐存储等多媒体内容的网络存储;

⑤电子邮件:在线阅读、发送个人所有电子邮箱的电子邮件;

⑥IM:即时通讯即时交流:

⑦搜索:集成搜索引擎技术;

⑧其他社会性网络服务:如百科wiki等;

⑨辅助功能:日历、通讯录、日程提醒等。

综上所述,个人门户至少具有以下一些功能:个人门户是一个信息的汇聚节点;同时,它还是个人的社会关系、日常活动等各种资源的汇聚节点,用户可以决定哪些是私密的;哪些可以与别人分享,也可以决定分享的范围与深度。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈