首页 理论教育 信息资源数据库的发展趋势

信息资源数据库的发展趋势

时间:2022-03-04 理论教育 版权反馈
【摘要】:而在作为信息时代基础设施重要组成部分的数字图书馆中,数据库在信息资源建设上占有极其重要的地位,了解数据库发展的历史,分析数据库发展的现状,从计算机技术和信息资源建设等多方面开展数据库相关问题的研究,把握数据库发展的方向和趋势,对计算机技术、信息技术以及我们数字图书馆的建设都有着非常重要的意义。层次型DBMS是紧随网状型数据库的诞生而出现的。

信息资源数据库的发展趋势

陆颖隽

(武汉大学信息管理学院 武汉 430072)

【摘要】信息时代,作为计算机技术中重要组成部分的数据库技术,在信息资源建设上尤其是在数字图书馆建设中占有极其重要的地位。本文从数据库历史入手,分析了信息资源数据库发展的现状和特点,研究和探讨了信息资源数据库的发展趋势,对信息资源数据库的建设提出了一些建议。

【关键词】信息资源 数据库 发展趋势

The Development and Trends of Information Resources Database

Lu Yingjun

school of Information Management of Wuhan University,Wuhan,P.R.China,430072

【Abstract】In the Age of Information,the database technique,as a vital part of the computer technology plays a decisive role in constructing information resources,especially digital libraries.This paper attempts from the point of the history of database to analysize the develop-ment and characteristics of information resources and database,explore the trends of development of the concerned technique and assume some solutions to the construction of database.

【Key works】information resources database trend of development

自从1946年2月世界上第一台电子计算机ENIAC(Electronic Numerical Integrator And Calculator)诞生以来,短短半个多世纪的时间,计算机技术突飞猛进,已形成了坚实完整的理论基础,实用便利的产品,以及广泛的应用领域。在当今信息时代,作为计算机技术中重要组成部分的数据库技术,是现代计算机信息系统和计算机应用系统的基础和核心,也是计算机技术和信息技术研究的热点和重点之一。而在作为信息时代基础设施重要组成部分的数字图书馆中,数据库在信息资源建设上占有极其重要的地位,了解数据库发展的历史,分析数据库发展的现状,从计算机技术和信息资源建设等多方面开展数据库相关问题的研究,把握数据库发展的方向和趋势,对计算机技术、信息技术以及我们数字图书馆的建设都有着非常重要的意义。

1 数据库的发展与特点

数据库技术从诞生到今天,仅仅40多年,国内外已开发建设了成千上万、数量多得无法准确统计的数据库。数据库的诞生和发展,不仅给计算机科学,也给信息管理带来了巨大的变革,使得数据库成为一个研究者众多且被广泛关注的研究领域。数据库的研究学者在30年间就三次获得了被誉为“计算机界的诺贝尔奖”——美国计算机协会(Association of Computer Machinery,ACM)的图灵(1),更加充分地说明了数据库是一个充满活力和创新精神的领域。随着计算机技术、Internet技术等的迅猛发展以及信息管理需求的不断扩展,数据库技术面对新的信息处理形式,面临着前所未有的挑战。为此,人们提出了丰富多样的数据模型,如网状模型、层次模型、关系模型、面向对象模型、半结构化模型、分布式模型等,同时也开发了众多新的数据库技术,如XML数据管理、数据流管理、Web数据集成、数据挖掘、数据仓库等,极大地丰富了数据库的基础理论,拓展了数据库运用的领域,促进了数据库技术的不断创新和发展。

数据库系统萌芽于20世纪60年代。当时,计算机开始逐步应用于数据管理,对数据共享提出了越来越高的要求。传统的文件系统已不能满足数据处理的需要。能够进行数据管理和共享数据的数据库管理系统(DBMS)应运而生,其中数据模型是数据库系统的核心和基础,各种DBMS软件都是基于某种数据模型的。根据数据模型的特点和发展,可以将数据库技术分为三个发展阶段:第一代数据库技术是以网状数据模型、层次数据模型为代表的网状、层次数据库系统,第二代数据库技术主要是关系数据库系统,而第三代数据库技术则是以支持多种数据模型(如关系模型和面向对象模型)为主要特征的新一代数据库系统(2)。这三个阶段的划分,并不是严格意义上的,即使是数据库技术日趋完善的今天,关系数据库系统仍旧占据主流,自关系模型被提出后,因其自身突出的优势,其迅速被商用数据库系统所采用。据不完全统计,70年代以来新发展的DBMS系统中,近90%是采用关系数据模型(3),其中涌现出了许多性能优异的商品化关系数据库管理系统。例如,小型数据库系统FoxPro、Access、Paradox等,大型数据库系统DB2、Ingres、Oracle、Informix、Sybase、SQL Server等。从20世纪80年代至今,关系数据库管理系统产品经历了从集中到分布,从单机环境到网络环境,从支持信息管理到联机事务处理(OLTP),再到联机分析处理(OLAP)的发展过程,对关系模型的支持也逐步完善,系统的功能不断增强。

1.1 数据库的诞生初期——网状、层次数据库

1961年,通用电气公司(General Electric Co.,GE)的C.W.Bachman成功地研发出世界上第一个网状模型的DBMS,也是第一个数据库管理系统——集成数据存储(Integrated Data Store,简称IDS)。IDS具有数据模式和日志的特征,虽然它只能在GE主机上运行,并且数据库只有一个文件,数据库所有的数据表必须通过手工编码来生成。但在当时得到了广泛的发行和应用,奠定了网状数据库的基础。

层次型DBMS是紧随网状型数据库的诞生而出现的。1968年,IBM公司开发出著名的IMS(Information Management System),IMS是一种利用层次模型而创建的层次数据库。它是IBM公司研制的早期的大型数据库系统产品。从20世纪60年代末开发以来,到现在已经发展到IMSV6,能支持群集、N路数据共享、消息队列共享等先进功能,使这个具有30年历史的数据库产品在如今的Internet连接、电子商务等应用中仍产生着重要的作用(4)

网状数据库模型对于层次和非层次结构都能较自然地模拟,在关系数据库出现之前网状DBMS要比层次DBMS更为广泛地被使用。在数据库发展进程中,网状数据库占有极其重要的地位。

1.2 数据库的发展期——关系数据库

网状数据库和层次数据库虽然较好地解决了数据的集中和共享等问题,但是在数据独立性和抽象性上仍存在许多欠缺。用户在对这两种数据库进行存取时,仍然需要明确数据的存储结构和存取路径,而后来出现的关系数据库较好地解决了这些问题。

1970年,IBM的研究员E.F.Codd博士在刊物Communication of the ACM上发表了著名的A Relational Model of Data for Large Shared Data Banks的论文,提出了关系模型的概念,用关系作为描述数据的基础,这篇论文被普遍认为是数据库系统历史上具有划时代意义的里程碑。在此之后的几年中,Codd又陆续发表了一系列文章,从而奠定了关系模型的理论基础。关系模型有严格的数学基础,抽象性比较高,而且简单清晰,便于理解和使用。关系数据模型是以集合论中的关系概念为基础发展起来的,在关系数据模型中,无论实体还是实体间的联系均由单一的结构类型——关系来表示。为了准确形象地表示关系数据库的准则,1974年,IBM的Ray Boyce和Don Chamberlin制定了简单的关键字语法用以说明符合关系数据库准则的数学定义,即结构化查询语言——SQL(Structured Query Language)。SQL语言的功能包括查询、操纵、定义和控制,是一种高度非过程化的语言,也是一个综合的、通用的关系数据库语言,只要求用户指出做什么而不需要指出怎么做。SQL提供了与关系数据库进行交互的方法,它可以与标准的编程语言一起工作。自诞生之日起便成了检验关系数据库的试金石,而SQL语言标准的每一次变更都指导着关系数据库产品的发展方向。特别是20世纪80年代以来,SQL更是被制定成为关系数据库语言的国际标准(5)

SQL语言有三个版本。包括基本SQL定义即SQL-89、增强型标准SQL-92和目前正在加以完善的SQL3标准。其中,SQL-89标准定义了模式定义、数据操作和事务处理;SQL-92标准增加了模式操作、动态创建和动态执行以及网络环境支持等特性;新的SQL3标准的主要优势在于抽象数据类型的支持,为新一代的对象关系数据库提供标准。

1.3 数据库的新时期——新一代数据库

虽然关系数据库以其完备的理论基础、简洁的数据模型、透明的查询语言和方便的操作方法等优点受到人们的欢迎,但是,随着信息技术和市场的发展以及数据库系统的日益普及和用户要求的不断提高,关系数据库也暴露出一些局限性。如关系模型过于简单,不利于表达复杂的数据结构。又如关系模型支持的数据类型有限,对现代信息社会越来越多的复杂类型的信息处理无能为力。于是,从20世纪80年代末、90年代初,出现了新一代数据库技术,它是以面向对象模型为主要特征的数据库技术。第三代的数据库管理系统是基于扩展的关系数据模型或面向对象数据模型的,是尚未完全成熟的一代数据库技术,其主要特点包括:支持数据管理、对象管理和知识管理;保持和继承了第二代数据库技术,并在此基础上,引进新技术,如面向对象技术、多媒体技术、分布式处理技术、并行计算技术、人工智能技术、模糊技术等;第三代数据库支持多种数据模型(如关系模型和面向对象的模型),对其他系统开放,支持数据库语言标准,支持标准网络协议,具有良好的可移植性、可连接性、可扩展性和可互操作性。

新一代数据库管理系统的主要代表有Servio公司的GemStone,OWTOS公司的ONTOS,Object Design公司的ObjectStore,Objectivity公司的Objectivity/DB等,它们都支持面向对象数据模型(6)。与此同时,面对新的应用领域,许多已经商品化的关系数据库管理系统也对其支持的数据模型进行了扩展,发展成为对象关系数据库系统(Object Relationa Data Manipulation Language,ORDBM),如Oracle、Sybase等。

面向对象数据库(Object Oriened DataBase,OODB)使用了面向对象数据模型。面向对象方法学认为:客观世界由各种“对象”所组成,任何事物都是对象,每一个对象都有自己的运动规律和内部状态,不同对象之间的相互作用和联系就构成了不同的系统,构成了客观世界。复杂的对象可以由相对简单的对象以某种方式构成。不同对象的组合以及相互作用就构成了需要研究、分析和构造的客观系统。面向对象方法学还认为:通过类比,发现对象间的相似性,即对象间的共同属性,便构成了对象类的依据。在由“类”、“子类”、“父类”等概念构成对象类的层次关系时,下一层次的对象可自然继承上一层次对象的属性。因此,面向对象方法具有极强的类的概念,它能很直接地模拟人类在认识过程中由一般到特殊的演绎功能或由特殊到一般的归纳功能,类的概念既反映出对象的本质属性,又提供了实现对象共享机制的理论根据。面向对象方法提供了一种新的认知和表示世界的思想和方法,能够更好地模拟现实世界中的实体及实体间的复杂关系。采用面向对象技术建立的数据库产品具有很好的可重用性和可扩展性。因而从面向对象的程序设计、面向对象的系统到面向对象的数据库、面向对象的开发工具,面向对象技术得到了越来越多的应用。

2 国内外主要的信息资源数据库及其特点分析

众所周知,人类社会正进入信息的时代,在以Internet等为代表的高新技术飞速发展的今天,信息已成为最具活力的战略资源,信息代表着新的经济增长点和新的社会发展方向,信息也成为衡量一个国家综合实力的重要标志,已成为当前和未来世界各国竞争的制高点。而信息资源的开发利用是信息化的重要内容,数据库是信息资源开发利用的关键技术之一。创建各类独具匠心、各具特点的信息资源数据库,尤其是具有自主知识产权的信息资源数据库也成为世界各国竞争的焦点,各国都推出了许许多多数量众多的特色数据库。在国外,信息资源数据库的生产已形成规模,走向产业化。在国内,虽然信息资源数据库的建设起步较晚,与国外先进国家还有不小的差距,但总体来说,发展速度是很快的,已粗具规模。及时了解和掌握我国信息资源数据库发展的现状,开展相关问题的研究,对提高我国信息资源数据库的水平,促进我国信息资源数据库的建设和发展有着重要的意义。

2.1 国外主要的信息资源数据库

数据库技术从诞生发展到今天,虽然时间不长,仅仅40余年,但发展非常迅速。在国外,信息资源数据库的数量和规模都发展很快,已有许多商品化的产品,信息资源数据库已形成产业化。世界上最大的学术电子出版物供应商Elsevier Science,通过网络提供多个全文数据库服务。ISI的Web of Knowledge信息平台上也提供包括SCI、SSCI、AHCI引文索引数据库、期刊目录库以及多个专业文献数据库、会议录和专利数据库的服务。

2.1.1 引文索引数据库

所谓引文索引数据库,即是数据库中所收录的每篇文献,除记录其自身的检索信息和论文摘要外,还记录其引用的参考文献信息。目前世界上,ISI(Institute for Scientific Information,ISI,美国科学情报研究所)所提供的引文索引数据库服务,最具特色和权威性。ISI提供的引文索引数据库包括两类,即专门学科引文索引和多学科引文索引。专门学科引文索引提供按学科分类的引文索引数据库,目前主要针对理工科,分为以下六种:生物化学和生物物理引文索引、生物技术引文索引、化学引文索引、计算机与数学引文索引、材料科学引文索引、神经科学引文索引。多学科引文索引有三种,SCI和SSCI就是其中两种,此外还有一种为AHCI(Arts&Humanities Citation Index,艺术与人文科学引文索引)。

(1)SCI。

SCIE(Science Citation Index Expanded,科学引文索引扩展版,简称SCI)(7)由ISI出版,收录了世界上40多个国家和地区的约6 000种重要期刊、2 000余种会议录和专题文集,以及大量的专利文献和丛书、图书等。覆盖150多个学科领域,目前所收录数据的最早可回溯至1945年,是权威的科学技术文献检索工具。有印刷本(月刊和年刊)、光盘数据库、网络数据库、联机检索等出版或服务形式,其光盘数据库从1990年起开始出版;网络数据库由ISI网络数据库服务系统(Web of Science,WOS)提供服务,2001年该系统升级为web of knowledge(WOK),因此,SCI网络数据库的全称为SCI Expanded(SCIE);SCI的联机检索服务在DIALOG、DataStar等联机检索系统中均能提供服务,国内最常见的是通过DIALOG系统提供服务的SCI。SCI它不仅可用于查找最新的研究成果(文摘和所引用的参考文献),还提供文献被引用情况的检索。

SCI是重要的统计工具和学术分析及评价的工具,其权威性为全世界所公认。和一般的参考数据库不同,SCI不仅收录论文本身,还对论文的引文进行收录和整理,借助SCI不仅可以获取各个学科领域的重要的、核心的期刊论文信息,还可以获取各种关于期刊的、学术科研机构的、个人等的各项统计和分析评价数据。其独特的引文检索体系,使其成为普遍使用的学术评价工具,全世界很多国家都将SCI作为评价学术科研水平的重要参考工具,因而受到广泛的重视。

(2)SSCI。

SSCI(Social Science Citation Index,社会科学引文索引)(8)也由ISI出版,SSCI收录的主要是社会科学方面的论文,它覆盖全球1 700多种最重要的学术期刊,同时也收录5 600多种科技期刊中与社会科学相关的论文。目前所收录数据的最早回溯至1956年,涉及50个学科领域,具体包括行为科学,人类学,区域研究,商业,商业金融,传播学,犯罪学与刑罚学,人口统计学,经济学,教育与教育研究,特殊教育,环境研究,人机工程学,种族研究,家庭研究,地理学,老人病学和老人学,健康政策与服务,历史学,科学史与科学哲学,社会科学史,工业关系与劳工,情报学与图书馆学国际关系,语言与语言学,法学,管理学,法医学,护理学;哲学,规划与发展,政治学,精神病学,心理学,应用心理学,生物心理学,临床心理学,发展心理学,实验心理学,数学心理学,心理分析心理学,社会心理学,公共管理,大众健康,康复,社会问题,社会科学-生物医学,社会科学-交叉学科,社会科学-数学方法,社会工作,社会学,恶习,运输,城市研究,女性研究等社会科学。年平均增加12.5万条左右记录,它除了能检索文章被引用的情况外,同时还可以揭示原文中所有的参考文献,并据此获得一批相关文献,因此它是国外学者们查引人文及社会科学研究领域最有效且最具权威性的参考工具。

(3)EI。

EI(Engineering Index,工程索引)(9)是由EI公司(Engineering Information Inc.,工程信息公司)提供,《工程索引》创刊于1884年,最初只是美国工程师学会联合全刊中的一个文摘专栏,命名为“索引注释”(index notes)。1895年,美国《工程杂志》杂志社购买其版权后正式更为现名——The Engineering Index,并开始出版累积索引,1892~1905年总共出版了四卷累积索引;1906年起每年出版一卷。

EI提供光盘数据库和网络数据库服务,其光盘数据库称为Ei Compendex Plus,回溯至1989年,月更新;网络数据库称为Ei CompendexWeb,是EI的Internet版本,回溯至1970年,周更新。Ei CompendexWeb具有以下优点:覆盖范围宽,增加了Ei PageOne部分的数据;年代跨度长,收录了自1970年以来的工程索引数据。Ei CompendexWeb每年新增50万条工程类文献索引信息,来自5100种工程期刊、会议文集和技术报告。Ei Compendex收录的文献涵盖了所有的工程领域,涉及核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程以及这些领域的子学科。其中大约22%为会议文献,90%的文献语种是英文。化工和工艺的期刊文献最多,约占15%,计算机和数据处理占12%,应用物理占11%,电子和通讯占12%,另外还有土木工程(6%)和机械工程(6%)等。大约22%的数据是经过标引和摘要的会议论文,90%的文献是英文文献,是目前全球最全面的工程领域二次文献数据库。EI从1992年开始收录中国期刊,1998年在清华大学图书馆建立了中国镜像站。此数据库对检索全世界范围内的工程与技术文献、跟踪与评价技术新成果非常有用。

Ei-Village是EI公司将Ei CompendexWeb和其他的250个数据库、专利和标准以及许多与工程技术有关的信息组织结合在一起,推出的集成信息服务系统。该系统提供包括文献传送、全文服务、网络导航以及其他的参考咨询服务在内的“一步到位”的便捷式服务。

(4)ISTP和ISSHP。

美国科学情报研究所(ISI)出版的两大会议录索引——ISTP(Index to Scientific&Technical Proceedings,科学技术会议录索引)(10)和ISSHP(Index to Social Science&Humanities Proceedings,社会科学及人文科学会议录索引)(11),是ISI网络数据库Web of Science Proceedings中的两个数据库。

ISI Proceedings包括科技版ISTP和社科与人文版ISSHP。汇集了世界上最著名的会议、座谈、研究会和专题讨论会等多种学术会议的会议录文献。覆盖学科范围广泛,内容综合全面。涉及学科基本与SCI和SSCI相同。收录范围从1990年至今,每年两版收录约10 000次会议的内容。可通过ISI Web of Knowledge检索平台,与ISI Web of Science连接(适用于ISI Web of Science的用户)。

目前在ISI Web of Knowledge检索平台上除集成了ISTP和ISSHP外,还有INSPEC、Biosis Previews以及JCR等数据库,通过访问该平台可实现这多个数据库间的跨库检索。

2.1.2 全文数据库

(1)Academic Search Elite。

Academic Search Elite(12)是美国EBSCO公司综合数据库产品之一,收录期刊4 200余种,内容涉及生物科学、工商经济、咨询科技、通讯传播、工程、教育、艺术、文学、医药等领域。其中全文刊登的有3 200余种,其中SCI收录核心期刊350余种,数据库通过EBSCOhost每日进行更新。

该数据库包含Business Source Premier、Academic Search Premier、Newspaper Source等10个子数据库,各库间可进行跨库检索。其中Business Source Premier是世界上最大的全文商业数据库,提供近8 350份学术性商业期刊及其他来源的全文,其中包括1 100多份学术商业刊物。与商业相关的所有主题范围几乎均包括在内,最早可回溯至1922年。Academic Source Premier是专门为学术机构设计的全球最大的多学科全文数据库,提供了近4 700种出版物全文,其中包括3 600多种同行评审期刊。它为100多种期刊提供了可追溯至1965年或更早年代的PDF过期案卷。

(2)Elsevier Science Direct Onsite(Elsevier SDOS)。

Elsevier Science是一家历史悠久、设在荷兰的跨国科学出版公司,该公司出版的期刊是世界上公认的高品位学术期刊,且大多数为核心期刊,建立的Elsevier SDOS(13)数据库收录Elsevier出版集团出版的全文电子期刊,涉及理工、医学、环境、生命科学以及社会科学等学科领域,目前可利用1995年以来的1 700多种全文电子期刊,很多期刊被SCI、SSCI收录,质量较高,并通过网络提供服务。

(3)OCLC FirstSearch。

OCLC(Online Computer Library Center)是世界上最大的文献信息服务提供机构之一。OCLC FirstSearch(14)是其提供的基于Web的联机信息检索系统。该系统包含多个数据库,如Article1st、ECO、GPO、WorldAlmanac、ClasePeriodica、Ebooks等。

Article1st收录了16 000多种学术期刊的文章引文以及目录索引,主题覆盖了工商、人文学、医学、科学、技术、社会学和大众文化等。虽然大多数期刊是英文资料,但也有部分其他语言的期刊。它包括1990年到现在的资料,日更新。

ECO是一个全部带有联机电子全文的期刊数据库,主题范畴广泛,可检索到书目、文摘信息和全文文章。目前收录的期刊来自70多家出版社,总计5 300多种,200多万篇。该库收录的期刊大多从1995年开始,日更新。

GPO是由美国政府出版署创建的美国政府出版物数据库,包含50多万条记录,收录了从1976年7月以来与美国政府相关的各方面的文件。这些文件的类型有:国会报告、国会听证会、国会辩论、国会档案、司法资料,以及由美国具体实施部门如国防部、内政部、劳动部、总统办公室等出版发行的文件,月更新。

WorldAlmanac世界年鉴数据库于1868年第一次出版,内容涉及范畴包括:艺术和娱乐、新闻人物、计算机、科学和技术、经济学、体育运动、环境、税收、周年纪念日、美国的城市和州、国防、人口统计、世界上的国家等,覆盖1998年至现在的资料,年更新。WorldCat是一个世界范围的图书、Web资源和其他资料的联合编目数据库,该库由9 000多个OCLC的成员馆参加联合目录的一个数据库。目前包括400多种语言的5 700多万条记录,主题范畴广泛,覆盖了从公元前1000年到现在的资料,基本上反映了世界范围内的图书馆所拥有的图书和其他资料。资料类型有:图书、Web站点和Internet资源、计算机程序、胶卷和幻灯片、期刊和杂志、文章、章节和论文、手稿、地图、乐谱、报纸、录音带、录像带等,日更新。

ClasePeriodica是一个有关科学和人文领域的拉丁美洲期刊索引数据库,ClasePeriodica数据库由Clase和Periodica两部分组成,其中Clase索引了在拉丁美洲期刊中发表的社会科学和人文学科方面的文献;Periodica收录了科技方面的期刊。该库提供对以西班牙文、葡萄牙文、法文和英文出版的2 600种学术期刊的检索(Clase:1 200种;Periodica:1 400种),总计达40多万条书目引文。Clase收录的期刊从1975年开始至今;Periodica收录的期刊从1978年开始至今,数据库每季度更新一次。

Ebooks是一个世界各地图书馆的联机电子书的OCLC目录数据库,该数据库收录了参加WorldCat联合编目的OCLC成员馆收藏的联机电子书,共计21万多种,其中也包括OCLC的netLibrary电子书。用户可以检索所有这些电子书的书目,并可链接到已订购且包含在WorldCat数据库中的电子书进行阅读,日更新。

(4)Kluwer。

荷兰Kluwer Academic Publisher是具有国际性声誉的学术出版商,它出版的图书、期刊一向品质较高,备受专家和学者的信赖和赞誉。Kluwer Online(15)是其出版的800余种期刊的网络版,专门基于互联网提供Kluwer电子期刊的查询、阅览服务。Kluwer Online电子期刊涵盖20多个学科专题,包含理工、医学、环境、生命科学、材料科学以及社会科学等学科领域。

(5)Springer。

德国施普林格(Springer-Verlag)是世界上著名的科技出版集团,LINK是施普林格出版社和它的合作公司推出的科学、技术和医学(STM)方面的在线信息资源。目前,Springer LINK(16)全文期刊可在线阅读超过500种。期刊的学科范围包括:化学、计算机科学、经济学、工程学、环境科学、地理科学、法学、生命科学、数学、医学、物理和天文学。2005年Springer与Kluwer学术出版社合并,目前Springer公司在清华大学的镜像站上(METAPRESS平台)开通Kluwer数据库的使用。原Kluwer Online的成员,仍可以继续用Kluwer Online放在北京大学的平台,访问原Kluwer Online的期刊。

(6)Blackwell。

Blackwell出版公司是世界上著名的期刊出版商之一,以出版国际性期刊为主,包含很多非英美地区出版的英文期刊。目前,Blackwell(17)出版期刊总数已超过700种,其中理科类期刊占54%,其余为人文社会科学类。这些期刊学术质量很高,在各自相关学科领域享有盛誉,据统计,其中被SCI收录的核心期刊有239种,被SSCI收录的有118种。

(7)JSTOR。

JSTOR(18)全名为Journal Storage,是对过期期刊数字化制作的数据库,所选期刊均为各学科的核心学术期刊。目前JSTOR是以政治学、经济学、哲学、历史等人文社会学科主题为中心,兼有一般科学性主题共十几个领域的代表性学术期刊的全文库。从创刊号到最近3~5年前的过刊都可用影像来阅览全文。部分过刊的回溯年代可至1665年。

(8)IEEE/IEE Electronic Library。

IEEE/IEE为美国电气电子工程师学会/英国电气工程师学会缩写,其出版的出版物是电气和电子工程领域最重要的文献资料,约占全世界该领域核心文献的30%。目前IEEE推出了其全文出版物的检索网站IEEE/IEE Electronic Library(IEL)(19),内容包括1988年至现在IEEE/IEE出版的所有期刊、会议录和标准全文信息,以及IEEE/IEE的其他学术活动信息。总计12 000多种出版物,65万多篇论文。用户通过检索可以浏览、下载或打印与印刷型出版物版面完全相同的文字、图表、图像和照片的全文信息。

(9)Cambridge Science Abstracts(CSA)。

CSA是美国一家具有30年历史专门出版科学研究资料的信息公司。该公司出版的剑桥科学文摘数据库(Cambridge Science Abstracts,CSA)(20)涉及空间科学、农业科学、水科学、艺术和人文科学、生物学和医学、计算机科学、地球和环境科学、工程学、材料科学、社会科学等学科。共有60多种数据库,其中包括许多相关专业的著名数据库,如:生物学与医学领域的代表性数据库MEDLINE、Toxicology Abstracts、Biotechnology and Bioengineering Abstracts,环境科学领域的数据库Ecology Abstracts、Pollution Abstracts、Water Resources Abstracts等。

(10)其他数据库。

除了上面所列举的部分数据库之外,还有许许多多的数据库提供信息资源服务。国内各个图书馆都购买了一些数据库,为读者提供各种信息资源的服务。目前,除了英文数据库之外,法国、德国、日本等国也开发了一些法文、德文、日文等语种的数据库,但由于这些语种使用范围的原因,影响力有限。除欧美等发达国家之外,一些发展中国家也推出了自己的数据库,如新加坡世界科学出版社(World Scientific Publishing)的WorldSciNet(WSN)(21),WSN数据库目前提供58种全文电子期刊,涵盖数学、物理、化学、生物、医学、材料、环境、计算机、工程、经济、社会科学等领域。

2.2 国内主要的信息资源数据库

面对全球数据库技术的迅猛发展和信息资源建设的发展趋势,我国政府十分重视信息资源以及信息资源数据库的建设,特别是在Internet互联网高速发展的当今,投入大量的资金,资助一些机构进行信息资源的相关研究和信息资源数据库建设。在短短不到十年的时间内,我国从事信息资源数据库出版、服务的信息机构应运而生,并不断发展壮大,现在已可以充分利用Internet互联网为用户提供题录、文摘和全文等多种信息服务。

2.2.1 中国期刊全文数据库

清华大学的中国期刊全文数据库(CJFD)(22),是目前世界上最大的连续动态更新的中国期刊全文数据库,收录1994年至今约7 486种期刊全文,并对其中部分重要刊物回溯至创刊。至2005年12月31日,累积期刊全文文献1 670多万篇,分为十大专辑:理工A、理工B、理工C、农业、医药卫生、文史哲、政治军事与法律、教育与社会科学综合、电子技术与信息科学、经济与管理。收录国内7 486种综合性期刊与专业特色期刊的全文。浏览期刊名录,可进入期刊导航。产品提供Web版(网上包库)、镜像站版、光盘版以及流量计费服务。CNKI中心网站及数据库交换服务中心每日更新,各镜像站点通过互联网或卫星传送数据可实现每日更新,专辑光盘每月更新,专题光盘年度更新。

中国期刊全文数据库是我国国家知识基础设施(National Knowledge Infrastructure,CNKI)(23)的主要工程之一,该数据库提供简单检索、高级检索、二次检索、聚类检索等,有篇名、作者、关键词、全文、引文等检索入口,可与CNKI其他数据库,如中国优秀博硕士学位论文全文数据库、中国重要会议论文全文数据库、中国重要报刊全文数据库进行跨库跳转检索。对该数据库中没有收录的文献,可通过电子邮件的方式提供信息服务。

2.2.2 中文科技期刊数据库

重庆维普资讯有限公司是一家大型的专业化数据公司,中文科技期刊数据库(24)是其推出的系列数据库产品之一(还有外文科技期刊数据库文摘版、中国科技经济新闻数据库等)。中文科技期刊数据库收录1989年至今的中文报纸400种、中文期刊8000多种、外文期刊5000余种;已标引加工的数据总量达1500万篇、3000万页次,并以每年100万篇的速度递增。文献分为自然科学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报7个专辑27个专题。2005年1月起,中文科技期刊数据库增加收录文、史、哲、法等学科分类的文章、期刊,形成社会科学专辑,社科数据回溯至2000年。

中文科技期刊数据库支持分类检索、高级检索、二次检索、整刊检索等策略,提供模糊检索、精确检索、符合检索等方式。引文检索可跳至中文科技期刊引文数据库进行。

2.2.3 中国科学引文数据库

中科院文献情报中心的中国科学引文数据库(25),收录我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术、环境科学和管理科学等领域出版的中英文科技核心期刊和优秀期刊近千种,其中核心库来源期刊670种,扩展库期刊为378种,已积累从1989年到现在的论文记录近100万条,引文记录近400万条。中国科学引文数据库除提供文献检索功能外,还推出有中国科学计量指标数据库等数据库。

2.2.4 万方数字化期刊全文数据库

万方数字化期刊全文数据库(26)是万方数据股份有限公司发行的万方数据资源系统的一部分,该系统汇集中国学位论文文摘数据库、中国学术会议论文文摘数据库、中国科技成果数据库、中国发明专利数据库、国家法律全文数据库、行政法规全文数据库、中国国家标准数据库等近百个数据库。万方数字化期刊全文数据库是其中主要的数据库之一。

万方数字化期刊全文数据库收录1997年以来基础科学、农业科学、人文科学、医药卫生、工业技术等5大类70多个类目的2500余种科技期刊的全文,其中绝大部分是中国科技论文统计源的核心期刊。数据库提供刊物查询(整刊检索)、论文查询(包括篇目、作者、关键字等检索)和引文查询等方式。

2.2.5 中文社会科学引文索引

南京大学研发的中文社会科学引文索引(Chinese Social Science Citation Index,CSSCI)(27)是国家、教育部重点攻关项目。2000年该项目完成了CSSCI引文数据库的构建工作,相继研制成功了CSSCI数据库网络版和光盘版。经过数年的努力,现以其开发的CSSCI(1998~2004年)7年数据在国际互联网上和国内电讯网上向社会各界提供多种形式的查询服务。

CSSCI的来源期刊是从全国2 800种中文人文社会科学学术性期刊中遴选出来的,是依照近3年期刊他引影响因子对所有学术性社科期刊分学科进行排序,由全国17所重点高校专家、学者组成的中文社会科学引文索引指导委员会审议,最终确定年度来源期刊。目前,教育部已将CSSCI数据作为全国高校机构与基地评估、成果评奖、项目立项、人才培养等方面的重要考核指标。

CSSCI提供多种信息查询、检索途径,服务项目包括网上包库(包库机构在限定的IP地址范围内的任何一台计算机上、任意时间段使用CSSCI数据库);网上查询(非包库用户通过网络查询CSSCI数据库);委托查询(用户委托南京大学代为查询CSSCI数据库,出具查询报告);手机查询(中国移动手机用户通过发送手机短信形式查询CSSCI数据库)等。

2.2.6 书生之家电子图书

书生之家数字图书馆是建立在中国信息资源平台基础之上的综合性数字图书馆,由北京书生数字技术有限公司开发制作。2000年4月7日开始试运行,5月28日正式开通。是一个全球性网上开架书报刊交易平台和中国信息资源电子商务平台,下设中华图书网、中华期刊网、中华报纸网、中华资讯网等子网,集成了图书、期刊、报纸、论文等各种出版物的(在版)书(篇)目信息、内容提要、精彩章节、全部全文。书生之家电子图书(28)是由其出版发行的大型电子版图书数据库,设有四级目录导航,并提供强大的全文检索功能。书生之家现有近40万种电子图书,内容涵盖文学艺术、科学技术、政治经济等所有学科,并以每年近十万种的数量递增。

2.2.7 超星电子图书

超星电子图书(29)是北京市超星电子技术公司与中国国家图书馆合作的产物。2000年1月,超星数字图书馆(30)正式开通,超星公司开始全面转向基于互联网的数字图书业务。图书馆设文学、历史、法律、军事、经济、科学、医药、工程、建筑、交通、计算机和环保等几十个分馆。

超星电子图书馆拥有丰富的电子图书资源,其中包括文学、经济、计算机等50余大类,目前有228余万册电子图书,400万篇论文,全文总量5亿余页,是当前数量最大的中文在线数字图书馆。

超星数字图书馆的“超星阅览器”,专门用于为阅读PDG格式的电子图书,具有电子图书阅读、资源整理、网页采集、电子图书制作等一系列功能。

2.2.8 其他数据库

此外,中文数据库还有许多,如全国期刊联合目录(31)、中国学位论文全文数据库(32)、人大复印报刊资料数据库(33)、中外人文社科文献集萃全文数据库(34)、中国重要报纸全文数据库(35)、中国优秀博硕士学位论文全文数据库库(36)、全国报刊索引数据库(37)等。此外,中国国家图书馆·中国国家数字图书馆(38)、中国数字图书馆(39)、上海图书馆和上海科学技术研究所(40)10、中国科学院文献情报中心(41)、北京大学图书馆(42)、清华大学图书馆(43)、国防大学图书馆(44)、国防科技大学图书馆(45)以及广东省立中山图书馆(46)、辽宁省图书馆(47)、深圳图书馆(48)和北大方正电子有限公司(49)等单位和公司也开发了一些各具特点的信息资源数据库,在此就不再赘述。

2.3 国内外信息资源数据库的特点与比较

2.3.1 网络数据库成为主流

总地说来,信息资源建设经历了从印刷型向数字化的转变,而信息资源数据库是一种重要的电子资源,也经历了从单机光盘向跨盘检索网络、联机检索到Internet互联网在线检索发展的过程。虽然CD-ROM光盘数据库具有成本低、制作费用少、技术上易实现、对硬件系统要求不高等特点,信息资源数据库早期大多采用了制作光盘数据库出版的办法。如SCI、EI、CSA、EBSCO等知名的网络数据库当初也是以光盘数据库出版,直到今天,还有一些国内的数据库,如全国报刊索引数据库、中国学位论文数据库、中国学术期刊文摘、中国专利检索数据库仍采用光盘数据库作为主要方式。但是,光盘数据库也有其局限性,如规模和容量的限制,以及在更新速度上都不能满足日新月异的信息时代发展的需求。特别是Internet互联网高速发展的今天,一方面,Internet互联网提供了一个全新的、功能强大的信息传播平台,利用互联网成为信息资源传播的主要方式。而另一方面,网络传播特别是Internet互联网建构了一个全球的信息资源网,公众希望不受时间、地域限制而获取信息资源。因此,Internet互联网成为公众获取信息资源的重要媒介,于是作为信息资源建设中重要组成部分的信息资源数据库也走向网络化,网络数据库成为主流。

与国外相比,我国的网络发展尚有差距。国外的数字产品有数十年的发展历史,有相当规模的数据库生产商和数据服务商,在Internet互联网发展之前,有较发达的商业化的或非营利性的大型联机检索系统,这些使得国外的网络数据库一开始就有一个很高的起点。相对而言,国内的网络数据库还处于摸索、建设阶段,网络数据库产品数量不算少,但大多数的网络数据库是由光盘数据库转变而来,规模小,影响小,在网络中的分布也比较凌乱(50)。还有一些学科的专业数据库尚未开始建设,仍留有一些空白。

2.3.2 信息资源数据库数量、质量发展迅速

当人类社会发展到信息时代,网络数据库已成为信息资源数据库的主流。网络数据库的发展非常迅猛,不仅品种、数量众多,内容丰富,而且增长迅速,更新速度快。如Elsevier Science,通过ScienceDirect可在线提供多个数据库产品服务,包括一个综合性的学术期刊全文数据库、多个专题数据库、12种参考工具书及15个书目数据库等。ISI的Web of Knowledge信息平台上目前可提供服务的数据库有:ISI三大引文索引数据库(SCI、SSCI及AHCI)、期刊目次库(Current Contents Connect)、多个专业文献信息及事实数据库、会议录及专利信息数据库等。从数据库的内容和品种看,既有目录、索引、文摘等二次文献数据库,又有期刊论文、会议论文等一次文献数据库;既有电子期刊、电子报纸、电子图书数据库,又有学位论文、会议录、专利、标准等的数据库。从数据库的学科范围看,既有单学科的,又有多学科综合性的数据库。从数据库的开发上看,既有书刊代理商,又有出版商,还有研究所、协会、学会等(51)。此外,网络数据库与光盘数据库比较起来,数据更新速度快、周期短,回溯年代前移,如SCI、ISTP、BA、EI等著名文摘索引的印刷版、光盘版一般为每季度或每月更新,而相应的网络版数据库通常是每周更新,电子期刊数据库一般为每周或每日更新,而电子报纸的更新速度则是以小时、分秒计算。

与国外网络数据库的蓬勃发展相比,我国的网络数据库发展应该还是很高速的,但情况也不容乐观。如部分网络数据库的重复建设和学科门类不全给使用带来极大的不便;主要大型数据库没有解决好收录品种不全和收录学科不平衡的矛盾。还有中文数据库的质量也有待提高,现有的数据库所收录的中文文献权威性不够,目前还没有一个中文数据库能像SCI、EI、IEEE等国外权威数据库一样起到评价论文文献的作用。除此之外,由于网络数据库开发成本高,网络数据库的制作部门大多不愿意提供无偿服务,而是有偿使用,或授权相关的图书馆、情报所等在局域网内使用,这实际上也限制了网络数据库的推广,影响了网络数据库不受时空限制的特点。国外的一些大型数据公司通过自己的网站,开放一部分数据资源供公众免费使用。如OCLC公司的FirstSearch数据库就免费提供题录、文摘等信息资源;美国著名的医学检索系统MEDLINE,也通过其网站(52)向全球的用户提供免费服务。可喜的是,最近几年,国内也有一些网络数据库开始这种提供免费服务(53),如中国科学文献数据库、中国科学引文数据库等。

2.3.3 检索功能强大、数据标准规范

目前国外的网络数据库检索功能强大,使得网络数据库在信息检索的检全率、检准率以及检索的灵活性、方便性等方面较之其他形式的出版物更突出、更具优势。这些网络数据库对文献内部之间的揭示较好,大多支持篇目内容检索和整刊检索,提供基本检索、高级检索、二次检索;检索入口较多,包括题名、关键词、著者、刊名等;能提供多种链接,如引文、作者、期刊等;且相互之间跳转自由,检全率、检准率相对较好。在检索结果的显示与输出上灵活、多样,不仅表现在检索结果的显示方式灵活、多样,用户可以灵活选择显示方式,包括是否显示摘要,检索结果的排序方式以及每屏显示的记录数和某些文献的特殊处理等;而且检索结果的输出方式也呈现多样化,既可以存盘、下载打印、浏览,又可以E-mail发送,或将检索结果直接输出到其他软件(54)。在网络数据库的标准、规范上,国外的网络数据库采用超文本、多媒体等先进成熟的信息处理技术,遵循Z39.50等通用的标准、协议与规范,使用Internet Explorer、Netscape等通用、标准浏览器,以及PDF格式文档标准阅读器Acrobat Reader等,既便于用户的操作使用,又便于数据的交换与系统的扩展整合,同时也为数据库的稳定、畅通使用提供了保证。数据格式多元,大多采用国际上通用的PDF、ASCII(TEXT)及HTML等格式(55)

国内的网络数据库,学习和借鉴了国外的成功经验和先进技术,在检索功能、检索方式以及检索结果的显示上并无明显的区别和差距,但文献收集的回溯功能不强,对国内一些较重要的数据有漏录的现象;数据库的开发建设,缺乏统一的标准和规范,从而影响到数据库的扩展和整合;漏检、误检、检重现象相对较高;此外国内的网络数据库使用一些非通用性浏览器,给用户的使用带来许多不便(56)

2.3.4 扩展整合功能加强、服务细致周到并更具有个性化

在Internet互联网高速发展的今天,作为信息资源数据库主流的网络数据库,大多具有扩展与整合功能,这既是数据库用户的需求,也是信息时代网络技术发展的必然。数据库的扩展、整合功能是指用户通过网络(主要是Internet互联网),利用数据库技术,在不同的信息资源(可视为不同数据库)之间进行链接,将原本相对独立、但互为联系的信息资源与服务整合在一块,使之形成为一个互动的有机整体,用户只需透过同一界面,即可迅速查到并获取自己所需要的信息。目前,国外数据库提供的扩展、整合功能主要包括:与图书馆馆藏资源的链接与整合;与其他数据库的链接与整合;与原始文献的链接;与Internet网上资源的链接等多种形式。在信息资源数据库扩展、整合等功能不断加强的同时,国外的数据库也非常重视数据库的服务功能。不仅考虑用户对数据库使用的广泛性,而且特别注重信息资源数据库的个性化服务,主要包含文献传递和个性化的定制服务等,从而帮助用户方便、及时地了解、追踪、获取自己真正需要的最新信息,减少信息查询和检索的负担,提高数据库的使用效率。

国内的信息资源数据库在扩展、整合功能上,由于信息资源数据库的建设各自为政,无论是信息资源的重复建设,还是数据库之间的跨库检索,都存在着许多的问题,这都为信息资源的扩展整合带来众多的障碍,不同程度地影响到信息资源的扩展与整合。国内信息资源数据库缺乏统一的规范标准,不仅影响到信息资源的扩展整合,也为今后国内数据库与国际接轨带来隐患。因此正处于发展时期的国内信息资源数据库,还有许多的课题需要探讨和完善。要学习国外的先进技术,取长补短,不断改进国内信息资源建设中的缺陷,进一步提高数据库的扩展和整合功能,更好地做好信息资源的服务。在信息资源数据库的服务上,国内的数据库也应向国外学习,在知识产权允许的范围内,更加周到细致地为用户服务,全面提升数据库的服务质量。中国科学数字图书馆迈出了可喜的一步,其数据库信息服务采用IP地址认证方式,当使用单位签署合同后,使用该单位提供的IP地址清单,由项目管理中心汇总上报网络数据库供应商,再由数据库供应商对这些IP地址开放访问权限。文献传递服务则通过检索中西文期刊联合目录,向文献收藏单位发出全文请求,通过电子邮件或邮寄方式获取期刊全文。此外在个性化服务方面使用了Cookies技术,该技术能自动将Cookies发送至浏览器,并储存在客户机的硬盘上,Cookies记录用户访问本站的种种活动,包括个人资源、浏览习惯、使用习惯等,从而提供全面、周到的个性化服务。

3 信息资源数据库的发展趋势

数据库技术从诞生到现在,在不到半个世纪的短暂时间内,已建立起了坚实的理论基础。成熟的商业产品和极其广泛的应用前景,吸引了越来越多的研究者加入,使之成为一个研究者众多且被广泛关注的研究领域。随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战(57)

3.1 数据库技术领域的发展趋势

从20世纪80年代末、90年代初开始,出现以面向对象模型为主要特征的新一代数据库技术。然而,经过十余年的发展表明,面向对象的关系型数据库系统产品的市场发展的情况并不理想,理论上的完美性并没有带来市场的热烈反应。其不成功的主要原因在于,这种新技术的主要设计思想是企图用新型数据库系统来取代现有的数据库系统。这对许多已经运营多年的数据库系统以及积累了大量工作数据的客户,尤其是对大客户来说,是无法承受新旧数据间的转换而带来的巨大工作量及巨额开支的。另外,面向对象的关系型数据库系统使查询语言变得极其复杂,从而使得无论是数据库的开发商家还是应用客户都对其复杂的应用技术望而生畏。面对数据库新技术的问题,近十余年来,国际上一些资深的数据库学者和专家便经常聚集一堂,探讨数据库的研究现状、存在的问题以及未来关注的新技术焦点,如1989年在Laguna Beach,Calif.(58),1990年和1995年在Palo Alto,Calif.(59),“Lagunita”,1996年在Cambridge,Mass.(60),1998年在Asilomar,Calif.(61)的研讨会。2003年的会议在Lowell,Mass.(62)举行,共有25位资深的数据库学者参加。他们就数据库研究的现状和发展趋势展开了深入的讨论,提出了一些重要的观点。与会的学者集中讨论了信息的存储、组织、管理和访问等问题。这些问题受新型应用、技术趋势、相关领域的协同工作和领域本身的技术变革所驱动。信息的本质和来源在不断变化,参与讨论者都意识到Internet、Web、自然科学和电子商务是信息和信息处理的巨大源泉。同时,另一个巨大的信息源即将到来,即廉价的微型传感器技术使得大部分的物体可以实时上报它们的位置和状态。这类信息能支持对移动对象的状态和位置的监视等应用。伴随新的制约与机会,传感信息的处理将会引发许多新环境下的极有趣味的数据库问题。

除了这种新的传感信息的挑战之外,在传统的DBMS相关的问题上,诸如数据模型、访问方法、查询处理代数、并发控制、恢复、查询语言和DBMS的用户界面等主题也面临着巨大的变化。这些问题过去已经得到充分研究,但是技术的发展不断改变其应用规则。例如,磁盘和RAM容量的不断变大,存储每个比特数据的花费不断降低等。虽然访问次数和带宽也在不断提高,但是它们不像前者发展得那样快,不断变化的相对比率要求我们重新评估存储管理和查询处理代数。除此之外,处理器超高速缓存(cache)的规模和层次的提高,也要求DBMS算法能够适应cache大小的变化。这只是由于新技术的发展变迁诱导的对原有算法重新评价的两个例子。另一个推动数据库研究发展的动力是相关技术的成熟。比如,在过去的几十年里,数据挖掘技术已经成为数据库系统重要的一个组成部分。Web搜索引擎导致了信息检索的商品化,并需要和传统的数据库查询技术集成。许多人工智能领域的研究成果也和数据库技术融合起来,这些新的技术使得我们可以处理语音、自然语言,进行不确定性推理和机器学习等(63)

数据库作为一门学科,它的研究范围十分广泛。从数据库技术层面上看,大致可以分为三个主要的领域。首先是数据库管理系统软件的研制。由于DBMS是数据库系统的基础,它提供了对数据库中数据进行存储、检索和管理的功能。因此研制可靠性好、效率高、功能全的DBMS始终是数据库技术的重要研究领域。此外,研制以DBMS为核心的一组相互关联的软件系统或工具软件也是当前数据库软件产品的发展方向。这些在DBMS基础上运行的软件系统包括数据通信(Data Communication)软件、报表书写系统(Re-port Writer System)、表格系统(Form System)和图形系统(Graphics System)等。其次是数据库应用系统设计与开发。在DBMS的支持下,按照用户的需求为某一部门或组织设计和开发一个功能强、效率高、使用方便、结构优良的数据库及其配套的应用程序系统,是数据库应用系统设计与开发的主要内容。数据库应用系统设计的主要研究课题有数据库设计方法、自动化设计工具和设计理论的研究,数据模型和数据建模的研究;计算机辅助数据库设计方法及其软件系统的研究,数据库设计规范和标准的研究等。再者就是数据库理论的研究。数据库理论研究主要集中在关系数据库的理论研究,近十余年来,也开始对面向对象数据库、分布式数据库、多媒体数据库等的理论研究,包括数据模型、规范化理论、并发控制理论等。随着人工智能的发展,人工智能技术与数据库技术的结合势在必行。演绎数据库和知识库系统的研制已成为新的研究方向,特别是数据库的知识发现(Konwledge Discovery in Database,KDD)的方法问题,已成为数据库理论研究中的新热点。从数据库向知识库过渡,将是一个不可避免的发展趋势(64)

3.2 数据库应用领域的发展趋势

随着信息资源数据库应用领域的不断扩大,数据库已不仅仅广泛地应用于信息的管理,而且也大量地应用到工程设计中,这就需要对图形、图像和声音等多媒体数据进行管理,所涉及的数据同传统的管理领域中的数据在格式上也存在很大的区别。而这些非格式化的数据,处理起来也与传统的格式化数据有很大的不同,因此,研究数据库的这些新领域的应用也是一个新的课题。计算机技术的不断发展,处理速度的快速提高,内存和外存空间的增大,为面向对象数据库系统、可扩展的数据库系统、多媒体数据库系统的研究提供了技术支持。

在信息资源数据库应用领域,Internet是目前主要的驱动力,特别是在支持“跨企业”的应用上。在历史上,应用都是企业内部的,可以在一个行政领域内进行完善的指定和优化。但是现在,大部分企业感兴趣的是如何与供应商和客户进行更密切的交流,以便提供更好的客户支持。这类应用从根本上来说是跨企业的,需要安全和信息集成的有力工具。由此产生的新问题需要数据库研究人员去解决。另一个越来越重要的应用领域是自然科学,特别是物理科学、生物科学、保健科学和工程领域,这些领域产生了大量复杂的数据集,需要比现有的数据库产品更高级的数据库的支持。除此之外,也需要对数据分析产生的数据管道进行管理,需要对有序数据进行存储和查询(如时间序列、图像分析、网格计算和地理信息),需要世界范围内数据网格的集成。由此,20世纪80年代中期以来,尤其是进入90年代,数据库技术与其他技术,面向不同的应用领域,出现了数据库的许多新分支。

3.2.1 分布式数据库

在数据库发展初期,数据库的应用都是集中式数据库系统。分布式数据库系统(Distributed DataBase System,DDBS)的研究始于20世纪70年代中期,它是集中式数据库技术和计算机网络技术相结合的产物。1976年到1978年,美国计算机公司(CCA)研制成功第一个分布式数据库系统SDD-1。20世纪80年代,分布式数据库技术成为数据库的主要研究方向并取得了显著的成果,研发出一大批分布式数据库系统。从90年代开始主要的数据库厂商如ORCALE、INGRES、SYBASE、INFORMIX等都对其集中式数据库系统加以改造,逐步加入分布式处理功能,向分布式数据库管理系统方向发展,目前,分布式数据库已进入实用阶段。

3.2.2 Web数据库

数据库技术与Web技术的结合产生了Web数据库,其设计思想是:数据库服务器在后台运行,负责数据的集中存储和快速检索;Web服务器介于数据库服务器(后台)和客户端浏览器(前台)之间,负责接收来自客户端的查询请求后,运行包含在Web页面中的脚本或应用程序,并在数据库中查询数据或将数据传递到数据库中,最后将结果传回给客户端,由客户端的浏览器显示给用户。将Web与数据库结合起来,不仅把Web与数据库的所有优点集中在一起,而且充分利用了大量已有的数据库资源,使用户在Web浏览器上方便地检索和浏览数据库内容。现在,世界上大多数企业和组织都转向了Web应用,利用Web建立信息系统,以Web为中心开展业务。

3.2.3 面向对象数据库

面向对象数据库(OODB)是将面向对象模型、方法、机制与先进的数据库技术有机结合而形成,是支持非传统数据库应用领域的新型数据库系统。它从关系模型中脱离出来,强调在数据库框架中类型、数据抽象、继承和持久性等概念的发展。与传统的面向数据流和面向结构的软件构造方法相比,面向对象技术提供了一种新的认知和表示世界的思想和方法。面向对象数据库具有很好的可重用性和可扩展性,其应用也越来越广泛。

3.2.4 并行数据库

并行数据库(Parsllel DataBase System,PDBS)是以并行计算机为基础,以高性能和可扩展性为目标,利用多处理器结构提供比大型机系统高得多的性能价格比和可用性的数据库系统,被认为是“未来高性能数据库系统”(65)。目前,对并行数据库的研究已取得丰富的成果,出现了一些并行数据库的系统,如ARBRE、BUBBA、GAMMA、GRACE、ERADAT等,一些已商品化数据库管理系统如Oracle、Sybase等也增加了并行处理能力。

3.2.5 多媒体数据库

媒体是信息的载体,多媒体是指多种媒体,包括数字、字符、文本、图形、图像、声音、视频等多种媒体的有机集成。其中数字、字符等称为格式化数据,文本、图形、图像、声音、视频等称为非格式化数据,非格式化数据具有数据量大、处理复杂等特点。多媒体数据库系统(Multimedia DataBase System,MDBS)结合数据库技术和多媒体技术,能够有效实现对格式化和非格式化的多媒体数据进行存储、管理和操纵。

3.2.6 主动数据库

主动数据库(Acive DataBase,ADB)是相对于传统数据库的被动性而言的。传统的数据库只能根据用户或应用程序的服务请求对数据库进行存储、检索等操作,而不能根据发生的事件或数据库的状态主动作出反应。主动数据库系统(ADBS)是指具有各种主动提供服务功能,并以一种统一的机制实现各种主动服务的数据库系统。

3.2.7 数据仓库

被誉为“数据仓库之父”的W.H.Inmon在Buliding the Data Warehoude一书中这样定义数据仓库(Data Warehouse,DW):数据仓库是面向主题的、整合的、稳定的,并且时变地收集数据以支持管理决策的一种数据结构形式。它指出了数据仓库与事务处理系统之间的主要差异。随着信息技术的高速发展,数据库应用的规模、范围和深度都在不断扩大,传统的事务处理已不能满足新形势下应用的需要,数据仓库技术的兴起满足了这一需求。而数据挖掘(Data Mining,DM)是数据仓库中重要的前端工具。数据挖掘又称为知识发现(KDD),是指从大量数据中挖掘出隐含的、先前未知的、对决策具有潜在作用的知识和规则的过程。它基于人工智能、机器学习和统计学等技术,分析原有数据,作出推理,挖掘潜在的模式,帮助决策者调整策略,减少风险,作出正确的决策(66)

4 结束语

本文从信息资源数据库发展的历史、现状、以及目前一些相关热点问题出发,探讨了数据库的发展趋势。在近40年中,数据库研究工作集中在数据库管理系统开发的核心领域上,而数据管理的研究范畴远比这宽得多。因此我们应既重视数据库管理系统的开发,更要关注新的应用领域面临的数据管理问题。我们还需要拓宽数据库研究领域,不断地与新技术和新应用融合。在众多新技术应用中,对数据库最具影响力的是Internet的高速发展,Internet中的数据管理问题从深度和广度两方面对数据库技术都提出了新的挑战。这都需要开拓思路,寻求创新性的技术突破。正如Jim Gray在SIGMOD2004年会的主题发言(67)中提到,数据库体系结构面临革命性变革(68)。新的应用和需要将促使这一变革的到来,这对数据库研究者尤其是我国数据库研究者来说可能面临更大的压力和挑战。

【参考文献】

1.高阳,王坚强,韩庆兰.数据库技术与应用.北京:电子工业出版社,2003

2.徐云彪.数据库原理与技术.浙江:浙江大学出版社,2004

3.王意洁.面向对象的数据库技术,北京:电子工业出版社,2003

4.[美]Greg Riccardi著;管永川,王松等译.数据库系统原理——Internet和Java应用指南.北京:清华大学出版社,2003

5.Abraham Sliberschatz,Henry E Korth,S.Sudarshan著;杨冬青,唐世渭等译.数据库系统概念.北京:机械工业出版社,2003

6.金林樵.网络数据库技术及应用.北京:机械工业出版社,2002

7.贾焰,王志英,韩伟红,李霖.分布式数据库技术.北京:国防工业出版社,2001

8.翟延富.数据库与网络技术-计算机应用.北京:清华大学出版社,2006

9.陆慧娟.数据库原理与应用.北京:科学出版社,2006

10.王珊.数据库技术与应用.北京:清华大学出版社,2005

11.雷景生,靳婷,张志清.数据库系统及其应用.北京:电子工业出版社,2005

12.孟小峰,周龙禳,王珊.数据库技术发展趋势.软件学报,2004,15(12):1822~1836

13.周宁.信息资源数据库.武汉:武汉大学出版社,2002

14.武汉大学图书馆.http://www.lib.whu.edu.cn/(访问时间: 2006/02/22)

15.谢金星,邢文训,凌鸿.SSCI与SCI.http://kyw.swupl.edu.cn/show.aspx?id=313&cid=62(访问时间:2006/02/ 24)

16.李军英,潘洁.国内两大全文电子期刊数据库的比较与分析.图书馆学研究,2003(5):36~39

17.金燕,赵蓉英.国内外网络全文数据库比较研究.情报科学,2004(2):228~231

18.陆华娟,刘玥辉.国内三大期刊全文数据库之比较.现代情报,2004(1):75~77

19.姜福奇,刘海航.四种可检引文的中文数据库浅析.现代情报,2004(1):67~68

20.康延兴,李恩科.国内引文数据库发展综述.情报科学,2004(6):126~129

21.金洁琴,黄水清.新版“中国期刊网”专题全文数据库的性能与评价.农业图书情报学刊,2004(3):24~26

22.夏立娟,陈陶.基于Web的ISI三大引文索引数据库引文检索方法.情报科学,2003(6):84~85

23.康延兴,李恩科.我国引文数据库发展的现状与方向分析.情报理论与实践,2004(5):100~102

24.刘雷,朱志清.浅谈网络数据库系统的设计和开发.情报杂志,2003(7):61~63

25.潘越洋.漫谈网络数据库.科技情报开发与经济,2003(2): 88~90

26.赵晓玲.网络数据库中电子期刊与馆藏期刊的编目整合.图书馆建设,2003(6):50~52

27.徐凡.网络数据库开发技巧.计算机时代,2002(7):35~36

28.于亚芳,刘彩红.图书馆面向内容管理的网络数据库建设.图书馆学研究,2002(12):38~39

29.张淼.特色数据库建设中信息发布的研究与实践.图书馆学研究,2004(9):3~4,14

30.凌美秀.我国网络数据库发展的趋势、问题及其对策.中国信息导报,2002(9):28~30

31.陈黎.我国网络数据库发展概观.中国信息导报,2004(9): 41~43

32.邢国春,戴金波,张晓君.基于Web网络数据库技术探析.情报科学,2001(4):61~62

33.吴广印,胡亚莉.非结构化网络数据库在图书情报服务中的应用.现代图书情报技术,2001(1):16~19

34.李世铎,樊来耀.开发网络数据库.电子科技,2001(19): 16~17

35.邓克武.中国期刊网络数据库评析.津图学刊.2001(4): 77~79

36.彭晖,李仁发,常乐.基于网络的数据库开发技术.计算机工程与应用,2000(12):105~107

37.肖珑.国外网络数据库的引进与使用.现代图书情报技术,2000(2):58~60,66

38.王德英,周蓉.网络数据库信息检索探讨.现代图书情报技术,2000(S2):69~70

39.张晓芬.EBSCO网络数据库综合评价.现代图书情报技术,2000(6):72~74

40.袁津生,安志远.网络数据库的发展及解决方案.华北航天工业学院学报,2000(1):12~17

41.刘彩虹,王野.谈图书馆网络数据库资源建设.图书馆学研究,2000(4):52~54

42.罗亚,胡昌盛.网络数据库系统的开发策略.现代计算机,2000(4):15~22

43.韦筱霞.中国学术期刊题录摘要网络数据库镜像站开始建设.国家图书馆学刊,1999(2):139

44.应峻,徐一新.网络全文数据库资源评价.现代图书情报技术,2005(3):67~69,25

45.许芳敏.中文四大全文期刊数据库比较分析.图书馆工作与研究,2005(2)58~60

46.范爱红.国外数据库产品的个性化服务.现代图书情报技术,2004(8)24~26

47.陆一,孔进发.同方、万方.维普全文期刊数据库网上引文检索的比较.中华医学图书情报,2004(3):61~63

48.刘善文.中国数字化期刊网络系统比较分析.情报科学,2003(10):1058~1060

49.张靖安.三种数据库揭示核心期刊的比较研究.情报科学,2004(2):188~189,195

50.庞景安,黄迎燕.国内外专利引文数据库的研究与发展.情报科学,2004(2):182~188

51.侯小俊.国内外四大学位论文数据库比较研究.情报杂志,2005(2):107~109

52.钱菁.网络数据库安全机制研究[硕士学位论文].华中师范大学,2002

53.孙艳,董明强,王栋,雒红.从EBSCOhost检索系统看全文数据库的发展特点.情报杂志,2005(9):115~116

54.聂哲.数据库发展新技术.计算机时代,2002(12):7~8

55.周宇葵,杜方冬.数据库发展之现状.现代图书情报技术,2000(5):58~59,66

56.郑士贵.信息数据库的发展趋势.管理科学文摘,1999(1): 38

57.傅敏.谈数字图书馆信息组织的数据库技术.中国图书馆学报,2005(1):56~58

58.刘佳.中文科技文献网络数据库发展概述.http://202.120.227.62/zgsy/2003n2/zhongwenkeji.htm(访问时间:2006/02/ 22)

59.谈春梅,田质兵.电子信息资源数据库的开发设计及技术特点.中国图书馆学报,2003(6):62~64

60.张悦.全文信息资源数据库技术实现及开发利用分析.情报资料工作,2002(5):59~61

61.谈春梅,段卫华,刘伟.电子信息资源数据库检索系统的开发与实现.中国图书馆学报,2002(6):52~55

62.石国玲.国家基础信息资源数据库.电脑与电信,2002(9): 47~49

63.谈春梅,叶继元,汪令全.图书馆电子信息资源数据库系统的开发研究.中国图书馆学报,2001(6):64~66,72

64.杨志萍.INTERNET网中科技信息资源数据库.情报科学,1998(3):65~68

65.赵伟.国外网络数据库的特点及检索策略初探.教育信息化,2005(4):31

66.严国丽,王瑞胡.基于关系模式范式理论的图书馆网络数据库的设计.电脑知识与技术,2005(27):6~7

67.朱丽君.网络数据库发展趋势及利用.图书馆学研究,2004(3):22~23

68.温钧.前进——2000年网络数据库技术[N].大众网络报,2000-12-18(9)

69.刘健辉,陈安阳.我国网络数据库建设亮点评析.图书与情报,2003(2):55~57

70.杨祖国,朱贵玲.国外全文电子期刊数据库比较研究.情报科学,2004(3):97~100

71.王红玲,张齐增.网络环境下图书馆特色信息资源数据库构建浅析.河南图书馆学刊,2004(1):41~45

72.黄清芬.浅谈数字图书馆的资源库建设.科技情报开发与经济,2004(3):6~7

73.陈雁捷.“货”真价实网上行——试论图书馆特色信息资源数据库建设.图书馆理论与实践,2002(3):31~33

img47

【作者简介】陆颖隽,男,1963年生,湖南邵阳人,副教授,日本国立弘前大学理学硕士,武汉大学在读博士。主要研究方向:数字图书馆及数字图书馆实现技术。主讲“信息资源数据库”、“网页设计与网站建设”、“虚拟现实技术及其应用”、“多媒体技术及其应用”等课程。曾荣获国家科技成果完成者证书(1998),武汉市发明二等奖(1999),武汉市科技进步二等奖(1999),武汉大学青年教学竞赛优秀奖(2002)。主要论文有:《Implementation of Software Magnetometer》、《The Development of the VR Motion Tracking System by the Flux-gate Magnetometer》、《版本与中国现代文学研究》、《袁昌英先生译著目录》等。参与国家社科基金项目、人文社会科学重大项目、武汉市创新基金项目各一项。此外,1992年加入武汉作家协会,曾在《中国作家》、《文学月报》、《长江文艺》、《芳草》等报刊发表文学作品、文学评论40余篇(首),两次获文学竞赛奖。

【注释】

(1)1973年C.W.Bachman在数据库技术、1981年E.F.Codd在关系模型、1998年James Gray在事物处理技术上的创造性思维和开拓性工作荣获该年度图灵奖

(2)高阳,王坚强,韩庆兰.数据库技术与应用.北京:电子工业出版社,2003:6~8

(3)王意洁.面向对象的数据库技术.北京:电子工业出版社,2003:2

(4)http://www.ibm.com/us(访问时间:2005/12/24)

(5)[美]Greg Riccardi著;管永川,王松等译.数据库系统原理——Internet和Java应用指南.北京:清华大学出版社,2003:120

(6)王意洁.面向对象的数据库技术,北京:电子工业出版社,2003: 19~21

(7)http://isi01.isiknowledge.com/portal.cgi?DestApp=WOS&Func= Frame(访问时间:2005/12/26)

(8)http://isi01.isiknowledge.com/portal.cgi?DestApp=WOS&Func= Frame(访问时间:2005/12/26)

(9)http://www.engineeringvillage2.org.cn/(访问时间:2006/01/13)

(10)http://isi01.isiknowledge.com/portal.cgi?DestApp=ISIP&Func= Frame(访问时间:2006/02/14)

(11)http://isi01.isiknowledge.com/portal.cgi?DestApp=ISIP&Func= Frame(访问时间:2006/02/14)

(12)http://search.epnet.com(访问时间:2006/02/14)

(13)http://elsevier.lib.tsinghua.edu.cn(访问时间:2005/12/25)

(14)http://firstsearch.oclc.org/FSIP(访问时间:2005/12/25)

(15)http://kluwer.calis.edu.cn/(访问时间:2006/02/15)

(16)http://springerlink.lib.tsinghua.edu.cn(访问时间2006/2/15)

(17)http://www.blackwell-synergy.com(访问时间:2006/02/15)

(18)http://www.jstor.org/(访问时间:2006/02/15)

(19)http://ieeexplore.ieee.org(访问时间:2006/02/15)

(20)http://csa.tsinghua.edu.cn/htbin/dbrng.cgi?username= uh99&access=wuh999&lang=zh(访问时间:2006/02/09) w

(21)http://worldscinet.lib.tsinghua.edu.cn(访问时间:2006/02/09)

(22)http://www.chinajournal.net.cn/、http://ckrd.cnki.net/grid20/Navigator.aspx?ID=1(访问时间:2006/02/21)

(23)http://www.cnki.net/index.htm、http://www.chinajournal.net.cn/(访问时间:2006/02/22)

(24)http://www.tydata.com(访问时间:2005/12/25)

(25)http://www.cscd.ac.cn/、http://sdb.csdl.ac.cn/cscd.jsp(访问时间:2006/02/22)

(26)http://www.wanfangdata.com.cn/(访问时间:2006/02/22)

(27)http://cssci.nju.edu.cn/(访问时间:2006/02/22)

(28)http://www.21dmedia.com.cn/ebook/(访问时间:2006/02/22)

(29)http://www.ssreader.com/(访问时间:2006/02/22)

(30)http://book.sslibrary.com/(访问时间:2006/02/22)

(31)http://unicat.csdl.ac.cn/(访问时间:2006/02/24)

(32)参见方正数据资源系统http://www.wanfangdata.com.cn/(访问时间:2006/02/24)

(33)参见中国人民大学书报资料中心http://www.confucius.cn.net/(访问时间:2006/02/24)

(34)http://202.114.65.36:5050/cgrs/index.jsp(访问时间:2006/02/ 24)

(35)参见中国知网http://www.cnki.net/index.htm(访问时间:2006/ 02/24)

(36)参见中国知网http://www.cnki.net/index.htm(访问时间:2006/ 02/24)

(37)参见上海图书馆专业门户http://www.libnet.sh.cn/(访问时间: 2006/02/24)

(38)http://www.nlc.gov.cn/(访问时间:2006/02/24)

(39)http://www.d-library.com.cn/index.jsp(访问时间:2006/02/24)

(40)http://www.library.sh.cn/(访问时间:2006/02/24)

(41)http://www.las.ac.cn/index.jsp(访问时间:2006/02/24)

(42)http://www.lib.pku.edu.cn/(访问时间:2006/02/24)

(43)http://www.lib.tsinghua.edu.cn/(访问时间:2006/02/24)

(44)参见国防大学数字图书馆建设记事http://news.xinhuanet.com/mil/ 2004-12/24/content_2376949.htm(访问时间:2006/03/02)

(45)http://library.nudt.edu.cn/(访问时间:2006/02/24)

(46)http://www.zslib.com.cn/(访问时间:2006/02/24)

(47)http://www.lnlib.com/(访问时间:2006/02/24)

(48)http://www.szlib.gov.cn/(访问时间:2006/02/24)

(49)http://www.founder.com.cn/(访问时间:2006/02/24)

(50)刘佳.中文科技文献网络数据库发展概述.http://202.120.227.62/ zgsy/2003n2/zhongwenkeji.htm(访问时间:2005/12/20)

(51)罗春荣.国外网络数据库:当前特点与发展趋势.中国图书馆学报,2003(3):43

(52)http://www.ncbi.nlm.nih.gov/pubmed

(53)刘佳.中文科技文献网络数据库发展概述.http://202.120.227.62/ zgsy/2003n2/zhongwenkeji.htm(访问时间:2005/12/20)

(54)金燕,赵蓉英.国内外网络全文数据库比较研究.情报科学,2004(2):229~230

(55)罗春荣.国外网络数据库:当前特点与发展趋势.中国图书馆学报,2003(3):44

(56)应峻,徐一新.网络全文数据库资源评价.现代图书情报技术,2005(3):68~69;金燕,赵蓉英.国内外网络全文数据库比较研究.情报科学,2004(2):231

(57)孟小峰,周龙禳,王珊.数据库技术发展趋势.软件学报,2004,15(12):1823

(58)Bernstein P.,et al.Future directions in DBMS research—The laguna beach participants.SIGMOD Record,1989,18(1):17-26

(59)Silberschatz A.,Stonebraker M,Ullman J.D..Database systems:Achievements and opportunities.CACM,1991,34(10):110-120;Silberschatz A,Stonebraker M,Ullman J.D..Database research,achievements and opportunities into the 21st century.SIGMOD Record,1996,25(1):52-63

(60)Silberschatz A.,Zdonik S.B..Strategic directions in database systems—Breaking out of the box.ACM Computing Surveys,1996,28(4):764-778

(61)Bernstein P.,et al.The asilomar report on database research.SIGMOD Record,1998,27(4):74-80

(62)Abiteboul S.,et al.The Lowell Database Research Self-Assessment Meeting Lowell Massachusetts,2003.http://research.microsoft.com/~gray/lowell(访问时间:2006/02/22)

(63)孟小峰,周龙禳,王珊.数据库技术发展趋势.软件学报,2004,15(12):1824

(64)徐云彪.数据库原理与技术.浙江:浙江大学出版社,2004:36~37

(65)高阳,王坚强,韩庆兰.数据库技术与应用.北京:电子工业出版社,2003:311

(66)高阳,王坚强,韩庆兰.数据库技术与应用.北京:电子工业出版社,2003:323~326

(67)Gray J.The revolution in database architecture.In:Weikum G,K9nig AC,Deβloch S,eds.Proc.of the ACM SIGMOD Int’l Conf.on Management of Data.ACM Press,2004.1~4

(68)孟小峰,周龙禳,王珊.数据库技术发展趋势.软件学报,2004,15(12):1834

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈