首页 百科知识 数据库知识

数据库知识

时间:2022-06-20 百科知识 版权反馈
【摘要】:数据库是指由计算机进行处理的一定数量同类信息的有序集合,是用来存储和查找文献信息的电子化检索工具。检索书目数据库得到的最终结果是所要的文献刊登或收藏在什么地方。使用全文数据库,免去了查询书目数据库后还得奔波去获取原文的麻烦。在使用全文数据库时需要注意的是,批量下载电子全文是侵犯知识产权的违规行为。

第二节 数据库知识

计算机检索的对象是数据库和互联网上的各种信息资源。数据库是指由计算机进行处理的一定数量同类信息的有序集合,是用来存储和查找文献信息的电子化检索工具。

一、数据库的类型

1.书目数据库(bibliographic database) 书目数据库是文献检索中最常见的一类数据库,它提供文献的各种特征,如文章的标题、作者、文献出处(刊名、年、卷期、页码)、文章摘要、引文信息、馆藏单位等。检索书目数据库得到的最终结果是所要的文献刊登或收藏在什么地方。书目数据库有题录型数据库、文摘型数据库、馆藏书目数据库等,如文摘型生物医学数据库有PubMed、EMBase(荷兰医学文摘)、BIOSIS Previews(生物学文摘)、CBM(中国生物医学文献数据库)等,馆藏书目数据库有复旦大学图书馆馆藏书目系统、《华东地区西文生物医药期刊馆藏联合目录》等。

2.事实数据库(fact database) 事实数据库提供问题的答案,如机构、人物、事件、疾病的诊断和治疗、药物的用法和副作用等信息。例如,反映癌症研究信息的PDQ(Physician Data Query)、反映药物处方信息的PDR(Physicians’Desk Reference)、查询化合物基本信息的Crossfire Beilstein/Gmelin、《中国企业、公司及产品数据库》等。电子化的参考工具书,如词典、百科全书、指南等也属于事实性数据库。

3.数值数据库(numeric database) 数值数据库提供数值信息,包括统计数据、实验数据、人口数据、化学品理化参数等。这一类的数据库有:美国国立生物技术信息中心(NCBI)的Genbank(基因库),美国疾病控制与预防中心(CDC)网页上的Data and Statistics,世界卫生组织的WHOSIS(WHO Statistical Information System,世界卫生组织统计信息系统),查询期刊影响因子等数据的Journal Citation Reports等。

4.全文数据库(full text database) 全文数据库直接提供原文,是近年来发展迅速和深受欢迎的一类数据库。使用全文数据库,免去了查询书目数据库后还得奔波去获取原文的麻烦。中文全文数据库有清华同方的“中国期刊全文数据库”、四川维普的“中文科技期刊数据库”、万方数据资源系统中的“数字化期刊全文库”、提供图书全文阅读的“超星数字图书馆”等。西文全文数据库有Elsevier ScienceDirect,ProQuest Health and Medical Complete,等等。电子全文最常见的格式为PDF,用Acrobat Reader软件阅读。在使用全文数据库时需要注意的是,批量下载电子全文是侵犯知识产权的违规行为。

5.图像数据库(image database,Atlas Online) 图像数据库以图像为信息主体,配有文字解释,如解剖图谱、中药图谱、诊断图谱、手术图谱等。医学图像数据库中有用CT或MRI等制成的影像类图像数据库,也有照片类、绘画类图像数据库。美国国立医学图书馆的The Visible Human Project(可视人计划)和哈佛大学医学院的The Whole Brain Atlas(全脑图谱)就是高质量的影像类图像数据库。近年来,互联网上供免费使用的医学类图像数据库越来越多。

二、数据库的结构

数据库由文档构成,文档由记录构成,记录由字段构成。

1.文档(file) 文档是指数据库中的顺排文档和倒排文档。顺排文档是数据库的主体,又称主文档,它按每条记录的顺序号大小排列。检索结果的信息都来自于顺排文档。倒排文档是供快速检索顺排文档的工具,在一个数据库中可以有若干个,如主题词索引、著者索引、刊名索引等,它按索引词的字母顺序排列。检索时,计算机按输入检索词的字顺先从指定的倒排文档中找到相匹配的索引词,然后根据索引词后的记录顺序号到主文档中调出记录。

文档的另一概念是大型检索系统中的子数据库,它依据数据库所属的学科和时间范围而定。例如,著名的国际联机检索系统Dialog分有自然科学人文社会科学、经贸信息等在内的900多个文档,如5号文档为BIOSIS Previews,154文档为1990年以来的Medline、155文档为1966年以来的Medline。

2.记录(record) 记录是构成文献数据库的基本单元,它揭示文献的内容特征和外表特征。在书目数据库中,一条记录代表一篇文献,如一篇期刊论文(journal article)、一篇综述文献(review)、一本专著(monograph,book)、书中的一个章节(chapter)、一篇专利说明书(patent document)、一篇会议论文(conference paper,meeting article)、一本会议论文集(proceedings)、一篇学位论文(dissertation)、一种期刊(journal,periodical)等。记录与文献的概念区别在于:前者含有数据库加工信息,如主题词、文献类型、记录顺序号等;后者的内容全由作者提供,对应的是文献的原文。

3.字段(field) 字段是组成记录的数据项。书目数据库中的字段反映一篇文献的具体特征,如题名字段、著者字段、文献来源字段(又称文献出处)、主题词字段、关键词字段、文摘字段、语种字段等。每个字段都有自己的字段标识符(field tag)以供识别,如TI表示题名、AU表示著者、SO表示文献来源、AB表示文摘。把记录细划成字段的作用有:帮助识别记录内容,方便检索结果输出时的格式选择,便于进行字段限定检索。

题名、著者、文献来源3个字段构成题录。题录是检索结果显示和文献后所列参考文献的常用格式,也是获取原文所需要的基本信息。

三、数据库的访问

数据库访问是指用户从网络终端成功登录进数据库并对其进行检索操作。

1.数据库的存放地点 按数据库的存放地点划分,可分为自建数据库、本地镜像数据库、远地镜像数据库、非专线访问数据库、专线访问数据库等。

自建数据库一般存储在本单位的数据库服务器上,有的仅限于本单位用户使用,如复旦大学图书馆自建的“教学参考书数据库”,有的向互联网用户免费开放。

本地镜像数据库是存储在本单位服务器上的由数据库供应商提供的数据库,例如“中国期刊全文数据库”和“万方数据资源系统”在复旦大学图书馆的镜像站。设立数据库本地镜像站的优点是并发用户数多、访问速度快,缺点是存储数据的硬盘空间成本高、最新入库的数据更新慢。

远地镜像数据库是存储在外单位服务器上的数据库。为了降低数据库的订购成本,多家图书馆联合组成集团(consortium),由牵头图书馆出面统一订购,称为集团订购。部分集团订购的引进数据库在国内设有镜像站,这样可以节约网络通讯费和提高访问的速度,例如设在清华大学的SpringerLink电子全文库镜像站。

非专线访问的数据库是指数据库供应商提供的数据库主站,每次访问时要计用户的网络通讯费,如MathSciNet。专线访问的数据库不计通讯费,因为数据库订购费用中已包含了数据库检索的国际通讯权。国内用户使用的OVID和Web of Knowledge就是专线访问的数据库。

2.数据库使用的免费与收费 按收费与否,数据库分免费和收费两大类。

对于免费数据库,任何接通互联网的计算机只要有相应的检索客户端(大多数用IE),就可以进行免费访问。提供免费检索的数据库有:美国国立医学图书馆的PubMed,美国国立癌症研究所的Physician Data Query,清华同方的“中国期刊全文数据库”文摘版,四川维普的“中文科技期刊数据库”文摘版,各图书馆馆藏书目查询系统(OPAC),等等。

学术型文献数据库中大多数为收费数据库。数据库收费分机构订购和个人订购两种情况。

机构订购的数据库多采用IP地址控制使用权限,用户在授权范围(如校园网)内可以随意访问本单位订购的数据库和试用数据库。从校园网之外的学生宿舍访问数据库需要设置代理服务器,例如复旦大学学生公寓须用本校网络中心提供的免费代理地址61.129.42.30和端口8080进行访问。教师在自己的家里设置学校提供的代理服务器,再用学校网络中心或人事处给予的用户名和密码,也能像在办公室一样进行收费数据库的检索。

用户个人订购数据库的方式通常是购买充值卡,在获得用户名和密码后即可检索访问。以订购“中国知网”数据库为例,付费方式有以下10余种:通过各地售卡网点购买知网卡充值,通过银行卡充值,通过中国移动的神州行充值卡充值,通过易宝支付(YeePay)充值,通过中国邮政网汇通卡充值,通过互联星空宽带账号充值,通过手机银行充值,通过无忧钱包充值,通过CNKI卡城购买虚拟卡充值,银行电汇充值,邮局汇款充值,固定电话充值,手机短信充值。

img3

图1-2-1 代理服务器的设置

3.代理服务器的设置 设置代理服务器是为了用授权的IP地址进行收费数据库的检索。代理服务器的设置步骤是:打开浏览器IE→在“工具”下拉菜单中选“Internet选项”→点击“连接”选项卡→选“局域网设置”→勾选“为LAN使用代理服务器”,分别输入地址和端口(图1-2-1),点击“确定”→(在Internet选项中)点击“确定”。撤销代理服务器设置的操作是取消“为LAN使用代理服务器”的勾选,点击“确定”。

代理设置完毕,在访问数据库或其他网页时,有时还要输入用户名和密码进行身份验证。

4.并发用户数与超时退出 数据库提供商为了更多的赢利,订购方为了节省开支,于是产生了同一数据库在同一时间内有用户数限制的问题。同一时间允许访问数据库的最大用户数称为并发用户数。并发用户数满了,就登录不进。遇此情况,一是避开使用高峰;二是重复进行登录操作,期待有用户退出。为了避免虚占数据库而影响其他用户的使用,在数据库停止操作一段时间后继续操作,屏幕上有可能出现“Your session has expired”(你的访问权已过期)之类的提示。此时,退出已掉线的数据库,重新登录。

习题

1.书目数据库与事实数据库有什么区别?

2.把记录划分成字段有什么作用?

3.本地镜像数据库和远地数据库主站有哪些优缺点?

(夏知平)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈