文献检索的方法、步骤和检索结果的评价

时间：2024-10-13 理论教育版权反馈

【摘要】：图2.3检索语言体系2.2.1分类语言与分类法分类语言分类语言是用分类号和相应分类款目来表述文献的概念,并将各种概念按照学科属性系统组织起来的一种检索语言。中图法、科图法等均属于此类。专利检索中常用的国际十进分类法即为一种用途十分广泛的组配分类法。

图2.3　检索语言体系

2.2.1　分类语言与分类法

(1)分类语言

分类语言是用分类号和相应分类款目来表述文献的概念,并将各种概念按照学科属性系统组织起来的一种检索语言。将文献内容按照知识门类的逻辑秩序,从一般到具体,从简单到复杂,层层划分,每次划分,则产生许多类目,形成的每个类目用分类号作标识,每个分类号就是特定的知识概念。一系列的分类号组成类表。目前国内利用分类语言编制的分类法主要有《中国图书馆分类法》(简称“中图法”)、《中国科学院图书馆图书分类法》(简称“科图法”)、国外的有美国的《杜威十进分类法》(简称“杜威法”或DDC)、《美国国会图书馆图书分类法》(简称“国会法”或LCC)、印度的《冒号分类法》(简称CC)。

分类语言能反映事物的从属派生关系,便于按学科门类进行族性检索。按照分类方式的不同,分类语言又分为体系分类语言、组配分类语言和混合分类语言。

1)体系分类语言

按学科体系从综合到一般、从复杂到简单、从高级到低级层层展开,逐级细分,所形成的序列规范检索词称体系分类语言。中图法、科图法等均属于此类。

2)组配分类语言

它是采用规范的或成熟通用的词汇概念加上信息内容特征概念进行组配而成的检索语言。一般按学科性质分组,又称“组面”。

组配分类法是在体系分类法的基础之上建立的,组配分类法以概念体系为中心,其原理是基于概念的可分析性和可综合性,从而采用分析——综合手段,通过概念的组配可以将有限的基本类目括充、组配成无限的主题概念,组成分类标识的各个因素也可随用户的需要而变换,因而具有极大的灵活性。专利检索中常用的国际十进分类法(UDC)即为一种用途十分广泛的组配分类法。

3)混合分类语言

它是结合了体系分类语言和组配分类语言所形成的检索语言。又因对两者的侧重点不同,混合分类语言又可明显地分为体系——组配分类语言和组配——体系分类语言。

(2)中国图书馆分类法介绍

《中国图书馆分类法》(简称《中图法》)是中国目前图书情报界广泛使用的一部综合性分类法。它是在科学分类的基础上,结合图书的特性编制的分类法。

1971年2月,北京图书馆倡议,省、市、自治区图书馆,高校图书馆以及中国科技情报所等36个单位共同参与,于1975年10月由科学技术文献出版社正式出版,产生了《中国图书馆图书分类法》的第1版。1999年第四版起更名为《中国图书馆分类法》。2010年9月出版第五版。《中图法》采用英文字母与阿拉伯数字相结合的混合编码形式,一个字母代表一个大类,即一级类目。不同的字母与数字组合代表不同级次的类目,其中有一个特殊的是工业技术用双字母代表二级类目。

在分类法中,类号和类目密不可分,它们一一对应,并由全部类号对全部类目构成一种“映射”,以便把类目进一步代码化、“数字化”,为各种知识门类的整理和有序化建立基础。可以说,类号和相应的类目,就是分类法这个有机系统的最基本的“细胞”。例如:

TP24①　机器人技术②

①分类号②类目

《中图法》将图书分为5个基本部类,22个基本大类,在每一个大类下面再根据学科内容层层展开,共53 81 1个类目。表2.1展示了《中图法》的基本大类。

表2.1　《中图法》的基本大类

pagenumber_ebook=61,pagenumber_book=61

(3)图书馆索书号组成与图书排架

索书号是由字母数字组成的分类号和种次号组成的类号,即索书号=分类号+种次号(著者号),如《信息检索与利用》在图书馆的索书号为G252．7/40,那么G252．7则是在《中图法》中“文献检索”的分类号,而40是根据此种图书的入馆先后顺序由图书馆给出的种次号,组合在一起则是索书号。图书馆的所有图书都是按照索书号排在书架上的,由于每一种图书索书号的唯一性,便可据此确定它在书架上的具体位置,这是我们根据其他途径查到图书时再到架位上找到该书的一个重要标志,因为大多数图书馆都是按照《中图法》排架的。

那么不同索书号的排列先后顺序是如何确定的?

索书号要对位排列,即先比较字母(按英文字顺)再比较数字,数字排序采用位比法十进制(按小数制的排列方法),小的在前,大的在后,同位数字相同,再比较下一位数字。

(4)分类语言的优势与不足

1)优势

严密性和系统性是其主要特征。分类法是一种体现知识分类等级概念的标识系统,具有按学科或专业集中、系统揭示文献信息内容的功能,用分类方法检索文献具有较高的查全率;分类法将概念逐级划分,具有等级结构,便于扩大和缩小检索范围,最适用于系统检索与浏览查询;分类法既能用于组织检索工具和检索系统,又能用来组织图书资料的分类和排架。

2)不足

不易反映学科交叉、渗透的情况,也不易准确标引或检索主题概念复杂的文献。

分类法体系虽有其本身固有的缺陷,但仍不失为一种重要的检索语言,借助于它而编制的各种分类索引系统,有着广泛的应用价值。长期以来,图书馆就是使用它作为整理、揭示藏书、帮助人们检索的基本手段。熟悉自己学习或从事的专业在分类法中的位置是十分有用的。

2.2.2　主题语言与主题法

(1)主题语言

主题语言是用自然语言中的词、词语来描述文献所论述或研究的事物概念,并按其字顺序组织起来的一种检索语言。这些用来表达的经过选择的词或词语就是主题词。主题语言是一种描述语言,因为主题语言直接借助于自然语言的形式,所以比较直观,表达概念唯一,而且多个主题词可以级配,也就是说同一篇文献可用多个主题词标引,形成专指性较强的概念,所以检索专指性强或较复杂性的课题时比较方便。

(2)主题语言类型

主题语言根据主题性质的不同,可分为标题词语言、关键词语言、叙词语言和单元词语言。

1)标题词语言——规范化的主题词

标题词(subject headings)就是用于标引和查询信息主题概念的规范词。标题词又大多分为主标题词和副标题词,如果采用多级标题,那么副标题词还可细分为第三级、第四级标题。主标题词和副标题词在编制标题词表时已固定组配好,所以它属于先组式检索语言。

标题词语言又称为标题法,是最早出现的检索语言,故又称为传统式主题法。标题词语言是用经过规范化处理的名词术语来表达文献的主题,并将全部标题词按字顺排列起来而形成的一种检索语言。

例如,一篇关于计算机的设计和一篇关于计算机维修的文章,都可直接用“计算机”来作为标题词。它们在标题词系统中都是按“计”字排列集中在一起的。但是,如果一篇文章用“微型计算机”这个术语来叙述它的研究对象;另一篇文章用“微型电脑”这个术语来叙述它的研究对象;第三篇文章用“微机”这个术语来叙述。虽然都表示同一概念,这时就不能直接用“微型电脑”或“微机”来作为标题词了,这3篇文章都必须用“微型计算机”作为标题词(根据词表决定)。因为这3个术语是等同概念,如果同时用3个术语来标引,便会导致文献被分散放置。当然,可采用参照系统来补救,如读者若从“微型电脑”或“微机”入手检索,则都可在标题词表中看到“见:微型计算机”的参照提示。

标题法的主要特征是事先编表,标题词以固定的组合方式在主题表中形成标题。《美国国会图书馆标题表》(Library of Congress Subject Headings,LCSH)和美国工程信息公司编制的《工程标题词表》(简称SHE)是其主要代表。不过在1989年之后,美国工程索引的标题词法已经改为一种接近叙词的中间过渡受控词表了。

2)关键词语言——可轮排的未经规范化处理的主题词

关键词语言不经过预先处理,是一种用自然语言做检索标识的检索语言,因此在信息组织中有广泛的应用,网上各种搜索引擎和数据库大多采用了关键词法,如网易、搜狐等搜索引擎。由于关键词没有经过规范化,虽有直观等优势,但对文献查找的查全和查准还是有影响。

用关键词法编制索引特别快,因为既不需要规范化处理,又大多采用计算机自动抽词,即使有些不规范也不要紧。20世纪60年代,美国化学学会率先出版机编Chemical Titles(化学题录),之后美国生物科学情报社、费城科学情报所等紧随其后,产生了越来越多的机编关键词索引。有代表性的关键词语言编制的检索工具有《化学文摘》(CA)中的关键词索引。

在发展历史上,关键词法放弃了传统的对主题词的规范化努力,力图另辟蹊径,以适应机检需要。

3)单元词语言——可组配的主题词

单元词(uniterm)语言是从标题词语言分离出来的,单元词是一种基本的、不能再分的单位词语,也称元词。单元词是从信息内容特征中抽取出来,经过规范且只表达唯一独立概念的检索语言。例如,“机械工程”就不是单元词,因其可再分为“机械”和“工程”两个单元词。

单元词法是根据一个复杂概念可以用简单概念组配而得的原理产生的。类似于原子的概念,如果把一个词或词组,一再细分,使其不能再分,否则就失去该词的本身含义,这就是单元词。

字面组配是单元词语言的基本原理。如“大学”+“教育”组成“大学教育”,“熊猫”+“洗衣粉”组成“熊猫洗衣粉”,但是“大学教育”是正确的,而“熊猫洗衣粉”则是错误的。又如“马车”,不能等于“马+车”、“铁路”也不等于“铁”+“路”,于是“马车”“铁路”“乌鲁木齐”等就应是单元词。单元词法可大大减小词表的体积,而且便于灵活组配、发展和扩充(后组式特点)故有些先天优点。但由于自然语言现象太复杂,使用单元词易发生“误配”,产生漏检或误检,可靠性太差,因此早已被淘汰。

不多的一些使用单元词语言的检索工具有《化学专利单元词索引》和《世界专利索引(WPI)——规范化主题词表》等。

4)叙词语言——规范化、可组配、可轮排、便于计算机检索的主题词

叙词又称描述词(descriptor),它集成了标题词法的规范化、单元词法的后期组配、关键词法的轮排等优点,其科学性和使用性都比较好,因此现在成了大多数检索工具或文献数据库普遍采用的一种检索语言。

叙词语言是以叙词作为信息标引和信息获取依据的一种检索语言,故又称主题词语言。叙词语言是多种检索语言的综合应用,它的基本原理是概念组配。

①概念组配和字面组配——标题词、单元词和叙词的比较

概念组配是概念的分析和综合,而不是简单的依据字面意义进行组词和拆词。例如,“通信对抗”可用“通信”和“电子对抗”两个概念进行有效组配,简单地用“通信”和“对抗”进行组配是不正确的。

概念组配也是叙词语言的基本原理。概念组配与字面组配在形式上有时相同,有时不同,而从性质上来看两者区别是很大的。字面组配是词的分析与组合(拆词);概念组配是概念的分析与综合(拆义)。

例如,单元词可以自由组配,这是一个优点,它比标题词必须预先设定(即最初就应把标题词搭配好)好得多,但单元词的自由组配却是采用字面组配(如香蕉+苹果=香蕉苹果),而叙词则采用概念组配(香蕉味食品添加剂+苹果=香蕉苹果)。

②叙词的规范化处理

除了关键词外,其他几种主题词都需要进行规范化处理,这是由于自然语言中的文字、语音和语词都是十分庞大的集合,具有极其丰富的表达能力,但也往往带来大的模糊性和不确定性。例如,有这么一个小故事:

一个节日,某君邀请了4个朋友来家中作客。到时,只来了A,B,C 3位,老D不知何故久等不到。某君心里暗自着急,不由自语道:“怎么该来的却不来?”

客人老A听了颇感不快,自思道:“我大概是不该来的吧!还是走了的好!”于是老A不辞而去。主人见老D未到又走了老A,心里更着急,不由又冒一句出来:“唉呀,不该走的又走了!”客人老B听了,也觉心里不是味,暗忖道:“莫非我是该走的么?那好,我也走吧!”这样又走了老B。

客人老A和老B都先后走了,剩下一个老C。他见主人心甚不安,就好心劝告主人说:“你说话可要当心,两位客人都被你气走了!”主人赶忙解释:“老兄,别误会。其实我并不是说的他们两人啊!”

老C一听,似有所悟:“哦,原来是冲我说的!那我也该走。”

【思考题】

这个故事主要涉及什么逻辑错误?(NOT)

表2.2是叙词中有关同义词规范化处理的例子。

表2.2　叙词同义词的规范化

pagenumber_ebook=64,pagenumber_book=64

续表

pagenumber_ebook=65,pagenumber_book=65

我国港澳台地区的许多用语比较特殊,一般不用作检索词。例如,对于cancer(癌)称为“砍杀尔”,把LASER译为“镭射”(实际上是LD激光电影),等等。但“界面”(接口)一词,却也被我们广泛接受。

利用叙词语言编制的叙词表林林总总,数量很多,如《汉语主题词表》、《INSPEC叙词表》(INSPEC Thesaurus)、美国《工程索引》(Ei)的《工程信息叙词表》(Ei Thesaurus)等。

(3)主题语言的优势与不足

1)优势

专指性和直接性是其主要特征。能形成专指度高的检索标识,查准率高;简单直接,不像分类语言需要转换为分类号。主题词在词表中按照字顺排列,没有等级性,便于增删、修改;规范化主题语言有一套较完整的参照系统,能显示词间关系,可供扩检和缩检用。

2)不足

查全率低;表达概念的受限,标引、检索前处理量大且难以达到统一;词表收录有限,很多概念在词表中没有反映。

2.2.3　分类主题一体化语言

“搜索,是Internet永恒的主题和魅力”,在需求驱动下的搜索才能促使把无序的信息转化为知识。把信息的分类组织和字顺组织有机地结合起来,把分类检索和字顺检索有机地结合起来,把自然语言检索和人工语言控制结合起来,是在相同技术条件下对网络信息进行整序、控制和检索的最有效方法。互联网上信息的数字化和软硬件技术条件为分类查询和主题查询的真正结合奠定了基础。

网络信息的分类、主题一体化整序,就是既对信息进行分类整词、信息形式特征、信息编码特征等关联起来,从而向用户提供分类主题一体化的检索功能。用户除了可独立进行分类检索和字顺检索并随意转换检索方式外,还能通过分类与主题的相互限定改变检索范围,达到最佳的搜索效果。

在网络信息查询中,分类与主题的一体化结合主要表现在以下两个方面:

(1)在特定的知识范畴内进行字顺检索

用户为缩小字顺的搜索范围,一般先选择一定的类目,在该类控制下进行主题检索;或者在浏览过程中发现类目关系比较复杂、不易把握时,在该类中转向字顺检索。这两种不同的思路都是把检索范围控制在一定的知识领域内,达到较精确的检索。目前,少数搜索引擎具备这种由分类对主题检索的控制。

(2)用特定的分类限定字顺检索

在进行主题检索时,常使用一定的条件进行限制,以便把检索结果控制在某种范围内。

①使用信息的形式属性加以限定,如:信息的编码属性(如中文/英文,简体/繁体);信息来源或分布属性(如网站、网址、网页、全文、新闻、中国/港澳台/世界);信息的载体、用途、使用对象等属性(如MP3、图片、软件、硬件、游戏)。经过这样的限定,就可以过滤掉很多无关的信息,多数搜索引擎都具有这种限定功能。

②使用分类系统的知识范畴进行限定,把对某主题、某事物的字顺检索控制在一定的知识领域。例如,检索“汽车”时把范围选定在“工程技术”内,就可把玩具汽车、文艺作品中的汽车等不相关信息过滤掉。

“分类—主题—自然语言一体化”是检索语言发展的重要趋势之一。分类主题一体化能很好地适应网络环境,可以满足网络用户的多种检索需求,为用户提供经济有效的多种检索途径。自然语言依然是最优选的检索接口,是用户检索用语言。三者一体化才能发挥最佳整体效益,满足网络信息检索多方面需求。

2.2.4　自然语言检索的特点

相对于传统的受控语言检索,自然语言检索具有很多明显的特点。随着近年来网络信息检索的发展,基于传统受控语言的检索由于条条框框太多,在一定程度上限制了它的应用。而其较大缺陷在于受控语言是一种用户不熟悉的语言,用户使用起来较不方便。

相对于受控语言而言,由于未经任何的规范化处理,基于自然语言的检索比较符合人们的检索习惯。因此,作为信息检索的一种类型,自然语言检索可能成为未来信息检索的主流形式。具体地说,自然语言检索不受词表的限制,保持与新概念的同步,可有效地跟踪新事物的发展;同时,直接采用文献作者使用的自然语言,使标引工作摆脱了对受控语言的依赖,更便于进行自动标引;而对于大多数普通检索用户而言,直接使用自然语言进行检索更符合其行为习惯。

另一个重要的特点在于:由于自然语言检索采用自然语言处理技术,因而能够在一定程度上理解文本信息和用户提问的含义,并在某些环节上进行概念控制,因此能更准确地定位检索目标,实现较好的查准率。

自然语言不存在受控语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。另外自然语言不受词表及各种复杂标引规则技术的干扰,更具备联合建设数据库的优势。此外,自然语言检索不仅适合文献检索,更适合数值检索和事实检索。

虽然自然语言检索具有多方面的特点,但这并不意味着一定要用它来代替其他类型的检索。同其他检索形式一样,自然语言检索也有其自身意义和适用范围。一个检索系统可以同时采用多种检索方式,不同的用户可以根据需要选择使用,传统的信息检索方式仍将在信息检索中发挥其作用。

2.2.5　检索工具的数据存储结构

检索工具存储文献的数据结构是以层次型为主、结合关系型和网络型的复合体。

数据库(或一本月刊或年刊)由记录构成,一个记录相当于手工检索工具的一个文摘或题录;记录又由字段组成,字段就是“著录项”,它可由子字段构成。

文摘和题录,哪一个是主要的?题录应当是文摘的一个“特例”,因此,文摘是检索工具的“细胞”,是最基本的存储单位。与此类似,字段也是组成数据库的最基本的单元。

一个文摘能够“输出”的信息如图2.4所示。

pagenumber_ebook=67,pagenumber_book=67

图2.4　一个文摘能“输出”的全部著录项

在一个文摘中,各著录项之间有什么关系?

一个文摘的各著录项的信息“权重”是不一样的。例如,参考文献数就不重要,而篇名则很重要。由一些具有密切关系的著录项又构成“大的”著录项,我们一般称为“某某项”,如著者项、出版项等。

著者项包括著者、合著者、第一著者的工作单位等;会议项包括会议名称(届次)、会议地点、会议日期、会议主持者、会议录名称、会议录出版和订购信息等;出版项包括出版地、出版者、出版年(月)。通常的出版项的著录格式为

[出版地:出版者,出版年]

有时文献中并无完整的出版信息,这时就让它的位置空着。假如出版项为[1991],则表明原文提供了出版年,而出版者信息由于原文没有告诉我们,因此就无法列出。文摘中一个最重要的“大项”是出处项,它使我们一旦需要,可迅速查找原文。

让我们观察图2.4中的文摘的各著录项的情况,除了以上的“大著录项”以外,文摘中就只剩下一些关于文章内容的描述信息了。这些信息中,篇名是文章的“眼睛”、文摘内容是文章的缩影,文章用何语言、参考文献有几篇、文摘员是谁等信息比较不重要,但又与文章主体有关,因此常被放置在文摘内容之后。

如果把文摘看成一个文献平面,则大的著录项是与这个平面正交的小平面,其相交线正是那些既是文摘中的重要著录项、又是自己所在的小平面中为首的著录项。它们也正是数据库常用来作检索入口或存取点的“关键字段”。例如,著者的工作单位、职称、年龄(此项为假设)等,与文献本身并无直接的关系,但却是与著者本人息息相关的,因此属于著者项的小平面。它们通过“著者”就与文献建立了联系。示意图如图2.5所示。

pagenumber_ebook=68,pagenumber_book=68

图2.5　文摘平面与集合著录项的正交模型

2.3　科技文献检索和文献检索系统

2.3.1　文献检索

文献信息检索或情报检索(Information Retrieval),是指把文献信息按一定的方式组织和储存起来,并能根据用户的需要取出所需的特定的信息的整个过程。它的全名为信息存储与检索(Information Storage and Retrieval)。通常所说的信息查询或检索只是其名称的后一半,或是“狭义”的信息检索。

作为检索对象的文献信息,既有较为简单的数据形式或事实形式,也有复杂的文献形式。因此,文献信息检索根据检索信息的对象分为数据检索、事实检索和文献检索3种形式。

(1)数据检索(Data Retrieval)

以文献中的数据为对象的一种检索,如某个物理对象的临界值、某公式、某化学分子式等。典型的提问式如“锑的原子量是多少?”(121．75)

(2)事实检索(Fact Retrieval)

以文献中的事实为对象,检索某一事物发生的时间、地点或过程。典型的提问式如“中国辛亥革命是哪一年发生的?”(1911年)

(3)文献检索(Document Retrieval)

以文献为对象的一种检索,凡是查找某个题目(Topics)的有关文献,以及回答这些文献的情况、出处、收藏地方等,均属文献检索的范畴。典型的提问式如“关于汽车排放废气造成公害的情况有哪些文献报导?”(有趣的是许多学生都将这一选择题回答为事实检索)。

这3种类型的检索,检索对象不同,检索结果也不同。数据检索回答一个确定的数据或数据范围;事实检索回答一个确定的事实;而文献检索则是一种相关性的检索,带有很大的不确定性。数据检索和事实检索的结果能回答“有或没有”“是或不是”(命中集合要么是0、要么是1),而文献检索的结果则连明确地回答“有或没有”都很困难(合适的命中集合常在几条到几十条之间)。在这3种检索形式中,文献检索是使用最广、效果最大的一种。一般在科技文献检索的书中介绍的工具书一大类,基本上就是数据或事实检索。

数据检索侧重于检索对象的量的方面,事实检索侧重于检索对象的质的方面,而文献检索既不能确切地回答检索对象的量,也不能简单地回答质的方面。假如有某个发明人有这么一个提问:关于他的一个小发明在文献中到底有无完全相同的专利,那么这个问题不用思考就能回答“没有”,而检索结果为0的结局实质上与没有进行检索是同一回事。这个问题的提问方式本身就是错的,他以数据或事实检索的提问方式来要求得到文献检索的结果。

通常对数据方面的记忆不需要花太多的精力,以便空出足够的大脑的“内存”空间进行一些科学思维活动。例如,当爱因斯坦出访美国时,有人问他声音在空气中的传播速度是多大,这是当时流行的“科学知识测验”中必然出现的一道小题。爱因斯坦用手托住下巴,想了一下,说:“很对不起,我不记得了。不过,干吗要记它呢?随便哪本物理书中都能找到这个数字。”

声音的速度多大,这是任何一个中学生都能回答的问题。可是,当代最伟大的物理学大师竟然回答不出。然而,他又那样坦白地承认自己不知道。爱因斯坦的思想不在这些细枝末节上逗留,他在探索宇宙间最深刻、最根本的规律。也许,他确实需要比通常的科学家大得多的大脑的“内存空间”,来进行一些杰出的庞大的思想试验。试想一下,能把物质、能量,用光速作为一个“系数”联系起来,并用一种非常简洁的形式表达,如果没有杰出的哲学思维、深厚的科研能力和完美的艺术素养及其有机结合,是不可能达到这样伟大成就的。

2.3.2　文献检索系统

作为一个系统,就不能局限于仅仅研究文献及检索工具,还应包括作用于此系统的人,即文献加工人员及广大的检索用户在内。由此使文献检索系统带有人机系统(Man-Machine Systems)的特征,因此也会有人机工程、人机界面的种种新问题。

文献检索系统可分为手工检索(手检)和计算机检索(机检)两种类型。其中手检是基础,机检是发展方向。而它们的系统构成应当是一样的。

(1)文献检索系统的构成

无论手检还是机检系统,它们都由以下4个部分组成:

1)检索文档

检索文档即文献的检索标识的有机集合,如卡片式或书本式的目录、索引、文摘、计算机的索引文档、倒排文件、HELP菜单帮助等。

2)技术设备

技术设备如书目卡片柜、缩微品的阅读器、书本式目录、计算机、文献库等。

3)作用于系统的人

作用于系统的人如用户、文献加工者、系统维护人员、管理人员等。

4)系统构成准则

系统构成准则是构成系统的一种“标准”,或一种逻辑语义工具。它包括检索语言、文献标引规则、用户使用手册等。

从人机工程学角度来看,上述2)和3)构成人机关系;1)和4)则为人机“界面”或系统软件,其中4)相当于“软件环境”,1)相当于“应用软件”。

(2)文献检索的基本原理

文献检索的基本原理就是把用户提问式中的检索标识与文献的存储标识相比,如果能够取得一致,就称为“匹配”,就可得到“命中文献”。

文献检索并非只是检索工具使用的问题,它是文献的收集、整理、加工、检索、用户调查、读者心理分析等一系列的过程。因此,要真正了解文献检索的基本原理必须从文献的整个系统来分析。

文献检索系统的一般检索模型如图2.6所示。

pagenumber_ebook=70,pagenumber_book=70

图2.6　文献检索系统模型框图

由图2.6可知,文献信息检索是通过对大量的、分散无序的文献信息(包括网络信息)资源进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致(匹配),以便有效地获得和利用各种信息资源。

在存储和检索的两个过程中,存储是为了检索,而检索又必须先进行存储。这就是信息检索的完整的过程。目前为了方便网络用户的检索,网络信息资源的存储越来越趋向于利用自然语言来标引信息。

由图2.6可知,科技文献检索系统由两大部分组成:文献的存储过程和检索过程。

在存储过程中,首先是对大量的原始文献(10大文献源)进行筛选(根据具体的藏书建设方针进行采购或收集),然后开始对文献加工。在加工过程中,第一步是对文献内容进行主题分析;第二步需将主题分析上升为概念分析;第三步根据某种检索语言的词法和语法将主题概念转换为标引词,这样就在检索工具中形成了存储标识。为了保证检索工具总是严格有序的,对手工检索工具而言,所添加的存储标识必须处于适当的索引位置;对于机检系统,则必须重作索引。

检索过程则为存储过程的逆过程,首先必须要用户有所谓“情报需求”(当然,图书馆也可以主动为其服务)。针对用户的情报提问,同样必须要对其内容进行分析,因为常常有用户不能清楚地描述他(她)究竟需要检索什么样的文献,这是第一步;第二步,同样需要作进一步的主题概念分析;第三步,将概念分析的结果根据同一种检索语言的规则转换成检索词(规范化词或自由词),最后则是用检索标识(检索词)与存储标识(标引词)相比较,如能取得一致,则检索命中,否则需改换或修改检索词,重新进行。

图2.6中,左边部分为数量有限的文献加工人员所从事的工作,右部则是面向广大用户提供的服务,而检索工具则成为沟通二者之间的“桥梁”或界面。左、右两边都必须遵循同一种逻辑语言,这就是检索语言;而检索工具不能是“无源之水”,必须有它的物质基础作为后盾,这就是文献库。

此图如果用节点(node,即具有两个以上的数据流向的点)图表示可能会更加直观。我们会发现在这个系统结构图中,检索工具是最大的节点,它几乎把整个系统的各个部分都紧密地联系在一起。检索工具是文献检索系统的核心。

文献加工提炼出检索标识,形成检索工具,并把它与文献本身分开;而文献检索则通过查询活动重新把检索工具与文献本身结合到一起。这种“一分一合”的目的是为了人们能更有效地、更充分地利用文献、利用知识。

该图也是任何一部检索工具的结构模型。这是由于检索工具不仅是文献检索系统的核心,同时也是文献检索系统的“缩影”。例如,美国的《工程索引》,它以SHE作为词表(检索语言),以美国工程学会图书馆为文献“后盾”(文献库),编辑者为美国工程信息公司(文献加工人员的群体),而“用户”则遍及全世界。

2.4　文献检索的方法、步骤和检索结果的评价

2.4.1　文献检索的一般步骤

(1)掌握课题要求——分析课题、分析已知情报

这一步应了解用户的检索要求。一个课题,可能仅仅是想了解一下,或已经在研制、进行之中,也可能是已经完成,检索目的是为了成果鉴定等3种情况。第3种情况是委托科技情报查新机构进行的。我们只涉及前两种情况。

①了解研究课题所属的专业、学科范围和检索范围及检索年限。

②了解检索目的和要求。

③了解已经有哪些已知情报。

(2)制订检索策略

检索策略(search strategy)是指为实现检索目标而制订的全盘计划或方案。它一般包括以下6个方面或步骤:

①确定回溯年限和查找范围。

②选择检索手段。

如手工检索、联机检索、光盘检索等。还有一种脱机检索,它们是订购国外的文献磁带,将数据装入小型机的数据库中为用户提供检索服务。这方面要注意首先可进行光盘检索,如无,则手工检索,最后才使用国际联机检索或在Internet网上查询。即使进行联机检索也有一些省钱的技巧。例如,先用手工检索试查一下,使用脱机打印,只输出文摘号再用手工检索文摘号,等等。

③选择检索工具或数据库。

无论是手工检索还是计算机检索,都应当到“富矿”中去检索,即选择那些存储和报道你需要的文献可能最多的检索工具。这是由于许多检索工具或数据库的报道内容有重复,而用户一般时间有限,不可能、也不需要对每个可能报道的数据库都去搜索一遍。例如,SA中分为PA,EEA,CCA这3个分册,它们可能全部重复报道同一篇关于单片机控制电路并论及物理定律的文献。尤其是EEA和CCA,对那些既涉及电子电路又与计算机控制有关的文献,重复量更大。即数据冗余量大,其容错能力也大,这样能方便用户,减少漏检的可能。反之,切忌到那些没有你所需要的文献的地方去查找,否则手工检索可能只浪费你一些时间,而机检则可能让你花上一大笔费用而毫无所得。

④选择检索方法。

直接法或常用法中的倒查法是最基本的。

检索方法通常分为直接法、追溯法和综合法3种。

A.常用法

常用法指通常使用各种检索工具查找文献的方法,也就是文献检索教材中介绍的主要方法。常用法又分以下3种:

a.倒查法。即从近年的检索工具查起,逐年回溯过去的文献,直到满足需要即止。此法较省时间,检索重点是近期文献。

b.顺查法。在时间先后上与前法相反,得预先确定一个检索的起始年代,再逐步查询到近期文献,检索起点的确定依课题而定,如要系统查找单片机的应用,则从1985年开始,因为它诞生不久。

c.抽查法。是选择课题内容最活跃、成果最多的时期重点查找,这也比较省时。

B.追溯法

利用引文索引或综述、述评文献、专著等文后所附的参考书目(不一定专指图书)信息入手,追溯查找原文,再利用那些找出的文献所附的参考文献扩大检索。这种方法查文献越查越旧,但是不用什么检索工具。

注意在文献检索中常说的“回溯”或“追溯”检索多少年,不是指使用这种方法,而是指常用法中的倒查法。它实际上是常用法中最“常用”的。同时,这里的“追溯”也不是联机检索中的回溯检索(RS:Retrospective Search)。

C.综合法

常用法与追溯法结合。即通过检索工具检索出一批文献,再利用检出文献进行追溯,从而扩大检索范围。

⑤确定检索途径和检索词。

检索途径已经由检索工具的结构预先确定,但大多数检索工具都能提供几种主要的检索途径,它们也正是我们在的系统结构分析一节中提过的“最佳断点”。这些途径如分类、主题词、著者等。检索词也就是文献加工的标引词,只是提法和角度不同而已,如果称为存取点,则更能说明概念。首先应拟出全部中文检索词,然后将其翻译为英文检索词,再用检索词表及其体现词与词间关系的参照系统来核定,从中选择最可能和最准确的词或词组。

⑥构造检索式。

这是计算机检索中用来表达检索提问的一种逻辑算式,由AND,OR,NOT或其他算符(也称算子)连接检索词。注意在各个不同的数据库中,可能使用的逻辑符号不同。例如,在micro CDS/ISIS系统中,用“∗”“+”号代表AND,OR,但在光盘系统中却必须使用AND这样的字符,而在国际联机系统中二者都可用。

(3)索取原文

①缩写刊名变全称。

对于西文期刊,可使用该检索工具的“引用期刊一览表”之类的索引对照转换。注意它们往往不是每期都有,但你完全可以用该检索工具的年刊、或往年的“引用期刊一览表”,因为其摘录的期刊种数有一个大的基数,重要的摘引期刊多年不变。

对于日文、俄文期刊,同样先用“引用期刊一览表”查出其全称刊名,再用日-英、俄-英字母对照表转换为原刊名。对于某些中文期刊,则可能使用汉语拼音转换。对于书名,则不需要转换。因其并不缩写。可根据出版项等信息直接查英文图书。对于会议录名,一般也是缩写的。也得根据会议录专用索引还原。但许多工具也将其放置到“引用期刊一览表”中。

②通过馆藏查原文。

如果查出的文献是科技图书,可用图书馆的OPAC系统查找。一般有3种途径:书名目录、著者目录和分类目录。对中文的,使用书名目录较合适,外文的则用著者目录更好。如果希望借阅,应记下目录卡片左上角的图书分类号(实际上是分类号加上本馆自定的加工号共同构成的索书号),以便借出。例如,对于黄万新编著的《图书馆现代化技术》一书,可能在内封面上方出现这样几个符号:

pagenumber_ebook=74,pagenumber_book=74

此处822921是馆藏号,也是财产记账的依据,因为是一本书唯一对应的一个号。一个图书馆拥有多少册书,就是由最大的馆藏号决定的。37.635是该书所属的科图法分类号,而H78则是著者姓名的拼音字头,加上顺序号。因此37.635/H78就是索书号。索书号唯一地对应着一种书。这种书可能有3本或10本,此即“复本量”。例如,重庆大学图书馆的纸质藏书有377万册,其中约87万多种书有复本。

如果查出的文献是期刊论文,则需要利用馆藏期刊目录(有书本式的和卡片式的)。期刊目录先按语种分为中文、西文、俄文、日文等目录,通过它们查得其馆藏号,该号可能是用铅笔在期刊封面上写的一个数字,例如《中文信息》1990年2期,就是37079,如果1984年2 期,也仍然是这个号。只要有了馆藏号,则不管语种,就能在期刊库中直接“定位”了,因为它自然也是排架用的号。

③如果本馆缺藏,则可能用到联合目录。

例如,《全国西文期刊联合目录》科技版,该目录汇集了105个单位的馆藏西文期刊。对于专利、科技报告、会议文献等特种文献(“特种”的意义之一就是难得原文),可先在本馆查,如果查不到则到当地信息所查或其他大学图书馆等机构查询。

④复制原文。

一般先向本馆期刊室或检索室(如果复制检索工具中的二次文献的话)办理借出手续。注意由于期刊和检索工具都是不能外借的,因此此处不用“借阅”一词。最后到复印室复制。

2.4.2　检索结果的评价

对于检索效果或检索效率的评价主要是针对计算机检索而言的,但对于一般检索也常常定性地提及。

反映检索效果最重要的两个标准是查全率与查准率。

(1)查全率与查准率的概念

查全率R(recall factor):检索出的有关文献量与存储的全部有关文献量之比。查准率P (pertinency factor):检索出的有关文献量与检索出的总文献量之比。

如果把检索出的有关文献量用a代表,存储的全部有关文献量为a+c(显然,c是漏检的数量),检出的总的文献量为a+b(显然,b是误检的量),则

R=a/(a+c)　P=a/(a+b)　O=c/(a+c)　M=b/(a+b)

其中,O是漏检率(omission factor),M是误检率(miss factor)。这些概念中查全率和查准率是基础,O和M是根据它们推出来的。这些指标都用百分数表示,而且不会大于1。

查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。例如,要利用某个检索系统查某课题。假设在该系统文献库中共有相关文献为100篇,而只检索出来70 篇,那么查全率就等于70%。

查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。例如,检出的文献总篇数为70篇,经审查确定其中与项目相关的只有56篇,另外14篇与该课题无关。那么,这次检索的查准率就等于80%。显然,查准率是用来描述系统拒绝不相关文献的能力,有人也称查准率为“相关率”。

查准率和查全率结合起来,描述了系统的检索成功率。

如果把查全率和查准率用直角坐标系表示,就能直观地看到,检索效率曲线类似于某种双曲线(见图2.7)。如果得到了较高的查全率,则查准率就一定差,如果保证高的查准率,那么查全率就下降(可见,海森堡测不准原理也一定是某种双曲线)。当然,也可以兼顾二者,同时得到较好的查全率和查准率,或者根据需要侧重查准(多用AND性质的检索)或查全(多用OR性质的检索)。图2.7是某个检索系统的查全率与查准率的关系特性曲线。

pagenumber_ebook=75,pagenumber_book=75