首页 理论教育 信息检索原理

信息检索原理

时间:2022-03-10 理论教育 版权反馈
【摘要】:二次信息源包括了大量的可供使用的信息检索工具。在“信息检索”一类的课程中,二次信息源在利用方面内容占有重要分量。原始文献和第一手资料所记录的知识具体、详尽,具有创造性、新颖性、先进性,是信息检索的主要对象和最终目标。目前,科技人员通过各种报告和期刊杂志直接进行广泛知识领域的检索是不太可能的。

第二节 信息检索原理

什么是检索?即是利用检索工具,网络,数据库等,从众多信息中查找并获取所需的那些有用资讯的过程和方法。

一、信息来源

可以说,一切信息来源于自然界,来源于人类社会。人们的生产、科研、生活以及政治活动等等,是信息产生的源泉。“人”自身也是信息的来源。

信息来源按其形式,有口头(语言)信息源、实物信息源、文献信息源。

口头(语言)信息,在情报学领域称之为“零次信息”;实物信息,是以某种实际存在的物品所揭示出的信息,如样机、样品、标本、种子、材料等。口头信息和实物信息目前还没有加工存储和提供检索的工具,使用者只能根据自己的需要去专门地、有目的地搜集、加工、分析、利用。以文献为载体的信息,包括网络上动态的、虚拟的信息,是我们获取信息的主要来源。通过对文献上所记录的信息的检索与利用,可以帮助我们打开知识信息宝库的大门。

二、文献型信息源

(一)三次信息源

三次信息源是对某一专题的一次信息源和二次信息源的有关信息进行检索、筛选、分析、加工,并结合编者的实地调查研究,进行综合分析后重新编制的成果,如综述、专题报告、述评等。《南京地区锶矿的分布、开发和利用》这一综述,就是在调查了锶矿矿源后,又参考了大量的有关锶矿的文献资料,结合了国内外有关锶矿的开发利用方面的成就和发展趋势,提出的一份颇有见解的综述性的研究报告。我们把类似这样的综述报告称之为三次信息源。

(二)二次信息源

对一次信息源进行了加工、整理、提炼、浓缩、标引、编序后所形成的各种目录、题录、索引、文摘等,我们称之为二次信息源。二次信息源包括了大量的可供使用的信息检索工具。在信息交流过程中,二次信息源不仅能提供大量信息,而且具有报道和便捷检索的功能。在“信息检索”一类的课程中,二次信息源在利用方面内容占有重要分量。

(三)一次信息源

我们把已出版的原始文献、科研人员根据科研成果撰写的文稿、第一手资料等看作是一次信息源。原始文献和第一手资料所记录的知识具体、详尽,具有创造性、新颖性、先进性,是信息检索的主要对象和最终目标。图书、期刊、会议文献、学位论文、专利文献、政府出版物、产品样本、科技报告、标准文献、科技档案等为一次信息源中的重要组成部分。

(四)零次信息源

所谓零次信息源,即不借助实物媒体,通过直接交流所获得的信息来源。包括口头交谈,参观,参加现场交流,参加报告会,听演讲,借助于语言、手势、语境、场面景观、暗示等取得的直接感受到的信息。

对于零次信息的捕捉,首先,应抓住时机,要“眼观六路,耳听八方”,善于辨别,排除干扰,具有较强的信息意识的人往往能抓住自己有用的那些零次信息;其次,要善于捕捉零次信息,还须具备一定深度的专业知识和一定宽度的相关知识面,俗话说:“外行看热闹,内行看门道”,行家里手对于事物内在的信息容易看透;再次,要获取零次信息,还要多作实地调查、分析,多问,多看,多听,多思索。信息交流是双向的:要了解外面的变化、同行的动态;还需要把自己的信息发布出去,让别人了解你,“投之以桃,报之以李”;从信息的交流中可以获取自己所需的信息。此外,“察颜观色”、“锣鼓听声,听话听音”等也都是探索获得零次信息的方式方法。在古代,办理案件审问过程中所采用的“敲、打、审、千、隆、卖”,是为获得对方有关情况采用的六种手段。所谓“敲”,旁敲侧击;所谓“打”,突然发问;所谓“审”,由已知推断未知;所谓“千”,即刺激,向对方的要害打击;所谓“隆”,赞美;所谓“卖”,在掌握对方资料后,从容不迫地用肯定的语气一一摊出,使对方惊异、折服。这些手段,就其目的来说,都是为了摸清对方的零次信息或让对方提交其它证据信息。

三、文献媒体类型

文献型媒体,按其记录信息的媒体划分,有以下几种类型:

①在古代,有青铜器、龟甲、兽骨、竹简、纸草、帛、石等材料作为书写或刻印文字、图画的载体。

②纸发明后,以纸印本、抄本的文献得到广泛的流传。

③缩微型文献,包括:缩微胶卷、缩微胶片等,存贮密度高,体积小。

④计算机可读型文献,包括计算机文档、数据库、光盘等。1995年6月16日《国际经贸消息》报载:北京市万方数据公司同美国KNIGHT-RIDDER公司达成协议,向国际最大的信息联机检索系统——DIALOG系统和DATA-STAR系统提供中国工商企业及科技信息,同时这些信息还通过CD—ROM光盘在全球范围发行。万方数据公司提供的这种信息即属于机读型文献范围。

⑤声像型文献,包括唱片、录音带、录像带、电影片、幻灯片、录像盘等。

⑥多媒体文献,这是指能够同时存储、展示、处理两个以上不同类型信息媒体(如文字、图形、图像、动画、活动影像等)的文献。

四、检索工具

检索工具是指用以报导、存储和查找信息线索的工具。如前所述,科技文献的数量庞大且高度分散,增长的速度也愈来愈快,这给信息检索和利用带来了越来越多的困难。为了解决这一困难,人们在长期的实践中,先后创造了一些行之有效的方法,其中之一就是将数量庞大的一次文献压缩成二次文献,编制成各种检索工具或建立检索系统(参见图1.2-1、图1.2-2)。

所谓检索工具,是指用以存储、报道和为查找文献线索提供依据的工具。图1.2-2科学信息演变示意图了解了检索工具状况,结合了解文献型信息系统结构,就可以使信息检索有地放矢,减少盲目性。信息传递与信息检索存在着互递关系,如图1.2-3所示,在检索时一般可以通过三次信息源了解二次信息源,查检到有关线索,或者是通过检索工具(即二次信息源)获得原始文献的线索,进而尽快地在原始文献中查到所需的信息。

(一)文摘(Abstracts)

文摘是系统报道、积累和检索科技文献的主要工具,是二次文献的核心。文摘的作用有以下几条:

①可以在一定程度上消除自然语言所造成的障碍。文摘杂志仅使用一种文字对所收录的不同语种的文摘进行报道,而且覆盖面和摘贮率通常比较高。读者只要掌握某文摘杂志所使用的文字,就可以读懂许多不同语种文献的摘要。

②可以节约读者的阅读时间,避免阅读一些无关紧要的原文。阅读或浏览文摘对于决定是否要进一步查阅原文比直接从原文中选择要节约时间。

img2

图1.2-1 检索工具在文献结构系统中的位置示意图

③报道性文摘在许多情况下就是原始文献的代用品。因为报道性文摘的编写,要求以精炼的语言概述出原文所包含的主要内容和关键点,如文献所讨论的范围与目的、采用的方法和手段、主要的数据和公式、研究的结果和结论等等。

img3

图1.2-2 科学信息演变示意图

img4

图1.2-3 信息检索与信息传递的互递关系

④便于对相关文献集中阅读。对于自学或浏览来说,各种专业性文章太多,据估计世界上定期出版物就在150,000种以上,每年发表大约有15,000,000篇论文。许多领域又有交叉重叠现象。文摘杂志通常将散见在各个期刊上的文献以文摘的形式重新分类编排报道,便于集中阅读。

⑤便于读者进行回溯性检索。目前,科技人员通过各种报告和期刊杂志直接进行广泛知识领域的检索是不太可能的。文摘杂志可以帮助读者进行回溯性检索,还可以帮助读者判断检索的文献是否合乎需要,避免漏检和误检,在揭示文献内容方面又比题录要深。

⑥文摘还是撰写述评文章、研究科技发展史的重要素材。

(二)索引(Index)

索引的作用犹如一把钥匙,能将隐藏在报刊、书籍、文摘、杂志等中的信息内容,有条不紊地按主题字顺次或分类的序列揭示出来。索引已被广泛地应用于各种文献之中。

文摘类的检索刊物主要由文摘和索引两个部分组成,文摘部分起报道作用,索引部分起检索作用。文摘大多按分类编排,可从分类途径为读者提供进行检索的可能。此外,为了从不同的角度去揭示有关文摘、提供检索途径,文摘杂志还须编制各种索引,如主题索引、作者索引、机构索引、各种号码索引等等,世界上著名的文摘无不重视索引的编制。检索水平的高低,也就是看读者能否有效地利用各种索引。

(三)目录(Contents)

目录是系统积累和提供出版物的名称、收藏单位及索取号的检索工具。它只记录出版物的外表特征,常常用于查找出版物的出版单位和收藏地点。作为检索工具,目录的历史最悠久,其它类型的检索工具都是在目录的基础上发展起来的。目录按照编制目的和社会职能,可以划分为下列几种:

①登记书目全面登记和反映某一时期、某一范围文献情况的书目。

②科学通报书目及时向用户报道文献出版或收藏情况的目录。

③推荐书目又称导读书目,是针对某些读者对象编的选择性书目。

④书目之书目将书目、索引等二次文献汇编起来的书目指南。

⑤国家书目它是我们常用的一种检索工具,属于登记性的书目类型。国家书目全面、系统地揭示与报道一个国家出版的所有文献。它又可细分为现行国家书目和回溯性国家书目两种。对于读者、用户来说,要了解文献收藏情况,还常借助于馆藏目录和联合目录。馆藏目录一般反映一馆的文献收藏情况;联合目录则反映多馆的文献收藏情况。

五、信息检索方法

信息检索所采用的方法有下列三种:

(一)追溯法

即利用文献末尾所附的参考文献进行追溯查找的方法,这是一种扩大信息来源最简捷的方法。通过追溯法所获得的文献,有助于对论文的主题背景和立论依据等内容有更深的理解。但由于是由近及远追溯,年代越远与原文关系越少。为此,美国科学情报所从1961年出版了《科学引文索引》(Science Citation Index),中国科学院文献情报中心1995年3月编出了《中国科学引文索引》(试刊),南京大学等编制了《社科引文索引》于2001年通过专家会议审定。

(二)常用法

即利用各种检索工具进行查找文献资料的方法。

(三)循环法

实际上就是常用法与追溯法的结合,即先利用检索工具查找出一批有用的文献,然后利用这些文献所附的参考文献进行追溯查找。由于参考文献对五年之内的重要文献一般都会引用,根据这个特点,可以跳过利用的五年,然后用检索工具再找出一批文献进行追溯,为此循环交替直至满足检索需要为止。

(四)数据库检索

除了上述的手工检索法外,还可应用加权检索,布尔逻辑法,超文本检索法,搜索引擎,全文检索法,模糊检索法等方法。

六、文献特征

利用常用法进行信息检索,必须对检索工具(或检索系统)的编排原理有一个基本的了解。文献检索工具是把大量的文献进行分析后按一定的特征排列组织的文献集合体,文献检索就是根据一些既定的标志从文献集合体中选出有关的文献。因此,信息检索工具(或系统)就其服务的过程来看应包括两个基本环节:一是标引人员所进行的信息有序存贮;一是情报用户所进行的信息检索。检索的过程实际上是存贮过程的逆过程。检索者只有了解存贮者是怎样把文献存入检索工具(或系统)中去的,才能知道应该怎样从检索工具(或系统中)把所需的文献取出来。存贮者也只有充分地了解信息用户有哪些方面的需求,才能进行有效的存贮,使事先编制好的检索工具(或系统)更好地为检索者服务。

从检索者的检索要求来看不外乎有两种:一是要查出具有已知文献外表特征的文献,例如由书名、作者名等查文献;二是要查出具有所需内容特征的文献,例如根据某学科要求编写一本讲义或围绕某一课题收集有关的资料。为了满足检索者这两种检索要求,标引人员在编制检索工具(或系统)时,正是按照文献的外表特征和内容特征分别进行标引,以形成满足检索者这两种需求的各种不同的检索途径。

(一)文献的外表特征

文献的外表特征通常指的是文献的篇名(题目)、作者姓名、出版者或研究机构、报告号、专利号等等。将不同的文献按照篇名、作者(或研究单位)名称的字序进行排列,或者按报告号、专利号的数序进行排列,这样就形成了以篇名、作者及号码的检索途径来满足用户的需求。但是,在大多数情况下,检索者对所需文献的外表特征并不太清楚,检索需求是根据所需文献的内容特征提出的。因此,为了满足用户的这一要求,标引人员还要对文献的内容特征进行标引,形成以文献内容特征的排检序列。

(二)文献的内容特征

文献的内容特征指的是文献所论述的主题、观点、见解和结论等等。我们知道,任何一篇科技文献的内容,无非是论述某个客观事物。任何客观事物都有一定的概念。概念是客观事物所含的本质属性、本质特征的概括,是在实践的基础上运用科学抽象的思维产生的。因此,标引文献内容进行主题分析,以形成文献的主题概念。表达主题概念的语言往往是科技名词或词组,以此作为主题的标识,既简明地揭示了文献的内容特征,又可以形成严格有序的主题排检序列,为检索提供重要的检索途径。以文献内容特征为依据的存贮和检索的原理如图1.2-4所示。

img5

图1.2-4 信息检索原理图

由图1.2-4可知,当存贮信息时,文献标引人员首先要对各种文献进行主题分析,即把它所包含的信息内容分析出来,以形成若干能代表文献的主题概念,并用信息检索语言的语词(标识)把这些概念标示出来,然后纳入检索工具或检索系统。当检索信息时,检索人员也要对检索课题进行主题分析,即把它所涉及的检索范围明确起来,使之形成若干能代表信息需求的概念。然后把这些概念转换成信息检索语言的语词(标识),并与存贮在信息检索系统中文献特征标识进行异同的比较。将具有相同标识的文献从信息系统中检索出的部分就是命中的结果。

七、信息检索的步骤

信息检索可以下面四个步骤进行,即分析研究课题、选择检索工具、制定检索策略、查阅原始文献(如图1.6所示)。分析研究课题,(明确查找要求───→)选择检索工具───→制定检索策略(途径和方法)───→根据文献线索(查阅原始文献)

img6

图1.2-5 信息检索步骤示意图

(一)分析研究课题,明确查找要求

①明确研究课题所需的信息内容、性质、水平等情况。比如,是要取得具体的文献资料,还是要掌握某一地区或国家对某一问题发表过的文献资料;是要查找某一年限内对某一问题发表过的文献资料,还是要获得有关某一问题的全部文献资料等等。

②在分析的基础上形成主题概念,包括所需信息的主题概念有几个?概念的专指度是否合适?哪些是主要的?哪些是次要的?等等。力求检索的主题概念准确反映检索需要。

③根据检索主题概念的学科性质,确定检索的学科范围。学科范围越具体越有利于检索。信息检索,实际上是一种检索逻辑的思考与推理,其目的是要掌握检索的必然性,排除检索的偶然性,避免瞎碰瞎撞。

(二)选择检索工具书

选择检索工具书主要方法有两种:一是浏览图书馆检索工具室陈列的全部检索书刊,从中挑选确定最为合适的检索工具;二是通过查阅国内外出版的检索工具指南的介绍,挑选、确定检索工具书。前者的优点是直接具体,缺点是不够全面,因为一般图书馆收藏的文摘刊物毕竟有限。后者的优点是系统全面,提供了查找方法的指导,缺点是缺藏部分无法明确判断其是否可用。

检索的效果常取决于人们对检索工具书的熟悉和了解的程度。因此在查找文献资料之前,必须了解哪些检索工具中收录了与所查专题有关的文献资料,在哪些检索工具中该专题的文献资料比较丰富,哪些检索工具中选录的文献资料质量较高,以及它们报道速度的快慢,分类编排的粗细,摘录质量的高低,附录索引的完备等等。

(三)制定检索策略、途径和方法

所谓制定检索策略,就是根据检索目的和分析的结果,制定出一个合理的检索方案,使实行的检索行动能有目的、有计划和有步骤地进行。

①根据检索分析,明确检索课题的学科范围,弄清所需信息的语种、类型、责任者、年代、国家等范围,估计哪些图书馆拥有自己所需的信息检索系统。如果本单位、本地区图书馆的信息检索系统不能适应自己的检索需要,那么到外地哪些图书馆、信息所去查找最为合适,以及合理安排先去哪个图书馆,后去哪个图书馆。

②在利用检索工具查找所需原始文献前,如有查找图书、专著和述评等一次与三次文献的必要时,就应作出进行检索的合理安排。包括利用何种手段进行检索,检索到了以后是否需要经阅读后再进行原始文献的检索,因为一次和三次文献中的参考文献通常提供了许多原始文献的线索。

③是否需要通过核心刊物直接检索出几篇所需的原始文献?如果有必要,就要作出怎样进行检索的合理安排,包括了解课题所需的核心刊物有哪几种,确定检索的次序和大体查找的年代范围等。如果事先已知有关文献的某作者,利用有关检索工具的作者索引,查获该作者所著的文献,然后根据某文献在检索工具中所标引的分类号主题词,继续查找,即可获得与该文献主题内容相同的其它文献。能否在选好的检索工具中既快又准且全地查获研究课题所需的信息,关键还要熟悉该检查工具使用的检索标识,因为检索的主题词确定不准,即使检索工具中存贮了所需文献信息,也是难以查获的。

制定好检索策略后,便以估计最有可能查获的年代范围内先试查1~2年,可能会得到更多的线索,再考虑是否要扩检或缩检。

(四)根据文献线索查阅原始文献

通过以上的查阅,如果确认所得的线索有一定的参考价值时,需要进一步了解和详细查阅原始文献资料,可由近而远地按图1.2-6所示步骤进行。

img7

图1.2-6 检查步骤示意图

当科技人员花了很多时间仍查不到所需文献时,可以求助于图书馆、信息所的参考咨询人员。在较大的图书馆、信息所,一般都有专职的参考咨询和检索的服务人员,他们的任务就是向读者介绍文献的查找方法,帮助读者解决信息检索中存在的困难和问题。

(五)电子文献的检索则可再分为以下的五个步骤进行

一是选择数据库。针对课题,在众多的参考数据库(包括书目数据库、文摘或题录数据库、指南数据库、名录数据库、产品数据库)、源数据库(包括数值数据库、图像数据库、术语数据库、文本数据库、全文数据库)、混合数据库(如多媒体数据库)之中,参照各数据库的内容、收录资料的范围、数据库的实时性、价格和使用费等,选用对口的数据库;二是确定检索词;三是构造用户检索提问的逻辑表达检索式;四是上机检索;五是整理检索结果。

八、检索工具中文献来源的识辨

文献来源的识辨,大体包括以下几点:

(一)文献类型的识辨

检索工具著录的文献来源款目项,一般对摘录的文献类型不加明显区分,需科技人员自己辨识。其实,各种类型和文献都具有一定的特征,只要细心观察,就不难识别。一般综合性检索刊物所收藏的文献大致有图书、期刊、会议文献、专利文献、科技报告、学位论文等几种。下面举例说明它们的著录特征。

1.图书

例如Digital Filters and Their Applications.Academic Press,London,England,1978,393p。(0-12-15925 0-2)。图书的特征除书名外,还有出版社(Academic Press,学术出版社),出版地(London,England),出版年份(1978),图书总页数(393p),国际标准书号必定是10位数,但有时把第1位0省去,0表示系英语地区出版的图书,这些特征是其它类型文献所没有的;12表示出版社代码;159250表示该书书号;2表示该书的计算机检验号。

2.期刊

例如Appl,Solar Energy,V.15,No.6,1979,P.34-35。期刊名除少数外,大部分都采用缩写方式。期刊是连续出版物,著录时必须标时卷期、年月、页次,有的还著录国际标准刊号ISSN,本例无。这些特征是判定上述文献来源为期刊论文的根据。

3.会议文献

例如Proceedings of the Society of Photo-Optical Instrumentation Engineers,V.169,1979,P.42-47(光学照相仪器工程师学会会刊)。会议文献的特征通常包括:①会议特征,如Conference,Congress等;②主办会议的机构特征,如Society,Assciation等;③会议文献类型的特征,如会前出版物的Paper,会后出版物的Proceedings。根据这些特征,可以判定上述文献来源于会议录。

4.专利文献

例如US.Patent 4,142,783,1979。专利文献的特征为:①国别代号,如BE表示比利时,GB表示英国,US表示美国;②专利号,Patent后的号码。依据这些特征,可以判定此例文献来源为美国专利。

5.科技报告

例如PB 80-215783;LA-8095-MS 1979。科技报告的特征为:①收集科技报告的机构或编写科技报告单位的代号,如PB原为美国政府出版局收集的一套PB报告的代号,现为MTIS——美国国家情报服务处的入藏代号,LA则为报告编写单位Los Alamos Scientific Lab的代号;②报告号,即报告代号以及代号后的号码。根据这些特征,可判定上述文献来源为科技报告。

6.学位论文

例如Ph.D.Dissertation Stanford Univ,Standford CA 1980。学位论文的特征为:①篇名一般均著录有学位和学位论文的名称,如Ph.D.Dissertation即哲学博士学位论文,若硕士论文则为Master Thesis;②授予学位的大学名称、地点与授予的年份等。

(二)刊名缩写的识辨

综合性、专业性检索工具收录的文献,主要来源于各种期刊;参考文献中所引用的文献主要来源于各种期刊。为了节省刊名所占的大量篇幅,必须将各种刊名缩写。识辨刊名缩写的方法主要有:

1.掌握刊名缩写规则检索工具对摘用的期刊名缩写虽然大同小异,

为了统一起见,国际标准化组织(简称ISO)在1972年颁布了ISO—4—1972(E)《国际期刊名称缩写法则》的国际标准,对刊名的缩写规则作了统一规定。此外,在1974年又提出了一份推荐标准ISO—833—1974(E)《国际期刊名称用语缩写一览表》,据此可以进行刊名缩写识辨。

2.利用检索刊物后附录的期刊一览表上刊名还原

例如:①CA中的Chemical Abstracts Service Source Index(化学文摘来源索引)含有近14,000种化学、化工类的期刊缩写;②EI中的Publications Indexed for Engineering(PIE)(出版物引用表)收录了近3,500种工程类的期刊缩写;③SA中的List of Journals(摘引期刊一览表)收录了约3,000种期刊缩写。

(三)非拉丁语系文字音译的识辨

欧美国家编制检索工具时,为了提高排印速度,一般都将非拉丁语系国家,如中、日、俄出版物的名称和著者姓名一般用音译转换成拉丁字母。检索时,需要将音译的拉丁字母名称还原成原文名称。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈