首页 百科知识 检索的基本原理与检索语言

检索的基本原理与检索语言

时间:2022-06-21 百科知识 版权反馈
【摘要】:正确地运用检索语言有助于提高文献检索效率。1)关键词语言:关键词又称为自由词,是由直接从文献的篇名、关键词、摘要或全文中抽取出来的且能揭示文献题名或主要内容的关键性词汇构成的,未经规范性处理,检索信息比较直观,不受主题词表与学科体系的局限。通过词表将各种同义词、近义词、多义词、同形异义词、先组式词组等严格规范化,并且揭示各词之间的语义参照关系,如同义关系、上下关系、相关关系。

第二节 检索的基本原理与检索语言

文献检索是使用科学的方法,从不同信息集合中迅速、准确、完整地查找和获得文献资料。这里所说的信息集合,是指有组织的信息资源系统,可以是检索性工具书、资源门户,也可以是各种数据库,如图书馆馆藏书目检索系统、中国知网、PubMed,等等。

一、检索基本原理

检索基本原理就是将用户的提问特征与检索系统的文献标识特征进行对比,并将其中匹配一致或比较一致的数据输出给用户。

为了实现标识特征的对比检索,需要分析出所收录(存储)的每个文献的外部特征和内容特征,用约定的检索语言进行标引,按照规定的方式组织到编制好的检索系统里;检索时需要根据检索者的特定需求,确定提问特征,从检索系统中查找出有关文献。文献检索过程如图1-2-1所示。

从图1-2-1可以看出,文献检索包含了两个过程:

1)存储过程:通过特征分析,使用检索语言标引记录和组织索引,把大量分散的无序的文献集中存储起来,成为具有多种索引功能的检索系统;

2)检索过程:利用已组织好的检索系统,按照检索要求使用检索语言将提问标识与检索系统中存储文献的特征标识进行人工比较,或是通过计算机进行字符串匹配和逻辑运算,输出命中文献,从而将所需信息查找出来。因此,信息检索的全名为信息存储与检索,广义的概念是指存储与检索两个过程,狭义的信息检索仅是指检索过程。

img3

图1-2-1 文献检索过程图

依据检索目的的不同,文献检索可以分为以下几种类型:

1)数据(数值)检索:以数据、公式或数据型图表为查找对象,如人体生理常数、血液检验正常参考值等;

2)文献检索:以文献为对象,查找有关某个课题的原始文献或三次文献;

3)图像信息检索:以特定图像为查找对象,如医学影像电子地图等;

4)事实检索:检索某个特定事物或事件的始末、实验方法、试剂品牌等,如检索“川崎病”发生的由来与治疗方案比较。

二、检索语言

从上面的文献检索过程可以看出,检索语言起着极其重要的作用,它是沟通文献存储与文献检索两个过程的桥梁。为有效地获得和利用文献,人们必须通过检索语言使存储过程中的标引用词与检索过程中的提问用词达到一致。当用户的检索标识与文献的特征标识完全匹配或部分匹配时,结果即为命中文献。

文献检索语言是用来描述文献特征和表达检索提问,并为检索系统提供一种统一的符号化或语词化的专用人工语言。检索语言因其使用的场合不同,也有不同的叫法:用于文献的标引和存储的,叫标引语言;用于组织文献的索引的,叫索引语言;在检索文献过程中则称为检索语言。在检索系统中,每种检索语言都对应一种检索途径(检索点)。正确地运用检索语言有助于提高文献检索效率。

1.以文献外部特征为检索标识的检索语言

文献外表特征有题名、著者、文献来源、期刊卷期、页码、出版年月、文种、文献类型、著者单位、参考文献等,可作为文献标识与检索依据,直接明了。相应地,则有题名、著者、文献出处(来源)、作者单位等检索途径。

(1)题名语言

按文献的完整题目(题名、篇名)或题目中的关键词和词组进行检索的索引语言。

(2)著者语言

按著者、译者、编者等姓名进行检索的索引语言。通用原则是:姓在前,名在后,姓用全称,名用缩写。例如,Michala E.Pedersen,通常使用“Pedersen ME”或用“Pedersen M”检索。检索英文文献时,中国著者用汉语拼音,日本著者用日本黑本式《日文字母-拉丁字母音译对照表》。具体规定见各数据库的检索说明。

(3)号码语言

按文献的某个特定号码,如专利号、标准号、报告号、ISBN号、ISSN号等的顺序排检的索引语言。

(4)引文语言

利用文献之间引用与被引用的关系,作为文献内容主题标识,并以此标引和检索文献的索引语言。标引词可以取自参考文献(即引文)中的题名、著者、来源等。引文检索既能提供同类研究的历史轨迹,也可通过被引用的情况反映该论文及其相关工作的学术水平,已被列为科技查新的一项重要内容。

2.以文献内容特征为检索标识的检索语言

这类检索语言普遍应用了概念逻辑的原理来表达各种主题概念及其相互关系(等同关系、属分关系、相关关系),并且利用了“概念的划分与概括”和“概念的分析与综合”这两种逻辑方法来建立各自的结构体系。前者以等级体系分类法为代表,后者以叙词语言(主题词表)为代表。

文献内容特征可以是学科分类、主题内容、物质结构符号等,以其为检索标识的检索语言包括分类语言、主题语言、代码语言等,相应地有分类名称或分类号、主题词、关键词、代码等检索途径。

(1)分类语言

广泛用于图书、资料的分类和检索,具体体现形式就是图书分类法。比较有影响的有《美国国会图书馆分类法》、《杜威分类法》和《中国图书馆分类法》等。它们用固定的分类号和相应的分类名称来表达各种概念,以科学知识分类为基础,结合文献信息的内容及其特征,运用概念划分和归属的方法,采取从总到分、从一般到个别、从抽象到具体、从低级到高级、从简单到复杂的原则进行层层划分,是等级体系结构。同位概念之间体现的是平行关系,而上下位类之间则是隶属关系。分类语言便于按学科门类进行族性检索,但不适用于多学科性的、按专题概念进行的特性检索。《国际十进分类法》在等级列举制的基础上采取了多种符号进行组配,能够揭示复杂主题的文献,因而发展成一部概念等级列举与分面组配相结合的混合式分类法,成为国际通用的情报检索语言之一。专利文献则使用专门的专利分类法,国际上通行使用“国际专利分类法”(IPC)。

(2)主题语言

主题语言将从文献中优选出来的,能够准确表达文献主题内容特征的词汇作为概念检索标识,按字顺排列,并用“参照系统”等方法辅助显示概念之间的相互关系,具有直观性强、专指性高、灵活性好、概括全面的优点。按照选词原则、词规范化处理的不同,主题语言包括标题词语言、单元词语言、叙词语言、关键词语言等。其中,关键词语言和叙词语言是目前使用较多的主题检索语言。

1)关键词语言:关键词又称为自由词,是由直接从文献的篇名、关键词、摘要或全文中抽取出来的且能揭示文献题名或主要内容的关键性词汇构成的,未经规范性处理,检索信息比较直观,不受主题词表与学科体系的局限。几乎每一个搜索引擎或全文数据库都具有关键词检索功能。

2)叙词语言:叙词是指一些以概念为基础的,具有组配功能,经过规范化的词或词组,并配有一个完整系统的主题词表。通过词表将各种同义词、近义词、多义词、同形异义词、先组式词组(在主题词表内事先将两个或多个主题词固定为一个词组)等严格规范化,并且揭示各词之间的语义参照关系,如同义关系、上下关系、相关关系。叙词主题词表经常增订,在检索词的统一和概念的组配上有较好的灵活性,对一些新兴学科、边缘学科的查找尤其方便,能突破知识分类的框架,把分散在各学科里的有关课题的文献集中于同一主题下,有利于综合性检索。

(3)代码语言

代码语言是对文献所论述事物的某一方面的特征,用某种代码系统加以描述和标引,如化学物质的分子式、化学物质登记号、基因代码等。这种检索语言尤其适用于生物化学、医学检验等专业的文献检索。

网络环境下还出现了另一类检索语言:网络分类法,如分类指南、学科导航。许多搜索引擎、数据库、学科门户、网站根据自身收录对象和用户检索特点自行设置学科大类类目,直接使用学科名称,不用类号,没有严格的等级划分,能基本满足用户的主题检索要求。

三、禁用词

禁用词(Stop Words),也叫停用词,即计算机检索中的虚词、非检索用词。有些词因为单独使用时无实际意义,如英文and、or、not、in、at、of、about、up、out、is、are、the等以及中文的连词副词、介词、语气助词等虚词,或者出现频率过高,如中文“我们”,或者某些词及符号已用于系统中代表逻辑算符,就被定义为禁用词,不能作为检索词。若使用带有禁用词的语句进行全文检索,检索系统或搜索引擎将自动以空格方式忽略这些禁用词,继续执行其余检索词的检索。规定禁用词有利于节省索引空间和提高搜索效率。每个数据库都有自己的禁用词规定。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈