首页 理论教育 信息检索语言的类型

信息检索语言的类型

时间:2022-02-28 理论教育 版权反馈
【摘要】:表述文献外部特征的检索语言是以文献上标明的、显而易见的特征作为文献的标识和检索依据的,通常指篇名、著者、报告号、专利号等。检索语言的主要类型如图2-3所示。分类语言的优势是强调知识的系统性,符合人们认识事物的习惯,便于用户按学科系统检索有关文献信息,族性检索的适应性强。主题语言是用词语表示文献主题的一类检索语言。

2.3.3 信息检索语言的类型

检索语言就其描述文献的有关特征而言,可分为描述文献外部特征的外部特征语言和描述文献内容特征的内容特征语言,这两大范畴的语言又可细分为若干具体的语言。

表述文献外部特征的检索语言是以文献上标明的、显而易见的特征作为文献的标识和检索依据的,通常指篇名、著者、报告号、专利号等。它们具有客观性和内容上的唯一性。

表述文献内容特征的检索语言与外部特征语言相比,在揭示文献特征与表达检索提问方面更具有深度。在标引和检索时更需要标引人员和检索人员的判断分析,因而更带有主观性及非确定性。此类语言的结构和使用规则都比外部特征语言复杂,分类语言、主题语言均属此类。检索语言的主要类型如图2-3所示。

img7

图2-3 检索语言的主要类型

1.分类语言

(1)分类语言的概念、作用和特点。

分类是根据文献内容的学科性质和特点类分文献的方法。分类语言是建立在科学分类的基础上,运用概念划分与概括的方法,将大大小小的概念进行逐级划分产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成了一个严格有序、层次分明的知识门类等级制体系。分类语言以号码为基本字符,用分类号来表达各种概念,将各种概念按学科性质进行分类和系统排列。

对文献进行分类的目的是便于管理和利用它们。文献分类在文献检索中具有重要的作用,它是编制检索工具的基本方法,也是文献检索的一个重要途径。比如分类目录可以向用户展示一个科学分类系统,用户能够通过这个系统去选择和阅读自己所需要的文献。掌握文献分类的基本原理,不仅有利于我们从分类途径检索文献,而且对于积累资料,分析、研究及处理文献都十分有益。

分类语言的优势是强调知识的系统性,符合人们认识事物的习惯,便于用户按学科系统检索有关文献信息,族性检索的适应性强。但分类语言也有局限性,现代科学由于边缘学科、交叉学科的出现,学科之间互相渗透、相互结合,因此,直线序列的分类法难以反映多元性的知识空间,在表达复杂的主题概念时不准确。此外,使用分类语言,必须了解科学的分门别类的体系,否则不容易找到准确的类目。在进行某个具体课题的检索时,为了判断该课题的归属,需要逐步考虑从大类到小类、从上位类到下位类层层展开关系,以逐步缩小检索范围,因此检索时的思路比较复杂。

(2)类型及原理。

从近现代分类法的编制方式看,其类型主要有:等级体系分类语言、分面组配分类语言和混合式分类语言。

等级体系分类语言目前应用比较普遍,它是以文献内容的学科性质为对象,运用概念概括与划分的方法,按照知识门类的逻辑次序从一般到具体、从简单到复杂层层划分所形成的一种等级体系。其优势在于能体现学科的系统性,能反映事物的派生、隶属与平行的关系,有利于从学科专业的角度进行科技文献的检索,有利于查全一门学科中相关的各种文献。体系分类法将概念逐级划分,具有等级结构,便于扩大或缩小检索范围。

该语言以数字和字母(即分类号)作为表达文献学科内容的标识,并以此标识编排、组织和查找文献。由于采用分类号作为检索标识,所以简单明了,易于掌握,特别是对于外文检索工具,即使不懂其文字,只要掌握其所采用的分类法,也可以借助分类号进行检索。分类的具体体现是各种分类表,目前国内常用的分类法为:《中国图书馆分类法》,简称中图法;《中国科学院图书馆图书分类法》,简称科图法;《国际十进分类法》,简称UDC;《杜威十进制分类法》,简称DC或DDC。

(3)中图法的体系结构。

中图法全称是《中国图书馆分类法》,此前曾称为《中国图书馆图书分类法》,是北京图书馆等组织全国力量编辑的。它是我国第一部集中了全国图书馆和信息部门的力量共同编制的综合性大型文献分类法,1975年出版第一版,1980年出版第二版,1990年出版第三版,1999年出版第四版(机读版同时出版),目前中图法广泛应用于各类型图书馆。中图法目前已经出了第五版。

中图法主要由说明和类目表组成。下面具体说明其各部分的内容结构。

①说明:说明是中图法的重要组成部分,包括编制说明、使用说明和类目注释等。主要介绍了分类法的编制过程,所依据的编制原则,部类及大类设置的理由,对各种分类问题的处理方法、标记方法、使用方法等。其中“编制说明”是对整个分类法的编制目的、编制原则、标记制度、体系结构及类目注释等的说明。“使用说明”则阐述了各个基本大类的内容范围、编制原则、类目体系以及分类规则和方法等,通常单独出版。“类目注释”说明了类目的含义、覆盖范围和使用规则,附在有关类目之后。

②类目表:它是全部知识最基本的区分,是具体划分类目的出发点。

中图法共分五大基本部类:

A.基本部类

马、列、毛泽东思想,哲学,社会科学,自然科学,综合性图书。

B.基本大类

中图法在社会科学基本部类下,又展开为9个大类,在自然科学的基本部类下,又展开为10个大类,因此共有22个基本大类。

C.简表

简表是分别对每个基本大类,依据它的某些属性,作若干次逐一划分后得到的类目表,通过简表能对该分类法的分类结构一目了然。简表起着承上启下的作用,便于通过它寻找详细类目。

D.详表

详表是简表的进一步展开,是类目表的主体部分,又称正表。详表是整个中图法的正文,它集中体现了中图法的分类思想和分类规则,是用来类分文献的具体依据。但对于一些要求继续细分的类目,还需要用辅助表进行细分。

E.辅助表

辅助表又称复分表,是为了适应详表中某些类目需进一步细分的要求而设立的。辅助表增强了类目的细分程度,并使详表篇幅大大缩小,配上号码后,具有一定的助记性,但它们不能单独使用。提供的通用复分表有“总论复分表”、“世界地区表”、“中国地区表”、“国际时代表”、“中国时代表”、“世界种族与民族表”、“中国民族表”及“通用时间地点表”。

F.中图法标记符号

分类法是由类号和类目组成的集合。类号是文献知识信息概念的表示符号,通常由字母、数字或其组合构成。其主要作用就是简明系统地表示每个类目在分类体系中的位置,以便组织分类目录。类目是具有共同属性的一级概念,类号和类目一一对应,密不可分。

2.主题语言

主题是指文献所具体论述的对象和研究的问题。主题语言是用词语表示文献主题的一类检索语言。它以语言文字为基础,以反映特定事物为中心,不论学科专业分类,直接借助于自然语言的形式,作为文献的标识和检索依据。主题语言包括标题词语言、叙词语言和关键词语言。标题词语言和叙词语言是用规范化名词标引和检索文献主题概念的语言,关键词语言是用直接选自文献内容的具有实质意义的自然语言作为标引和检索文献的语言,用主题语言作文献标识具有以下优点:

①直接性好:主题词来源于自然语言,标识比较直观,符合人们的辨识习惯。主题词在词表中按字顺排列,序列明确,易学易查,容易掌握。主题语言揭示文献论述的具体事物或主题概念,一般不涉及学科类别的判断,直观易懂。

②专业性强:由于主题词表列举的标识数量较多,多数标识的指代范围较窄,所以利用主题词表检索文献具有直指性强、专指度高的特点。

③灵活性高:无论文献主题如何专深,学科专业如何交叉、渗透,只要有明确的表达主题的术语,一般都可以把它直接选作标识语言,而不像分类语言那样受到线性结构和学科体系固定的约束。该语言反映新学科概念的速度比较快,主题语言可以随时进行增删和修改。

主题语言的缺点是有时一个课题可能涉及多个主题,使该课题分散在许多主题词之下,不好分类集中,不利于从学科角度检索文献。主题语言一般包括标题词语言、叙词语言和关键词语言,下面我们就分述一下其各自的特点。

(1)标题词语言。

标题词语言以规范化的自然语言作为标识,来表达文献的主题。全部标识按字母顺序排列,这是主题法中最早出现的一种检索语言。由于它是一种以标题词(规范的事物名称、名词术语)作为文献主题内容的标识和检索标识的先组式主题语言,因此使标引和检索工作变得一目了然。现在常用的标题词语言有美国《工程索引》EI的SHE和美国《化学文摘》CA的SIG两种。

标题词语言的主要特征是事先编表,标题词以固定的组合方式组织在标题词表中。标题词表的功能是对优选出来的标题词从词义、词形、词间关系和用法等方面进行管理和控制。保证一种事物用一个标题词表达,一个标题词只表达一种事物或含义,避免使用过程中的混乱。标题词表通常是用主标题词和副标题词来共同构成检索标识,以达到一定的专指度。主标题词表示一定的事物,副标题词用以限制、修饰、细分主标题词,起着对主标题词分类的作用。主标题词和副标题词在编表时就固定组配,所以标题词语言是一种先组式检索语言。为了显示概念之间的相互关系,标题词法中用See(见)、See also(参见)和标题词范围注释来反映主体事物概念之间的同义关系、属种关系和相关关系,从而增加了检索途径。

标题词语言适用于从事物的主题概念出发,直接选用标题词进行检索。但是在标题词表中,主标题词和副标题词的数量是一定的,因此对复杂主题和精细主题的表达就会受到很大限制。

(2)叙词语言。

它是以叙词作为文献内容标识和检索依据的一种主题语言。叙词是选自自然语言,并经过规范化处理的单元词或词组。叙词语言是一种后组式主题语言,它综合了多种检索语言的原理和方法,借鉴了分类法按学科范畴分类的原理,吸收了标题词语言对标题词进行严格规范化控制的特点,是目前世界上最常用的检索语言。

叙词是一种以概念为基础的、经过优选的规范化名词术语,具有单义性、组配性能好的特点。检索时可由多个叙词形成任意合乎逻辑的组配。叙词的组配是概念组配,即把一个完整的主题内容,从概念上分解为若干分概念,然后选用词表中确切表达这些分概念的词或词组加以组配,以达到更专指的概念。在叙词表中,叙词是表达特定概念的最小词汇单元。

(3)关键词语言。

关键词就是从文献的题名、摘要和内容中抽取出来的,能够表达文献主题内容的具有实质意义的关键性词汇。它是一种未经过规范化的自然语言,所以用关键词表达事物概念,具有直接准确的特点。关键词语言是以关键词作为文献内容标识和检索依据的一种主题检索语言。由于它是非控制语言,能用来指令计算机进行自动抽词标引,快捷简便,适于用计算机组织和检索文献信息,所以在计算机检索中得到了广泛的应用。

关键词语言的缺点是查准率和查全率较低,这是因为关键词是未经规范化处理的自然语言,其同义词和近义词未加规范统一,这就会造成标引和检索之间的误差,由此产生文献的漏检。另外,自然语言中多种形式的相关关系在关键词中得不到显示,这也给查准、查全文献带来了困难。

3.题名语言

题名语言是按文献题名的字顺逐字排检的检索语言,西文的起首冠词一律不排。

4.著者语言

按著者姓名的字顺逐字排检而成的检索语言。

5.号码语言

按文献代码,如专利号、标准号、报告号等的顺序排检而成的检索语言,称为号码语言。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈