首页 理论教育 信息检索语言概述及特征,检索语言的基本类型

信息检索语言概述及特征,检索语言的基本类型

时间:2022-10-31 理论教育 版权反馈
【摘要】:各种图书分类法,如《中国图书馆图书分类法》、《中国科学院图书分类法》、《INSPEC叙词表》等都是检索语言,其分类号或检索词就是检索语言的词语。检索语言词义的这种单一性,保证了表达概念的唯一性,进而保证了标引与检索的一致性。对于检索工作而言,对描述信息内容特征的语言的研究才是重点。

2.2 信息检索语言

2.2.1 检索语言及特征

1.检索语言概述

检索语言是一种专门用于各种手工和计算机化的文献情报检索与存储系统、用以表达文献主题概念和研究课题主题概念的人工语言,亦可称为检索语言、索引语言、标引语言、文献工作语言等。各种图书分类法,如《中国图书馆图书分类法》、《中国科学院图书分类法》、《INSPEC叙词表》等都是检索语言,其分类号或检索词就是检索语言的词语。

检索语言不同于自然语言,它表达的概念只有一种解释,不允许因一词多义或多词一义而使概念的表达模棱两可。检索语言词义的这种单一性,保证了表达概念的唯一性,进而保证了标引与检索的一致性。

检索语言在信息检索中起着极其重要的作用,它是进行存储和检索两个过程的桥梁,也是标引者和检索者的桥梁。如果没有检索语言作为标引人员和检索人员的共同语言,就很难使标引人员对文献内容的表达(标引用语)和检索人员对相同内容文献的需要的表达(检索用语)取得一致,检索就不可能顺利进行。

2.检索语言的特征

检索语言是连接信息用户、信息工作人员及信息资源的非常重要的一环,因此具有鲜明的特征。简而言之,它必须满足以下三个基本条件:

(1)必须具有必要的语义和语法规则;

(2)必须具有表达概念的唯一性;

(3)必须具有将检索标识和提问特征进行比较和识别的方便性。

2.2.2 检索语言的基本类型

检索语言按描述文献的有关特征,可分为描述文献外表特征的语言和描述文献的内容特征的语言,如图2-2所示。

img6

图2-2 检索语言的类型

描述信息外表特征的语言往往是显而易见的语言,如篇名、著者姓名、序号等,其特点是这些项目与信息内容没有直接关系。对于检索工作而言,对描述信息内容特征的语言的研究才是重点。描述内容特征的语言主要有以下两种:

1.分类语言

分类语言又可分为体系分类语言、组配分类语言和混合分类语言。

(1)体系分类语言。体系分类语言是一种直接体现分类等级概念的标识系统。它以科学分类为基础,以文献内容的学科性质为对象,运用概念的划分与概括的方法,按照知识门类的逻辑次序,从上到下、从总到分,进行层层划分。每划分一次,就产生许多类目,逐级划分,就产生许多不同级别的类目。这些类目层层隶属,形成一个严格有序的等级结构体系。如《杜威分类法》(Dowey Decimal Classification,DDC)、《中国图书馆图书分类法》(以下简称《中图法》)就是典型的体系分类语言。分类表则是这种语言的具体体现。

(2)组配分类语言。它用科技术语进行组配的方式来描述文献内容。这些科技术语按其学科性质分为若干组,称为“组面”。组面内各个术语都附有相应的号码。标引文献时,根据文献内容选择相应的组面和有关术语,把这些术语的号码组配起来,构成表达这一文献内容的分类号。如印度阮冈纳赞的《冒号分类法》(Colon Classification,CC)。

(3)混合分类语言。它是组配分类和体系分类语言的结合,两者有所侧重,因而又有组配体系分类语言和体系组配分类语言之分。如《国际十进分类法》(Universal Decimal Classification,UDC)。

下面以《中图法》(第四版)为例介绍分类语言的一般概念和使用方法。《中图法》是一部大型综合性图书分类法,其分类表也称主表,由五个基本部类、二十二个基本大类、简表、详表和复分表组成。

(1)基本部类。《中图法》设置了五大部类,其排列顺序为:

马克思主义、列宁主义、毛泽东思想、邓小平理论

哲学

社会科学

自然科学

综合性图书

(2)基本大类。基本大类是分类表中的一级类目,它是在基本部类的基础上根据当前学科状况区分形成的一组具有独立体系的纲领性类目。《中图法》在五个部类的基础上设置了二十二个基本大类,其序列如下:

A.马克思主义、列宁主义、毛泽东思想、邓小平理论

B.哲学、宗教

C.社会科学总论

D.政治、法律

E.军事

F.经济

G.文化、科学、教育、体育

H.语言、文字

I.文学

J.艺术

K.历史、地理

N.自然科学总论

O.数理科学和化学

P.天文学、地球科学

Q.生物科学

R.医药、卫生

S.农业科学

T.工业技术

U.交通运输

V.航天、航空

X.环境科学、安全科学

Z.综合性图书

(3)简表。简表是图书分类法的基本类目表。它是由基本大类进一步区分的类目组成,担负着承上启下的作用。《中图法》的简表一般区分到三级类目。例如:

I文学

I0文学理论

I1世界文学

I2中国文学

I21作品集

I22诗歌、韵文

上例中,I文学为一级类目;I0文学理论,I1世界文学,I2中国文学为二级类目;I21作品集,I22诗歌、韵文为三级类目。

(4)详表。详表是按照类目之间的等级关系细列出的分类表,它是分类法的正文。据统计《中图法》的详表部分共设有4万多条类目,整个类目表以基本大类为起点,依次逐级区分为二级,三级,四级……直到不宜再区分为止。

例如:

分类号          类目名称          级次

J             艺术            一级

J2            绘画            二级

J21            绘画技术          三级

J211           一般技术          四级

J211.2          各种题材画技法       五级

J211.22          生产建设          六级

例如《绘画技巧大全》这本书的分类号为J211.2

(5)复分表。又称为辅助表,或附表。是由共同性的子目构成,单独编制供有关类目进一步区分时共同使用的表。《中图法》的复分表分为①总论复分表;②世界地区复分表;③中国地区表;④国际时代表;⑤中国时代表;⑥世界种族与民族表;⑦中国民族表;⑧通用时间、地点表。

如《英国油画集》为J233(561),“(561)”为英国复分号,《近二年来的肿瘤疗法经验》为R730.5=5,“=5”为时间复分号。

2.主题语言

主题语言又可分为关键词语言、标题词语言、叙词语言、单元词语言等四种。

(1)关键词语言。它是以关键词作为文献内容检索入口的一种主题语言。所谓关键词,是指从文献的标题、正文或摘要中直接抽取出来,未经规范化处理的自由词汇。关键词不受词表控制,标引文献时根据文献内容选择恰当的词汇进行组配,以表达文献的内容特征。

由于关键词语言是一种非控制的词,因而能用计算机进行自动抽词标引,适合于计算机自动编制各种类型的关键词索引。

(2)标题词语言。它是以标题词作为文献内容标识和检索依据的一种主题语言。所谓标题词,是从文献的内容或题目中抽选出来,经过规范化处理,用以描述文献内容特征的词和词组。美国《工程索引》的Subject Headings for Engineering就是典型的标题词语言。标题词表是由标题词按字顺排列组成的。使用时,用所选标题词,在词表中按字顺查找,即可查到。

(3)叙词语言。它是以叙词作为文献内容标识和检索依据的一种主题语言。所谓叙词,是从文献题目、正文或摘要中抽取出来的、用以表达文献基本内容的概念单元。叙词受词表控制,词表中词与词之间无从属关系,都是相互独立的概念单元。我国编制的《汉语主题词表》就是典型的叙词语言。检索时,可根据需要选出相应的叙词,按照组配原则任意组配检索概念。因此,它特别适用于电子计算机检索。下面以《汉语主题词表》为例介绍叙词表的一般结构和使用。

《汉语主题词表》是按自然科学和社会科学两个系统来分别编制的。有主表(字顺表)、附表、词族、索引、范畴索引和英汉对照索引组成,共有三卷十分册。

①主表 主表也称字顺表,是由全部正式主题词款目和非正式主题词款目组成,并按一定字顺排列。主表是标引和检索科技文献,组织目录的主要工具。主题词款目是由主题词的汉语拼音、英文译名、范畴分类号、注释和参照项组成。参照项的作用是用来说明主题词之间的相互关系。

正式、非正式主题词款目结构图分别是图2-3、图2-4

img7

图2-3 正式主题词款目结构图

img8

图2-4 非正式主题词款目结构图

参照项的种类、作用和符号请看表2-1。

表2-1 参照项的种类、作用和符号

img9

表2-1中,“Y”,从非正式主题词指引到正式主题词;“D”,从正式主题词指引到非正式主题词;“F”,指明主题词有哪些下位概念;“S”,指明主题词的上位概念是什么;“Z”,指明主题词所在族系中的族首词;“C”,指明与主题词有相关关系的词。通过这些参照项可以指引读者根据需要随时扩大或缩小检索范围。

②附表 是将各学科领域中共同使用的一些具有单独概念性质的,有较强检索意义和组配作用的主题词,按照一定的范畴分别按字顺编排而形成的表。这样,可以减少主表的篇幅,方便使用。其中包括四个部分:世界各政区名称、自然地理区划名称、组织机构、人物。

③辅助索引 又称辅助表,是将主表中的主题词,根据不同的需要,采用不同的方式、方法而编制起来的一些对主表起补充配套作用的索引。有以下三种索引:

词族索引:就是把主表中具有属分关系的正式主题词,按其属性展开加以全显示的一种词族系统。从其体系结构来看,也就是把族首词作为款目主题词并按族首词的字顺和等级相结合编排的一种索引。例如:

cheliang shiyan

车辆实验

.机车实验

.牵引实验

.汽车实验

.拖拉机实验

..土槽模拟实验

.行车实验

..越野实验

电子计算机

.处理机

..微处理机

范畴索引:又称分类索引,是将主表的全部主题词按照主题词的学科和词义范畴,划分若干大类,二级类或三级类,每类之下按依主题词的汉语拼音字顺排列的一种索引。它的分类是对主题词的分类。

英汉对照索引:是将英文与汉语主题词相对应,并按英文字母顺序排列的一种索引。该索引主要是为了标引和检索英文文献而编制的。既便于标引人员准确地选择汉语主题词来表达英文文献的主题,又便于读者从英文的角度准确地选择汉语主题词来检索文献。

(4)单元词语言。它是以单元词作为文献内容标识和检索依据的一种主题语言。所谓单元词,是从文献正文、摘要或题目中抽取出来的最基本的、其概念不可再分的词。它一般未经规范化,也无词表。检索时,根据检索课题的内容特征,选取恰当的单元词进行组配检索。检索美国化工专利使用的《化学专利单元词索引》就是利用单元词作检索语言的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈