首页 百科知识 叙词语言的词汇控制

叙词语言的词汇控制

时间:2022-02-26 百科知识 版权反馈
【摘要】:叙词语言的词汇控制一般是根据检索的需要进行的,包括词汇选择、词形控制、词义控制、词间关系控制等基本方面,下面分别介绍。后组词即单词,是以单元概念的语词形式收入叙词表的词,它们属于不可再分的最基本的词汇。
叙词语言的词汇控制_多语种叙词本体

1.3 叙词语言的词汇控制

叙词语言是在单元词的基础上发展起来的,广泛吸收了诸如标题法、分布组配分类法等多种检索语言的原理和方法。叙词语言通过对自然语言进行控制并转成规范化语言,对词汇的规范较为完备、严密。叙词语言的词汇控制一般是根据检索的需要进行的,包括词汇选择、词形控制、词义控制、词间关系控制等基本方面,下面分别介绍。

1.3.1 词汇选择

词汇是叙词表的构成基础,一部叙词表的质量高低,很大程度上取决于其构成词汇的选择。为了保证叙词表中词汇的规范性和严密性,叙词表对词汇的选择原则以及词汇的类型、范围等因素都应具有明确的规定。

1.3.1.1 词汇选择原则

根据以往叙词表的编制情况,参考《汉语叙词表编制规则》,汉语叙词的选择一般应该遵守以下几条原则:

①叙词的选择。叙词的选择首先应该考虑标引和检索的实际需要,以及当前各学科的发展情况,脱离了实际需要的叙词表没有任何实用的价值。任一学科选择的语词,必须是在该学科领域的文献内经常出现的,进行文献检索时具有相当的检索使用率,并且能汇集一定文献量的专业术语。对于领域内新出现的语词,应该根据实际使用的需要、考虑其在领域中的影响,并结合相应的发展情况进行选择。

②语词的概念。任一被选定的语词,应该具有明确的概念定义,且不会产生歧义。保证具有科学性、通用性的原则,适宜于准确地表达文献的主题和进行检索提问。对于选择过程中出现的同形异义词、多义词,可以通过叙词表中规定的限定方法加以使用。

③词组的选择。有些时候,单个的语词可能不能很好地表达足够多的意思,这时就需要考虑选定语词的组配关系以及语词的专指性,在收录单词的同时也收录相应的词组,以保证叙词表表达内容的完备性。

④符合表达习惯。选定的语词应尽量符合汉语表达中的习惯,易于人们理解和使用。这要求被选定的语词在词形上要达到作为语词标识的要求,而不是较为生僻的语词,并且尽量选用那些便于字面成族的语词。

1.3.1.2 词汇类型

一部叙词表的构成,一般是以名词为主,某些时候为了语义表达的准确性和丰富性,也会收录一定量的形容词。按照表达事物概念范围大小的特点,叙词可以分为普通名词和专有名词两种。

普通名词是构成叙词表的基本词汇,是对普通事物的基本描述,其选词范围主要包括如下几个方面:

①表示具体事物的名词术语,如学校、教室、老师、学生、计算机等。

②表示学科门类的名词术语,如哲学、社会学、传播学、图书馆学、物理学、生物学、分子生物学、工程学、环境科学等。

③表示文献类型的术语,如词典、年鉴、百科全书、期刊、手册、目录、索引、专题报告、专利、标准、会议记录等。

④表示事物材料的名词术语,如钢铁、塑料橡胶、合金等。

⑤表示事物性质、现象、状态,过程等方面的名词术语,如感光性、导热性、导电性、发热、振动、飞行、爆炸等。

⑥表示对事物的研究方法、工艺等方面的名词术语,如调查、分析、计算、归纳、总结、冷冻、电镀等。

专有名词用以表达某一特定方面的单一对象,对于专有名词的选择,叙词表一般重点考虑那些比较典型的、具有较大研究和检索价值的名词。其选词包括:

①自然地理区名,如亚洲、非洲、美洲、欧洲、太平洋、大西洋、北极、南极等。

政治区名,如中国、美国、英国、法国、日本等。

③机构组织名,如联合国、世界银行、亚太经合组织、北约等。

④人名,如孔子孟子、牛顿、爱因斯坦、马克思、恩格斯等。

历史事件名,如“七七事变”、“西安事变”、“珍珠港事件”等。

⑥文献名,如《汉语主题词表》、《大英百科全书》等。

1.3.1.3 先组词的选择

在叙词表中,按照构成词汇的单元的特点,叙词表的语词可以分为后组词和先组词两类。后组词即单词,是以单元概念的语词形式收入叙词表的词,它们属于不可再分的最基本的词汇。先组词即词组,是由单元词组成的具有复合概念的语词,这类词往往由两个或多个单元词组合而成,用以表达复合主题,拆开或进行顺序调整之后意思会发生变化,不再具有复合词的概念。

采用单词组配的方法来表达复合主题的含义,早在元词法中就得到过使用,作用是可以减少叙词表的词量,在手检工具中增加检索入口,提高检全率。但不足之处在于如果过多使用单元词组配,会影响标引的直接性,降低查准率,同时也无法提示一些常用主题概念之间的关系。例如,化学工业的概念是重工业,下位概念包括发酵工业、合成工业、化学纤维工业、石油化学工业、橡胶工业、制药工业等。在这种情况下,通过揭示上述词间关系,在进行相关信息资源的查找时,显然会带来相当大的便捷性。但这些联系在使用“化学”和“工业”的情况下是无法建立的,只有将化学工业等作为先组词直接收录到叙词表中才能揭示。使用先组词可以克服后组词的上述问题,增加标引和检索的准确度。但过多地依赖先组词,也会增加词表的篇幅,同时还会在手工检索系统中减少检索入口,影响查全率。因此关键应该是根据检索系统的特点和实际需要,确定词组的选择标准,将先级词的数量控制在一定的范围之内。词组的选择是词表编制过程中的难点之一。为了使叙词表能同时适应计算机检索和手工检索的需要,同时兼顾标引的直接性、专指性,在我国叙词表的编制历史中,下述情况通常直接选用词组:

①被选择语词在某一领域内为使用效率较高的常用词组,一般直接收录到叙词表。如化学工业、教育资源、情报检索语言、数据处理等,此类词汇一般均采取直接收录的方式。

②该词组在分解成单元词后不再具有原来的含义,对理解语词概念有干扰时,直接收录进叙词表。如塑胶炸弹、全面战争二词分解之后,塑胶、全面二词的含义发生变化,应该直接被收录。

③该词组分解成单元词后其中一词意义,没有实际的检索价值时,直接收录进叙词表。如圆润检索、台面二极管二词分解之后,回溯、台面二词两词的实际检索价值不大,应该直接被收录。

④组成该词组的单元词顺序调整之后词义发生变化的词组,可以适当选用。如工业酒精一词,以工业和酒精组配,可以产生工业酒精和酒精工业两种含义,一般直接收录。

⑤有标引价值的专有名词,一般可以直接收录。如北京大学一词,如采用北京和大学加以组配,其含义就会变成北京的大学,应当直接被收录。

也有一些情况通常不直接选用词组。这类情况包括:

①表示事物及其方面的词组,如火车站设计、模具加工等。

②表示事物及其部分的词组,如飞机轮胎、计算机电源等。

③由专有名词如国家名、地区名、时代名、人名等与其他主题概念组成的复合词,中国钢铁工业、鲁迅小说创作等。

④由科学术语与文献类型的名称组成的复合词,如:计算机词典、史学书目等。

⑤可以分解成两个或多个交叉关系概念语词的复合词,也不直接选用。如生物遗传学可以分解成生物学和遗传学两个表示交叉关系的语词。

但上述情况并不是绝对的,有时当一对象资源较多,使用需要量大时,也可以适当调整。

1.3.2 词形控制与词义控制

在几千年的发展中,语言在不断地发生演变,很多词汇具有了各种各样的形状以及多种含义。为了保证叙词表的标引质量,对于所选用的叙词,必须在词形和词义两方面进行严格的控制。

1.3.2.1 词形控制

词形控制是指根据主题和检索的需要,对所选叙词的语词形式及其构成成分作出相应规定,以确保叙词表的排列效果,方便用户进行检索。在中文叙词表中,词型控制通常包括下列内容:

①规定语词形体。当一个汉字存在几种形体,如繁简体、异体或未正式公布的简体时,一律以国家通告的字体为标准。

②规定外来语和数字的用法。外来名词术语一般应选用规范的汉译名,但在外文名词术语更为通行时,也可以直接用原文。阿拉伯数字根据情况在必要时选用。例如: C语言、SCI、X光、铀235等词,均可直接选作叙词。

③规定标点符号的用法。一般只在必要时使用括号、连线、小圆点等符号,其他标点符号除特殊情况外,一般概不使用。例如:静态分析(经济学)、发射管(电子)、九·一八事变、气体—固体界面等均为正式主题词。

④规定词序。收录到叙词表的词一般采用自然语序,不使用倒置形式。例如:用“公共图书馆”而不用“图书馆,公共”;用“工程物理学”而不用“物理学,工程”。倒置形式在必要时可作为非叙词收录到叙词表,用以指向相应叙词。

⑤规定外文的词形。主要是规定单复数、名词形式等。一般可依据该文字的叙词表编制规范进行。例如在英文中,可数名词多采用复数形式;不可数名词,或表示抽象概念的名词,采用单数的形式;如一个词的单数和复数表示不同概念,可同时收录到叙词表。双语种或多语种索引中通常会涉及外文词形的处理。

⑥规定词长。为了使入选的语词适合排检和计算机检索的需要,一般应对字长规定。例如在《汉语主题词表》中规定词长不得超过14个汉字,过长的语词可用简称或缩写等方法处理,使其保持在规定的长度以内。

1.3.2.2 同义控制

同义控制主要是对一义多词及含义相近或有联系,可以根据需要对相互代替的语词之间进行控制。一般选其中的一个为叙词,其余为非叙词,使同一含义只用一个词表达,以便能集中同一主题的资源。同义控制包括同义词之间的控制和准同义词之间的控制两类情况。

(1)同义词之间的控制

同义词之间的控制是对外延相同的不同语词之间的控制。包括:

①语义同义词之间。一般以较为通用的词作叙词。

例如:全球环境(叙词)地球环境(入口词)

海洋物理学(叙词)物理海洋学(入口词)

国家机构(叙词)国家机关(入口词)

②学名与俗名之间。一般以学名为叙词。

例如:废物综合利用(叙词)变废为宝(入口词)

化害为得(入口词)

玉米(叙词)包谷(入口词)

③不同角度的名称之间。一般选较为常用的词为叙词。

例如:上海公报(叙词)中美联合公报(入口词)

七七事变(叙词)卢沟桥事变(入口词)

④新称与旧称之间。一般选用新称为叙词。

例如:胡志明市(叙词)西贡(入口词)

发展中国家(叙词)不发达国家(入口词)

⑤全称与简称之间。一般选用全称为叙词。

例如:联合国安全理事会(叙词)安理会(入口词)

安全理事会(入口词)

武汉大学(叙词)武大(入口词)

⑥不同译名之间。一般选用规范译名为叙词。

例如:激光(叙词)镭射(入口词)

发动机(叙词)引擎(入口词)

⑦产品型号与代号之间。专业文献单位一般用产品的型号为叙词。

例如: SS-1导弹(叙词)“飞毛腿”导弹(入口词)

⑧词组与对应的组配形式之间。一般用于指向对应的组配形式。

例如:国际经济+经济援助(叙词)对外经济援助(入口词)

期刊+联合目录(叙词)期刊联合目录(入口词)

(2)准同义词之间的控制

准同义关系是指含义相近或虽然含义不同,但有一定的联系,可以根据检索需要相互代替语词之间的关系。准同义词之间的控制通常在有关语词下资源数量较少时使用,是检索系统控制词量和专指度的一种方法。包括:

①分近义词之间。一般选其中较概括、通用的语词作叙词。

例如:中子流(叙词)弱中子流(入口词)

数据处理(叙词)数据处理系统(入口词)

②部分反义词之间。一般选其中表示下面含义的语词作为叙词。

例如:本质属性(叙词)非本质属性(入口词)

电子(叙词)负电子(入口词)

③部分上位词与下位词之间。一般选择含义宽泛的上位词代替一个或若干个专指的下位词,亦称上位词置代。

例如:电视设备(叙词)闭路电视设备(入口词)

污染(叙词)地表水污染(入口词)

地下水污染(入口词)

水体污染(入口词)

1.3.2.3 词义控制

词义控制主要是针对一词多义的现象进行控制,使其具有明确性和单义性。包括对多义词、同形异义词以及词义含糊的语词等的处理,一般采用在叙词后加限义词或加注的方法予以解决。

(1)加限义词

此种方法常用于自然语言中的同形异义词和多义词,通过对词汇的使用范围加以限定,明确词汇含义,使其具有单义性。同形异义词和多义词特点是:同一字面形式的语词,在不同领域或场合往往用以表达不同的概念。例如:“结构主义”一词,在哲学、心理学和语言学分别具有不同的内涵,可以通过学科、专业、地域、时间等的角度加以限定,使其含义明确。

例1:拟人说(心理学)

拟人说(文艺)

例2:结构主义(心理学)

结构主义(语言学)

结构主义(哲学)

例3:病毒(医学)

病毒(计算机)

例4:民族化(文艺)

例5:黑旗军(广西)

黑旗烟(山东)

例6:尼布楚条约(1689)

例7:渡江战役(1949)

(2)注释

对叙词的注释说明大体包括三种类型,概要介绍如下:

①含义注释。含义注释通常用于一些字面上比较含糊,容易混淆的词,通过以注释的方式对其含义或范围等作补充说明,明确其含义,以便确切使用。

例如:岭南画派

注:中国现代画流派,主要是在广东活动

计算机分析

注:用计算机进行分析

互市

注:中国古代对中外贸易的统称

布鲁塞尔代表大会(1891)

注:第二国际二大

②用法注释。用法注释是指明一词的特殊使用方法,目的是使用规范,提高该词在标引和检索中的一致性。例如:学院

注:用于高等专科学校与专业名称组配使用。例:音乐学院用音乐+学院

③历史注释。历史注释是用来记录叙词收录到叙词表的时间及变更情况,使其能反映词汇使用的沿革,以保持词汇标引和检索的延续性。如下面分别为《汉语主题词表》、《教育资源叙词表(ERIC)》叙词款目中历史注释的样例:

例1:环境污染机制

(增词时间: 1889年)

例2: LIBRARY CATALOGS Mar.1980

UF Dictionary catalogs(1968-1980)

Divided catalogs(1968-1980)

……

在例2中,Mar.1980表示此词启用时间为1980年3月,UF(代项)中Dictionary catalogs和Divided catalogs后的年代注释(1968—1980),表示该词为1980年前采用的叙词形式。按照上述说明,1968—1980年该内容的文献,可以使用代项中的词进行查找,从而方便用户对历史文献的回溯检索。

上述限定和注释两种形式中,限义词是叙词标识的组成部分,可以和叙词一起直接用于标引。叙词注释则只对叙词起补充说明作用,不用于标引。

除词义控制之外,叙词语言一般还采用参照系统、索引等方法,通过确定一词与相关语词的联系或其所属学科范畴等,限定其含义。

1.3.3 词间关系控制

为了在按主题字顺的方式组织语词的同时反映叙词之间的联系,叙词法采用了建立参照系统和编制索引的方法。其中,参照系统通过在叙词下设置参照项的方式,在叙词之间建立起一种反映主题词之间联系的语义网络,是字顺表对词间关系进行控制的主要形式。叙词表中叙词之间主要有三种关系:等同关系、属分关系和相关关系。按照《汉语叙词表编制规则》及有关国际标准,叙词表的词间关系及其常用的参照符号如表1-5所示。

表1-5 叙词表的词间关系及其常用的参照符号

img7

1.3.3.1 等同关系

等同关系指一叙词与含义相同或相近,可以相互替代的语词之间的关系,亦称同一关系、用代关系。提示等同关系的作用,是可以增加检索入口和根据使用需要对标引、检索的专指度进行控制。汉语叙词表中,对等同关系设有“Y”、“D”两种符号。符号“Y”用于非叙词之下,用来指向对应的叙词;符号“D”用于正式的叙词之下,用来指向被替代的非叙词。对等同的处理通常在同义规范的基础上进行,用于同义词或准同义词之间,一般应有参照和反参照。

例如:全球环境地球环境

D地球环境Y全球环境

数据处理数据处理系统

D数据处理系统Y数据处理

等同关系除用来提示同义词、准同义词之间的关系外,还可以使用于组代关系,指示一专指的非叙词和相应叙词组配形式之间的关系,以提高标引的一致性,降低标引的难度。

例如:民法典民法+法典

Y民法+法典D民法典

国际货币制度危机货币制度+货币危机

Y国际货币制度+货币危机D国际货币制度危机

1.3.3.2 等级关系

等级关系,指上位概念叙词和下位概念叙词之间的一种关系,亦称属分关系。提示等级关系有助于通过它扩大或缩小查找范围,提高族性检索能力。汉语叙词表对等级关系设有“F”、“S”、“Z”3种符号。其中,“F”为分项指示符,表示该项叙词为款目词的下位词。“S”为属项指示符,表示该项叙词为款目词的上位词。“Z”为族首词符号,表示该项叙词为族首词,亦即一组等级关系的叙词中外延最宽的词。等级关系主要用于下述三种叙词之间。

(1)具有属种关系的叙词之间

在这类关系的叙词中,下位词表示的概念必然包含在上位词概念的外延之中,并且是其外延的组成部分。具有属种关系的主题概念之间一般存在着密切的联系,这类关系的叙词通常均按属分关系处理。

例如:电子侦察

F电视侦察

雷达侦察

通信侦察

上例中,电视侦察、雷达侦察、通信侦察等都属于电子侦察,并且是电子侦察的外延的组成部分,提示它们之间的联系有助于相关主题资源的查找。

(2)具有整部关系的叙词之间

整部关系不属于属种关系,但也可以在一定程度上提示事物对象之间的联系。由于整部关系的涉及面很广,词表一般应根据检索系统的需要,对处理范围作出限定。综合性叙词表对整部关系的提示通常包括:

①地理位置中的整部关系。

例如:西欧

F爱尔兰

比利时

法国

荷兰

卢森堡

英国

S欧洲

②人体系统与器官以及某些事物中的整部关系。

例如:血管

F动脉

静脉

毛细血管

视网膜血管

S心血管系统

③组织机构及其分支中的整部关系。

例如:联合国

F国际法院

联合国安全理事会

联合国大会

联合国经济及社会理事会

联合国秘书处

联合国托管理事会

选择哪些整部关系类型作为属分关系处理,取决于检索的实际需要。专业叙词表一般可以按照实际使用需要,规定按属分关系处理的整部关系。例如,在计算机专业叙词表中,可以将计算机硬件与它的组成成分按属分关系处理。

(3)用于部分集合概念与个体概念之间

这类概念的上位词为集合概念,下位词则为其所包括的个体概念,以便可以从一集合概念的角度进行族性检索。

例如:河流

F长江

黄河

黑龙江

海河

淮河

珠江

……

字顺表提示等级关系的做法是:一般只反映正式叙词之间的等级关系,不揭示与非叙词的联系;在等级关系不止一级的情况下,为了节省篇幅,多数词表在字顺表中只揭示最邻近一级的等级关系及族首词,而在专门设置的等级索引中对等级关系全面显示,通过族首词与等级索引的联系加以使用;在一个叙词同时从属于两个或多个上位词时,词表一般将其同时收入该词的属项,并在相应的上位词下予以反映。

例如:电子侦察

S反电子侦察

侦察

Z电子对抗

1. 3. 3. 3 相关关系

相关关系是叙词之间除了等同关系、等级关系之外语义相关的一种关系,亦称为类缘关系。揭示相关关系有助于扩大检索范围,进行相关资料的查找,中文词表通常用符号“C”加以连接。与属分关系的处理相同,对相关关系的揭示只在正式叙词之间进行,二者作互逆参照,但并不严格。

相关关系涉及范围广、种类多、灵活性大,很难严格控制。一般认为,下述关系的叙词可作相关关系处理:

①近义关系的叙词之间。

例如:初等教育

C儿童教育

②反对或矛盾关系的叙词之间。

例如:查全率

C查准率

民主

C集中

③交叉关系的叙词之间。

例如:对外贸易

C国际贸易

分类

C编目

④事物与其部分、成分的叙词之间。

例如:核电站

C动力堆

蒸气发生器

因果关系的叙词之间。

例如:科学研究

C科学发明

劳动生产率

C生产合理化

⑥各种事物与材料、性质的叙词之间。

例如:水泥墙板

C水泥

磁性材料

C磁性存储器

⑦事物、操作与其工具的叙词之间。

例如:无损检验

C无损探测仪

⑧事物与对应工具的叙词之间。

例如:害虫

C杀虫剂

⑨职业与职业工作者的叙词之间。

例如:社会工作

C社会工作者

⑩学科或研究领域与其对象的叙词之间。

例如:地震学

C地震

数据处理

C数据

相关关系的类型较多,很难完整列举。对相关关系的处理一般应有一定控制,通常只有一词“作为标引词与另一词具有较强的提示作用”时,才作为相关关系处理。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈