首页 理论教育 受控词表的互操作问题

受控词表的互操作问题

时间:2022-02-27 理论教育 版权反馈
【摘要】:实现受控词表之间的兼容,就是要找到一种方法,使具有不同标识、结构、载体的分类表或主题词表的成分互相联系起来12。受控词表兼容性的范围包括13:·不同类型受控词表的兼容,如分类法与主题法的兼容,也称分类主题一体化。种类繁多的分类法、主题法已经成为跨库跨领域检索中的障碍,受控词表的兼容问题变得更为突出,并提出了互操作的概念,实现不同词表间的互操作已成为受控词表研究中亟待解决的问题之一。
受控词表的互操作问题_受控词表的互操作研究

1.2 受控词表的互操作问题

1.2.1 受控词表的兼容化

任何一种受控词表,无论它的体系多么完善,所采用的方法多么先进,一般说来它都不可能适用于一切检索系统,满足一切检索要求,于是就提出了受控词表的兼容化问题。

所谓兼容,是指两个实体结合起来工作的能力。具体地说,受控词表的兼容性是指不同词表、类表之间可以实现兼容与互换,即用某种词表的词汇及其构造的检索式(或标引记录),可以直接适用于、或通过交换适用于多个情报检索系统11。联网环境下受控词表的兼容,是指用户只用一种受控词表或者不用任何受控词表(即直接使用自然语言)就可以实现联网环境下的跨数据库检索。也就是说,用户只要使用一个检索式就可以直接检索多个相关领域的数据库,而不需要每检索一个数据库就重新构造一个检索式。

实现受控词表之间的兼容,就是要找到一种方法,使具有不同标识、结构、载体的分类表或主题词表的成分互相联系起来12。这不仅有利于人们对各种不同文档的查询,而且有利于文献的集中处理,为文献检索网络化的实现提供可靠保证。总之,兼容化是为了提高网络资源检索效率、实现信息资源共享提出的新要求,它是受控词表发展的重要趋势。

受控词表兼容性的范围包括13

·不同类型受控词表的兼容,如分类法与主题法的兼容,也称分类主题一体化。如《中国分类主题词表》(简称《中分表》)是我国第一部大型的、综合性的,分类与主题兼容、先组式受控词表与后组式受控词表兼容的工具书。

·同一类型受控词表的兼容,如各种叙词表之间、各种分类法之间的兼容。

·综合性受控词表与专业受控词表的兼容,如《汉语主题词表》与专业主题词表的兼容,《中图法》与专业分类表的兼容。

·中外文受控词表的兼容,这关系到受控词表的国际通用性,实现起来较为困难,但却意义重大。

·规范化语言与自然语言的兼容,这是在自然语言的应用越来越广泛的情况下提出的,随着计算机的普及并向网络化方向发展,这一问题已经受到越来越多的重视。

在两个词表之间进行转换时,影响其转换效果的,主要有以下几个因素14

·词表所覆盖主题领域的重叠程度。重叠越多,转换越易;重叠越少,转换越难。如将一个工程方面的词表转换成一个医学方面的词表,效果不可能理想,两个词表中共同的概念范畴和共同的词汇都很少,因此很难进行对应转换。

·词表结构化的程度。显然,结构相似的两个词表进行词汇的对应转换时,找到对应词比较容易,结构完全不同的两个词表找到对应词比较困难。

·词汇专指度。专指性高的词易转换成专指性低的词,反之,专指性低的词不易转换成专指性高的词。前者转换可通过多对一的方法实现,后者的转换则很难。

·词汇的先组程度。两个词表的先组程度越相似,转换概念越容易。若两个词表中的词汇先组程度相差很多,则由先组程度高的词汇转换成先组程度低的词汇较容易进行,可用一对多的方法解决。先组程度低的词汇转换成先组程度高的词汇则很难。

1.2.2 受控词表互操作的必要性

近年来,随着计算机技术和网络技术的普及,联机数据库和网络成为人们获取信息的主要渠道,越来越多的普通用户开始进行网上信息检索。但是由于各个信息资源系统收集信息的范围和原则等各不相同,相关信息被分散在不同的系统之中。种类繁多的分类法、主题法已经成为跨库跨领域检索中的障碍,受控词表的兼容问题变得更为突出,并提出了互操作的概念,实现不同词表间的互操作已成为受控词表研究中亟待解决的问题之一。

实现受控词表的互操作是提高用户检索效率的有效途径。由于存在多种主题词表、叙词表、分类表和网络分类法等信息组织方式,使得同一主题概念在不同的系统之中采用不同的受控词表表达。用户在检索相同学科或主题概念时,必须在不同数据库或系统中采用不同的检索标识与检索方式。所以,在用户不熟悉各种分类体系和主题词表的情况下,或者在分类法和主题法不兼容的情况下,检索信息变得十分困难。事实上,在信息检索过程中,用户没有必要知道检索词在后台与标引数据所采用的词表以及分类体系的匹配机制。对信息检索用户来说,理想中的信息浏览和检索方式是“一站式”的,即用户在一个检索系统中可以自由浏览其他系统中同一概念的内容,一个提问式能够获取多个(全部)相关数据库或网页中的检索结果。要实现这一方法,最重要的就是实现不同受控词表之间的互操作,比如分类法与分类法、分类法与主题法、主题法与主题法等之间可以实现互操作,使用户在掌握一种分类表或主题词表的情况下,能够自动转换到与之相关的其他分类表或主题词表。

实现受控词表的互操作是文献资源共享的需要。文献信息资源处理的网络化、全球化已经成为潮流。目前,各国文献资源的加工、处理方法及受控词表的多种多样,为文献资源的共享带来了障碍,因此非常必要建立一种世界上应用范围比较广的几种主要的受控词表的互操作系统,为这些受控词表架设桥梁,从而消除浏览、标引、检索中的障碍,真正实现资源的共享。

实现受控词表的互操作还可以提高工作效率。互相利用标引成果,节省标引时间,一次概念判断,同时赋予多个分类或主题标记,不但可以大大减轻图书馆工作人员工作强度,降低难度,提高工作效率,而且也可以解决读者检索障碍,提高检索效率。

关于受控词表的互操作问题,早在20世纪60年代就已提出,一直是情报界的研究热点,国内外很多学者都致力于这方面的研究,也提出了很多解决方法和意见。但随着计算机技术和网络技术的发展,使得互操作问题又变得越来越突出。尤其是在网络环境下,信息内容包罗万象,信息数量与日俱增,如何有效地组织和整理数字资源,帮助读者快捷准确地在信息的汪洋大海中找到自己需要的信息,成为图书情报界当前的重要任务。美国国家标准Z39.19及英国国家标准(BS 8723)等都包括受控词表互操作的内容,更说明了该项研究的重要性。

1.2.3 受控词表互操作的可行性

大多数分类法都是以概念逻辑和知识分类为基础的15。不同分类法的类目表达概念的相似性或相关性是实现分类法互操作的理论基础。绝大多数分类法实质上都是表达一系列文献情报内容概念及其相互关系的号码标识系统。实现分类法的互操作,其目的是要在两部或多部分类法的类目之间建立关联,确定类目的对应关系。在实际类目映射过程中,不但要考虑类目的表达形式(如类名、类号、语词),更重要的是要考虑类目所表达概念在外延和内涵上的相符程度16。相容的概念在不同分类体系中可能采用不同的类名,如果所表达的概念能够满足建立映射关系的相似度,就可以建立映射联系。分类法中的类目先组度高,很难直接进行类目相似度计算。如果把要进行相似度计算的先组度高的类目分解成多个足够小的概念因素,如果有一定比率的概念因素在内涵和外延相似,便可以制定映射规则,建立类目与类目之间的联系。

大型综合性文献分类法的编制原则基本上相同。一般都是以科学分类(知识分类)为基础,学科属性是分类法类目划分的主要标准,分类法的类名一般都是较为稳定的词汇等等17。编制原则上的相同有利于不同分类法之间的相互转换。另外,分类法的修订更新过程中,不同分类法之间不断地相互融合。分类法在聚类、分面、划分范畴、提供辅助手段等许多方面所采取的方法越来越一致。体系分类法按照科学知识门类层层划分,并把划分出来的子目一一加以列举,形成一个有良好结构特征的知识一览表,并以高度规范化的代码或语词为标识来揭示和组织信息,用等级体系以及参照、注释、互见、交替等方法来直接显示类目之间的知识关联。这些都有利于分类法之间实现互操作。

主题语言是用规范化或未经规范化的语词来表达主题概念的,并用参照系统显示概念之间的关系,不论是标题语言、元词语言,还是叙词语言,它们都有共同的基本特征:以事物为中心集中文献信息;直接以自然语言的语词作为检索标识;以字顺作为排检的主要依据;用参照系统等方式揭示主题之间的关系。实现主题语言之间的互操作,其目的是要在两部或多部主题法的语词之间建立关联,确定语词间的对应关系。在实际映射过程中,不但要考虑语词的表达形式,还要考虑该词表达概念在外延和内涵上的相符程度,如同形异义词、异形同义词等的处理。主题法通过语词标识的唯一性、标识之间的关系显示来实现对主题相同及相关的信息予以集中或揭示其相关性的功能。在主题法中,为集中主题相同的信息,并排除“一义多词”现象,对一般同义词、学名与俗称、新称与旧称、全称与简称、不同译名、近义词、反义词都进行了优选,有利于不同类型、不同语种主题法间的互操作。另外,为揭示信息的相关性,主题法以参照系统为主要手段来显示标识之间的等同关系、等级关系和相关关系,还采用编制范畴索引、轮排索引等方法来对主题信息进行聚类,这些都为主题法之间的互操作提供了有利条件。

分类法与主题法之间的互操作是指表达同一主题概念的分类标识与叙词、标题词、关键词等词汇可以一起使用或相互变换使用。分类法的基本部件,类号或类名与主题词汇在表达主题概念上不存在本质的区别,都可以表达任意的相同主题概念。分类法标识所表达的概念与主题词所表达主题概念在外延和内涵上的相符程度是其建立对应关系的基础。一般来说,分类法的类目是先组式的,表达的概念固定、专深;主题词大多数是后组式的,表达的概念相对简单些。复杂概念都可以由简单概念组配而成,某一既定分类法类目可以由多个主题词组配对应。从文献标引过程来看,分类标识和主题词都是对文献主题的“赋名”,起翻译文献主题内容的作用18,对于同样一篇文献资源,通过分析文献主题内容,可把文献转换成为分类标识,即分类号或类目名称,同样也可以转换为主题标识,即主题词,就如同一人有两个名字。分类标识与主题词之间的对应转换一般是在现有分类法与主题法中进行,因为分类法和主题法都具有一套在自然语言基础上精选出来的,用以描述文献主题和情报需求的词汇,都强调对词形、词义的规范。从情报语言学的角度看,分类法是用“层层划分”的方法来准确揭示文献;主题法则采用泛指主题词在层层限定后组配为专指主题。可见,分类法、主题法都是运用概念分析手段,逐步对文献主题加以限定,达到准确揭示文献的目的。从分类法和主题法的定义演变来看,两者已越来越接近,这也从原理上说明分类法和主题法互操作的可行性。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈